๋ฐ์ํ
pandas Cheat Sheet :
์์ฝ๋ณธ
pandas
ํน์ง
- ๋น ๋ฅด๊ณ ํจ์จ์ ์ด๋ฉฐ ๋ค์ํ ํํ๋ ฅ์ ๊ฐ์ถ ์๋ฃ ๊ตฌ์กฐ.
- ์ค์ธ๊ณ ๋ฐ์ดํฐ ๋ถ์์ ์ํด ๋ง๋ค์ด์ง ํ์ด์ฌ ํจํค์ง.
- ๋ค์ํ ํํ์ ๋ฐ์ดํฐ์ ์ ํฉ.
- ์ด์ข ์๋ฃํ์ ์ด์ ๊ฐ์ง ํ ์ด๋ธ ๋ฐ์ดํฐ.
- ์๊ณ์ด ๋ฐ์ดํฐ.(๋ ์จ์ ์ฃผ๊ฐ์ฒ๋ผ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ๋ฐ์ดํฐ)
- ๋ ์ด๋ธ(์ ๋ชฉ)์ ๊ฐ์ง ๋ค์ํ ํ๋ ฌ ๋ฐ์ดํฐ.
- ๋ค์ํ ๊ด์ธก ํต๊ณ ๋ฐ์ดํฐ.
- ํต์ฌ ๊ตฌ์ฃ .
- series : 1์ฐจ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ํ๋์ ์ด.
- DataFrame : ๋ณต์์ ์ด์ ๊ฐ์ง 2์ฐจ์ ๋ฐ์ดํฐ.(์์ ์ํธ ํ๋์ ๊ฐ๋ค.)
- pandas๊ฐ ์ํ๋ ์ผ.
- ๊ฒฐ์ธก ๋ฐ์ดํฐ ์ฒ๋ฆฌ.(์ค๊ฐ์ค๊ฐ ๋ฐ์ดํฐ๊ฐ ๋น ์ง ๊ฒฝ์ฐ๋ฅผ ์ ์ฒ๋ฆฌํ๋ค)
- ๋ฐ์ดํฐ ์ถ๊ฐ/์ญ์ .
- ๋ฐ์ดํฐ ์ ๋ ฌ๊ณผ ๋ค์ํ ๋ฐ์ดํฐ ์กฐ์.
โป pandas๋ 'panel data'๋ผ๋๊ณ๋๊ฒฝ์ ํ๋ถ์ผ ์ฉ์ด์์ ์ ๋๋์๋ค.
โป import pandas as pd ์ ๊ฐ์ด ์ค์ฌ์ ์ธ ๊ฒฝ์ฐ pd๋ฅผ ์ฃผ๋ก ์ด๋ค.
pandas๋ก ํ ์ ์๋ ์ผ
- python์ List, Dictionary, NumPy ๋ฑ์ ๋ฐฐ์ด์ ๋ฐ์ดํฐ ํ๋ ์(์์ )๋ก ๋ณํํ ์ ์๋ค.
- CSV๋ ์์ ํ์ผ ๋ฑ์ ์ด ์ ์๋ค.
- URL์ ์ด์ฉํด ์น ์ฌ์ดํธ์ CSV ๋๋ Json๊ณผ ๊ฐ์ ์๊ฒฉ ํ์ผ ๋๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ด ์ ์๋ค.
- ๋ฐ์ดํฐ ๋ณด๊ธฐ ๋ฐ ๊ฒ์ฌ
- mean() : ๋ชจ๋ ์ด์ ํ๊ท ๊ณ์ฐ.
- corr() : ๋ฐ์ดํฐ ํ๋ ์ ์ด ์ฌ์ด์ ์๊ด ๊ด๊ณ ๊ณ์ฐ.
- count() : ๊ฐ ์ด์์ null์ด ์๋ ๊ฐ์ ๊ฐ์๋ฅผ ๊ณ์ฐ.
- ํํฐ, ์ ๋ ฌ ๋ฐ ๊ทธ๋ฃนํ
- sort_values() : ๋ฐ์ดํฐ ์ ๋ ฌ.
- ์กฐ๊ฑด์ ์ด์ฉํ์ฌ ํํฐ๋ง ๊ฐ๋ฅ.
- groupby() : ๊ธฐ์ค์ ๋ฐ๋ผ ๊ทธ๋ฃน์ผ๋ก ๋ถํ ๊ฐ๋ฅ.
- ๋ฐ์ดํฐ ์ ์
- ๋๋ฝ ๋ฐ์ดํฐ๋ฅผ ํ์ธ ํ ์ ์๋ค.
- ํน์ ๊ฐ์ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒด๊ฐ๋ฅํ๋ค.
pandas
๋ฐ์ดํฐ ๊ตฌ์กฐ
- ๋ฐ์ดํฐ ์ ์ฅ์ ์ํ์ฌ Series์ Data Frame ๋๊ฐ์ง์ ๊ตฌ์กฐ๊ฐ ์๋ค.
- ๋๊ฐ์ง ๋ชจ๋ NumPy ๋ฐฐ์ด์ ์ด์ํ๋ฏ๋ก ์๋๊ฐ ๋น ๋ฅด๋ค.
- ๊ฐ ๋ณ๊ฒฝ์ด ๊ฐ๋ฅํ๊ณ , Data Frame์ ํฌ๊ธฐ๋ ๋ณ๊ฒฝ ๊ฐ๋ฅ.
- ํ๊ณผ ์ด์ ์ด๋ฆ์ด ๋ถ์ฌ๋๋ฉฐ ํ์ ์ด๋ฆ์ index. ์ด์ ์ด๋ฆ์ columns๋ผ ๋ถ๋ฅธ๋ค.
- ๋น์ฐํ๊ฒ๋ DataFrame์ด ๋ ๋ง์ด ์ฌ์ฉ๋๋ค.
๋ฐ์ดํฐ ๊ตฌ์กฐ | ์ฐจ์ | ์ค๋ช |
Series | 1 | ๋ ์ด๋ธlabel์ด ๋ถ์ด ์๋ 1์ฐจ์ ๋ฒกํฐ. |
Data Frame | 2 | ํ๊ณผ ์ด๋ก ๋ 2์ฐจ์ ํ
์ด๋ธ, ๊ฐ ์ด์ series๋ก ๋์ด์๋ค. → series์ ๋ชจ์์ด data frame์ผ๋ก ๋ณผ ์ ์๋ค. โป ์ค์ฌ์ df๋ก ๋ง์ด ์ด๋ค. |
numpy.nan
: ๊ฒฐ์ธก์น
- numpy์ nan์ NaN(Not a Number)๊ณผ ๋์ผํ ํ๊ธฐ์ด๋ค.
- ์์น ๋ฐ์ดํฐ๊ฐ ์์ ๊ฒฝ์ฐ ์ด๋ฅผ ํ๊ธฐํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- nan์ด ์์ ๊ฒฝ์ฐ ์ค์.
CSV ํ์ผ :
Comma
Seperated
Value
→์ผํ๋ก ๊ตฌ๋ถ๋ ๋ฐ์ดํฐ.
read_csv() :
csvํ์ผ ์ฝ์ด์ค๊ธฐ
์๋์์ฑ ๊ธฐ๋ฅ์ธ Tab์ด ์ ๋จนํ ๊ฒฝ์ฐ ์๋ ์ฝ๋๋ฅผ ์ฌ์ฉ.
%config Completer.use_jedi = False
- ,๋ก ์์ํด์ ์ปฌ๋ผ๋ช ์ ์ง์ ํ์ง ์์์ ๊ฒฝ์ฐ Unnamed: ๋ก ๋ง๋ค์ด์ง๋ค.
- ์๋์ผ๋ก index๊ฐ ์์ฑ๋๋ค. 0, 1, 2, 3..
Shift + Tab :
ํจ์ ์ฌ์ฉ ์ต์ ๋ณด๊ธฐ
, index_col :
์ง์ ์ด์ index๋ก ์ฌ์ฉ
์์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ฉด ๊ตญ๊ฐ์ฝ๋(ex.KR)๋ก๋ ์ ์ผ์ฑ์ด ์๊ธฐ ๋๋ฌธ์ index๋ก ์ฌ์ฉํ ์ ์๋ค.
์ด ์ด์ index๋ก ์ง์ ํด๋ณด์.
df['์ปฌ๋ผ๋ช '] :
ํน์ ์ด๋ง ์ ํํ๊ธฐ
๋๊ฐ ์ด์์ ์ด์ ์ง์ ํด์ ๋ถ๋ฌ์ค๊ณ ์ถ์ ๊ฒฝ์ฐ์๋
์๋์ฒ๋ผ List[ ]๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
๋ฐ์ํ
'๐ Python' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python]DataFrame-์ด&ํ์ถ๊ฐ, ์์์ ํ (0) | 2024.06.14 |
---|---|
[Python]DataFrame-๋ฐ์ดํฐ์ ํ&์ง๊ณ, ์ด์ถ๊ฐ (1) | 2024.06.13 |
[Python]Numpy (1) | 2024.06.03 |
[Python]๊ฐ๋ฐํ๊ฒฝ๊ตฌ์ฑ2:์ฅฌํผํฐ ํ๋ฉด์ค์ (0) | 2024.06.03 |
[Python]๊ฐ๋ฐํ๊ฒฝ ๊ตฌ์ฑ1: ์๋์ฝ๋ค ์ค์น, ์ฅฌํผํฐ์คํ (1) | 2024.06.02 |