๋ฐ์ํ
์ด์ ์ ๋ณด๋ฅผ ์์๋ณด์.
count()๋ ์์ ๊ณต๋ถํ ํฌ์คํธ์ฐธ์กฐ.2024.06.13 - [๐ Pyton] - [Python]DataFrame-๋ฐ์ดํฐ์ ํ&์ง๊ณ, ์ด์ถ๊ฐ
df['์ปฌ๋ผ๋ช '].value_counts()
→ ๊ฐ ์ด ๊ณ ์ ๊ฐ์ ๊ฐ์ ๊ณ์ฐ
- df['์ปฌ๋ผ๋ช
'].value_counts()
→ NaN ์ด ํฌํจ ๊ฐ์ ๊ณ์ฐ. - df['์ปฌ๋ผ๋ช
'].value_counts(dropna=True)
→ NaN ์ด ์ ์ธ ๊ฐ์ ๊ณ์ฐ.
ํ๊ท ๊ฐ๊ณผ ์ค์๊ฐ ๋ฑ ํต๊ณ ์ ๋ณด๋ฅผ ํ์ธํด๋ณด์.
df.mean()
→ dataFrame ๋ชจ๋ ์ด์ ๋ํ ํ๊ท ๊ฐ ์ถ๋ ฅ.
mean() ๋ฉ์๋๋ ์ซ์๋ก ๋ ์ปฌ๋ผ์ ๋ํด์๋ง ๋์ถํ๋ค.
df['์ปฌ๋ผ๋ช '].mean()
→ ํด๋น ์ปฌ๋ผ์ ํ๊ท ๊ฐ ์ถ๋ ฅ.
โป ์ค์๊ฐ์ด๋?
→ ์ ์ฒด ์ค ๊ฐ์ด๋ฐ 50%์ ๊ฐ.
โป ์ด์์น๋?
→ ๊ทน๋จ์ ์ผ๋ก ํฌ๊ณ ์์๊ฐ.
์ค๊ฐ์ด๋ ์ด์์น๋ฅผ ๋ฒ๋ฆฌ๊ณ ๊ณ์ฐํ ๊ฐ์ ๋งํ๋ค.
df.median()
df['์ปฌ๋ผ๋ช '].median()
→ ์ค์๊ฐ ์ฐ์ถ.
์ต๋๊ฐ, ์ต์๊ฐ, ํ์คํธ์ฐจ, ์๊ด๊ณ์๋ฅผ ํ์ธํด๋ณด์.
df.max() → ์ต๋๊ฐ.
df.min() → ์ต์๊ฐ.
โป ํ์คํธ์ฐจ๋?
์ฐํฌ๋์ ํ๋๋ก, ์๋ฃ๊ฐ ํ๊ท ์ ์ค์ฌ์ผ๋ก ์ผ๋ง๋ ํผ์ ธ ์๋ ์ง๋ฅผ ๋ํ๋ด๋ ์์น์ด๋ค.
0์ ๊ฐ๊น์ธ์๋ก ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ ์ง์ค๋์ด ์๋ค.
ํ์คํธ์ฐจ๊ฐ ํด์๋ก ๋ฐ์ดํฐ๋ค์ด ๋๊ฒ ํผ์ ธ์๋ค.
ํธ์ฐจ๋ (๋ฐ์ดํฐ๊ฐ) - (ํ๊ท ) ์ผ๋ก ์ฐ์ถ๋๋ค.
df.std()
→ ํ์คํธ์ฐจ ์ถ๋ ฅ.
โป ์๊ด ๊ณ์๋?
๊ฐ๊ฐ์ ์ปฌ๋ผ์ด ๋ค๋ฅธ ์ปฌ๋ผ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋๊ฐ.
1์ ๊ฐ๊น์ธ์๋ก ์ํฅ์ด ํฌ๋ค๋ ์๋ฏธ์ด๋ค.
0์ด๋ผ๋ฉด ์ํฅ์ ๋ฐ์ง ์๋๋ค.
-1์ ๊ฐ๊น์ธ์๋ก ์ํฅ์ ๋ฐ๋๋ก ๋ฐ๋๋ค๋ ์๋ฏธ์ด๋ค.
df.corr()
→ ์ด์ ๋ํ ์๊ด ๊ฐ์ ์ถ๋ ฅ.
correlation
- ์๋ ์ฐ๋ น๊ณผ BMI์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด๋ฉด
- ์ฐ๋ น๊ณผ ์ฐ๋ น, BMI์ BMI์ ์๊ด๊ด๊ณ๋ 1.0์ผ๋ก ์ํฅ 100%์ด๋ค. ๋ฌผ๋ก ๊ฐ์ ๊ฑฐ๋๊นใ
- ์ฐ๋ น๊ณผ BMI์ ์๊ด๊ด๊ณ๋ 0๋ณด๋ค ์กฐ๊ธ ์๋์ธ๋ฐ
: ์ฐ๋ น↑ BMI↓์ผ ํ๋ฅ ์ด ์ข ๋ ๋๋ค๋ ๋ป์ด๋ค.
import warnings
warnings.filterwarnings('ignore')
→ ๊ฒฝ๊ณ ์ฐฝ ๋๊ธฐ
๋ฐ์ํ
'๐ Python' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python]๊ฒฐ์ธก์นNaN ์ญ์ dropna (0) | 2024.06.18 |
---|---|
[Python]๋ฐ์ดํฐ ์ ๊ทํ์ ๊ฒฐ์ธก์น ๋ฐ์ดํฐ ์ฒ๋ฆฌ (0) | 2024.06.18 |
[Python]shape&info(), ํน์ ์ด์ ์๋ฃํ ์ ๋ณด ํ์ธ (0) | 2024.06.18 |
[Python]CSV ์ ์ฅ&์ฝ๊ธฐ, Jsonํ์ผ ์ ์ฅ&์ฝ๊ธฐ (0) | 2024.06.17 |
[Python]Excel๋ก ์ ์ฅ&๋ถ๋ฌ์ค๊ธฐ (1) | 2024.06.16 |