๐Ÿ Python

[Python]value_counts, ํ‰๊ท ๊ฐ’๊ณผ ์ค‘์•™๊ฐ’ ์ •๋ณด ํ˜น์ธ

yeun.log 2024. 6. 18. 16:38
๋ฐ˜์‘ํ˜•
์—ด์˜ ์ •๋ณด๋ฅผ ์•Œ์•„๋ณด์ž.
count()๋Š” ์•ž์„œ ๊ณต๋ถ€ํ•œ  ํฌ์ŠคํŠธ์ฐธ์กฐ.

2024.06.13 - [๐Ÿ Pyton] - [Python]DataFrame-๋ฐ์ดํ„ฐ์„ ํƒ&์ง‘๊ณ„, ์—ด์ถ”๊ฐ€

 

df['์ปฌ๋Ÿผ๋ช…'].value_counts()
→ ๊ฐ ์—ด ๊ณ ์œ ๊ฐ’์˜ ๊ฐœ์ˆ˜ ๊ณ„์‚ฐ

  • df['์ปฌ๋Ÿผ๋ช…'].value_counts()
    NaN ์—ด ํฌํ•จ ๊ฐœ์ˆ˜ ๊ณ„์‚ฐ.
  • df['์ปฌ๋Ÿผ๋ช…'].value_counts(dropna=True)
    NaN ์—ด ์ œ์™ธ ๊ฐœ์ˆ˜ ๊ณ„์‚ฐ.

ํ‰๊ท ๊ฐ’๊ณผ ์ค‘์•™๊ฐ’ ๋“ฑ ํ†ต๊ณ„ ์ •๋ณด๋ฅผ ํ™•์ธํ•ด๋ณด์ž.
df.mean()
→ dataFrame ๋ชจ๋“  ์—ด์— ๋Œ€ํ•œ ํ‰๊ท ๊ฐ’ ์ถœ๋ ฅ.

mean() ๋ฉ”์„œ๋“œ๋Š” ์ˆซ์ž๋กœ ๋œ ์ปฌ๋Ÿผ์— ๋Œ€ํ•ด์„œ๋งŒ ๋„์ถœํ•œ๋‹ค.

df['์ปฌ๋Ÿผ๋ช…'].mean()
→ ํ•ด๋‹น ์ปฌ๋Ÿผ์˜ ํ‰๊ท ๊ฐ’ ์ถœ๋ ฅ.


โ€ป ์ค‘์•™๊ฐ’์ด๋ž€?
→ ์ „์ฒด ์ค‘ ๊ฐ€์šด๋ฐ 50%์˜ ๊ฐ’.

โ€ป ์ด์ƒ์น˜๋ž€?
→ ๊ทน๋‹จ์ ์œผ๋กœ ํฌ๊ณ  ์ž‘์€๊ฐ’.

์ค‘๊ฐ’์ด๋ž€ ์ด์ƒ์น˜๋ฅผ ๋ฒ„๋ฆฌ๊ณ  ๊ณ„์‚ฐํ•œ ๊ฐ’์„ ๋งํ•œ๋‹ค.
df.median()
df['์ปฌ๋Ÿผ๋ช…'].median()
→ ์ค‘์•™๊ฐ’ ์‚ฐ์ถœ.

 


์ตœ๋Œ“๊ฐ’, ์ตœ์†Ÿ๊ฐ’, ํ‘œ์ค€ํŽธ์ฐจ, ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ํ™•์ธํ•ด๋ณด์ž.
df.max() → ์ตœ๋Œ“๊ฐ’.
df.min() → ์ตœ์†Ÿ๊ฐ’.


โ€ป ํ‘œ์ค€ํŽธ์ฐจ๋ž€?
์‚ฐํฌ๋„์˜ ํ•˜๋‚˜๋กœ, ์ž๋ฃŒ๊ฐ€ ํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ํผ์ ธ ์žˆ๋Š” ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜์ด๋‹ค.
0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท ์— ์ง‘์ค‘๋˜์–ด ์žˆ๋‹ค.
ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ํด์ˆ˜๋ก ๋ฐ์ดํ„ฐ๋“ค์ด ๋„“๊ฒŒ ํผ์ ธ์žˆ๋‹ค.
ํŽธ์ฐจ๋Š” (๋ฐ์ดํ„ฐ๊ฐ’) - (ํ‰๊ท ) ์œผ๋กœ ์‚ฐ์ถœ๋œ๋‹ค.
df.std()
→ ํ‘œ์ค€ํŽธ์ฐจ ์ถœ๋ ฅ.


โ€ป ์ƒ๊ด€ ๊ณ„์ˆ˜๋ž€?
๊ฐ๊ฐ์˜ ์ปฌ๋Ÿผ์ด ๋‹ค๋ฅธ ์ปฌ๋Ÿผ์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”๊ฐ€.
 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์˜ํ–ฅ์ด ํฌ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.
0์ด๋ผ๋ฉด ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š๋‹ค.
-1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์˜ํ–ฅ์„ ๋ฐ˜๋Œ€๋กœ ๋ฐ›๋Š”๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.
df.corr()
→ ์—ด์— ๋Œ€ํ•œ ์ƒ๊ด€ ๊ฐœ์ˆ˜ ์ถœ๋ ฅ.
correlation

  • ์•„๋ž˜ ์—ฐ๋ น๊ณผ BMI์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด๋ฉด
  • ์—ฐ๋ น๊ณผ ์—ฐ๋ น, BMI์™€ BMI์˜ ์ƒ๊ด€๊ด€๊ณ„๋Š” 1.0์œผ๋กœ ์˜ํ–ฅ 100%์ด๋‹ค. ๋ฌผ๋ก  ๊ฐ™์€ ๊ฑฐ๋‹ˆ๊นŒใ…Ž
  • ์—ฐ๋ น๊ณผ BMI์˜ ์ƒ๊ด€๊ด€๊ณ„๋Š” 0๋ณด๋‹ค ์กฐ๊ธˆ ์•„๋ž˜์ธ๋ฐ
    : ์—ฐ๋ น↑ BMI↓์ผ ํ™•๋ฅ ์ด ์ข€ ๋” ๋†’๋‹ค๋Š” ๋œป์ด๋‹ค.

import warnings
warnings.filterwarnings('ignore')
→ ๊ฒฝ๊ณ ์ฐฝ ๋„๊ธฐ

๋ฐ˜์‘ํ˜•