๐Ÿ Python

[Python]๊ฒฐ์ธก์น˜NaN ์‚ญ์ œ dropna

๋‰ด์ด NUEY 2024. 6. 18. 23:12
๋ฐ˜์‘ํ˜•
๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋Š” ์—ด ์‚ญ์ œ

 

df.dropna(axis=1, thresh=๊ฐœ์ˆ˜)
→ drop nan.
NaN๋ฅผ ๊ฐ€์ง„ ํ–‰/์—ด์„ ์ง€์šด๋‹ค.
axis = 0 → ํ–‰ row
axis = 1 → ์—ด column

โ€ป thresh = ์œ ํšจํ•œ ๋ฐ์ดํ„ฐ์˜ ๋ช‡ ๊ฐœ ์ด์ƒ๋งŒ ๋‚จ๊ธฐ๊ณ  ์ง€์šด๋‹ค.

3์ฐจ๋Š” ์œ ํšจํ•œ ๊ฐ’ ๊ฐฏ์ˆ˜๊ฐ€ 4๊ฐœ ์ด์ƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ์‚ญ์ œ๋๋‹ค.


ํ–‰์„ ์‚ญ์ œํ•˜๋ ค๋ฉด
df.dropna(axis=0, thresh=๊ฐœ์ˆ˜)

 

ํ–‰์—์„œ๋Š” 6๊ฐœ ์ด์ƒ ๊ฐ’์„ ๊ฐ€์ง„ ๊ฒŒ ๋‘๋ช…๋ฐ–์— ์—†์—ˆ๋‹ค.


numpy.nan
→ ๊ฒฐ์ธก์น˜

python์—์„œ๋Š” ' '๊ฐ™์€ ๋นˆ ๋ฌธ์ž์—ด์€ ๊ฒฐ์ธก์น˜๋กœ ์ฒ˜๋ฆฌ ์•ˆ๋œ๋‹ค.

๊ฐ’์„ {numpy.nan} ๊ณผ ๊ฐ™์ด ๋„ฃ์–ด์•ผ ๊ฒฐ์ธก์น˜๊ฐ€ ์ž…๋ ฅ๋œ๋‹ค.


df.dropna(axis=0/1, how='all')
→ ํ–‰/์—ด์˜ ๊ฐ’์ด ๋ชจ๋‘ ๊ฒฐ์ธก์น˜์ผ ๊ฒฝ์šฐ ํ•ด๋‹น ํ–‰/์—ด ์‚ญ์ œ.

ํ–‰์ด ๋ชจ๋‘ NaN์ธ index 10์„ ์ง€์› ๋‹ค.
์—ด์ด ๋ชจ๋‘ NaN์ธ '4์ฐจ'์—ด์„ ์ง€์› ๋‹ค.


df.dropna(subset='์—ด์ด๋ฆ„')
→ ํŠน์ • ์—ด์— NaN๊ฐ’์ด ์กด์žฌํ•˜๋ฉด ํ–‰์‚ญ์ œ.

์„ฑ๋ณ„์— NaN๊ฐ€ ์žˆ๋˜ ์กฐ์•ฝ๋Œ๊ณผ ์‹ ์˜์›… ํ–‰์ด ์‚ญ์ œ๋๋‹ค.

 

 

๋ฐ˜์‘ํ˜•