๐Ÿ Python

[Python]DataFrame-๋ฐ์ดํ„ฐ์„ ํƒ&์ง‘๊ณ„, ์—ด์ถ”๊ฐ€

๋‰ด์ด NUEY 2024. 6. 13. 18:40
๋ฐ˜์‘ํ˜•

 

data frame์—์„œ ๋ช‡ ๊ฐœ์˜ ํ–‰๋งŒ ๊ฐ€์ ธ์˜ค์ž

 

 

df.head() :
์ฒ˜์Œ 5ํ–‰๋งŒ ์ถ”์ถœ.

๋งŒ์•ฝ 5๊ฐœ ์ด์ƒ 10๊ฐœ์˜ ํ–‰์„ ๊ฐ€์ ธ์˜ค๊ณ  ์‹ถ๋‹ค๋ฉด head(10)์™€ ๊ฐ™์ด ์ ๋Š”๋‹ค.


head()์™€ tail() ๋ชจ๋‘ ๊ฐ€์ ธ์˜ค๊ณ  ์‹ถ์€ ์ˆ˜ ๋งŽํผ (์ˆซ์ž)๋ฅผ ์ ์–ด์„œ ๊ฐ€์ ธ์˜ค๋ฉด ๋œ๋‹ค.
์ด ๋‘๊ฐœ๋Š” ๊ตฌ์กฐ๋ฅผ ๋Œ€๊ฐ• ํŒŒ์•…ํ•  ๋•Œ ์‚ฌ์šฉ๋˜๊ณค ํ•œ๋‹ค.

df.tail() :
๋งˆ์ง€๋ง‰ 5ํ–‰ ์ถ”์ถœ.

(3)์ด๋ผ ์ ์–ด์„œ ์„ธ์ค„ ๊ฐ€์ ธ์˜จ ๊ฑฐ


df[ : ]
์ค‘๊ฐ„ ํ–‰์„ ๊ฐ€์ ธ์˜ค๊ณ  ์‹ถ์„ ๊ฒฝ์šฐ
slicingํ•ด์„œ ๊ฐ€์ ธ์˜จ๋‹ค.

0์€ ํฌํ•จ, 3์€ ํฌํ•จX ==> 0~1 ==> 0,1,2ํ–‰ ์ถœ๋ ฅ.


df.loc['KR'] :
ํ–‰์˜ ๋ ˆ์ด๋ธ”(index์—ญํ• )์ด 'KR'์ธ ํ–‰๋งŒ ์ถœ๋ ฅ.


df['์ปฌ๋Ÿผ๋ช…'][:3]
ํ•ด๋‹น ์ปฌ๋Ÿผ์˜ ํ–‰๋งŒ ์›ํ•˜๋Š” ๋งŒํผ ์ถ”์ถœ


df.loc['๋ ˆ์ด๋ธ”๋ช…', '์ปฌ๋Ÿผ๋ช…'] :
ํ–‰์˜ index์—ญํ• ์„ ํ•˜๋Š” ๋ ˆ์ด๋ธ”๊ณผ
์ปฌ๋Ÿผ๋ช…์ด ์ผ์น˜ํ•˜๋Š” ์ž๋ฃŒ๋ฅผ ์ถ”์ถœ.
์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์œ„์™€ ๊ฐ™์ด ์ ์—ˆ์ง€๋งŒ
์›ํ•˜๋Š” ์œ„์น˜์˜
loc['ํ–‰', '์—ด'] 
์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์‰ฝ๋‹ค.


df['์ปฌ๋Ÿผ๋ช…'].loc['๋ ˆ์ด๋ธ”๋ช…'] :
์ปฌ๋Ÿผ ์ง€์ • ํ›„ ๋ ˆ์ด๋ธ”์„ ์„ ํƒ ์ถ”์ถœ.
์ฒด์ด๋‹ ๋ฐฉ์‹.


์ƒˆ๋กœ์šด ์—ด ์ถ”๊ฐ€
df['์ถ”๊ฐ€ํ• _์ปฌ๋Ÿผ๋ช…'] = ๊ณ„์‚ฐ์‹

 

๋‹ค๋ฅธ ๊ฐœ๋ฐœ์–ธ์–ด๋ฅผ ๊ณต๋ถ€ํ•œ ๊ฒฝ์šฐ, ์ด๋Ÿฌํ•œ ๊ณ„์‚ฐ์„ ํ•  ๋•Œ
for()๋ฌธ๊ณผ ๊ฐ™์€ ๋ฐ˜๋ณต๋ฌธ์„ ๋จผ์ € ์ƒ๊ฐํ•˜์ง€๋งŒ, python์—์„œ๋Š” libraryํ™œ์šฉ์„ ์šฐ์„ ์‹œํ•˜๋‹ค.

โ€ปํŒŒ์ผ์„ ๋ถˆ๋Ÿฌ์˜ฌ ๋•Œ encodingํƒ€์ž…์„ ์ง€์ •ํ•ด์•ผ ์˜ค๋ฅ˜๊ฐ€ ๋‚˜์ง€ ์•Š๋Š”๋‹ค. 

window7 ์ด์ „ ๊นŒ์ง€๋Š” ANSIํ˜•ํƒœ๋กœ ๋ฉ”๋ชจ์žฅ ๊ฐ™์€ ํŒŒ์ผ๋“ค์ด ์ €์žฅ๋˜์–ด ์žˆ๋Š”๋ฐ
encoding='CP949'๋กœ ์ฝ๋Š”๋‹ค.

window10์ด์ƒ๋ถ€ํ„ฐ๋Š” UTF-8ํ˜•ํƒœ๊ฐ€ ๊ธฐ๋ณธ์ด๋‹ค.
+ ๋ถˆ๋Ÿฌ์˜ฌ ํŒŒ์ผ์„ UTF-8๋กœ ์ €์žฅํ•˜๋Š” ๊ฒƒ๋„ ๋ฐฉ๋ฒ•์ด๋‹ค.

๋ฐ์ดํ„ฐ ์ง‘๊ณ„
describe() :
null์„ ์ œ์™ธํ•œ ํ†ต๊ณ„์ •๋ณด๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

์ด๋ ‡๊ฒŒ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ๊ฐ€ ์Œ“์ด๋Š” ๊ฒƒ์„ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ผ๊ณ  ํ•œ๋‹ค.

describe()ํ•˜๋‚˜์˜ ํ•จ์ˆ˜๋กœ ์ด๋ ‡๊ฒŒ ๋‹ค์–‘ํ•œ ์ •๋ณด๋ฅผ ๋ถˆ๋Ÿฌ์˜ฌ ์ˆ˜ ์žˆ๋‹ค.


df.describe(include='all')
→ ์‚ฐ์ˆ  ๋ฐ์ดํ„ฐ ์™ธ ๋ชจ๋“  ์—ด ํ†ต๊ณ„ ์ •๋ณด ์ถœ๋ ฅ.


pandas์™€ numpy์˜ ํ‘œ์ค€ํŽธ์ฐจ ์ฐจ์ด

๋ณดํ†ต ํŒ๋‹ค์Šค ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ๋งž๋‹ค๊ณ ๋“ค ํ•œ๋‹ค.


describe()ํ•จ์ˆ˜์— ํฌํ•จ๋œ ํ•จ์ˆ˜๋ฅผ ๋”ฐ๋กœ ์ ์šฉํ•ด ๋ณผ ์ˆ˜๋„ ์žˆ๋‹ค.
df.count() :
๊ฒฐ์ธก์น˜null์„ ์ œ์™ธํ•œ ๊ฐฏ์ˆ˜๋ฅผ ์„ผ๋‹ค.

์›ํ•˜๋Š” ์ปฌ๋Ÿผ์— ๋Œ€ํ•ด์„œ๋งŒ count()ํ•  ์ˆ˜ ์žˆ๋‹ค.


์—ฌ๋Ÿฌ ๊ฐœ์˜ ์—ด์„ ๋ถ„์„ :
(mean, min, max, sum ๋“ฑ ํ•จ์ˆ˜()) + List [ ]

List๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด๋ ‡๊ฒŒ ์“ธ ์ˆ˜ ์žˆ์ง€๋งŒ
์ด๋Ÿฐ ์‹์œผ๋กœ ์ ๋Š” ๊ฑธ ์ถ”์ฒœํ•œ๋‹ค. ์ปฌ๋Ÿผ์˜ ๊ฐฏ์ˆ˜๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ 2๊ฐœ์˜ ์ปฌ๋Ÿผ์—์„œ ํ†ต๊ณ„๋ฅผ ๋‚ด๊ธฐ์— ๋” ๋น ๋ฅด๋‹ค.

 

 

๋ฐ˜์‘ํ˜•