๐Ÿ Python

[Python]์‹ค์ „1:ํƒ€์ดํƒ€๋‹‰ ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„

yeun.log 2024. 6. 20. 02:08
๋ฐ˜์‘ํ˜•

๊ธฐ๋ณธ ์„ค์ •์ด๋ž‘ ๊ธฐ๋ณธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ import.


๋ชจ๋“  ์šด์˜์ฒด์ œ์—์„œ ํ•œ๊ธ€ ๊นจ์ง ์˜ค๋ฅ˜๋ฅผ ๋ฐฉ์ง€ํ•ด๋ณด์ž.
platform ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
→ python ๊ธฐ๋ณธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ.
โ™ช
platform.system()
→ ํ˜„์žฌ ์ปดํ“จํ„ฐ OS์šด์˜์ฒด์ œ ์ถœ๋ ฅ.


' - '๊ธฐํ˜ธ ๊นจ์ง€๋Š” ๋ฌธ์ œ ํ•ด๊ฒฐ


ํŒŒ์ด์ฌ ๊ฒฝ๊ณ  ๋ฉ”์‹œ์ง€ off


ํƒ€์ดํƒ€๋‹‰ ์˜ˆ์ œ๋ฐ์ดํ„ฐ

NaN๊ฐ€ ๋งŽ์€ cabin, boat๋Š” ํŒจ์Šค . ์‚ด์•˜์„ ํ™•๋ฅ ์— ์˜ํ–ฅ์„ ์ค€ ์ปฌ๋Ÿผ๋“ค์€ pclass, sex, sibsp, parch, age, fare(์šด์ž„๋ฃŒ)๊ฐ€ ์žˆ๋‹ค.

 

์ด ์ปฌ๋Ÿผ๋“ค ์ค‘์—์„œ ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ x, y๋กœ ์“ธ ๊ฑด ์ง€ ์ „์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒŒ ๊ด€๊ฑด.
age๊ฐ€ 1046 no-null๋กœ ๊ฒฐ์ธก์น˜๊ฐ€ ์ข€ ์žˆ๋‹ค. ์•„๋ž˜ ํ‰๊ท ์น˜๋ฅผ ๋ณด๋ฉด fare ์šด์ž„๋ฃŒ๊ฐ€ ๊ฝค ๋งŽ์ด ์ฐจ์ด ๋‚˜๋Š” ๊ฑธ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์šด์ž„๋ฃŒ๋ฅผ ์•ˆ ๋‚ด๊ณ  ํƒ€์ด๋‚˜๋‹‰์— ํƒ‘์Šนํ•œ ์‚ฌ๋žŒ์ด Mr.Thomas์ธ ๊ฑธ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
๊ฒฐ์ธก์น˜ ํ†ตํ•ฉ์ •๋ณด๋ฅผ ํ™•์ธํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์‚ฌ๋ง์ž 809๋ช…, ์ƒ์กด์ž 500๋ช…

๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•  ๋•Œ ๋ณดํ†ต ๋ถ€์ •์ ์ธ ๊ฑธ 0์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.
๋”ฐ๋ผ์„œ ์—ฌ๊ธฐ์„œ 0์€ ์‚ฌ๋งํ•œ ์ˆซ์ž์ด๋‹ค.

pyplot.subplot(๊ทธ๋ž˜ํ”„์œ„์น˜)
pyplot.subplot(๊ทธ๋ž˜ํ”„์œ„์น˜)
→ ํ‘œ ์—ฌ๋Ÿฌ๊ฐœ ๊ทธ๋ฆฌ๊ธฐ

121 → ํ‘œ๋ฅผ ๊ทธ๋ฆฌ๋Š”๋ฐ ํ–‰1์ค„๋กœ 2์—ด๋กœ ๊ทธ๋ฆฌ๋Š”๋ฐ 1๋ฒˆ์งธ์ด๋‹ค.
๋ฐ์ดํ„ฐ์—์„œ ์ƒ์กด ์ปฌ๋Ÿผ์„ ๊ฐ€์ ธ์™€์„œ ์ƒ์กด์ž์™€ ์‚ฌ๋ง์ž ์ˆ˜๋ฅผ ๊ฐ€์ง€๊ณ  pie๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆฐ๋‹ค.

  • explode=[0, 01] → ํŒŒ๋ž€์ƒ‰์€ 0์œผ๋กœ ๊ฐ€๋งŒํžˆ๋‘๊ณ  ์˜ค๋ Œ์ง€์ƒ‰๋ถ€๋ถ„์€ 0.1๋กœ ์กฐ๊ธˆ ๋–จ์–ดํŠธ๋ ธ๋‹ค.
  • autopct= ์†Œ์ˆซ์  2๋ฒˆ์งธ ์ž๋ฆฌ๊นŒ์ง€ ํผ์„ผํŠธ๋ฅผ ๊ทธ๋ ธ๋‹ค.


df.hist(bins=๋ง‰๋Œ€๊ฐฏ์ˆ˜, grid=False/True)
→ histogram

df.hist()๋กœ ํ–ˆ์„ ๊ฒฝ์šฐ, ๋ง‰๋Œ€(bins)๋Š” ๊ธฐ๋ณธ๊ฐ’์ด 10๊ฐœ์ด๋‹ค.

df.groupby('์ปฌ๋Ÿผ๋ช…').mean()
→ ์ปฌ๋Ÿผ์— ์žˆ๋Š” ๊ณ ์œณ๊ฐ’๋ณ„๋กœ ๋ฌถ์–ด ํ‰๊ท ์น˜๋ฅผ๋‚ธ๋‹ค.

pclass ์„ ์‹ค๋“ฑ๊ธ‰์ด ๋†’์„์ˆ˜๋ก ์ƒ์กด๋ฅ ์ด ๋†’์€ ๊ฑธ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํ…Œ์ŠคํŠธ๋กœ max, min ๋ฉ”์„œ๋“œ๋„ ํ•ด๋ดค๋Š”๋ฐ ์•ˆ๋จ. std()๋Š” ๋œ๋‹ค.

 

์ƒ๊ด€๊ด€๊ณ„๋น„๊ต. ๋งˆ์ด๋„ˆ์Šค์ผ์ˆ˜๋ก ์˜ํ–ฅ์„ ์•ˆ ๋ฏธ์ณค๋‹ค๋Š” ๊ฑด๋ฐ ์ƒ์ข…๋ฅ ๋ณด๋‹ค -์ธ ๊ฒƒ๋“ค์„ ๋ณด๋ฉด pclass, age๊ฐ€ ๋ˆˆ์— ๋ˆ๋‹ค.


seaborn.heatmap(df, linewidths=๊ฐ„๊ฒฉ, annot=ํผ์„ผํŠธ์ถœ๋ ฅํ• ์ง€, cmap=ํ‘œ์ƒ‰์ƒ)

  • ์œ„์˜ ์ƒ๊ด€๊ด€๊ณ„ํ‘œ df.corr()๋ฅผ heatmap ๊ทธ๋ž˜ํ”„๋กœ ๊ทธ๋ ค๋ณด์•˜๋‹ค.
  • lineewidht
    ๋„ค๋ชจ์นธ ๋„์šฐ๊ธฐ
  • annot
    ๋„ค๋ชจ์นธ์•ˆ์— ํผ์„ผํŠธ ์ ์„์ง€ ๋ง์ง€
  • cmap
    ํ‘œ์ƒ‰์ƒ

pyplot.savefig('ํŒŒ์ผ๋ช….jpg')
→ ๊ทธ๋ž˜ํ”„ ํด๋”์— ์ €์žฅ.

png๋กœ๋„ ์ž˜ ์ €์žฅ๋œ๋‹ค.


pandas.cut(df, bins=[๋‚˜๋ˆ„๋Š” ๊ธฐ์ค€]
, include_lowst=๊ฐ€์žฅ ์ž‘์€ ๊ฐ’ ํฌํ•จํ•  ์ง€
, labels=[๋‚˜๋ˆˆ ์ด๋ฆ„๋“ค])

๋งจ ์˜ค๋ฅธ์ชฝ์— ์ปฌ๋Ÿผ์ด ์ถ”๊ฐ€๋œ ๊ฒŒ ๋ณด์ธ๋‹ค.


์œ„์˜ ์ž๋ฃŒ๋ฅผ ํ† ๋Œ€๋กœ ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฏธ์นœ ์ปฌ๋Ÿผ์— ๋”ฐ๋ฅธ ์ƒ์กด๋ฅ  ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค๋ณด์•˜๋‹ค.

๋ฐ˜์‘ํ˜•