전체 글 228

[Python]Machine Learning2:Naive Bayes classifier, Logistic Regression

Text Mining문서 해석 예시를 들어위 그래프의 'Pythons are constrictors that feed on birds and mammals'를 해석 할 때'Pythons', 'are', 'constrictors', 'that', 'feed', 'on', 'birds', 'and', 'mammals' 로 쪼갤 수 있다.이 단어들 중 중요한 단어만 찾기 위해 자연어처리(=색인어 추출)을 해야한다.and와 같이 필요없는 불용어들을 데이터에서 빼야한다.Naive Bayes classifier→ 정확한 분류 대신 확률을 이용한 알고리즘.위 텍스트 마이닝한 데이터로 레이블이 Language일 확률과 snake일 확률을 곱한다.곱해줄 경우 하나라도 0이면 결과가 0이기 때문에확률이 너무 낮은 0.00..

🐍 Python 2024.06.20

[Python]Machine Learning1:KNN, Decision Tree

K-Nearest Neighbors algorithm→ 머신러닝의 대표적 알고리즘 중 하나Machin Learning은 알고리즘을 통해 데이터를 분석해 알아서 레이블을 찾는다.속성을 통해 레이블이 Ramance인지 Action인 지 알 수 있다.구현가능한 레이블의 종류class : 범주형(category) : 분류기.정수, 실수(숫자) : 수치형 : 예측기.KNN이란 알고리즘을 만들어서 import를 한 경우의 코드이다.group에 labels를 붙여서 분류했을 때[1., 1.1] → A[1, 1.]  → A[0., 0.]  → B[0, 0.1]  → B[0.2, 0.2]라는 입력값을 주면위 4개의 데이터 중에서 가까운 3개를 찾으면 B, B, A이다.따라서 레이블 결과는 B이다.BBA이기 때문에 B일 ..

🐍 Python 2024.06.20

[Python]실전1:타이타닉 탐색적 데이터 분석

모든 운영체제에서 한글 깨짐 오류를 방지해보자.platform 라이브러리→ python 기본 라이브러리.♪platform.system()→ 현재 컴퓨터 OS운영체제 출력.' - '기호 깨지는 문제 해결파이썬 경고 메시지 off타이타닉 예제데이터 데이터를 분석할 때 보통 부정적인 걸 0으로 사용한다.따라서 여기서 0은 사망한 숫자이다.pyplot.subplot(그래프위치)pyplot.subplot(그래프위치) → 표 여러개 그리기explode=[0, 01] → 파란색은 0으로 가만히두고 오렌지색부분은 0.1로 조금 떨어트렸다.autopct= 소숫점 2번째 자리까지 퍼센트를 그렸다.df.hist(bins=막대갯수, grid=False/True)→ histogramdf.hist()로 했을 경우, 막대(bins..

🐍 Python 2024.06.20

[Python]Seaborn:향상된 시각화 라이브러리

Seaborn 라이브러리Matplotlib 기반.Matplotlib보다 적은 코드로 고급진 그래프를 그릴 수 있다. sns.set_them→ 테마설정하고df = sns.load_dataset→ 펭귄이란 data를 가져왔다.sns.pairplot(df, hue="species")→  sns에 pairplot(x, y로 나눠서 그려주고), hue → 에 적힌 컬럼을 기준으로 컬럼들으 비교한다.seanborn.lmplot(x='컬럼명1', y='컬럼명2', data=df, hue='색깔로 구분컬럼 명')→ 선형 회귀 시각화.linear model plothue=성별에 따라 나눴다.연령에 따라 BMI가 어떻게 바뀌는 지.파란색 범위(파란 점 말고)는 오차범위를 나타낸다.그래프 해석데이터가 적어 오차범위가 큰 데..

🐍 Python 2024.06.19

[Python]데이터 시각화란? & Pandas Graph(plot)

데이터 시각화목적데이터에 대한 이해를 돕기 위해서.의사결정에 도움을 준다.방법7단계 절차장점많은 양의 데이터를 한눈에 이해할 수 있다.패턴 분석이 쉽다.pandas 그래프 도구를 알아보자. Matplotlib 라이브러리Matlab plot libraryAnaconda 내장 라이브러리이다.plot() 메서드를 기반으로 그려준다.ex) df.plot()위와 같이 kind옵션을 생략하면 기본 선 그래프가 적용된다. 한글 폰트 오류 해결Matplotlib 라이브러리는 한글을 지원하지 않는다.windows 운영체제 기본 글꼴인 맑은 고딕을 추천한다.대부분의 컴퓨터에서 잘 나오기 때문에.rcresource config.자원에 대한 설정.원하는 font를 사용하고 싶을 경우%matplotlib inline→ 그래프 ..

🐍 Python 2024.06.19

[Python]결측치NaN 삭제 dropna

결측치가 있는 열 삭제 df.dropna(axis=1, thresh=개수)→ drop nan. NaN를 가진 행/열을 지운다.axis = 0 → 행 rowaxis = 1 → 열 column※ thresh = 유효한 데이터의 몇 개 이상만 남기고 지운다.행을 삭제하려면df.dropna(axis=0, thresh=개수) numpy.nan→ 결측치python에서는 ' '같은 빈 문자열은 결측치로 처리 안된다.값을 {numpy.nan} 과 같이 넣어야 결측치가 입력된다.df.dropna(axis=0/1, how='all')→ 행/열의 값이 모두 결측치일 경우 해당 행/열 삭제.df.dropna(subset='열이름')→ 특정 열에 NaN값이 존재하면 행삭제.

🐍 Python 2024.06.18

[Python]데이터 정규화와 결측치 데이터 처리

데이터 정규화dataFrame 설계에서 중복 최소화→무결성을 강화한 데이터를 구조화하는 process.dataFrame의 정규화 목표: 이상이 있는 관계를 재구성하여 작고 잘 조직된 관계를 생성.데이터 분석수집된 데이터를 기반으로 패턴을 추출하고 그 결과를 분석하여 활용가치를 판단한다.데이터에 중복이나 누락 등의 결함이 있으면 신뢰성이 떨어지므로 데이터 정규화가 필요하다.데이터 분석 정확도데이터에 대한 신뢰성은 수집된 데이터의 품질에 따라 결정.데이터의 품질을 높이기 위해서는 결측치(누락 데이터) 확인과 중복 데이터의 제거 등 오류를 수행하는 과정을 거쳐야 한다.NaNNot a Number누락 데이터데이터 값이 존재하지 않거나 누락된 데이터.0, ?, - 과 같이 표기되기도 하는데 이럴 경우df.valu..

🐍 Python 2024.06.18

[Python]value_counts, 평균값과 중앙값 정보 혹인

열의 정보를 알아보자.count()는 앞서 공부한  포스트참조.2024.06.13 - [🐍 Pyton] - [Python]DataFrame-데이터선택&집계, 열추가 df['컬럼명'].value_counts()→ 각 열 고유값의 개수 계산df['컬럼명'].value_counts() → NaN 열 포함 개수 계산. df['컬럼명'].value_counts(dropna=True)→ NaN 열 제외 개수 계산.평균값과 중앙값 등 통계 정보를 확인해보자.df.mean()→ dataFrame 모든 열에 대한 평균값 출력.mean() 메서드는 숫자로 된 컬럼에 대해서만 도출한다.df['컬럼명'].mean()→ 해당 컬럼의 평균값 출력.※ 중앙값이란?→ 전체 중 가운데 50%의 값. ※ 이상치란?→ 극단적으로 크고 ..

🐍 Python 2024.06.18

[Python]shape&info(), 특정 열의 자료형 정보 확인

데이터 사용 전에 정보를 확인해보자.앞서 배운 head() & tail() 외에도 아래 내용들을 확인해 볼 수 있다.df.shape→ dataFram의 크기(행, 열) 출력info()→ dataFrame 종합정보 확인→ pandas에 core class의 frame class에 있는 DataFrame이다.RangeIndex 10 entries, 0 to 9→ 행 인덱스가 10개인데 0에서 9까지 있다.Data columns (total 9 columns)→ 컬럼이 총 9개 있다.Non-Null Count→ 결측치, 빈 값 갯수를 세준다.10 non-null → 10개 모두 빈 값이 없다.Dtype→ Data type의 종류.int64 : 정수.float43 : 실수.object : 문자열.특정 열의 자료..

🐍 Python 2024.06.18

[Python]CSV 저장&읽기, Json파일 저장&읽기

CSVComma-Seperated Value, 로 구분된 파일.데이터분석 표준 text 파일형식.df.to_csv('저장할 파일명.csv')→ dataFrame을 csv파일로 저장.python은 기본으로 UTF-8형식으로 저장되고 불러온다.만약 오래된 파일은 다른 encoding형식을 쓸 수도 있는데 이때는 따로 설정해서 불러와야 한다.함수 : 주어 없이 명령어(목적어)가 바로 쓰이는 경우mothod : OOP. 객체지향언어.              주어.동사(목적어) 형태.             df.to_csv('파일명')객체지향언어에서는 함수가 아니라 method 메소드라고 부르는 게 약속이다.phthon도 객체지향언어이기 때문에 method로 불러야 한다.index 없이 저장시df.to_csv('..

🐍 Python 2024.06.17