분류 전체보기 560

[Python]결측치NaN 삭제 dropna

결측치가 있는 열 삭제 df.dropna(axis=1, thresh=개수)→ drop nan. NaN를 가진 행/열을 지운다.axis = 0 → 행 rowaxis = 1 → 열 column※ thresh = 유효한 데이터의 몇 개 이상만 남기고 지운다.행을 삭제하려면df.dropna(axis=0, thresh=개수) numpy.nan→ 결측치python에서는 ' '같은 빈 문자열은 결측치로 처리 안된다.값을 {numpy.nan} 과 같이 넣어야 결측치가 입력된다.df.dropna(axis=0/1, how='all')→ 행/열의 값이 모두 결측치일 경우 해당 행/열 삭제.df.dropna(subset='열이름')→ 특정 열에 NaN값이 존재하면 행삭제.

🐍 Python 2024.06.18

[Python]데이터 정규화와 결측치 데이터 처리

데이터 정규화dataFrame 설계에서 중복 최소화→무결성을 강화한 데이터를 구조화하는 process.dataFrame의 정규화 목표: 이상이 있는 관계를 재구성하여 작고 잘 조직된 관계를 생성.데이터 분석수집된 데이터를 기반으로 패턴을 추출하고 그 결과를 분석하여 활용가치를 판단한다.데이터에 중복이나 누락 등의 결함이 있으면 신뢰성이 떨어지므로 데이터 정규화가 필요하다.데이터 분석 정확도데이터에 대한 신뢰성은 수집된 데이터의 품질에 따라 결정.데이터의 품질을 높이기 위해서는 결측치(누락 데이터) 확인과 중복 데이터의 제거 등 오류를 수행하는 과정을 거쳐야 한다.NaNNot a Number누락 데이터데이터 값이 존재하지 않거나 누락된 데이터.0, ?, - 과 같이 표기되기도 하는데 이럴 경우df.valu..

🐍 Python 2024.06.18

[Python]value_counts, 평균값과 중앙값 정보 혹인

열의 정보를 알아보자.count()는 앞서 공부한  포스트참조.2024.06.13 - [🐍 Pyton] - [Python]DataFrame-데이터선택&집계, 열추가 df['컬럼명'].value_counts()→ 각 열 고유값의 개수 계산df['컬럼명'].value_counts() → NaN 열 포함 개수 계산. df['컬럼명'].value_counts(dropna=True)→ NaN 열 제외 개수 계산.평균값과 중앙값 등 통계 정보를 확인해보자.df.mean()→ dataFrame 모든 열에 대한 평균값 출력.mean() 메서드는 숫자로 된 컬럼에 대해서만 도출한다.df['컬럼명'].mean()→ 해당 컬럼의 평균값 출력.※ 중앙값이란?→ 전체 중 가운데 50%의 값. ※ 이상치란?→ 극단적으로 크고 ..

🐍 Python 2024.06.18

[Python]shape&info(), 특정 열의 자료형 정보 확인

데이터 사용 전에 정보를 확인해보자.앞서 배운 head() & tail() 외에도 아래 내용들을 확인해 볼 수 있다.df.shape→ dataFram의 크기(행, 열) 출력info()→ dataFrame 종합정보 확인→ pandas에 core class의 frame class에 있는 DataFrame이다.RangeIndex 10 entries, 0 to 9→ 행 인덱스가 10개인데 0에서 9까지 있다.Data columns (total 9 columns)→ 컬럼이 총 9개 있다.Non-Null Count→ 결측치, 빈 값 갯수를 세준다.10 non-null → 10개 모두 빈 값이 없다.Dtype→ Data type의 종류.int64 : 정수.float43 : 실수.object : 문자열.특정 열의 자료..

🐍 Python 2024.06.18

[Python]CSV 저장&읽기, Json파일 저장&읽기

CSVComma-Seperated Value, 로 구분된 파일.데이터분석 표준 text 파일형식.df.to_csv('저장할 파일명.csv')→ dataFrame을 csv파일로 저장.python은 기본으로 UTF-8형식으로 저장되고 불러온다.만약 오래된 파일은 다른 encoding형식을 쓸 수도 있는데 이때는 따로 설정해서 불러와야 한다.함수 : 주어 없이 명령어(목적어)가 바로 쓰이는 경우mothod : OOP. 객체지향언어.              주어.동사(목적어) 형태.             df.to_csv('파일명')객체지향언어에서는 함수가 아니라 method 메소드라고 부르는 게 약속이다.phthon도 객체지향언어이기 때문에 method로 불러야 한다.index 없이 저장시df.to_csv('..

🐍 Python 2024.06.17

[Linux] 수정 예정!!

기한 내에 들어야하는 강의가 너무 밀린 관계로..우선 파이썬 수강완료 찍고 AWS강의는 복습하기로 하겠습니다.. 국민취업제도 한달에 두건의 구직활동으로 강의 두건을 인정받으려했는데국취제상담사분도 강의가 한번에 두개가 안되는 걸 모르셨다고 강의 시작한 지 2주가 넘은 뒤에 연락주셔서..너무 어려운 강의 두개를 정리하면서 들으려니 시간이 너무 오래걸리네요..우선 하나라도 수강완료를 찍도록 하겠습니다..과제도 제출해야해서 바쁘네요.     apt-cache search 프로그램명→ apt에 있는 프로그램 확인| greppipe Line |목록에 원하는 내용이 있는 지 확인apt list→ apt목록 보기apt update→ apt(저장소) 목록 갱신 Linux 최상위 관리자는 root / 이다.whoami내가..

[Linux]APT란?

만약 카톡을 설치한다고 생각해보자. 카톡 설치를 누르면프로그램이 하드디스크에 복사윈도우 시작 프로그램에 등록카톡의 프로토콜 번호 ex.5800번이 방화벽에 등록되어 있어야 통시닝 가능하다.윈도우 시작할 때 자동으로 시작환경변수 등록등의 다양한 과정이 필요한데이를 리눅스와 같이 CLI, 글로만 된 환경에서 설정하려면 상당히 복잡하다.이 과정을 리눅스에서 쉽게 해주는 게 바로 ubntu repository이다.ubuntu repository를 관리하는 게 바로  APT 저장소이다. ubuntu repository에 접근 /etc/apt/sources.list에 레포지토리 경로를 등록한다.apt update목록 갱신apt install프로그램 다운로드/etc/apt/sources.list.d/에 프로그램 등록..

[Linux]명령어2-help, mkdir, cp, ln, rm

ctrl + C창이 꼬였을 때 취소  --help모든 명령어의 사용법  . 으로 시작하는 파일은 숨김파일 이다.   mkdirmake directory폴더생성   rmremove삭제  rm -f: 삭제가 잘 안될 때)강제 삭제.rm -r: 폴더 안에 있는 것도 삭제.  폴더를 삭제할 경우 안에 든 파일도 삭제되어야 한다.따라서 이 때는 rm -r 폴더명 라 명령어를 적어야 한다.  cp 복사할file newFileNamecopy   mv 이동할file 경로+ 이름 변경도 할 수 있다.move  mkdir useruser폴더 생성mv b.txt userb.txt를 user폴더로 이동ls현재 폴더 확인mv a.txt user/c.txta.txt를 이동하는데 c.txt라는 이름으로 옮긴다.cd useruser..

[Python]Excel로 저장&불러오기

데이터 전처리  파일의 기본 요소인 레코드를 기반으로 이들의 필드를 조작하는 것을 말한다.데이터 효율성을 높이기 위해 중요한 것은 데이터를 체계적으로 수집하는 과정이다.→ 수집을 위해 DBMS(데이터베이스 관리 시스템)를 사용하는 것이 좋다.  Pandas제공 함수  ※ csv파일이 표준이다.※ Json파일과 가장 비슷한 Python언어는 Dictionary이다.  openpyxl 라이브러리의 to_excel() 함수를 사용.→ 아나콘다에 포함되어 있다. 엑셀파일로 저장하기pandas.to_excel('저장할 파일명.xlsx')   excel sheet 여러 개로 저장= dataFrame 여러 개로 저장변수명 =panda.ExcelWriter{'저장할 파일명.xlsx'}df_01.to_excel(변수명,..

🐍 Python 2024.06.16

[Python]DataFrame-열의 원소값, 행의 원소값 변경. 원소 삭제

동양에서는 가로, 세로로 읽지만서양 중심적으로는 세로, 가로로 읽는다.가로 = 열 column세로 = 행 row따라서 함수를 사용할 때 행, 열순으로 적는 게 일반적이다.열 원소값 변경df.loc['행이름','열이름']=원소값&df.iloc[행index,열index]=원소값 행 원소값 변경df.loc['행이름','열이름1':'열이름2']=원소값&df.iloc[행index,열index시작:index종료+1]=원소값  DataFrame 선언시index 설정padas.DataFrame(data, index=설정데이터)행 삭제원본df를 복사한다.변수명 = df.copy()복사한 변수에서 행 삭제.변수명.drop('행index', axis=0, inplace=True)행을 삭제하고 싶으면 axis = 0열을 삭제..

🐍 Python 2024.06.16
반응형