본문 바로가기
Journal

빅데이터 분석가 양성과정 28일차

by statsbymin 2022. 8. 9.

이번 빅데이터 분석가 양성과정 28일차는 가족여행으로 인해 결석하게 되었다. 어제 배운 내용을 넘기고 오늘 수업을 진행하면 힘든 부분이 있을 수 있기 때문에 안동으로 복귀하고 정비를 마친 후 공유받은 파일을 읽어보며 복습하는 시간을 가졌다.

 

pandas 라이브러리와 탐색적 데이터 분석

1. 탐색적 데이터 분석 과정

EDA (Exploratory Data Analysis) 라고 함

데이터 분석을 위해 raw data를 다양한 각도에서 관찰하여, 데이터를 이해하는 과정 데이터 분석 주제마다 EDA를 통해 진행하는 과정은 각양각색이므로, 정형화된 패턴은 없지만,

크게 다음과 같은 3가지 과정은 기본이 될 수 있으므로 다음 3가지 과정을 기본으로 이해

  • 1. 데이터의 출처와 주제에 대해 이해
  • 2. 데이터의 크기 확인
  • 3. 데이터 구성 요소(feature)의 속성(특징) 확인

feature: 데이터 구성 요소를 위미함

예: 어떤 초등학교에 학생 성적을 기록한 데이터가 있다면, 학생 이름, 과목별 성적 등을 feature로 볼 수 있음 (가볍게 field/column이라고 봐도 무방함)

존 튜키라는 미국 통계학자가 제안한 분석 방법론 기존 통계학이 가설을 세우고, 가설을 검정하는 방법론에 치우쳐, 데이터 본래의 정보를 파악하기 어려우므로, 본연의 데이 터 탐색에 집중하자는 방법론

 

데이터 일부 확인하기

head(): 처음 5개(디폴트)의 데이터 확인하기 head(n=10): 처음 10개(조정 가능)의 데이터 확인하기

tail(): 마지막 5개의 데이터 확인하기 tail(n=10): 마지막 10개(조정 가능)의 데이터 확인하기

 

보다 다양한 데이터 정보 확인하기

shape: 데이터의 row, column 사이즈 확인

info(): column별 데이터 타입과 실제 데이터가 있는 사이즈 확인 raw data는 일부 데이터가 없는 경우가 많기 때문에, 실제 데이터의 사이즈 확인이 필요함

describe(): 숫자 데이터의 기본 통계치를 한 번에 확인할 수 있다.

 

각 column 이해하기 raw data에는 다양한 column 이 있는 경우가 많고, 이 중에서 내가 사용할 column에 대해서는 확실히 이해하고 있어야 한다.

 

 

 

Series로 feature를 보다 상세하게 탐색하기

  • size : 사이즈 반환
  • count() : 데이터가 없는 경우를 뺀 사이즈 반환
  • unique(): 유일한 값만 반환
  • value_counts(): 데이터가 없는 경우를 제외하고, 각 값의 개수를 반환

 

없는 데이터(결측치) 가 있는지 확인하기

  • isnull() : 없는 데이터가 있는지 확인 (True or False)
  • sum() : 없는 데이터가 있는 행의 개수 확인
  • 통상 isnull().sum() 으로 사용

없는 데이터 삭제하기

dropna() : 결측치를 가진 행을 모두 삭제

 

특정 컬럼값이 없는 데이터만 삭제하기

subset으로 해당 컬럼을 지정해줌

 

없는 데이터(NaN)을 특정값으로 일괄 변경하기

fillna(특정값) : 특정값으로 결측치를 대체