이번 빅데이터 분석가 양성과정 28일차는 가족여행으로 인해 결석하게 되었다. 어제 배운 내용을 넘기고 오늘 수업을 진행하면 힘든 부분이 있을 수 있기 때문에 안동으로 복귀하고 정비를 마친 후 공유받은 파일을 읽어보며 복습하는 시간을 가졌다.
pandas 라이브러리와 탐색적 데이터 분석
1. 탐색적 데이터 분석 과정
EDA (Exploratory Data Analysis) 라고 함
데이터 분석을 위해 raw data를 다양한 각도에서 관찰하여, 데이터를 이해하는 과정 데이터 분석 주제마다 EDA를 통해 진행하는 과정은 각양각색이므로, 정형화된 패턴은 없지만,
크게 다음과 같은 3가지 과정은 기본이 될 수 있으므로 다음 3가지 과정을 기본으로 이해
- 1. 데이터의 출처와 주제에 대해 이해
- 2. 데이터의 크기 확인
- 3. 데이터 구성 요소(feature)의 속성(특징) 확인
feature: 데이터 구성 요소를 위미함
예: 어떤 초등학교에 학생 성적을 기록한 데이터가 있다면, 학생 이름, 과목별 성적 등을 feature로 볼 수 있음 (가볍게 field/column이라고 봐도 무방함)
존 튜키라는 미국 통계학자가 제안한 분석 방법론 기존 통계학이 가설을 세우고, 가설을 검정하는 방법론에 치우쳐, 데이터 본래의 정보를 파악하기 어려우므로, 본연의 데이 터 탐색에 집중하자는 방법론
데이터 일부 확인하기
head(): 처음 5개(디폴트)의 데이터 확인하기 head(n=10): 처음 10개(조정 가능)의 데이터 확인하기
tail(): 마지막 5개의 데이터 확인하기 tail(n=10): 마지막 10개(조정 가능)의 데이터 확인하기
보다 다양한 데이터 정보 확인하기
shape: 데이터의 row, column 사이즈 확인
info(): column별 데이터 타입과 실제 데이터가 있는 사이즈 확인 raw data는 일부 데이터가 없는 경우가 많기 때문에, 실제 데이터의 사이즈 확인이 필요함
describe(): 숫자 데이터의 기본 통계치를 한 번에 확인할 수 있다.
각 column 이해하기 raw data에는 다양한 column 이 있는 경우가 많고, 이 중에서 내가 사용할 column에 대해서는 확실히 이해하고 있어야 한다.
Series로 feature를 보다 상세하게 탐색하기
- size : 사이즈 반환
- count() : 데이터가 없는 경우를 뺀 사이즈 반환
- unique(): 유일한 값만 반환
- value_counts(): 데이터가 없는 경우를 제외하고, 각 값의 개수를 반환
없는 데이터(결측치) 가 있는지 확인하기
- isnull() : 없는 데이터가 있는지 확인 (True or False)
- sum() : 없는 데이터가 있는 행의 개수 확인
- 통상 isnull().sum() 으로 사용
없는 데이터 삭제하기
dropna() : 결측치를 가진 행을 모두 삭제
특정 컬럼값이 없는 데이터만 삭제하기
subset으로 해당 컬럼을 지정해줌
없는 데이터(NaN)을 특정값으로 일괄 변경하기
fillna(특정값) : 특정값으로 결측치를 대체
'Journal' 카테고리의 다른 글
[데이터 분석가 현직자 직무멘토링] 2차 (0) | 2022.08.10 |
---|---|
빅데이터 분석가 양성과정 29일차 (0) | 2022.08.10 |
빅데이터 분석가 양성과정 27일차 (0) | 2022.08.08 |
빅데이터 분석가 양성과정 26일차 (0) | 2022.08.05 |
빅데이터 분석가 양성과정 25일차 (0) | 2022.08.04 |