지난 수업에 이어 kaggle의 Brazilian E-Commerce Dataset을 활용해 4, 5, 6 번째 EDA(탐색적 데이터 분석)를 진행했다.
https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?resource=download
Brazilian E-Commerce Public Dataset by Olist
100,000 Orders with product, customer and reviews info
www.kaggle.com
4 번째 EDA는 시간(년, 월, 요일, 일, 시, 분 단위 까지)별 iplot을 활용한 barplot을 통해 각 시간대 종류별로 거래건수 파악과 요일, 시간을 활용해 heatmap으로 나타내 보기도 했다. 히트맵의 경우 2차원 평면에 3차원의 정보(x, y축 및 색상 농도)를 제공할 수 있다는 장점이 있다.
5 번째 EDA는 카테고리별 거래 건수 시각화이다. 모든 카테고리를 한 그래프에 나타낼 경우 가시성이 떨어지므로 특정한 기준(여기서는 거래건수가 1,000 건 이상)을 잡고 시각화를 하여 가시성을 높일 수 있었다.
마지막 6 번째 EDA는 월별 배송시간(일 단위)을 시각화한 그래프이다. 막대가 빨간색으로 바뀌는 시점부터는 평균 배송일이 크게 줄어든 것을 확인할 수 있는데 이때를 기점으로 시스템의 변화가 있었던 것으로 유추할 수 있다.
시각화의 경우 디테일한 옵션들을 외우는 것보다는 그때그때 찾아가며 활용하는 것이 좋다.
'Journal' 카테고리의 다른 글
빅데이터 분석가 양성과정 36일차 (0) | 2022.08.22 |
---|---|
빅데이터 분석가 양성과정 35일차 (0) | 2022.08.19 |
빅데이터 분석가 양성과정 33일차 (0) | 2022.08.17 |
[데이터 분석가 현직자 직무멘토링] 3차 (0) | 2022.08.16 |
빅데이터 분석가 양성과정 32일차 (0) | 2022.08.15 |