Histogram
- 연속값에 대한 구간별 도수 분포를 시각화
seaborn histogram
- seaborn의 예전 histogram은 distplot함수지만 deprecate
- seaborn의 histogram은 histplot과 displot이 대표적이며 histplot은 axes레벨, displot은 figure레벨
countplot
- 카테고리 값에 대한 건수를 표현. x축이 카테고리값, y축이 해당 카테고리 값에 대한 건수
barplot
- seaborn의 barplot은 x축은 이산값(주로 category값), y축은 연속값(y값의 평균/총합)을 표현
- 수직 barplot에 y축을 문자값으로 설정하면 자동으로 수평 barplot으로 변환
- confidence interval을 없애고, color를 통일 ci=None
- 평균이 아니라 총합으로 표현, estimator = sum
- hue를 이용하여 X값을 특정 컬럼별로 세분화하여 시각화
violin plot
- 단일 컬럼에 대해서는 히스토그램과 유사하게 연속값의 분포도를 시각화. 또한 중심에는 4분위를 알 수 있다.
- 보통은 X축에 설정한 컬럼의 개별 이산값 별로 Y축 컬럼값의 분포도를 시각화하는 용도로 많이 사용
Lineplot
- 특정 데이터를 x, y로 표시하여 관계를 확인할 수 있는 plot. (선 그래프)
- 수치형 지표들 간의 경향을 파악할 때 많이 사용한다
Pointplot
- 특정 수치 데이터를 error bar와 함께 출력해주는 plot.
- 수치 데이터를 다양한 각도에서 한 번에 바라보고 싶을 때 사용한다
- 데이터와 error bar를 한 번에 찍어주기 때문에, 살펴보고 싶은 특정 지표들만 사용하는 것이 좋음
Scatterplot
- lineplot과 비슷하게 x, y에 대한 전체적인 분포를 확인하는 plot.
- lineplot은 경향성에 초점을 둔다면, scatterplot은 데이터 그 자체가 퍼져있는 모양에 중점을 둔다
Pairplot
- 주어진 데이터의 각 feature들 사이의 관계를 표시하는 Plot.
- scatterplot, FacetGrid, kdeplot을 이용하여 feature간의 관계를 잘 보여준다
- 각 feature에 대해 계산된 모든 결과를 보여주기 때문에, feature가 많은 경우 사용하기 적합하지 않음
평소 많이 사용하던 iris데이터 대신 seaborn 라이브러리의 펭귄(penguins)데이터를 활용해 시각화를 실습 해 보았다.
기상자료개방포털에서 서울의 기온 데이터를 가지고 pandas라이브러리 없이 파이썬 기본함수로 원하는 데이터를 추출해보고 시각화하는 실습을 통해 원리를 이해할 수 있었다.
'Journal' 카테고리의 다른 글
빅데이터 분석가 양성과정 25일차 (0) | 2022.08.04 |
---|---|
빅데이터 분석가 양성과정 24일차 (0) | 2022.08.03 |
빅데이터 분석가 양성과정 22일차 (0) | 2022.08.01 |
빅데이터 분석가 양성과정 21일차 (0) | 2022.07.29 |
빅데이터 분석가 양성과정 20일차 (0) | 2022.07.28 |