본문 바로가기
Journal

빅데이터 분석가 양성과정 23일차

by statsbymin 2022. 8. 2.

Histogram

  • 연속값에 대한 구간별 도수 분포를 시각화

seaborn histogram

  • seaborn의 예전 histogram은 distplot함수지만 deprecate
  • seaborn의 histogram은 histplot과 displot이 대표적이며 histplot은 axes레벨, displot은 figure레벨

countplot

  • 카테고리 값에 대한 건수를 표현. x축이 카테고리값, y축이 해당 카테고리 값에 대한 건수

barplot

  • seaborn의 barplot은 x축은 이산값(주로 category값), y축은 연속값(y값의 평균/총합)을 표현
  • 수직 barplot에 y축을 문자값으로 설정하면 자동으로 수평 barplot으로 변환
  • confidence interval을 없애고, color를 통일 ci=None
  • 평균이 아니라 총합으로 표현, estimator = sum
  •  hue를 이용하여 X값을 특정 컬럼별로 세분화하여 시각화

 

violin plot

  • 단일 컬럼에 대해서는 히스토그램과 유사하게 연속값의 분포도를 시각화. 또한 중심에는 4분위를 알 수 있다.
  • 보통은 X축에 설정한 컬럼의 개별 이산값 별로 Y축 컬럼값의 분포도를 시각화하는 용도로 많이 사용

Lineplot

  • 특정 데이터를 x, y로 표시하여 관계를 확인할 수 있는 plot. (선 그래프)
  • 수치형 지표들 간의 경향을 파악할 때 많이 사용한다

Pointplot

  • 특정 수치 데이터를 error bar와 함께 출력해주는 plot.
  • 수치 데이터를 다양한 각도에서 한 번에 바라보고 싶을 때 사용한다
  • 데이터와 error bar를 한 번에 찍어주기 때문에, 살펴보고 싶은 특정 지표들만 사용하는 것이 좋음

Scatterplot

  • lineplot과 비슷하게 x, y에 대한 전체적인 분포를 확인하는 plot.
  • lineplot은 경향성에 초점을 둔다면, scatterplot은 데이터 그 자체가 퍼져있는 모양에 중점을 둔다

Pairplot

  • 주어진 데이터의 각 feature들 사이의 관계를 표시하는 Plot.
  • scatterplot, FacetGrid, kdeplot을 이용하여 feature간의 관계를 잘 보여준다
  • 각 feature에 대해 계산된 모든 결과를 보여주기 때문에, feature가 많은 경우 사용하기 적합하지 않음

 

평소 많이 사용하던 iris데이터 대신 seaborn 라이브러리의 펭귄(penguins)데이터를 활용해 시각화를 실습 해 보았다.

기상자료개방포털에서 서울의 기온 데이터를 가지고 pandas라이브러리 없이 파이썬 기본함수로 원하는 데이터를 추출해보고 시각화하는 실습을 통해 원리를 이해할 수 있었다.