본문 바로가기
Journal

빅데이터 분석가 양성과정 20일차

by statsbymin 2022. 7. 28.

강의 내용 SUMMARY

concat() 

  • 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결한 데이터프레임을 반환 (데이터프레임을 append방식으로 연결)
  • 2개 이상의 데이터프레임을 연결 데이터프레임과 Series를 concat()로 연결하면 새로운 열로 추가됨
  • 연결할 데이터프레임이 1개이면 append( dataframe객체 , ignore_index=True ) 사용
  • ignore_index=True로 설정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 초기화 설정함
    두 Series를 연결할때 append()사용
  • concat()를 사용하여 열방향으로 데이터 연결하려면 axis=1 설정, ignore_index=True 설정하면 열 이름을 다시 지정

 

merge() 

inner join 으로 실행 (default)  
site_df.merge(visited_subset, left_on= , right_on=)

 

pivot()

pivot('행인덱스 사용할 컬럼', '열 인덱스로 사용할 컬럼', '데이터로 사용할 컬럼')

데이터 컬럼중에서 두개의 컬럼을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회한 결과(table구조)

 

 

시계열 데이터 처리

시계열 데이터는 일정시간 간격으로 기록한 데이터 datetime 라이브러리는 날짜와 시간을 처리하는 다양한 기능과 date객체, time 객체, datetime객체 등을 제공한다

  

  • 특정일에 누락된 데이터도 포함시켜 데이터를 살펴보려면 임의의 시간 범위를 생성하여 인덱스로 지정해야 한다
  • 시간 범위를 생성하여 인덱스로 지정하면 DatetimeIndex자료형이 만들어진다
  • DatetimeIndex자료형에는 freq속성을 이용하여 시간 간격을 조절해서 DatetimeIndex
  • freq속성에 설정할 수 있는 시간 주기
    B : 평일 하루 주기
    D : 달력 날짜 기준 하루
    W : 일요일 기준
    M : 월 마지막 날
    SM : 15일과 월 마지막 날
  • shift() : 데이터를 시간 축으로 앞이나 뒤로 이동
  • resample() - 시간 간격을 재조정
  • 시간 구간을 작게 설정하면 데이터 양이 증가하므로 up-sampling, 시간 구간을 크게 설정하면 데이터 양이 감소하므로 down-sampling