강의 내용 SUMMARY
concat()
- 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결한 데이터프레임을 반환 (데이터프레임을 append방식으로 연결)
- 2개 이상의 데이터프레임을 연결 데이터프레임과 Series를 concat()로 연결하면 새로운 열로 추가됨
- 연결할 데이터프레임이 1개이면 append( dataframe객체 , ignore_index=True ) 사용
- ignore_index=True로 설정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 초기화 설정함
두 Series를 연결할때 append()사용 - concat()를 사용하여 열방향으로 데이터 연결하려면 axis=1 설정, ignore_index=True 설정하면 열 이름을 다시 지정
merge()
inner join 으로 실행 (default)
site_df.merge(visited_subset, left_on= , right_on=)
pivot()
pivot('행인덱스 사용할 컬럼', '열 인덱스로 사용할 컬럼', '데이터로 사용할 컬럼')
데이터 컬럼중에서 두개의 컬럼을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회한 결과(table구조)
시계열 데이터 처리
시계열 데이터는 일정시간 간격으로 기록한 데이터 datetime 라이브러리는 날짜와 시간을 처리하는 다양한 기능과 date객체, time 객체, datetime객체 등을 제공한다
- 특정일에 누락된 데이터도 포함시켜 데이터를 살펴보려면 임의의 시간 범위를 생성하여 인덱스로 지정해야 한다
- 시간 범위를 생성하여 인덱스로 지정하면 DatetimeIndex자료형이 만들어진다
- DatetimeIndex자료형에는 freq속성을 이용하여 시간 간격을 조절해서 DatetimeIndex
- freq속성에 설정할 수 있는 시간 주기
B : 평일 하루 주기
D : 달력 날짜 기준 하루
W : 일요일 기준
M : 월 마지막 날
SM : 15일과 월 마지막 날 - shift() : 데이터를 시간 축으로 앞이나 뒤로 이동
- resample() - 시간 간격을 재조정
- 시간 구간을 작게 설정하면 데이터 양이 증가하므로 up-sampling, 시간 구간을 크게 설정하면 데이터 양이 감소하므로 down-sampling
'Journal' 카테고리의 다른 글
빅데이터 분석가 양성과정 22일차 (0) | 2022.08.01 |
---|---|
빅데이터 분석가 양성과정 21일차 (0) | 2022.07.29 |
빅데이터 분석가 양성과정 18일차 (0) | 2022.07.26 |
[07.23 ~ 07.24] (0) | 2022.07.25 |
빅데이터 분석가 양성과정 16일차 (0) | 2022.07.22 |