빅데이터 분석가 양성과정 18일차

numpy

1, 2차원 ndarray 생성 및 타입 확인

데이터 일부 추출 - indexing, slicing

fancy indexing - ndarray객체의 각 요소의 선택여부를 Boolean 또는 정수로 표현

broadcasting

- 크기가 작은 배열 객체를 자동으로 반복 확장하여 크기가 큰 배열 객체 맞춰서 사칙 연산을 수행

차원이 다른 broadcasting연산

- 행의 원소 개수를 일치시키거나, 열의 원소 개수를 일치시켜야 함

ndarray객체의 차원의 크기 변경

ndarray를 연결시켜주는 함수

사분위수 반환 함수 - percentile(ndarray객체, 사분위수 값)

난수 생성 함수

seed - 난수 생성을 위한 값 (컴퓨터에 저장된 난수를 생성하는 알고리즘 규칙이 정의된 테이블에서의 값)
rand - 0~1 사이의 난수 반환
np.random.shuffle() : 데이터의 순서를 바꾸는 함수
np.random.choice(ndarray객체, size = None, replace = True, p) : 샘플링(무작위 선택)
randn : 정규분포를 따르는 난수 생성
randint : 균일 분포의 정수 난수 생성
unique( , return_counts = 개수까지 반환) : ndarray객체의 원소 중에서 중복된 값을 제외하고 중복되지 않는 값을 리스트로 반환
bincount() : 0부터 minlength-1까지의 숫자에서 각각의 값의 개수를 카운트

Oracle연동

oracle연동 cx_Oracle 라이브러리
- conda install cx_Oracle
db연결(db연결 정보 uri형식)
- db = cx_Oracle.makedsn('localhost', 1521, 'xe')
connection(session)
- con = cx_Oracle.connect('scott', 'oracle', 'db')
sql 수행(select, dml)
- cursor = con.ursor()
- cursor.excute("select * from emp")
select의 결과 처리
- datas = cursor.fetchall() - 리스트 반환
- print(type(datas))
- print(datas)
- data_df = pd.DataFrame(datas)
connection close
- cursor.close()
- con.close()

statsbymin