본문 바로가기
Journal

빅데이터 분석가 양성과정 18일차

by statsbymin 2022. 7. 26.

 

강의 내용 SUMMARY

numpy

 

1, 2차원 ndarray 생성 및 타입 확인

  • zeros() - 모든 요소가 0,
  • ones() - 모든 요소가 1,
  • arange() - 규칙에 따라 증가하는 ndarray
  • empty() - 배열을 생성만 하고 특정한 값으로 초기화하지 않음
  • full() - 사용자가 지정한 값으로 배열 생성

데이터 일부 추출 - indexing, slicing

fancy indexing -  ndarray객체의 각 요소의 선택여부를 Boolean 또는 정수로 표현

 

broadcasting

- 크기가 작은 배열 객체를 자동으로 반복 확장하여 크기가 큰 배열 객체 맞춰서 사칙 연산을 수행

차원이 다른 broadcasting연산

-  행의 원소 개수를 일치시키거나, 열의 원소 개수를 일치시켜야 함

 

ndarray객체의 차원의 크기 변경   

  • reshape - 차원 크기 지정
  • flatten - 1차원의 ndarray객체로 변경
  • newaxis - 차원만 1차원 증가시킴

 

ndarray를 연결시켜주는 함수 

  • hstack (열  증가) : 행수가 동일한 두 ndarray객체를 옆으로 연결 
  • vstack (행 증가) : 열(column)수가 동일한 두 ndarray객체를 수직(아래)으로 연결
  • dstack : 깊이(depth)방향으로 ndarry 객체를 연결

 

사분위수 반환 함수 - percentile(ndarray객체, 사분위수 값)

 

난수 생성 함수 

  • seed - 난수 생성을 위한 값 (컴퓨터에 저장된 난수를 생성하는 알고리즘 규칙이 정의된 테이블에서의 값)
  • rand - 0~1 사이의 난수 반환
  • np.random.shuffle() : 데이터의 순서를 바꾸는 함수
  • np.random.choice(ndarray객체, size = None, replace = True, p) : 샘플링(무작위 선택)
  • randn : 정규분포를 따르는 난수 생성
  • randint : 균일 분포의 정수 난수 생성
  • unique( , return_counts = 개수까지 반환) : ndarray객체의 원소 중에서 중복된 값을 제외하고 중복되지 않는 값을 리스트로 반환
  • bincount() : 0부터 minlength-1까지의 숫자에서 각각의 값의 개수를 카운트

 

 

pandas

 

Oracle연동

  1. oracle연동 cx_Oracle 라이브러리
    - conda install cx_Oracle

  2. db연결(db연결 정보 uri형식)
    - db = cx_Oracle.makedsn('localhost', 1521, 'xe')

  3. connection(session)
    - con = cx_Oracle.connect('scott', 'oracle', 'db')

  4. sql 수행(select, dml)
    - cursor = con.ursor()
    - cursor.excute("select * from emp")

  5. select의 결과 처리
    - datas = cursor.fetchall() - 리스트 반환
    - print(type(datas))
    - print(datas)
    - data_df = pd.DataFrame(datas)

  6. connection close
    - cursor.close()
    - con.close()