본문 바로가기

분류 전체보기84

빅데이터 분석가 양성과정 35일차 어제부터 새로운 미니 프로젝트를 시작했다. 주제는 이번 주 배운 내용을 활용하여 원하는 데이터를 가지고 plotly를 활용해 EDA를 진행해 보는 것인데 kaggle, UCI Machine Learning Repository 등 여러 사이트의 많은 데이터 중 어떤 데이터를 선택할지 고민이 많았다. dacon 사이트의 데이콘 Basic 여행 상품 신청 여부 예측 경진대회 데이터셋을 선택했는데, 명확하게 원하는 데이터가 없을 경우 지금 진행 중인 대회의 데이터를 다뤄보는 것이 의미가 있을 것이라 생각되었기 때문이다. https://dacon.io/ 데이터사이언티스트 AI 컴피티션 6만 AI팀이 협업하는 인공지능 플랫폼 dacon.io 우선 미니프로젝트 시각화가 목적이므로 각 변수들을 파악해본 후 스스로 궁금.. 2022. 8. 19.
빅데이터 분석가 양성과정 34일차 지난 수업에 이어 kaggle의 Brazilian E-Commerce Dataset을 활용해 4, 5, 6 번째 EDA(탐색적 데이터 분석)를 진행했다. https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?resource=download Brazilian E-Commerce Public Dataset by Olist 100,000 Orders with product, customer and reviews info www.kaggle.com 4 번째 EDA는 시간(년, 월, 요일, 일, 시, 분 단위 까지)별 iplot을 활용한 barplot을 통해 각 시간대 종류별로 거래건수 파악과 요일, 시간을 활용해 heatmap으로 나타내 보기도 했다. 히트맵.. 2022. 8. 18.
빅데이터 분석가 양성과정 33일차 캐글에 있는 브라질 olist 이커머스 데이터셋을 활용해 pandas를 활용한 데이터 전처리, plotly를 활용한 데이터 시각화 위주로 하루를 보냈다. https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce Brazilian E-Commerce Public Dataset by Olist 100,000 Orders with product, customer and reviews info www.kaggle.com 데이터를 파악해보고 EDA를 위해 탐색하고자 하는 질문들을 설정하고 시각화를 통해 정보들을 도출하였다. ( 고객은 주로 어떤 지불방법을 사용할까?, 날짜(월, 주, 일) 별 판매 트렌드는? 등) 위 그래프는 월별 매출액을 시각화한 것으로 2017.. 2022. 8. 17.
[데이터 분석가 현직자 직무멘토링] 3차 8월 15일 3번째 직무멘토링을 진행하였다. 이번 시간에는 태블로(Tableau)를 설치하고 실습을 위주로 진행되었다. 우선 태블로는 기본적으로 유료이며 무료로 사용할 수 있는 방법은 무료 평가판(14일)을 이용하거나 대학생일 경우 학생라이센스 발급으로 1년간 무료 사용이 가능하다. 설치가 완료되고 프로그램을 실행해보면 왼쪽 연결 부분에 슈퍼스토어 - 샘플 데이터가 있는데 태블로에서 기본 제공하기 때문에 워크시트 및 대시보드를 처음 작성할 때 연습으로 많이 사용된다. 이번 시간에도 슈퍼스토어 샘플을 이용해 간단한 대시보드 작성을 체험해 보았다. 시각화의 최종 목표인 대시보드 작성을 위해서는 우선 워크시트에서 개별로 그래프를 그려준 후 새 대시보드 작성에서 작업한 시트들을 원하는 위치 및 디자인으로 결합해.. 2022. 8. 16.