본문 바로가기
Journal

빅데이터 분석가 양성과정 15일차

by statsbymin 2022. 7. 21.

15일 차 과정이 끝났다.

 

하루 종일 크롤링에 대해 설명을 듣고 연습해 보았는데 HTML과 CSS의 기초적인 느낌을 알 수 있어 유익했다. 빅데이터 분석가와는 관련 없이 웹 업무자만 HTML/CSS를 다루는 줄 알았는데 이번 기회에 크롤링을 위해 이런 지식이 어느 정도 필요하다는 것을 알았다. 또한 Submile Text 3라는 프로그램을 다운로드하여 가독성 좋게 HTML 파일을 생성하고 편집해 볼 수 있었다. 

 

  • 1) requests 라이브러리를 활용한 HTML 페이지 요청
    1_1) 객체에 HTML데이터가 저장되고, 객체.content로 데이터 추출 가능
  • 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱 방법) 
    2-1) BeautifulSoup 파싱
  • 3) 필요한 데이터 검색
  • 4) 필요한 데이터 추출

순으로 크롤링에 대한 순서를 이해하면 코드의 경우 그때그때 구글링을 통해 필요한 부분을 찾으면 좋을 것 같다.

마지막으로 연습 내용을 바탕으로 네이버 주식, 특정 블로그에서 상품에 대한설명 등을 크롤링해보는 실습을 진행하고 수업이 마무리되었다.

 

오늘도 이어서 좀 더 심화된 연습을 할 예정인 듯 하다. 어젯밤에 따로 멘토링 수업을 진행했다 보니 눈이 많이 충혈되고 피곤했는데 자는 동안 침대 옆 창문에서 물이 조금씩 새 잠을 거의 설쳤다. 쉬는 시간, 점심시간 동안 스마트폰을 사용하지 말고 계속 눈을 쉬게 해 줘야겠다.