본문 바로가기

ML&DATA/파이썬으로 데이터 주무르기6

셀프주유소는 정말 저렴할까 서울시 주유소들의 휘발유 가격을 보고 셀프주유소가 셀프가 아닌 주유소보다 저렴한지 확인 opinet.co.kr의 싼 주유소 찾기 탭의 '지역별' 화면에서 지역을 구까지 선택한 후 엑셀저장을 해당 구의 등록된 주유소들의 주소와 상호, 기름종류별 가격, 셀프 여부 등이 엑셀로 저장된다. 25개 구에 대해 모두 엑셀 저장을 일일히 하기엔 시간이 오래 걸린다. selenium으로 자동으로 아이템박스에 구를 선택하고 엑셀저장 버튼을 누르도록 하려고 한다. 조회 버튼의 xpath는 """//*[@id="searRgSelect"]""" 이고 엑셀저장 버튼의 xpath는 """//*[@id="glopopd_excel"]"""이다. gu_names는 직접 만들어도 되고, selenium으로 만들어도 된다. 시군구 선택박.. 2020. 8. 14.
시계열 데이터 다루기 시간의 흐름에 따라 변화하는 추이가 있는 데이터를 다루는 것을 시계열 분석이라고 한다. 이는 어렵고 복잡한 작업이다. 원 데이터의 안정성(stationary)를 판정하고, 안정한 형태로 변환하고, 예측모델을 선정하고 검증하는 과정이 통계학의 깊은 지식을 요구한다. 이 단원에선 어렵고 빡빡한 데이터 예측이 아닌 가볍고 쉬운 케이스만 예를 들어 준다. ㅁ목표 저자의 블로그의 트래픽의 경향을 분석한다. ㅁ본문 모듈 포함시키고 폰트 설정 import warnings warnings.filterwarnings("ignore") import pandas as pd import pandas_datareader.data as web import numpy as np import matplotlib.pyplot as p.. 2020. 8. 11.
영화별 날짜 변화에 따른 평점 변화 확인하기 이전 포스팅에 이어서.. 영화별 날짜 변화에 따른 평점 변화 확인 기존 movie DataFrame에서 pivot_table사용해서 인덱스를 date로, 컬럼을 영화제목으로, 내용을 평점으로 바꿔준다. pivot_table사용 컬럼이 너무 많아서 notebook에서 짤린다. 엑셀에서 보면 바르게 적혀있다. 컬럼명에 point를 없애준다. movie_pivot.columns = movie_pivot.columns.droplevel() movie_pivot.head() 패왕별희, 라라랜드, 1917, 강철비2의 날짜별 평점변화를 확인 재개봉영화인 위 패왕별희,라라랜드,1917의 경우 평점의 변화가 거의 없다. 2020. 8. 11.
네이버 영화 홈페이지에서 영화의 평점 변화 정리하기 https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date=20200501 위 사이트에서 2020년 5월 1일로부터 100일간의 영화별 기간별 평점을 정리한다. https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&tg=0&date=20200501 링크의 홈페이지는 date={date}로 날짜별로 구분되어 있다. 영화제목은 tit5 클래스 div태그의 내부의 a태그 안에 텍스트로 들어있다 평점은 point클래스 td태그에 텍스트로 들어있다. 홈페이지 주소를 urllib모듈의 urlopen으로 html문서를 page에 넣은 후에 beautifulsoup 객체에 html.parser와 함께 넣어준.. 2020. 8. 11.