본문 바로가기

ML&DATA53

셀프주유소는 정말 저렴할까 서울시 주유소들의 휘발유 가격을 보고 셀프주유소가 셀프가 아닌 주유소보다 저렴한지 확인 opinet.co.kr의 싼 주유소 찾기 탭의 '지역별' 화면에서 지역을 구까지 선택한 후 엑셀저장을 해당 구의 등록된 주유소들의 주소와 상호, 기름종류별 가격, 셀프 여부 등이 엑셀로 저장된다. 25개 구에 대해 모두 엑셀 저장을 일일히 하기엔 시간이 오래 걸린다. selenium으로 자동으로 아이템박스에 구를 선택하고 엑셀저장 버튼을 누르도록 하려고 한다. 조회 버튼의 xpath는 """//*[@id="searRgSelect"]""" 이고 엑셀저장 버튼의 xpath는 """//*[@id="glopopd_excel"]"""이다. gu_names는 직접 만들어도 되고, selenium으로 만들어도 된다. 시군구 선택박.. 2020. 8. 14.
Selenium https://beomi.github.io/2017/02/27/HowToMakeWebCrawler-With-Selenium/ 위 블로그 참고했음을 밝힙니다. beautifulsoup처럼 웹에 있는 데이터를 가져올 때 사용한다. 하지만 beautifulsoup와는 다르게, 크롬 등의 브라우저를 직접 제어할 수 있다. 브라우저를 직접 제어할 수 있기 때문에, js등으로 뒤늦게 들어오는 컨텐츠들도 가져올 수 있다. 즉, 눈에 보이는 모든 데이터를 가져올 수 있다. 사용하고자하는 브라우저의 드라이버를 다운받아 사용해야 한다. *get 크롬드라이버를 가져와서 get 메서드로 해당 페이지를 열 수 있다. from selenium import webdriver driver = webdriver.Chrome('../d.. 2020. 8. 12.
시계열 데이터 다루기 시간의 흐름에 따라 변화하는 추이가 있는 데이터를 다루는 것을 시계열 분석이라고 한다. 이는 어렵고 복잡한 작업이다. 원 데이터의 안정성(stationary)를 판정하고, 안정한 형태로 변환하고, 예측모델을 선정하고 검증하는 과정이 통계학의 깊은 지식을 요구한다. 이 단원에선 어렵고 빡빡한 데이터 예측이 아닌 가볍고 쉬운 케이스만 예를 들어 준다. ㅁ목표 저자의 블로그의 트래픽의 경향을 분석한다. ㅁ본문 모듈 포함시키고 폰트 설정 import warnings warnings.filterwarnings("ignore") import pandas as pd import pandas_datareader.data as web import numpy as np import matplotlib.pyplot as p.. 2020. 8. 11.
영화별 날짜 변화에 따른 평점 변화 확인하기 이전 포스팅에 이어서.. 영화별 날짜 변화에 따른 평점 변화 확인 기존 movie DataFrame에서 pivot_table사용해서 인덱스를 date로, 컬럼을 영화제목으로, 내용을 평점으로 바꿔준다. pivot_table사용 컬럼이 너무 많아서 notebook에서 짤린다. 엑셀에서 보면 바르게 적혀있다. 컬럼명에 point를 없애준다. movie_pivot.columns = movie_pivot.columns.droplevel() movie_pivot.head() 패왕별희, 라라랜드, 1917, 강철비2의 날짜별 평점변화를 확인 재개봉영화인 위 패왕별희,라라랜드,1917의 경우 평점의 변화가 거의 없다. 2020. 8. 11.