<목표>
서울시 주유소들의 휘발유 가격을 보고 셀프주유소가 셀프가 아닌 주유소보다 저렴한지 확인
<데이터 가져오기>
opinet.co.kr의 싼 주유소 찾기 탭의 '지역별' 화면에서
지역을 구까지 선택한 후 엑셀저장을 해당 구의 등록된 주유소들의 주소와 상호, 기름종류별 가격, 셀프 여부 등이 엑셀로 저장된다.
25개 구에 대해 모두 엑셀 저장을 일일히 하기엔 시간이 오래 걸린다. selenium으로 자동으로 아이템박스에 구를 선택하고 엑셀저장 버튼을 누르도록 하려고 한다.
조회 버튼의 xpath는 """//*[@id="searRgSelect"]""" 이고 엑셀저장 버튼의 xpath는 """//*[@id="glopopd_excel"]"""이다.
gu_names는 직접 만들어도 되고, selenium으로 만들어도 된다.
시군구 선택박스에 해당하는 xpath로 element를 우선 받고 그 element에서 다시 option태그를 선택해서 gu_list를 만들 수 있다.
<데이터 정리하기>
파일 경로를 쉽게 접근할 수 있게 해주는 glob을 사용
각각의 파일경로에서 데이터프레임을 만들어 하나씩 붙여나가 하나의 DataFrame을 만든다.
원하는 컬럼만 선택하고, 구 컬럼을 추가한다.
가격정보가 없는경우 - 표시돼있다. 모두 삭제한다.
가격을 실수형으로 바꿔주고 인덱스를 정리해준다.
<시각화, 결론>
셀프인지 아닌지에 따라 boxplot
상표별, 셀프여부별 가격 boxplot
셀프주유소가 일반주유소바다 싸다고 할 수 있다. 상표별로 가격차이가 거의 없다.
sk에너지가 비싼편이다.
'ML&DATA > 파이썬으로 데이터 주무르기' 카테고리의 다른 글
시계열 데이터 다루기 (0) | 2020.08.11 |
---|---|
영화별 날짜 변화에 따른 평점 변화 확인하기 (0) | 2020.08.11 |
네이버 영화 홈페이지에서 영화의 평점 변화 정리하기 (0) | 2020.08.11 |
시카고 샌드위치 맛집 분석 (0) | 2020.08.08 |
서울시 구별 CCTV 현황 분석 (0) | 2020.07.29 |