본문 바로가기
ML&DATA/파이썬으로 데이터 주무르기

셀프주유소는 정말 저렴할까

by sun__ 2020. 8. 14.

<목표>

서울시 주유소들의 휘발유 가격을 보고 셀프주유소가 셀프가 아닌 주유소보다 저렴한지 확인

 


<데이터 가져오기>

opinet.co.kr의 싼 주유소 찾기 탭의 '지역별' 화면에서

지역을 구까지 선택한 후 엑셀저장을 해당 구의 등록된 주유소들의 주소와 상호, 기름종류별 가격, 셀프 여부 등이 엑셀로 저장된다.

 

25개 구에 대해 모두 엑셀 저장을 일일히 하기엔 시간이 오래 걸린다. selenium으로 자동으로 아이템박스에 구를 선택하고 엑셀저장 버튼을 누르도록 하려고 한다.

 

 

조회 버튼의 xpath는 """//*[@id="searRgSelect"]""" 이고 엑셀저장 버튼의 xpath는 """//*[@id="glopopd_excel"]"""이다.

저장된 엑셀 파일

 

gu_names는 직접 만들어도 되고, selenium으로 만들어도 된다.

시군구 선택박스에 해당하는 xpath로 element를 우선 받고 그 element에서 다시 option태그를 선택해서 gu_list를 만들 수 있다. 

 

 


<데이터 정리하기>

파일 경로를 쉽게 접근할 수 있게 해주는 glob을 사용

 

각각의 파일경로에서 데이터프레임을 만들어 하나씩 붙여나가 하나의 DataFrame을 만든다.

원하는 컬럼만 선택하고, 구 컬럼을 추가한다.

 

가격정보가 없는경우 - 표시돼있다. 모두 삭제한다.

 

가격을 실수형으로 바꿔주고 인덱스를 정리해준다.

 


<시각화, 결론>

셀프인지 아닌지에 따라 boxplot

상표별, 셀프여부별 가격 boxplot

 

셀프주유소가 일반주유소바다 싸다고 할 수 있다. 상표별로 가격차이가 거의 없다.

sk에너지가 비싼편이다.