본문 바로가기

ML&DATA/data4

Selenium https://beomi.github.io/2017/02/27/HowToMakeWebCrawler-With-Selenium/ 위 블로그 참고했음을 밝힙니다. beautifulsoup처럼 웹에 있는 데이터를 가져올 때 사용한다. 하지만 beautifulsoup와는 다르게, 크롬 등의 브라우저를 직접 제어할 수 있다. 브라우저를 직접 제어할 수 있기 때문에, js등으로 뒤늦게 들어오는 컨텐츠들도 가져올 수 있다. 즉, 눈에 보이는 모든 데이터를 가져올 수 있다. 사용하고자하는 브라우저의 드라이버를 다운받아 사용해야 한다. *get 크롬드라이버를 가져와서 get 메서드로 해당 페이지를 열 수 있다. from selenium import webdriver driver = webdriver.Chrome('../d.. 2020. 8. 12.
BeautifulSoup BeautifulSoup는 인터넷에서 웹 페이지의 내용을 가져오는 모듈이다. html 파일에서 원하는 내용을 어떻게 가져올 수 있는지 알아보자. 추가 from bs4 import BeautifulSoup 예제에 사용할 test_first.html파일의 내용 Happy PinkWink. PinkWink Happy Data Science. Python Data Science is funny. All I need is Love. *prettify html파일을 잘 정리해서 문자열로 만들어준다. html을 그냥 파이썬 내장 open함수로 읽으면 문자열 타입으로 읽어온다. page = open("../data/03. test_first.html",'r').read() page #out: #'\n\n \n \n \.. 2020. 8. 8.
folium 지도 시각화 도구 *Map 위도와 경도정보로 지도를 가져온다. 여러 옵션을 지정해줄 수 있다. 지도를 가져오고 그 상태에서 원하는 좌표(위도,경도)에 Marker명령으로 마커를 찍을 수 있다. CircleMarker 명령으론 반경과 색상을 지정하면 원을 그려준다. 미국의 2012년도 state별 실업률을 지도에 시각화하는 예제 json 파일엔 state별 고유 ID, 주 이름, state의 좌표 등의 정보가 있다. 또한 state마다 지도상 경계선의 좌표가 일일이 저장되어있어서 그 선을 따라 그리면 주 경계선이 된다. (choropleth는 지역도라는 뜻) state_geo = '../data/02. folium_us-states.json' map = folium.Map(location=[40,-98],.. 2020. 7. 30.
seaborn * heatmap 경향을 확인하는데 좋다. 연도별, 월별, 승객수 데이터를 읽어서 연도별로 어떤 시기에 승객이 많아지는 경향이 있는지 시각화 모든 연도를 통들어 6~8월의 승객이 가장 많음을 알 수 있다. *pairplot 특성들간의 산포도를 보여준다. diag는 도수분포에 대한 막대그래프나 밀도그래프를 선택할 수 있다. 아이리스 꽃의 꽃잎의 너비와 폭, 꽃받침의 너비와 폭을 가지고 그 종을 구분하는 유명한 예시가 있다. 네가지 특성의 서로간의 산포도를 그려보면 다음과 같다. hue 옵션으로 범례를 추가할 수 있다. insight를 얻기 좋은 것 같다. 예를 들어 setosa(파랑)은 꽃잎(petal)의 길이와 너비가 작고 꽃받침의 너비가 증가할때 꽃잎의 길이와 너비가 증가하는 경향이 다른 두 종류보다 .. 2020. 7. 30.