본문 바로가기

ML&DATA53

seaborn * heatmap 경향을 확인하는데 좋다. 연도별, 월별, 승객수 데이터를 읽어서 연도별로 어떤 시기에 승객이 많아지는 경향이 있는지 시각화 모든 연도를 통들어 6~8월의 승객이 가장 많음을 알 수 있다. *pairplot 특성들간의 산포도를 보여준다. diag는 도수분포에 대한 막대그래프나 밀도그래프를 선택할 수 있다. 아이리스 꽃의 꽃잎의 너비와 폭, 꽃받침의 너비와 폭을 가지고 그 종을 구분하는 유명한 예시가 있다. 네가지 특성의 서로간의 산포도를 그려보면 다음과 같다. hue 옵션으로 범례를 추가할 수 있다. insight를 얻기 좋은 것 같다. 예를 들어 setosa(파랑)은 꽃잎(petal)의 길이와 너비가 작고 꽃받침의 너비가 증가할때 꽃잎의 길이와 너비가 증가하는 경향이 다른 두 종류보다 .. 2020. 7. 30.
서울시 구별 CCTV 현황 분석 책에서 소개한 형식과 약간 다르다. 엑셀/탭으로 구분된 txt파일 2016년도까지의 데이터 기준. 인구수는 2020년 기준이다. 구별 인구수가 2016년도와 2020년도가 비슷하다고 가정하고 진행하겠음. ㅁ 서울시 구별 CCTV 개수 현황을 분석하여 어떤 구에 더 CCTV를 설치해야 하는지 결정. 1) 구별 CCTV 개수와 가장 큰 상관이 있어 보이는 특성 찾기. 2) 해당 특성과 CCTV 개수가 관련이있는지 시각화. 3) 관련이 있다면, CCTV 개수가 그 경향보다 많이설치됐는지 적게 설치됐는지 판단, 시각화 우선 구별/연도별 CCTV 현황을 읽어서 CCTV_Seoul DataFrame객체에 넣어둔다. 소계는 전체 CCTV수를 의미한다. '기관명' 컬럼이름을 '구별'로 바꿔준다 책에서 2016년도까지의.. 2020. 7. 29.
그래프의 시각화 - (matplotlib, pandas, seaborn) 정보시각화는 특이값을 찾아내거나, 데이터 변형이 필요한지 알아보거나, 모델에 대한 아이디어를 찾기 위한 과정의 일부이다. matplotlib은 출판물 수준의 그래프를 만들어내도록 설계되었다. 모든 운영체제의 다양한 GUI 백엔드를 지원하고 있으며 PDF, SVG, JPG, PNG, BMP, GIF 등 널리 사용되는 벡터 포맷과 래스터 포맷으로 그래프를 저장할 수 있다. 최근엔 내부적으로 matplotlib을 사용하는 데이터 시각화 도구들이 생겼다. 그 중 하나가 seaborn 라이브러리다. matplotlib의 대화형 시각화기능을 사용하려면 %matplotlib notebook 명령어를 입력해야 한다. 9.1 matplotlib API 간략하게 살펴보기 seaborn, pandas로 데이터 시각화를 수행.. 2020. 7. 28.
pandas - (데이터 준비하기: 조인, 병합, 변형) 8.1 계층적 색인 축에 대해 다중 색인 단계를 지정할 수 있다. 높은 차원의 데이터를 낮은 차원의 형식으로 다룰 수 있도록 하는 기능이다. MultiIndex를 색인으로 하는 Series 예 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인(partial indexing)으로 접근하는 것이 가능하다 iloc사용과 헷갈리면 안된다. Series객체인 data에 unstack메서드를 사용해서 데이터를 DataFrame타입으로 새롭게 배열할 수 있다. unstack의 반대작업은 stack메서드로 수행한다. DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있다. 계층적 색인의 각 단계는 이름을 가질 수 있다. 8.1.1 계층의 순서를 바꾸고 정렬하기 Series, DataFrame의 swap.. 2020. 7. 24.