본문 바로가기

ML&DATA/python for data analysis12

그래프의 시각화 - (matplotlib, pandas, seaborn) 정보시각화는 특이값을 찾아내거나, 데이터 변형이 필요한지 알아보거나, 모델에 대한 아이디어를 찾기 위한 과정의 일부이다. matplotlib은 출판물 수준의 그래프를 만들어내도록 설계되었다. 모든 운영체제의 다양한 GUI 백엔드를 지원하고 있으며 PDF, SVG, JPG, PNG, BMP, GIF 등 널리 사용되는 벡터 포맷과 래스터 포맷으로 그래프를 저장할 수 있다. 최근엔 내부적으로 matplotlib을 사용하는 데이터 시각화 도구들이 생겼다. 그 중 하나가 seaborn 라이브러리다. matplotlib의 대화형 시각화기능을 사용하려면 %matplotlib notebook 명령어를 입력해야 한다. 9.1 matplotlib API 간략하게 살펴보기 seaborn, pandas로 데이터 시각화를 수행.. 2020. 7. 28.
pandas - (데이터 준비하기: 조인, 병합, 변형) 8.1 계층적 색인 축에 대해 다중 색인 단계를 지정할 수 있다. 높은 차원의 데이터를 낮은 차원의 형식으로 다룰 수 있도록 하는 기능이다. MultiIndex를 색인으로 하는 Series 예 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인(partial indexing)으로 접근하는 것이 가능하다 iloc사용과 헷갈리면 안된다. Series객체인 data에 unstack메서드를 사용해서 데이터를 DataFrame타입으로 새롭게 배열할 수 있다. unstack의 반대작업은 stack메서드로 수행한다. DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있다. 계층적 색인의 각 단계는 이름을 가질 수 있다. 8.1.1 계층의 순서를 바꾸고 정렬하기 Series, DataFrame의 swap.. 2020. 7. 24.
pandas - (데이터 정제 및 준비) 7.1 누락된 데이터 처리하기 pandas객체의 모든 기술통계는 누락된 데이터를 배제하고 처리한다. 산술 데이터에 한해서 pandas는 누락된 데이터를 실숫값인 NaN으로 취급한다. 이는 누락된 값을 쉽게 찾을 수 있도록 도와준다. 7.1.1 누락된 데이터 골라내기 누락된 데이터를 골라내기 위해 pandas.isnull이나 불리언 색인을 사용해서 직접 골라낼 수 있다. Series의 dropna 메서드는 널이 아닌 데이터와 색인값만 들어있는 객체를 반환. DataFrame의 dropna는 기본적으로 NA값을 하나이상 포함한 로우를 모두 제외시킨다. how 옵션에 'all'을 넘기면 모든 값이 NA인 로우만 제외시킨다. 컬럼을 제외시키려면 옵션으로 axis=1을 넘겨주면 된다. DataFrame의 로우를 .. 2020. 7. 22.
pandas - (데이터 로딩과 저장, 파일 형식) 6.1 텍스트 파일에서 데이터를 읽고 쓰기 보통 read_csv, read_table을 많이 쓴다. 텍스트 데이터를 DataFrame으로 읽어올 때 아래와 같은 옵션들을 설정할 수 있다. 1) 색인: 반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다. (지정안해도됨) 2) 자료형 추론과 데이터 변환: 사용자 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함한다. 3) 날짜 분석: 여러 컬럼에 걸쳐있는 날짜와 시간 정보를 하나의 컬럼에 조합한다. 4) 반복: 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다. 5) 정제되지 않은 데이터 처리: 로우나 꼬릿말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자같은 사소한 것들의 처리 이외에도 read_csv의 경.. 2020. 7. 21.