본문 바로가기

ML&DATA/python for data analysis12

pandas - (기술 통계 계산) 5.3 기술 통계 계산과 요약 pandas 객체의 수학,통계 메서드 대부분은 하나의 Series나 DataFrame의 로우나 컬럼에서 단일 값(합,평균 등)을 구하는 축소(reduction)혹은 요약 통계(summary statistics)에 속한다. 계산 시 NaN데이터를 제외하도록 설계됨 df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two']) DataFrame의 sum 메서드를 호출하면 각 로우의 합을 담은 Series를 반환한다. axis=1을 넘기면 각 컬럼의 합을 반환한다. df.sum() #one 9.25 #two .. 2020. 7. 21.
pandas - (재색인, 중복 색인 등 핵심 기능) 5.2 핵심 기능 Series와 DataFrame을 다루는 기본적인 방법 설명 5.2.1 재색인 reindex: 새로운 색인에 맞도록 정렬된 객체를 새로 생성한다. 존재하지 않은 색인값이 있으면 NaN추가한다. obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c']) obj #out: #d 4.5 #b 7.2 #a -5.3 #c 3.6 #dtype: float64 obj2 = obj.reindex(['a','b','c','d','e']) #obj 자체는 바뀌지 않는다. obj2 #out: #a -5.3 #b 7.2 #c 3.6 #d 4.5 #e NaN #dtype: float64 reindex의 method 옵션에 'ffill'을 넣어주면.. 2020. 7. 20.
pandas - (Series, DataFrame, Index) 5.1 pandas 자료구조 5.1.1 Series series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조. index(색인) 이라고 하는 배열의 데이터와 연관된 이름을 갖고 있음. 고정길이의 정렬된 사전형이라고 생각할 수 있다. 연산은 numpy연산처럼 적용된다. values속성으로 Series의 배열을 얻을 수 있고, index속성으로 인덱스 객체를 얻을 수 있다. 배열 혹은 사전으로부터 생성될 수 있다. ex) 사전으로 Series 생성 후 index만 바꾸는 예제 California 인덱스를 추가했는데 해당 값이 없으므로 Not a Number값 받음. 누락된 데이터를 의미함. sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'U.. 2020. 7. 19.
numpy 기본 : 배열과 벡터 연산 4. 서론 과학 계산을 위한 대부분의 패키지는 numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨. 내부적으로 c로 작성되어 오버헤드 없이 메모리 직접 조작 가능. 4.1 ndarray: 다차원 배열 객체 4.1.1 ndarray 생성 리스트로 생성 data = [[1,2,3],[4,5,6]] arr = np.array(data) arr #out: #arry([[1,2,3], [4,5,6]]) np.zeros(), np.ones(): 특정 값으로 채워진 ndarray 생성 np.empty() : zeros나 ones처럼 ndarray를 생성하지만 특정 값을 초기화하진 않는다. (출력해보면 0. 나옴) np.random.randn().. 2020. 7. 19.