pandas - (기술 통계 계산)
5.3 기술 통계 계산과 요약 pandas 객체의 수학,통계 메서드 대부분은 하나의 Series나 DataFrame의 로우나 컬럼에서 단일 값(합,평균 등)을 구하는 축소(reduction)혹은 요약 통계(summary statistics)에 속한다. 계산 시 NaN데이터를 제외하도록 설계됨 df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two']) DataFrame의 sum 메서드를 호출하면 각 로우의 합을 담은 Series를 반환한다. axis=1을 넘기면 각 컬럼의 합을 반환한다. df.sum() #one 9.25 #two ..
2020. 7. 21.
pandas - (재색인, 중복 색인 등 핵심 기능)
5.2 핵심 기능 Series와 DataFrame을 다루는 기본적인 방법 설명 5.2.1 재색인 reindex: 새로운 색인에 맞도록 정렬된 객체를 새로 생성한다. 존재하지 않은 색인값이 있으면 NaN추가한다. obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c']) obj #out: #d 4.5 #b 7.2 #a -5.3 #c 3.6 #dtype: float64 obj2 = obj.reindex(['a','b','c','d','e']) #obj 자체는 바뀌지 않는다. obj2 #out: #a -5.3 #b 7.2 #c 3.6 #d 4.5 #e NaN #dtype: float64 reindex의 method 옵션에 'ffill'을 넣어주면..
2020. 7. 20.
numpy 기본 : 배열과 벡터 연산
4. 서론 과학 계산을 위한 대부분의 패키지는 numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨. 내부적으로 c로 작성되어 오버헤드 없이 메모리 직접 조작 가능. 4.1 ndarray: 다차원 배열 객체 4.1.1 ndarray 생성 리스트로 생성 data = [[1,2,3],[4,5,6]] arr = np.array(data) arr #out: #arry([[1,2,3], [4,5,6]]) np.zeros(), np.ones(): 특정 값으로 채워진 ndarray 생성 np.empty() : zeros나 ones처럼 ndarray를 생성하지만 특정 값을 초기화하진 않는다. (출력해보면 0. 나옴) np.random.randn()..
2020. 7. 19.