본문 바로가기

전체 글327

pandas - (재색인, 중복 색인 등 핵심 기능) 5.2 핵심 기능 Series와 DataFrame을 다루는 기본적인 방법 설명 5.2.1 재색인 reindex: 새로운 색인에 맞도록 정렬된 객체를 새로 생성한다. 존재하지 않은 색인값이 있으면 NaN추가한다. obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c']) obj #out: #d 4.5 #b 7.2 #a -5.3 #c 3.6 #dtype: float64 obj2 = obj.reindex(['a','b','c','d','e']) #obj 자체는 바뀌지 않는다. obj2 #out: #a -5.3 #b 7.2 #c 3.6 #d 4.5 #e NaN #dtype: float64 reindex의 method 옵션에 'ffill'을 넣어주면.. 2020. 7. 20.
pandas - (Series, DataFrame, Index) 5.1 pandas 자료구조 5.1.1 Series series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조. index(색인) 이라고 하는 배열의 데이터와 연관된 이름을 갖고 있음. 고정길이의 정렬된 사전형이라고 생각할 수 있다. 연산은 numpy연산처럼 적용된다. values속성으로 Series의 배열을 얻을 수 있고, index속성으로 인덱스 객체를 얻을 수 있다. 배열 혹은 사전으로부터 생성될 수 있다. ex) 사전으로 Series 생성 후 index만 바꾸는 예제 California 인덱스를 추가했는데 해당 값이 없으므로 Not a Number값 받음. 누락된 데이터를 의미함. sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'U.. 2020. 7. 19.
numpy 기본 : 배열과 벡터 연산 4. 서론 과학 계산을 위한 대부분의 패키지는 numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨. 내부적으로 c로 작성되어 오버헤드 없이 메모리 직접 조작 가능. 4.1 ndarray: 다차원 배열 객체 4.1.1 ndarray 생성 리스트로 생성 data = [[1,2,3],[4,5,6]] arr = np.array(data) arr #out: #arry([[1,2,3], [4,5,6]]) np.zeros(), np.ones(): 특정 값으로 채워진 ndarray 생성 np.empty() : zeros나 ones처럼 ndarray를 생성하지만 특정 값을 초기화하진 않는다. (출력해보면 0. 나옴) np.random.randn().. 2020. 7. 19.
파이썬 - (함수, 예외처리, 파일, os) **함수 global 예약어로 어떤 변수를 전역변수로 사용 가능. 변수의 스코프를 다른 말로 네임스페이스namespace라고 함. **람다 익명함수라고도 함. ex)문자열이 다양한 순서대로 정렬 strings = ['foo', 'card', 'bar', 'aaaa', 'abab'] strings.sort(key = lambda x : len(set(list(x)))) strings #out: ['aaaa', 'foo', 'abab', 'bar', 'card'] ex) 숫자 배열 내림차순 정렬 a = [1,3,2,6,4,5,2] a.sort(key = lambda x: -x) a #out: [6, 5, 4, 3, 2, 2, 1] **제너레이터 제너레이터란 순회 가능한 객체. 제너레이터를 생성하려면 함수에서.. 2020. 7. 18.