본문 바로가기

ML&DATA53

pandas - (Series, DataFrame, Index) 5.1 pandas 자료구조 5.1.1 Series series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조. index(색인) 이라고 하는 배열의 데이터와 연관된 이름을 갖고 있음. 고정길이의 정렬된 사전형이라고 생각할 수 있다. 연산은 numpy연산처럼 적용된다. values속성으로 Series의 배열을 얻을 수 있고, index속성으로 인덱스 객체를 얻을 수 있다. 배열 혹은 사전으로부터 생성될 수 있다. ex) 사전으로 Series 생성 후 index만 바꾸는 예제 California 인덱스를 추가했는데 해당 값이 없으므로 Not a Number값 받음. 누락된 데이터를 의미함. sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'U.. 2020. 7. 19.
numpy 기본 : 배열과 벡터 연산 4. 서론 과학 계산을 위한 대부분의 패키지는 numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨. 내부적으로 c로 작성되어 오버헤드 없이 메모리 직접 조작 가능. 4.1 ndarray: 다차원 배열 객체 4.1.1 ndarray 생성 리스트로 생성 data = [[1,2,3],[4,5,6]] arr = np.array(data) arr #out: #arry([[1,2,3], [4,5,6]]) np.zeros(), np.ones(): 특정 값으로 채워진 ndarray 생성 np.empty() : zeros나 ones처럼 ndarray를 생성하지만 특정 값을 초기화하진 않는다. (출력해보면 0. 나옴) np.random.randn().. 2020. 7. 19.
파이썬 - (함수, 예외처리, 파일, os) **함수 global 예약어로 어떤 변수를 전역변수로 사용 가능. 변수의 스코프를 다른 말로 네임스페이스namespace라고 함. **람다 익명함수라고도 함. ex)문자열이 다양한 순서대로 정렬 strings = ['foo', 'card', 'bar', 'aaaa', 'abab'] strings.sort(key = lambda x : len(set(list(x)))) strings #out: ['aaaa', 'foo', 'abab', 'bar', 'card'] ex) 숫자 배열 내림차순 정렬 a = [1,3,2,6,4,5,2] a.sort(key = lambda x: -x) a #out: [6, 5, 4, 3, 2, 2, 1] **제너레이터 제너레이터란 순회 가능한 객체. 제너레이터를 생성하려면 함수에서.. 2020. 7. 18.
파이썬 - (내장 자료구조, 리스트 표기법) **튜플 모든 순차 자료형이나 이터레이터는 tuple 메서드를 통해 튜플로 변환할 수 있다. tuple([4,0,2])#out: (4,0,2) tup = tuple('string') #out: ('s', 't', 'r', 'i', 'n', 'g') 튜블에 저장된 객체 자체는 변경이 가능하지만, 한 번 생성되면 각 슬롯에 저장된 객체를 변경할 수는 없다. tup = tuple(['foo', [1,2], True]) tup[1].append(3) #out: ('foo', [1,2,3], True) tup[2] = False #error! +연산으론 concat를, *연산으론 복사본을 반복해서 늘일 수 있다. (1,2) + (3) #out: (1,2,3) (1,2)*2#out: (1,2,1,2) 튜플의 처음 .. 2020. 7. 18.