본문 바로가기

ML&DATA/ML5

sklearn - impute 결측치를 처리하기 위한 모듈. fit, transform 메서드 포함 strategy : mean, median. most_frequent, constant fill_value : strategy=constant인 경우 채워넣을 값 from sklearn.impute import SimpleImputer imputer = SimpleImputer(strategy= 'median') statistics_속성에 채워넣을 값을 저장함 imputer.statistics_ #array([-118.51, 34.26, 29., 2119.5, 433., 1164., 408., 3.5409]) 2020. 10. 2.
sklearn - model_selection import os import tarfile import urllib.request import pandas as pd DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/" HOUSING_PATH = os.path.join("datasets", "housing") HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz" def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH): if not os.path.isdir(housing_path): os.makedirs(housing_path.. 2020. 10. 2.
sklearn - pipeline, compose blog.naver.com/gdpresent/221730873049 참고 파이프 라인(Pipe Line) [내가 공부한 머신러닝 #28.] GridSearchCV도 사용법을 이제 아니깐 드디어 pipe line에 대한 것을 고려해볼때가 왔다.바로 전에 그... blog.naver.com 1. sklearn.pipeline fit, transform 메서드가 있는 변환기를 순서를 고려해서 묶어둔 것 from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler num_pipeline = Pipeline([ ('imputer', SimpleImputer(strategy='median')), ('attribs_adde.. 2020. 9. 1.
sklearn - make_classification datascienceschool.net/view-notebook/ec26c797cec646e295d737c522733b15/ sklearn.datasets에 포함 make_classification함수는 설정에 따른 분류용 가상 데이터를 생성하는 명령이다. 인수: n_samples : 표본 데이터의 수, 디폴트 100 n_features : 독립 변수의 수, 디폴트 20 n_informative : 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수, 디폴트 2 n_redundant : 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 디폴트 2 n_repeated : 독립 변수 중 단순 중복된 성분의 수, 디폴트 0 n_classes : 종속 변수의 클래스 수, 디폴트 2 n_cl.. 2020. 9. 1.