본문 바로가기

분류 전체보기327

3 - 다중분류 3.4 다중분류 다중분류는 여러 개의 클래스를 분류하는 것을 의미한다. SGD, randomforest, naive bayes 등의 분류기는 다중 분류가 가능하지만 로지스틱 회귀나 서포트 벡터 머신 분류기같은 알고리즘은 이진 분류만 가능하다. 여러 개의 이진 분류기를 사용해서 다중분류를 구현할 수도 있다. OvR(OvA) : one-versus-the rest, 클래스마다 이진 분류기를 만들어서 가장 높은 결정점수를 낸 클래스를 선택 OvO : one-versus-one, 모든 가능한 두 개의 클래스 조합($\frac{n(n-1)}{2}$)에 대해 이진 분류기를 만듦. 가장 많이 양성으로 분류된 클래스 선택 OvR : 대부분의 이진 분류 알고리즘이 선호함 OvO : SVM같은 일부 알고리즘은 훈련 세트의.. 2020. 8. 27.
2020 하계 삼성SDS 대학생 알고리즘 특강, pro 시험 후기 겨울방학때 신청했었지만 선정되지 않았다. 이번 여름방학엔 코로나때문에 안하지 않을까 하고 생각하고 있었는데 공고가 올라왔다. 감사하게도 교육생으로 선정돼서 2주간 온라인으로 교육을 듣게 됐다. 지원서엔 재학중인 학교, 학점, 삼성 역량테스트 취득여부 , 백준 아이디 등을 기록하게 돼 있다. 선정 기준이 무엇인지는 알 수 없으나 백준사이트 내의 교육 그룹원들의 제출이력을 봤을 때 A형 취득 여부가 필수사항은 아닌것 같았다. 2주간 개략적으로 기초/자료구조/수학/그래프/dp 순서대로 교육이 진행된다. 다루는 알고리즘의 범위가 굉장히 넓다고 느꼈다. 넓은 범위를 앞에서부터 쭉 훑으며 공부하니 복습도 되고 잘못 알고있던 개념도 바로잡을 수 있었던 좋은 시간이 됐다. 강사님들께서 최대한 입문자의 시각에서 설명해 .. 2020. 8. 26.
3 - 분류기의 성능 측정 분류기(classifier)의 성능을 측정하기 위해 정확도측정, 오차행렬조사, 정밀도와 재현율측정, ROC 곡선 조사 등을 할 수 있다. https://velog.io/@skyepodium/K-Fold-%EA%B5%90%EC%B0%A8%EA%B2%80%EC%A6%9D (참고 블로그) mnist 손글씨 데이터셋에 대해 SGD분류기(확률적 경사 하강법 분류기)의 성능을 측정해보자. 데이터 가져오기 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784',version=1) mnist.keys() # dict_keys(['data', 'target', 'feature_names', 'DESCR', 'details', 'categori.. 2020. 8. 25.
셀프주유소는 정말 저렴할까 서울시 주유소들의 휘발유 가격을 보고 셀프주유소가 셀프가 아닌 주유소보다 저렴한지 확인 opinet.co.kr의 싼 주유소 찾기 탭의 '지역별' 화면에서 지역을 구까지 선택한 후 엑셀저장을 해당 구의 등록된 주유소들의 주소와 상호, 기름종류별 가격, 셀프 여부 등이 엑셀로 저장된다. 25개 구에 대해 모두 엑셀 저장을 일일히 하기엔 시간이 오래 걸린다. selenium으로 자동으로 아이템박스에 구를 선택하고 엑셀저장 버튼을 누르도록 하려고 한다. 조회 버튼의 xpath는 """//*[@id="searRgSelect"]""" 이고 엑셀저장 버튼의 xpath는 """//*[@id="glopopd_excel"]"""이다. gu_names는 직접 만들어도 되고, selenium으로 만들어도 된다. 시군구 선택박.. 2020. 8. 14.