-
sklearn basic 01데이터분석 2019. 10. 10. 20:25
sklearn의 기초 사용법에 대해 학습합니다.
01. 데이터 나누기
from sklearn.model_selection import train_test_split # Train / Validation Split을 손쉽게 수행 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=1, stratify=y ) # 결과 확인 print(np.bincount(y)) print(np.bincount(y_train)) print(np.bincount(y_test))
02. 단위 표준화 (Scaling)
# scaler를 생성하고, 학습데이터로 학습 from sklearn.preprocessing import StandardScaler SS = StandardScaler() SS.fit(X_train) # 학습된 scaler를 각 데이터에 적용 X_train_s = SS.transform(X_train) X_test_s = SS.transform(X_test)
03. 단순 Perceptron 모형 학습
# 모형 학습 from sklearn.linear_model import Perceptron ppn = Perceptron(max_iter=10, eta0=0.001, tol=1e-4, random_state=1) ppn.fit(X_train_s, y_train) # 오분류율 확인 (= 1- Accuracy) (y_test != y_pred).sum()/len(y_test) # 정확도 확인 from sklearn.metrics import accuracy_score accuracy_score(y_test, y_pred) # 검증 및 확인을 동시에! ppn.score(X_test_s, y_test)
04. Logistic Regression 모형 학습
# 로지스틱 회귀 생성 from sklearn.linear_model import LogisticRegression LR = LogisticRegression(solver='lbfgs') LR.fit(X_train_s, y_train) # 결과 검증 LR.score(X_test_s, y_test) # 각 관측치의 Target 확률 LR.predict_proba(X_test_s)
[위 내용은 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로(길벗) 내용을 읽고, 따로 정리한 것입니다.]
'데이터분석' 카테고리의 다른 글
sklearn, numpy를 활용한 데이터 차원축소 (374) 2019.10.15 sklearn, pandas, numpy를 활용한 데이터 전처리 (0) 2019.10.14 pandas groupby 활용하기 (1) 2019.10.10 pandas 테이블 양식 수정하기 (0) 2019.10.10 pandas basic 03 (0) 2019.10.10