ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • sklearn basic 01
    데이터분석 2019. 10. 10. 20:25

    sklearn의 기초 사용법에 대해 학습합니다. 

    01. 데이터 나누기

    from sklearn.model_selection import train_test_split
    
    # Train / Validation Split을 손쉽게 수행
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=1, stratify=y
    )
    
    # 결과 확인
    print(np.bincount(y))
    print(np.bincount(y_train))
    print(np.bincount(y_test))

    02. 단위 표준화 (Scaling)

    # scaler를 생성하고, 학습데이터로 학습
    from sklearn.preprocessing import StandardScaler
    SS = StandardScaler()
    SS.fit(X_train)
    
    # 학습된 scaler를 각 데이터에 적용
    X_train_s = SS.transform(X_train)
    X_test_s = SS.transform(X_test)

    03. 단순 Perceptron 모형 학습

    # 모형 학습
    from sklearn.linear_model import Perceptron
    ppn = Perceptron(max_iter=10, eta0=0.001, tol=1e-4, random_state=1)
    ppn.fit(X_train_s, y_train)
    
    # 오분류율 확인 (= 1- Accuracy)
    (y_test != y_pred).sum()/len(y_test)
    
    # 정확도 확인
    from sklearn.metrics import accuracy_score
    accuracy_score(y_test, y_pred)
    
    # 검증 및 확인을 동시에!
    ppn.score(X_test_s, y_test)

    04. Logistic Regression 모형 학습

    # 로지스틱 회귀 생성
    from sklearn.linear_model import LogisticRegression
    LR = LogisticRegression(solver='lbfgs')
    LR.fit(X_train_s, y_train)
    
    # 결과 검증
    LR.score(X_test_s, y_test)
    
    # 각 관측치의 Target 확률
    LR.predict_proba(X_test_s)

     

    [위 내용은 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로(길벗) 내용을 읽고, 따로 정리한 것입니다.]

    댓글

Designed by Tistory.