혼공머 3

05-2 교차 검증과 그리드 서치

이사님의 말 "이런 저런 값으로 모델을 많이 만들어서 테스트 세트로 평가하면 결국 테스트 세트에 잘 맞는 모델이 만들어지는 것 아닌가요?" 지금까지는 훈련세트와 테스트 세트만을 이용해서 모델을 평가 해왔다. 왜? 복잡하게 설명한느 것을 피하기 위해서.. 하지만 3개의 세트로 나눠서 모델을 훈련하는 게 바람직한 방법입니다. 즉 테스트 세트를 사용해 자꾸 성능을 확인하다보면 점점 테스트 세트에 맞추게 되는 것이다. 이제부터 올바르게 예측하려면? 모델을 만들고 나서 마지막에 딱 한번만 테스트 세트를 사용하는 것이 좋다. 그렇다면 max_depth매개변수를 사용한 하이퍼파라미터 튜닝을 어떻게 할 수 있을까? 검증세트를 사용하자~! ----- 검증세트 테스트 세트를 사용하지 않으면 모델이 과대적합인지 과소적합인지..

[혼자 공부하는 머신러닝+딥러닝] 11강 로지스틱 회귀로 와인 분류하기 & 결정 트리

레드와인과 화이트 와인 표시가 누락되었다. 캔에 인쇄된 알코올 도수, 당도, PH 값으로 와인 종류를 구별할 수 있는 방법이 있을 까? 알코올 도수, 당도, PH 값에 로지스틱 회귀 모델을 적용할 계획을 세웁니다. 먼저 화이트 와인을 양성클래스로 둡니다. : 1 와인 샘플 데이터를 불러 옵니다. 여기서는 새로운 메서드 2개가 등장하는데 info(), describe() 입니다. 1) info() 2. describe() 평균, 표준편차 등 여러 값들을 볼 수 있다. 전체 data가 어떻게 분포되어있는 지 확인이 가능하다. 근데 여기서 문제점이 하나 있다. data의 스케일이 다르다는 것이다. 이러면 후에 문제가 생긴다. 스케일을 맞게 변경한다. 훈련세트를 전처리해주었고, 그 다음 같은 객체를 사용해 테스..

[혼자 공부하는 머신러닝+딥러닝] 10강 확률적 경사 하강법 _ SGD Classifier

교재 208p부터 시작합니다. :) SGD Classifier은 사이킷 런에서 제공하는 확률적 경사 하강법 알고리즘입니다. 확률적 경사 하강법이란 하나씩 샘플을 꺼내서 쓰는 것을 얘기합니다. SGD Classifier의 객체를 만들 때 2개의 매개변수를 지정한다. loss와 max_iter인데요 loss는 손실함수의 종류를 지정합니다. 여기서는 log로 지정하여서 로지스틱 손실함수를 지정했습니다. max_iter은 수행할 에포크 횟수를 지정하는 것입니다. 10으로 지정하여 전체 훈련세트를 10회 반복할 것입니다. 그 다음에는 훈련세트와 테스트 세트에서 정확도 점수를 출력합니다. score 메서드를 사용하여 정확도를 출력합니다. (full 코드 ) 결과를 출력해보니 77%정도의 정확도가 나왔다. train..