장점 : DecisionTree의 쉽고 직관적인 장점을 그대로 지님 / 수행속도가 빠름 / 다양한 분야에서 사용가능 (대체적으로 좋은 성능)
다양한 트리를 만드는 방법 = 부트스트랩
배깅은 같은 알고리즘에 대해 데이터 셋을 다르게 두고 각각 학습 (병렬적)
여러 알고리즘이 순차적으로 학습
먼저 학습한 알고리즘 예측이 잘못된 데이터에 대해
다음 순서엔 데이터에 가중치를 부여하여
새롭게 생성된 데이터세과 모델로 학습과 예측을 진행하는 방식
from sklearn.model_selection import train_test_split
훈련셋과 테스트셋의 비율을 나눠주는 도구 train_test_split
유방암 데이터를 로드한 결과
딕셔너리 key 값을 불러오는 *.keys( )
value 값을 불러올땐 *.values( )
둘다 불러올땐 *.items( )
array 형태의 numpy 데이터
○ ndarray 객체 속성 확인하기
배열명.shape -->> 배열 크기 (1차원은 데이터 개수, 2차원은 행열 개수)
배열명.size -->> 내부 데이터 개수
배열명.ndim -->> 몇 차원인지
배열명.dtype -->> 무슨 타입인지(int등)
ndarray 객체
배열명.size -->> 내부 데이터 개수
훈련셋과 테스트셋의 비율을 나눠주는 도구 train_test_split
나눠줄 값 들 여러가지 = train_test_split(문제, 답, test_size=비율, random_state=아무숫자나)
랜덤 포레스트의 하이퍼 파라미터 : n_estimators 등이 있다
from sklearn.ensemble import RandomForestClassifier
으로 랜덤포레트스 불러오기
RandomForestClassifier 의 하이퍼 파라미터는 n_estimators등등
학습 :
모델.fit(훈련용 문제, 훈련용 답)
예측 :
모델.predict(테스트 문제)
평가 :
accuracy_score(테스트용 답, 예측값)
from sklearn.model_selection import cross_val_score
으로 불러온다.
모델의 성능을 평가하는데 사용하며
cross_val_score(검증할 모델명, X, y, cv = 교차 검증시킬 횟수)
형식으로 사용한다.
해댕 결과에 .mean( )를 붙여주면 교차검증 결과의 평균값이 출력된다
from sklearn.metrics import accuracy_score
로 정확도 측정도구인 accuracy_score를 불러온다
accuracy_score(정답, 예측한 값)
의 방식으로 사용한다
(진행 순서)
1. GridSearchCv 도구를 불러온 후 튜닝할 매개변수 경우의 수 설정
( = 하이퍼 파라미터 경우의 수 설정하기)
2. 사용할 모델 선정, 모델 객체 생성
3. 해당 모델에 GridSearch 설정 연결후 실행하기
4. 최적의 하이퍼 파라미터 확인, 최적의 정확도 확인
5. 최적의 파라미터 조합으로 모델링하기
from sklearn.model_selection import GridSearchCV
으로 GridSearchCv 도구 불러오기

파라미터 경우의 수를 저장한 변수명