본문 바로가기

Machine Learning/분류모델12

Ensemble(앙상블) 모델의 개념 [ voting(보팅) / Bagging(배깅) / Boosting(부스팅) ] 앙상블 학습 : 여러 알고리즘을 사용하여 그 예측을 결합, 더 정확한 예측을 도출하는 것 이미지, 영상, 음성등의 비정형 데이터는 딥러닝을 주로 사용하고 정형데이터의 분류에서 앙상블이 자주 쓰임 앙상블의 대표적인 방법 3가지 학습의 유형은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 보팅은 여러 알고리즘을 사용한 각각의 결과에 대해 투표를 통해 최종 결과를 예측 !서로 다른 모델! 사용 배깅은 같은 알고리즘에 대해 데이터 셋을 다르게 두고 각각 학습 (병렬적) / 대표적으로 Random Forest가 있음 여러 알고리즘이 순차적으로 학습을 하되 먼저 학습한 알고리즘에서 예측이 잘못된 데이터에 대해 다음 순서엔 데이터에 가중치를 부여하여 새롭게 생성된 데.. 2022. 8. 9.
Decision Tree 실습 [ isnull과 isnan / fillna / groupby( ) / Seaborn : countplot, violinplot / 특성공학 / pd.cut(data, bins, labels) / zip(list1, list2) / cross_val_score / StandardScale / ] [ 타이타닉 데이터 ] 문제정의 - 데이터 수집 - 데이터 전처리 - 데이터 탐색 - 머신러닝 선택 - 모델 학습 및 모델 평가 배열명.shape 로 numpy 객체 속성 크기 확인하기 (1차원은 데이터 개수, 2차원은 행열 개수) 데이터 전처리 : 결측치확인 data명.info()로 데이터 속성확인 갯수가 다른 컴럼이 있다 : 결측치가 있다! isnull().sum()으로 결측치의 합 확인하기 승선항 결측치 채우기 확인할값.value_counts() : 값이 몇개 있는지 세어주는 함수 -->> pandas에서 사용하는 함수(Series, DataFrame) // 배열 형태의 데이터는 numpy의 np.bincount(확인할 값)를 사용해야 함! 결측값 변경 fillna : DataFrame에서 결측값을 원하는 값으로 변경하는.. 2022. 8. 8.
Decision Tree 분류 실습 [ 변수.value_counts( ) 와 np.bincount(변수) / One-hot Encoding과 Label Encoding / graphviz를 이용한 시각화 ] [버섯 데이터] 데이터 확인 (데이터 타입, 데이터 크기, 결측치 등) 데이터 정리 (문제와 답으로 분리 / 훈련 셋과 테스트 셋 분리등) 데이터 분석 (시각화등) 모델링 (모델객체 생성 -> 하이퍼 파라미터 조정 / 모델 학습 / 모델 예측 / 모델 성능 평가) 훈련셋과 테스트셋의 비율을 나눠주는 도구 train_test_split 분류를 위한 DecisionTreeClassifier ... 이 뜨므로 모든 컬럼이 뜨게 pd.set_option('display.max_columns', None) 으로 설정을 바꿔준다 23개의 column으로 이루어진 데이터 null 값 확인을 통해 결측치를 확인 인덱싱/슬라이싱으로 문제와 답을 분리함 확인할값.value_counts() : 값이 몇개 있는지 세어주는 함수 -->> pa.. 2022. 8. 4.
Decision Tree의 개념 뿌리 노드 (최초) 의사결정 노드 잎사귀 노드 (마지막) depth(깊이)가 커지면 과대적합 가능성이 높아짐 따라서 이 모델의 하이퍼 파라미터는 depth를 포함한 4가지 요소들이다 가장 많이 사용되는 것은 max_depth 2022. 8. 4.