Machine Learning/기타6 선형 회귀 (LInear Regression) / 선형 분류 (Linear Classification) Linear Regression 선형회귀 : 데이터를 가장 잘 표현하는 직선을 찾는 것 - LinearRegression (y=ax+b) >> 규제가 없음 - SGDRegression (경사하강법) - 파라미터 alpha를 사용해서 규제 (클수록 규제 강해짐) >> Lasso, Ridge LinearRegression 선형 회귀 : 데이터의 오차값이 가장 적은 직선을 구하는 것 H(x) = w(가중치)x + b(절편) cost = H(x) - y (실제 값), 즉 예측값에서 실제값을 뺀 값 즉 cost가 가장 작은 직선이 만들어지는 w와 b를 찾아야함 이때 음수도 있을수 있으니 H(x) - y의 값을 제곱해주고 이 cost1, cost2, cost3...들의 값을 더해서 평균값을 낸것이 MSE (평균제곱.. 2022. 8. 18. 데이터 스케일링 [ 순서 ] 1. scaler 객체 생성 2. fit으로 학습 3. transform으로 적용 4. 해당 스케일러로 테스트 데이터도 transform 모델 학습에 있어 데이터 전처리 과정에서 피처별 범위가 다를경우 ( 어떤 특성은 너무 크고, 어떤 특성은 너무 작고) 학습시 원하는 값이 나오지 않을 수 있음 따라서 피쳐를스케일링해서 평균이0, 분산이 1이되게 만들어주는 작업 모든 피쳐들을 공통된 척도로 스케일 특히 KNN, SVM 등등은 반드시 해줘야함 StandatdScaler : 평균 0, 표준편차1인 값으로 변환 /모든 특성이 같은 크기를 갖게 하는 것 RobusScaler : 중앙값 0 MinMaxScaler : 최소값0, 최대값 1사이의 범위값으로 조정 (음수가 있을시 -1에서 1) Normal.. 2022. 8. 12. 머신러닝 평가지표 [ accuracy (정확도) / recall (재현율) / precision (정밀도) / f1score (조화평균) ] 95%의 정확도를 지녔으나 성능이 좋다고 말할수 있는가? 실제 암 환자 5명을 암환자가 아니라고 예측했는데? accuracy로는 정확도가 100이었으나 recall로 계산하면 0%의 신뢰도 실제 암환자중에 예측한 비율 정밀도 : 예측한 값중에서 실제 양성인 것만 보므로 범주가 줄어듬 >> 더 꼼꼼하게 보게 됨 2022. 8. 11. 분류모델 하이퍼 파라미터 K-Nearlist-Neighbors(KNN)의 하이퍼 파라미터 : Decision Tree Classifier의 하이퍼 파라미터 : min_samples_split : 노드 분할을 위한 최소한의 데이터 수 / 기본값 2 / 작을수록 노드 많아져서 과적합 가능성이 일어남 / 이를 높여서 데이터가 분할하는데 필요한 데이터수를 늘려 과적합 제어 min_samples_leaf : 리프노드가 되기위한 최소한의 데이터 수 / 이를 높여서 리프노드가 되는데 필요한 데이터 수를 늘려서 과적합 제어 / max_features : 최대 피처의 갯수 / 기본값 None, 즉 모든 피쳐 사용 / 이 값을 조정해서 분할하는데 고려하는 피쳐의 수를 제한하여 과적합 제어 / max_depth : 트리의 최대깊이 / 기본값 Non.. 2022. 8. 10. 이전 1 2 다음