본문 바로가기

Machine Learning25

Linear Regression (선형회귀모델) 실습 [ 회귀성능지표의 종류 / 특성확장으로 과적합 제어 및 모델성능 향상 ] [ 보스턴 데이터 ] bunch 번치 타입 객체 : 딕셔너리 형태 keys / items / values로 불러오기 가능 dict.keys()로 key값 확인 'data'라는 key 값으로 value 값 불러오기 (numpy array 형태) 마찬가지로 피쳐 이름 확인 그냥 인덱싱해왔을 경우 \n 등이 그대로 나오므로 print해줌 target 답 데이터 확인 numpy array 자료나 list형 자료는 그대로 DataFrame화 할 수 있음 (컬럼명은 필요) X 문제 데이터의 컬럼명은 feature_name라는 key값이 있었으므로 연결해줌 정답은 target 한개므로 Series 데이터로 만들어줌 from sklearn.model_selection import train_test_split X_train, X_test,.. 2022. 8. 11.
머신러닝 평가지표 [ accuracy (정확도) / recall (재현율) / precision (정밀도) / f1score (조화평균) ] 95%의 정확도를 지녔으나 성능이 좋다고 말할수 있는가? 실제 암 환자 5명을 암환자가 아니라고 예측했는데? accuracy로는 정확도가 100이었으나 recall로 계산하면 0%의 신뢰도 실제 암환자중에 예측한 비율 정밀도 : 예측한 값중에서 실제 양성인 것만 보므로 범주가 줄어듬 >> 더 꼼꼼하게 보게 됨 2022. 8. 11.
분류모델 하이퍼 파라미터 K-Nearlist-Neighbors(KNN)의 하이퍼 파라미터 : Decision Tree Classifier의 하이퍼 파라미터 : min_samples_split : 노드 분할을 위한 최소한의 데이터 수 / 기본값 2 / 작을수록 노드 많아져서 과적합 가능성이 일어남 / 이를 높여서 데이터가 분할하는데 필요한 데이터수를 늘려 과적합 제어 min_samples_leaf : 리프노드가 되기위한 최소한의 데이터 수 / 이를 높여서 리프노드가 되는데 필요한 데이터 수를 늘려서 과적합 제어 / max_features : 최대 피처의 갯수 / 기본값 None, 즉 모든 피쳐 사용 / 이 값을 조정해서 분할하는데 고려하는 피쳐의 수를 제한하여 과적합 제어 / max_depth : 트리의 최대깊이 / 기본값 Non.. 2022. 8. 10.
선형회귀모델 ( LinearRegressor ) 실습 [ SGD Regressor (경사하강법) ] mse공식을 사용해서 오차값을 계산하는 cost함수 (비용함수) : 오차값이 가장 작을때 최적의 직선 , 최적의 선형 함수 모델이다 최적의 선형함수를 만들기위해 가설을 계속해서 설정해줘야 함 >> 경사하강법을 이용 ======================================================= data['시간'] = 문제 데이터 (한 컬럼을 인덱싱했으므로 Series 형태) data['성적'] = 답 데이터 (한 컬럼을 인덱싱했으므로 Series 형태) >> 문제데이터의 값은 2차원데이터 형태로 변환해서 넣어줘야 함 선형회귀모델 ( LinearRegressor) from sklearn.linear_model import LinearRegression linear_model = Line.. 2022. 8. 10.