Machine Learning/회귀모델

선형 모델 ( Linear Model ) 의 개념

leehii 2022. 8. 10. 10:01

 

 

 

하나의 특징을 가지고 target를 예측하기 위한 회귀모델을 찾는것이 단순선형회귀이다

이때 여러 샘플들을 이용해 최적의 w(가중치)와 b(절편을 찾기위해,

 

즉 검증 및 y 값을 확인하기 위해 여러가지 가설을 만든다 : 

새로운 a와 b로 값이 변경되는 것 (ex) 2x + 1 , 10x +0 , 3x +3 등등등

 

이것을 바꾸는 작업을 경사하강이라고 한다

 

처음에 생성된 랜덤한 값에서 최적의 값을 찾기위해

기울기가 낮은곳으로 계속 하강하며 a와 b의 값을 계속해서 변경하며 이동한다

 

 

알파 = Learning rate (학습률) : 하이퍼 파라미터 / 얼마나 내려갈지?

 

단 다중선형회귀의 경우

y = w * x +b에서

y = w0*x0 + w1*x1 + ... wn*xn + b가 된다

피처의 개수는 n+1개가 된다

 

이때 최적의 가중치와 편향치를 찾기위해 MSE를 구하다보면

다중 선형 회귀모델은 과적합되는 경향이 있다

 

이를 해결하기 위한 것이  Lasso와 Ridge이다

 

Lasso :

Linear 모델이 MSE가 최소가 되게 하는 가중치화 절편을 찾았다면

Lasso는 여기에 가중치의 절대값의 합이 최소화되는 추가 제약조건이 있다.

즉 가중치의 값이 0이나, 0에 가깝게 되야함

 

MSE + 패널티 ( = a  * 요소의 절대값)

따라서 이 둘의 합이 최소가 되게 하는 w(가중치)와 b(절편)을 찾는것이 목적

MSE는 오차값이므로 작아질수록 Label과 예측값들의 차이가 작아지고

요소의 절대값이 작아질수록 w들이 0이 되거나 0에 가까워진다

 

알파가 커지면 패널티가 커지므로 요소의 절대값을 작게 만드는 것이 우선시되고

알파가 너무 작으면 MSE를 작아지게 하는것에 비중을 두게된다

Lasso는 w(가중치)가 0이 되게 함으로써 그에 해당하는 특성을 제외, 결과적으로 중요한 특성이 무엇인지 알게된다

 

 

Ridge : 

릿지는 라쏘와 거의 유사하나 라쏘와 다르게 가중치가 0에 가까워질뿐  0이 되진않는다