본문 바로가기
Deep Learning/기타

오차 역전파의 개념

by leehii 2022. 9. 2.

 

fit을 실행 > Model을 통해 결과 출력 > 예측값과 실제값의 오차 비교 = 순전파

 

예측된 결과를 가지고 입력층으로 돌아가 학습하는 과정 : 역전파

 

 

 

 

Sigmoid 함수의 가장 큰 기울기가 3 / 10, 즉 최대치가 0.3이다

 

 

 

 출력값의 오차가 100이라 가정한다면

중간층에서 Sigmoid함수를 쓸 경우 미분된 값의 최대값이 0.3이므로 

역전파로 전달해나갈때 처음 보낼떈 30밖에 전달되지 않으며

그다음은 30의 30%만 전달되며 기울기가 소실되어 loss나 정확도가 개선되지 않는다

따라서 중간층에 Sigmoid를 사용하지 않는다

 

 

일반적으로는 Relu를 사용하며, 최대값을 1 이상의 데이터도 표현할 수 있다