fit을 실행 > Model을 통해 결과 출력 > 예측값과 실제값의 오차 비교 = 순전파
예측된 결과를 가지고 입력층으로 돌아가 학습하는 과정 : 역전파
Sigmoid 함수의 가장 큰 기울기가 3 / 10, 즉 최대치가 0.3이다
출력값의 오차가 100이라 가정한다면
중간층에서 Sigmoid함수를 쓸 경우 미분된 값의 최대값이 0.3이므로
역전파로 전달해나갈때 처음 보낼떈 30밖에 전달되지 않으며
그다음은 30의 30%만 전달되며 기울기가 소실되어 loss나 정확도가 개선되지 않는다
따라서 중간층에 Sigmoid를 사용하지 않는다
일반적으로는 Relu를 사용하며, 최대값을 1 이상의 데이터도 표현할 수 있다
'Deep Learning > 기타' 카테고리의 다른 글
딥러닝 간단정리 [인코딩 / 이미지 데이터 처리 / 최적화모델 / MLP, CNN, VGG16 ] (0) | 2022.09.05 |
---|---|
CNN (합성곱 신경망)의 개념 [ MLP와 CNN의 구조비교 / 패딩 / 축소샘플링 (스트라이드, 풀링) / ] (0) | 2022.09.05 |
최적화함수 (Optimizer) 개념 (0) | 2022.09.01 |
활성화 함수의 개념 (0) | 2022.08.31 |
인공신경망 - 퍼셉트론의 개념 (0) | 2022.08.31 |