본문 바로가기

연구 노트/머신러닝

[TIL] 210413 - Deep LearniNg (~C1W3L09)

이 글은...

Andrew Ng 교수의 Deep Learning 강좌 C1W3L09까지의 내용을 정리한 것이다. 활성화 함수의 미분과 경사 하강법을 구현하기 위한 식을 살펴보았다.

내용 요약

활성화 함수의 미분

앞서 살펴본 활성화 함수의 미분을 알아보았다.

  • sigmoid
    • $g'(z) = g(z)(1-g(z))$


  • Tanh
    • $g'(z)=1-(g(z))^2$


  • ReLU
    • $g'(z)=0$ (z < 0 인 경우)
    • $g'(z)=1$ (z >= 0 인 경우)


  • Leaky ReLU
    • $g'(z)=0.01$ (z < 0 인 경우)
    • $g'(z)=1$ (z >= 0 인 경우)



신경망 네트워크와 경사 하강법

경사 하강법을 구현하기 위한 식을 알아보았다. 미분을 이해할 수 있으면 좋겠지만 그러지 못해도 알고리즘을 구현하는 데는 문제 없다고 한다.

$dZ^{[2]}=A^{[2]}-Y$

$dW^{[2]}={1 \over m}dZ^{[2]}A^{[1]T}$

$db^{[2]}={1 \over m}np.sum(dZ^{[2]}, axis=1, keepdims=True)$

$dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]}(Z^{[1]})$

$dW^{[1]}={1 \over m}dZ^{[1]}X^T$

$db^{[1]}={1 \over m}np.sum(dZ^{[1]}, axis=1, keepdims=True)$