경사 하강법

    [TIL] 210413 - Deep LearniNg (~C1W3L09)

    [TIL] 210413 - Deep LearniNg (~C1W3L09)

    이 글은... Andrew Ng 교수의 Deep Learning 강좌 C1W3L09까지의 내용을 정리한 것이다. 활성화 함수의 미분과 경사 하강법을 구현하기 위한 식을 살펴보았다. 내용 요약 활성화 함수의 미분 앞서 살펴본 활성화 함수의 미분을 알아보았다. sigmoid $g'(z) = g(z)(1-g(z))$ Tanh $g'(z)=1-(g(z))^2$ ReLU $g'(z)=0$ (z = 0 인 경우) Leaky ReLU $g'(z)=0.01$ (z = 0 인 경우) 신경망 네트워크와 경사 하강법 경사 하강법을 구현하기 위한 식을 알아보았다. 미분을 이해할 수 있으면 좋겠지만 ..

    [TIL] 210326 - Deep LearniNg (~C1W2L07)

    [TIL] 210326 - Deep LearniNg (~C1W2L07)

    이 글은... Andrew Ng 교수의 Deep Learning 강좌 C1W2L07 까지의 내용을 정리한 것이다. 비용함수의 결과값을 최저로 만드는 파라미터를 어떻게 찾아야 하는지 설명한다. 그리고 그 과정에 필요한 미분의 개념을 간단히 살핀다. 내용 요약 경사 하강법 비용함수의 값을 최소화하는 $w$와 $b$를 찾는데 사용할 수 있는 방법이다. 이때 비용함수는 볼록한(convex) 형태여야 한다. 만약 비용함수의 형태가 볼록하지 않다면 지역 최솟값을 여러 개 가지게 되어 진짜 최솟값을 찾기 어려워진다. 비용함수의 최솟값을 찾기 위한 시작점은 임의로 정하여도 상관없다. 경사 하강법을 사용하면 어디에서 시작하든 최솟값이 있는 곳으로 향하게 된다. 가파른 방향으로 한 스텝씩 업데이트하며 최솟값을 찾아간다. ..