깊은 신경망

    [TIL] 210419 - Deep LearniNg (~C1W4L02)

    [TIL] 210419 - Deep LearniNg (~C1W4L02)

    이 글은... Andrew Ng 교수의 Deep Learning 강좌 C1W4L02까지의 내용을 정리한 것이다. 심층 신경망에서의 정방향 전파 수행 방법을 살펴본다. edwith에 공개된 강의 순서대로 공부하다 보면 내용이 조금 이상한 점이 있다. 앞서 배운 C1W4L01 내용 뒤에 C1W4L06이 나오기 때문이다. 해당 강의 내용은 순서에 맞게 나중에 정리하도록 한다. 내용 요약 심층 신경망에서의 정방향 전파 얕은 신경망에서의 정방향 전파와 다른 점이 없다. 단인 세트에 대한 계산식은 아래와 같다. $z^{[l]} = w^{[l]}a^{[l-1]}+b^{l}$ $a^{[l]} = g^{[l]}(z^{[l]})$ 그리고 이것을 벡터화한 식도 얕은 신경망의 것과 다르지 않다. $Z^{[l]} = W^{[l..

    [TIL] 210415 - Deep LearniNg (~C1W5L01)

    [TIL] 210415 - Deep LearniNg (~C1W5L01)

    더 많은 층의 심층 신경망 깊은 신경망이란 은닉층이 여러층 있는 신경망을 의미한다. 정확한 경계 수치가 있는 것은 아니고 상대적인 의미인 듯하다. 로지스틱 회귀는 1층짜리 신경망이다. 이에 비해 3층짜리 신경망은 1층짜리보다 '깊다'고 할 수 있다. 반대로 3층짜리 신경망은 아래 그림과 같은 5층 짜리 신경망보다는 얕은 모델(shallow model)이라고 말할 수 있다. 앞으로 깊은 신경망 네트워크를 살펴볼 때 사용할 표기법을 정리하였다. $L$: 네트워크 층 수 $n^{[l]}$: $l$층에 있는 유닛 수 $a^{[l]}$: $l$층의 활성값 $a^{[0]}$: 입력 특성 ($=X$) $a^{[L]}$: 출력된 예상 값 ($=\hat{y}$)