chain rule

Deep Learning

[DL] 신경망 학습 - model parameter, optimization, loss function, cost function, Gradient Descent, chain rule, backpropagation, minibatch, cross-entropy

신경망 학습의 의미 신경망에는 입력 데이터와 타깃 데이터가 제공될 뿐, 추론을 위한 규칙은 제공되지 않는다. 신경망을 `학습(learning)`한다는 것은 이 규칙을 학습 데이터를 이용해서 스스로 찾는 것이다. 이는 학습 데이터에 기대하는 정답이 들어있기 때문에 가능하다. 신경망에 입력 데이터가 들어왔을 때 어떤 출력 데이터를 만들어야 할지를 정하는 규칙은 함수적 매핑 관계로 표현된다. 가중 합산과 활성 함수가 연결되어 뉴런을 구성하고, 뉴런이 모여 계층을 구성하며, 계층이 쌓여서 신경망의 계층 구조가 정의된다. 이러한 복잡한 신경망의 계층 구조 자체가 신경망의 함수적 매핑 관계를 표현하는 것이다. 신경망의 학습 과정에서 함수적 매핑 관계를 표현하는 전체 계층 구조를 찾아야 하는 것은 아니다. 신경망의 ..

Deep Learning

[DL] 오차역전파법(backpropagation) - forward propagation, backward propagation, chain rule, affine transformation, softmax with cross entropy error, gradient check

신경망 학습에서 가중치 매개변수에 대한 손실 함수의 기울기는 수치 미분을 사용해 계산했다. 수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸린다는 단점이 있다. 이에 비해 `오차역전파법(backpropagation)`은 가중치 매개변수의 기울기를 효율적으로 계산한다. 계산 그래프 `계산 그래프(computational graph)`는 계산 과정을 그래프로 나타낸 것이다. 이는 복수의 `노드(node)`와 에지(edge)`로 표현되며, 노드 사이의 직선을 에지라고 한다. 계산 그래프의 문제풀이는 다음과 같은 흐름으로 진행된다. 계산 그래프를 구성한다. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행한다. 여기서 2번째 단계인 그래프에서 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 `순전파(forward..

Junyeong Son
'chain rule' 태그의 글 목록