Transformer에서의 Feed-Forward Network Transformer의 Encoder와 Decoder 모듈 내에 위치한 `Feed-Forward Network(FFN)`은 attention mechanism이 처리하는 데이터를 정제하는데 중요한 역할을 한다. 먼저 `Multi-head Attention Sublayer`와 `Post-Layer Normalization(Post-LN)`을 거친 output은 $d_{model}=512$의 차원을 유지하며, FFN에 입력된다. 이 FFN은 시퀀스의 각 position에서 독립적으로 데이터를 순차적으로 처리하는 데 중요한 역할을 수행한다.Transformer의 인코더와 디코더 내부의 FFN은 `fully connected network`이면서 ..
순방향 신경망의 구조와 설계 항목 현대에 들어와서 다층 퍼셉트론은 `순방향 신경망`, 퍼셉트론은 `인공 뉴런(Artificial Neuron)`이라 불린다. 순방향 신경망의 데이터는 서로 독립되어 있다고 가정하며, 데이터가 한 방향으로 전달되는 `순뱡향(Feedforward)` 연결만을 갖는 구조로 되어 있으며, 퍼셉트론의 연산과 같은 기본 뉴런 연산으로 실행된다. 추가적으로, CNN은 공간 데이터를 가정하며, RNN은 순환 데이터를 가정한다. 순방향 신경망의 구조 순방향 신경망은 다음과 같이 뉴런들이 모여 `계층(Layer)`를 이루고 계층이 쌓여 전체 신경망을 이루는 구조로 되어 있다. 순방향 신경망의 계층 구조 순방향 신경망의 계층 구조는 입력 계층, 은닉 계층, 출력 계층으로 구분된다. 대부분의 ..
퍼셉트론에서 신경망으로 활성화 함수의 등장 편향을 명시한 퍼셉트론과 그에 따른 수식은 다음과 같다. 이 퍼셉트론은 x1, x2, 1이라는 3개의 신호가 뉴런에 입력되어, 각 신호에 가중치를 곱한 후 다음 뉴런에 전달된다. 다음 뉴런에서는 이 신호들의 값을 더하여 그 합이 0을 넘으면 1을, 그렇지 않으면 0을 출력한다. 편향의 입력 신호는 항상 1이기 때문에 다른 뉴런들과 구별했다. 수식에서는 조건 분기의 동작, 즉 0을 넘으면 1을 출력하고 0을 넘지 않으면 0을 출력하는 동작을 하나의 함수 h(x)로 나타냈다. 입력 신호의 총합이 h(x)라는 함수를 거쳐 변환되어 그 변환된 값이 y의 출력이 된다. 이러한 함수를 `활성화 함수(activation function)`이라고 하며 이는 입력 신호의 총합이..