Deep Learning
[ DL ] Transformer에서의 Feed-Forward Network
Transformer에서의 Feed-Forward Network Transformer의 Encoder와 Decoder 모듈 내에 위치한 `Feed-Forward Network(FFN)`은 attention mechanism이 처리하는 데이터를 정제하는데 중요한 역할을 한다. 먼저 `Multi-head Attention Sublayer`와 `Post-Layer Normalization(Post-LN)`을 거친 output은 $d_{model}=512$의 차원을 유지하며, FFN에 입력된다. 이 FFN은 시퀀스의 각 position에서 독립적으로 데이터를 순차적으로 처리하는 데 중요한 역할을 수행한다.Transformer의 인코더와 디코더 내부의 FFN은 `fully connected network`이면서 ..