Transformer에서의 Feed-Forward Network Transformer의 Encoder와 Decoder 모듈 내에 위치한 Feed-Forward Network(FFN)은 attention mechanism이 처리하는 데이터를 정제하는데 중요한 역할을 한다. 먼저 Multi-head Attention Sublayer와 Post-Layer Normalization(Post-LN)을 거친 output은 dmodel=512의 차원을 유지하며, FFN에 입력된다. 이 FFN은 시퀀스의 각 position에서 독립적으로 데이터를 순차적으로 처리하는 데 중요한 역할을 수행한다.Transformer의 인코더와 디코더 내부의 FFN은 fully connected network이면서 ..
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting(AAAI 2021) 0. Abstract 전력 소비 계획과 같이 긴 시퀀스 시계열을 예측해야 하는 경우가 실제로 많음 Long Sequence Time-series Forecasting(LSTF)은 output과 input 간의 정확한 long-range dependency 관계를 효율적으로 파악하는 모델의 높은 예측 능력을 요구 최근 연구에 따르면 Transformer가 예측 능력을 향상시킬 수 있는 잠재력을 가진 것으로 나타남 그러나 Transformer에는 quadratic time complexity, high memory usage, ..
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)(ICLR 2021) Abstract Transformer 구조가 NLP task에서 사실상 기준이 되는 동안 Computer Vision에서의 응용은 제한적 Vison에서 Attention은 Convolutional networks와 함께 적용하거나 전체 구조를 그대로 유지하면서 Convolution Network의 특정 구성 요소를 대체하는 데 사용 CNN에 의존할 필요가 없으며 Image patches의 sequences에 직접 적용된 pure transformer가 Image classification task에서 매우 우수한 성능을 보임 대량의 데이..
Transformer Transformer는 Attention을 사용하면서 학습과 병렬화를 쉽게 하여 속도를 높인 모델이다. Transformer는 Seq2Seq 모델과 같이 순차적으로 input 토큰을 처리하는 것이 아니라 이를 한꺼번에 처리한다.Transformer 모델의 기본적인 구조는 다음과 같다. Transformer 모델을 signle black box와 같이 표현하면 다음과 같다. 이는 RNN 기반의 Encoder-Decoder 구조와 Input과 Output은 동일하다. 또한 Transformer를 자세히 들여다 보면 Encoding component와 Decoding Component가 따로 존재하며, 이를 어떻게 연결하는지가 결국 RNN 구조와의 차이점이다. Encod..