Masked Self-Attention

NLP

[NLP] 트랜스포머(Transformer) - Self-Attention, Multi-Head Attention, Feed Forward Neural Network, Residual Connection, Layer Normalization

2023.09.03

Transformer `Transformer`는 `Attention`을 사용하면서 학습과 병렬화를 쉽게 하여 속도를 높인 모델이다. Transformer는 `Seq2Seq` 모델과 같이 순차적으로 input 토큰을 처리하는 것이 아니라 이를 한꺼번에 처리한다.Transformer 모델의 기본적인 구조는 다음과 같다. Transformer 모델을 signle black box와 같이 표현하면 다음과 같다. 이는 `RNN` 기반의 `Encoder-Decoder` 구조와 Input과 Output은 동일하다. 또한 Transformer를 자세히 들여다 보면 Encoding component와 Decoding Component가 따로 존재하며, 이를 어떻게 연결하는지가 결국 RNN 구조와의 차이점이다. Encod..

[NLP] 트랜스포머(Transformer) - Self-Attention, Multi-Head Attention, Feed Forward Neural Network, Residual Connection, Layer Normalization

티스토리툴바