Multi-Head Attention

NLP

[Paper Review] Attention Is All You Need(NIPS 2017)

Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction 모델은 `RNN` 혹은 `CNN`에 기반하며 `Encoder-Decoder` 구조를 포함 가장 좋은 성능을 기록한 모델들도 Encoder와 Decoder를 `Attention mechanism`으로 연결 본 논문은 RNN과 CNN을 완전히 배제한, 오직 Attention mechanism에 기반한 새로운 네트워크 `Transformer`를 제안 Transformer는 병렬화가 가능하며, 훈련에 적은 시간이 소요됨과 동시에 두 개의 번역 task에서 우수한 성능을 보임 WMT 2014 English-German Translation task에서 28.4 BLEU을 기록하여 최고의 ..

NLP

[NLP] 트랜스포머(Transformer) - Self-Attention, Multi-Head Attention, Feed Forward Neural Network, Residual Connection, Layer Normalization

Transformer `Transformer`는 `Attention`을 사용하면서 학습과 병렬화를 쉽게 하여 속도를 높인 모델이다. Transformer는 `Seq2Seq` 모델과 같이 순차적으로 input 토큰을 처리하는 것이 아니라 이를 한꺼번에 처리한다.Transformer 모델의 기본적인 구조는 다음과 같다. Transformer 모델을 signle black box와 같이 표현하면 다음과 같다. 이는 `RNN` 기반의 `Encoder-Decoder` 구조와 Input과 Output은 동일하다. 또한 Transformer를 자세히 들여다 보면 Encoding component와 Decoding Component가 따로 존재하며, 이를 어떻게 연결하는지가 결국 RNN 구조와의 차이점이다. Encod..

Junyeong Son
'Multi-Head Attention' 태그의 글 목록