'💬 NLP/Attention & Transformer' 카테고리의 글 목록

[Paper Review] Attention Is All You Need(NIPS 2017)

2023.10.16

Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction 모델은 `RNN` 혹은 `CNN`에 기반하며 `Encoder-Decoder` 구조를 포함 가장 좋은 성능을 기록한 모델들도 Encoder와 Decoder를 `Attention mechanism`으로 연결 본 논문은 RNN과 CNN을 완전히 배제한, 오직 Attention mechanism에 기반한 새로운 네트워크 `Transformer`를 제안 Transformer는 병렬화가 가능하며, 훈련에 적은 시간이 소요됨과 동시에 두 개의 번역 task에서 우수한 성능을 보임 WMT 2014 English-German Translation task에서 28.4 BLEU을 기록하여 최고의 ..

💬 NLP/Attention & Transformer

[Paper Review] Effective Approaches to Attention-based Neural Mahine Translation(EMNLP 2015)

2023.10.14

Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015) 0. Abstract `Attention` mehanism은 번역 과정에서 source sentence를 선택적으로 focusing 하는 방식으로 NMT(Neural Machine Translation)를 개선시키는 데 사용됨 그러나 NMT 분야에서 더욱 효율적으로 attention을 사용하는 architecture를 탐색하는 작업은 거의 없었음 2개의 간단하고 효과적인 Attention Mechanism을 제시 항상 모든 source word를 활용하는 `global` attentional model 한 번에 source word의 subset만 활용하는 `loc..

💬 NLP/Attention & Transformer

[Paper Review] ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ICLR 2021)

2023.09.28

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)(ICLR 2021) Abstract `Transformer` 구조가 NLP task에서 사실상 기준이 되는 동안 Computer Vision에서의 응용은 제한적 Vison에서 `Attention`은 Convolutional networks와 함께 적용하거나 전체 구조를 그대로 유지하면서 Convolution Network의 특정 구성 요소를 대체하는 데 사용 CNN에 의존할 필요가 없으며 Image patches의 sequences에 직접 적용된 pure transformer가 Image classification task에서 매우 우수한 성능을 보임 대량의 데이..

💬 NLP/Attention & Transformer

[NLP] 트랜스포머(Transformer) - Self-Attention, Multi-Head Attention, Feed Forward Neural Network, Residual Connection, Layer Normalization

2023.09.03

Transformer `Transformer`는 `Attention`을 사용하면서 학습과 병렬화를 쉽게 하여 속도를 높인 모델이다. Transformer는 `Seq2Seq` 모델과 같이 순차적으로 input 토큰을 처리하는 것이 아니라 이를 한꺼번에 처리한다.Transformer 모델의 기본적인 구조는 다음과 같다. Transformer 모델을 signle black box와 같이 표현하면 다음과 같다. 이는 `RNN` 기반의 `Encoder-Decoder` 구조와 Input과 Output은 동일하다. 또한 Transformer를 자세히 들여다 보면 Encoding component와 Decoding Component가 따로 존재하며, 이를 어떻게 연결하는지가 결국 RNN 구조와의 차이점이다. Encod..

[Paper Review] Attention Is All You Need(NIPS 2017)

[Paper Review] Effective Approaches to Attention-based Neural Mahine Translation(EMNLP 2015)

[Paper Review] ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ICLR 2021)

[NLP] 트랜스포머(Transformer) - Self-Attention, Multi-Head Attention, Feed Forward Neural Network, Residual Connection, Layer Normalization

티스토리툴바