attention

NLP

[Paper Review] Attention Is All You Need(NIPS 2017)

Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction 모델은 `RNN` 혹은 `CNN`에 기반하며 `Encoder-Decoder` 구조를 포함 가장 좋은 성능을 기록한 모델들도 Encoder와 Decoder를 `Attention mechanism`으로 연결 본 논문은 RNN과 CNN을 완전히 배제한, 오직 Attention mechanism에 기반한 새로운 네트워크 `Transformer`를 제안 Transformer는 병렬화가 가능하며, 훈련에 적은 시간이 소요됨과 동시에 두 개의 번역 task에서 우수한 성능을 보임 WMT 2014 English-German Translation task에서 28.4 BLEU을 기록하여 최고의 ..

NLP

[Paper Review] Effective Approaches to Attention-based Neural Mahine Translation(EMNLP 2015)

Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015) 0. Abstract `Attention` mehanism은 번역 과정에서 source sentence를 선택적으로 focusing 하는 방식으로 NMT(Neural Machine Translation)를 개선시키는 데 사용됨 그러나 NMT 분야에서 더욱 효율적으로 attention을 사용하는 architecture를 탐색하는 작업은 거의 없었음 2개의 간단하고 효과적인 Attention Mechanism을 제시 항상 모든 source word를 활용하는 `global` attentional model 한 번에 source word의 subset만 활용하는 `loc..

Deep Learning

[RNN] Seq2seq Learning - Encoder & Decoder, Attention, Feedforward Neural Network

Sequence-to-sequence model `Seq2Seq` 모델은 words, letters, features of images 등의 sequence data를 Inputs으로 사용하며 Outputs 또한 또다른 sequence data이다. 여기서 입력에 사용하는 sequence에 해당하는 item의 개수와 출력의 sequence에 해당하는 item의 개수가 동일할 필요는 없다. 이러한 sequence-to-sequence 모델은 번역 머신으로 사용되며 이 경우 sequence는 단어들로 구성되며, output 또한 마찬가지로 단어들로 구성된다. Encoder-Decoder Seq2Seq 모델은 `Encoder`와 `Decoder`로 구성된다. 각각의 역할은 다음과 같다. Encoder : in..

Deep Learning

[RNN] 순환 신경망 - RNN, Vanilla RNN, encoder-decoder, BPTT, LSTM, GRU, Attention

기억을 갖는 신경망 모델 RNN 기억을 전달하는 순환 신경망 시간과 공간적 순서 관계가 있는 데이터를 `순차 데이터(sequence data)`라고 부른다. 순차 데이터는 시공간의 순서 관계로 형성되는 문맥 또는 `콘텍스트(context)`를 갖는다. 현재 데이터를 이해할 때 앞뒤에 있는 데이터를 함께 살펴보면서 콘텍스트를 파악해야 현재 데이터의 역할을 이해할 수 있다. 인공 신경망이 데이터의 순서를 고려하여 콘텍스트를 만들려면 데이터의 순차 구조를 인식할 수 있어야 하고, 데이터의 콘텍스트 범위가 넓더라도 처리할 수 있어야 한다. 이런 점들을 고려하여 만든 인공 신경망이 바로 `순환 신경망(RNN: Recurrent Neural Network)`이다. 순방향 신경망이나 컨벌루션 신경망과는 다르게 순환 ..

Junyeong Son
'attention' 태그의 글 목록