'💬 NLP' 카테고리의 글 목록

💬 NLP/PLM

[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks(ACL 2020)

2023.11.07

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks 0. Abstract 다양한 source의 text로 pre-training을 수행한 모델은 오늘날 NLP의 토대를 형성 pre-trained model을 target task의 도메인에 맞게 조정하는 것이 여전히 도움이 되는지 확인 4개의 도메인(biomedical, computer science publications, news, reviews)과 8개의 classification task를 통해 study `domain-adaptive pretraining`이 리소스가 많은 환경과 적은 환경 모두에서 성능 향상을 이루어냄을 보임 unlabeled data에 adapting 하는 `..

💬 NLP/PLM

[Paper Review] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and comprehension(2019)

2023.10.30

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 0. Abstract sequence-to-sequence model을 pre-training하기 위한 denoising autoencoder, `BART`를 제안 BART는 두 가지 과정을 통해 학습 임의의 `noising function`을 통해 text를 손상 손상된 text를 통해 original text를 재구성하며 모델을 학습 단순함에도 불구하고 BERT(bidirectional encoder로 인해), GPT(left-to-right decoder) 등 현재의 최신 pre-training 체..

💬 NLP/PLM

[Paper Review] GPT-2: Language Models are Multitask Learners(2019)

2023.10.28

Language Models are Unsupervised Multitask Learners 0. Abstract Question Answering, Machine Translation, Reading Comprehension, Summarization 등의 NLP task들은 task-specific dataset을 통한 Supervised Learning을 활용 수백 만개의 webpage들로 구성된 `WebText`라는 dataset을 통해 train할 때 Language Model이 명시적인 supervision 없이도 이러한 task들을 수행하기 시작한다는 것을 입증 Language Model의 용량은 `zero-shot` task transfer의 성공에 매우 필수적이며, 이것이 개선되면 작업 ..

💬 NLP/PLM

[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

2023.10.25

RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model의 Pre-training 과정은 상당한 성능 향상을 가지고 왔지만, 다양한 approach 간에 신중한 비교 필요 학습은 상당한 계산 비용이 필요하고, 다양한 크기의 private dataset을 통해 훈련하는 경우가 많음 hyperparameter에 대한 선택이 최종 결과에 커다란 영향을 끼침 본 논문은 `BERT`의 여러 key hyperparameter와 training data size의 영향력을 신중하게 측정하는 replication study BERT의 학습이 매우 부족했다는 것을 발견했으며, BERT만으로 이후 개발된 모델들의 성능을 이길 수 있..

💬 NLP/PLM

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

2023.10.23

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

💬 NLP/PLM

[NLP] GPT(Generative Pre-Training of a Language Model)

2023.10.17

Motivation `ELMo`와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 `pre-training`을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 `fine-tuning`을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 `transfer`에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

💬 NLP/PLM

[NLP] ELMo(Embeddings from Language Models)

2023.10.17

Pre-trained word representation Pre-trained word respresentation은 많은 neural language understanding model에서 중요한 요소 높은 품질의 representation은 2가지를 모델링할 수 있어야 함 단어의 복잡한 특성(ex> syntax, semantic) 단어들이 linguistic context 상에서 서로 다르게 사용될 때, 사용법에 맞는 representation을 표현 "눈"이라는 단어는 "eye", "snow"로 사용이 가능한데 이에 맞게 embedding이 달라야 함 ELMo(Embeddings from Language Models)의 특징 기존에 단어에 집중했던 것에서 벗어나 전체 input sentence를 고..

💬 NLP/Attention & Transformer

[Paper Review] Attention Is All You Need(NIPS 2017)

2023.10.16

Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction 모델은 `RNN` 혹은 `CNN`에 기반하며 `Encoder-Decoder` 구조를 포함 가장 좋은 성능을 기록한 모델들도 Encoder와 Decoder를 `Attention mechanism`으로 연결 본 논문은 RNN과 CNN을 완전히 배제한, 오직 Attention mechanism에 기반한 새로운 네트워크 `Transformer`를 제안 Transformer는 병렬화가 가능하며, 훈련에 적은 시간이 소요됨과 동시에 두 개의 번역 task에서 우수한 성능을 보임 WMT 2014 English-German Translation task에서 28.4 BLEU을 기록하여 최고의 ..

💬 NLP/Attention & Transformer

[Paper Review] Effective Approaches to Attention-based Neural Mahine Translation(EMNLP 2015)

2023.10.14

Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015) 0. Abstract `Attention` mehanism은 번역 과정에서 source sentence를 선택적으로 focusing 하는 방식으로 NMT(Neural Machine Translation)를 개선시키는 데 사용됨 그러나 NMT 분야에서 더욱 효율적으로 attention을 사용하는 architecture를 탐색하는 작업은 거의 없었음 2개의 간단하고 효과적인 Attention Mechanism을 제시 항상 모든 source word를 활용하는 `global` attentional model 한 번에 source word의 subset만 활용하는 `loc..

💬 NLP/Attention & Transformer

[Paper Review] ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ICLR 2021)

2023.09.28

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)(ICLR 2021) Abstract `Transformer` 구조가 NLP task에서 사실상 기준이 되는 동안 Computer Vision에서의 응용은 제한적 Vison에서 `Attention`은 Convolutional networks와 함께 적용하거나 전체 구조를 그대로 유지하면서 Convolution Network의 특정 구성 요소를 대체하는 데 사용 CNN에 의존할 필요가 없으며 Image patches의 sequences에 직접 적용된 pure transformer가 Image classification task에서 매우 우수한 성능을 보임 대량의 데이..

티스토리툴바