'💬 NLP/PLM' 카테고리의 글 목록

💬 NLP/PLM

[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks(ACL 2020)

2023.11.07

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks 0. Abstract 다양한 source의 text로 pre-training을 수행한 모델은 오늘날 NLP의 토대를 형성 pre-trained model을 target task의 도메인에 맞게 조정하는 것이 여전히 도움이 되는지 확인 4개의 도메인(biomedical, computer science publications, news, reviews)과 8개의 classification task를 통해 study `domain-adaptive pretraining`이 리소스가 많은 환경과 적은 환경 모두에서 성능 향상을 이루어냄을 보임 unlabeled data에 adapting 하는 `..

💬 NLP/PLM

[Paper Review] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and comprehension(2019)

2023.10.30

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 0. Abstract sequence-to-sequence model을 pre-training하기 위한 denoising autoencoder, `BART`를 제안 BART는 두 가지 과정을 통해 학습 임의의 `noising function`을 통해 text를 손상 손상된 text를 통해 original text를 재구성하며 모델을 학습 단순함에도 불구하고 BERT(bidirectional encoder로 인해), GPT(left-to-right decoder) 등 현재의 최신 pre-training 체..

💬 NLP/PLM

[Paper Review] GPT-2: Language Models are Multitask Learners(2019)

2023.10.28

Language Models are Unsupervised Multitask Learners 0. Abstract Question Answering, Machine Translation, Reading Comprehension, Summarization 등의 NLP task들은 task-specific dataset을 통한 Supervised Learning을 활용 수백 만개의 webpage들로 구성된 `WebText`라는 dataset을 통해 train할 때 Language Model이 명시적인 supervision 없이도 이러한 task들을 수행하기 시작한다는 것을 입증 Language Model의 용량은 `zero-shot` task transfer의 성공에 매우 필수적이며, 이것이 개선되면 작업 ..

💬 NLP/PLM

[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

2023.10.25

RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model의 Pre-training 과정은 상당한 성능 향상을 가지고 왔지만, 다양한 approach 간에 신중한 비교 필요 학습은 상당한 계산 비용이 필요하고, 다양한 크기의 private dataset을 통해 훈련하는 경우가 많음 hyperparameter에 대한 선택이 최종 결과에 커다란 영향을 끼침 본 논문은 `BERT`의 여러 key hyperparameter와 training data size의 영향력을 신중하게 측정하는 replication study BERT의 학습이 매우 부족했다는 것을 발견했으며, BERT만으로 이후 개발된 모델들의 성능을 이길 수 있..

💬 NLP/PLM

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

2023.10.23

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

💬 NLP/PLM

[NLP] GPT(Generative Pre-Training of a Language Model)

2023.10.17

Motivation `ELMo`와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 `pre-training`을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 `fine-tuning`을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 `transfer`에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

💬 NLP/PLM

[NLP] ELMo(Embeddings from Language Models)

2023.10.17

Pre-trained word representation Pre-trained word respresentation은 많은 neural language understanding model에서 중요한 요소 높은 품질의 representation은 2가지를 모델링할 수 있어야 함 단어의 복잡한 특성(ex> syntax, semantic) 단어들이 linguistic context 상에서 서로 다르게 사용될 때, 사용법에 맞는 representation을 표현 "눈"이라는 단어는 "eye", "snow"로 사용이 가능한데 이에 맞게 embedding이 달라야 함 ELMo(Embeddings from Language Models)의 특징 기존에 단어에 집중했던 것에서 벗어나 전체 input sentence를 고..

티스토리툴바