pre-training

💬 NLP/PLM

[Paper Review] GPT-2: Language Models are Multitask Learners(2019)

Language Models are Unsupervised Multitask Learners 0. Abstract Question Answering, Machine Translation, Reading Comprehension, Summarization 등의 NLP task들은 task-specific dataset을 통한 Supervised Learning을 활용 수백 만개의 webpage들로 구성된 `WebText`라는 dataset을 통해 train할 때 Language Model이 명시적인 supervision 없이도 이러한 task들을 수행하기 시작한다는 것을 입증 Language Model의 용량은 `zero-shot` task transfer의 성공에 매우 필수적이며, 이것이 개선되면 작업 ..

💬 NLP/PLM

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

💬 NLP/PLM

[NLP] GPT(Generative Pre-Training of a Language Model)

Motivation `ELMo`와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 `pre-training`을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 `fine-tuning`을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 `transfer`에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

💬 NLP/PLM

[NLP] ELMo(Embeddings from Language Models)

Pre-trained word representation Pre-trained word respresentation은 많은 neural language understanding model에서 중요한 요소 높은 품질의 representation은 2가지를 모델링할 수 있어야 함 단어의 복잡한 특성(ex> syntax, semantic) 단어들이 linguistic context 상에서 서로 다르게 사용될 때, 사용법에 맞는 representation을 표현 "눈"이라는 단어는 "eye", "snow"로 사용이 가능한데 이에 맞게 embedding이 달라야 함 ELMo(Embeddings from Language Models)의 특징 기존에 단어에 집중했던 것에서 벗어나 전체 input sentence를 고..

Junyeong Son
'pre-training' 태그의 글 목록