๐ฌ NLP/PLM
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks 0. Abstract ๋ค์ํ source์ text๋ก pre-training์ ์ํํ ๋ชจ๋ธ์ ์ค๋๋ NLP์ ํ ๋๋ฅผ ํ์ฑ pre-trained model์ target task์ ๋๋ฉ์ธ์ ๋ง๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์ฌ์ ํ ๋์์ด ๋๋์ง ํ์ธ 4๊ฐ์ ๋๋ฉ์ธ(biomedical, computer science publications, news, reviews)๊ณผ 8๊ฐ์ classification task๋ฅผ ํตํด study `domain-adaptive pretraining`์ด ๋ฆฌ์์ค๊ฐ ๋ง์ ํ๊ฒฝ๊ณผ ์ ์ ํ๊ฒฝ ๋ชจ๋์์ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์ด๋์ ๋ณด์ unlabeled data์ adapting ํ๋ `..
๐ฌ NLP/PLM
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 0. Abstract sequence-to-sequence model์ pre-trainingํ๊ธฐ ์ํ denoising autoencoder, `BART`๋ฅผ ์ ์ BART๋ ๋ ๊ฐ์ง ๊ณผ์ ์ ํตํด ํ์ต ์์์ `noising function`์ ํตํด text๋ฅผ ์์ ์์๋ text๋ฅผ ํตํด original text๋ฅผ ์ฌ๊ตฌ์ฑํ๋ฉฐ ๋ชจ๋ธ์ ํ์ต ๋จ์ํจ์๋ ๋ถ๊ตฌํ๊ณ BERT(bidirectional encoder๋ก ์ธํด), GPT(left-to-right decoder) ๋ฑ ํ์ฌ์ ์ต์ pre-training ์ฒด..
๐ฌ NLP/PLM
Language Models are Unsupervised Multitask Learners 0. Abstract Question Answering, Machine Translation, Reading Comprehension, Summarization ๋ฑ์ NLP task๋ค์ task-specific dataset์ ํตํ Supervised Learning์ ํ์ฉ ์๋ฐฑ ๋ง๊ฐ์ webpage๋ค๋ก ๊ตฌ์ฑ๋ `WebText`๋ผ๋ dataset์ ํตํด trainํ ๋ Language Model์ด ๋ช
์์ ์ธ supervision ์์ด๋ ์ด๋ฌํ task๋ค์ ์ํํ๊ธฐ ์์ํ๋ค๋ ๊ฒ์ ์
์ฆ Language Model์ ์ฉ๋์ `zero-shot` task transfer์ ์ฑ๊ณต์ ๋งค์ฐ ํ์์ ์ด๋ฉฐ, ์ด๊ฒ์ด ๊ฐ์ ๋๋ฉด ์์
..
๐ฌ NLP/PLM
RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model์ Pre-training ๊ณผ์ ์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ค์ํ approach ๊ฐ์ ์ ์คํ ๋น๊ต ํ์ ํ์ต์ ์๋นํ ๊ณ์ฐ ๋น์ฉ์ด ํ์ํ๊ณ , ๋ค์ํ ํฌ๊ธฐ์ private dataset์ ํตํด ํ๋ จํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ hyperparameter์ ๋ํ ์ ํ์ด ์ต์ข
๊ฒฐ๊ณผ์ ์ปค๋ค๋ ์ํฅ์ ๋ผ์นจ ๋ณธ ๋
ผ๋ฌธ์ `BERT`์ ์ฌ๋ฌ key hyperparameter์ training data size์ ์ํฅ๋ ฅ์ ์ ์คํ๊ฒ ์ธก์ ํ๋ replication study BERT์ ํ์ต์ด ๋งค์ฐ ๋ถ์กฑํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, BERT๋ง์ผ๋ก ์ดํ ๊ฐ๋ฐ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์ด๊ธธ ์ ์..
๐ฌ NLP/PLM
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`๋ผ๋ ์๋ก์ด language representation model์ ์ ์ ๋น์์ ๋์จ language represtation model๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ BERT๋ ๋ชจ๋ layer์์ left/right context๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๋ฐฉ์์ผ๋ก unlabeled text๋ก๋ถํฐDeep Bidirectional Representation์ pre-train ํ๋๋ก ์ค๊ณ BERT๋ ์ถ๊ฐ์ ์ธ 1๊ฐ์ output layer๋ฅผ ํตํด fine-tu..
๐ฌ NLP/PLM
Motivation `ELMo`์ ์์ด๋์ด๋ ๋์ผ Unlabeled Text Corpus๋ฅผ ํ์ฉํ์ฌ GPT๋ฅผ ํตํด `pre-training`์ ๊ฑฐ์ณ embedding vector๋ฅผ ์ฐพ์๋ด๊ณ , specific task๋ฅผ ์ํ Labeled Text Corpus๋ฅผ ํ์ฉํด `fine-tuning`์ ๊ฑฐ์ณ ์ด๋ฅผ ์ํ unlabeled text๋ก๋ถํฐ word-level ์ด์์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ด๋ ค์ `transfer`์ ์ ์ฉํ text representation์ ํ์ตํ๋๋ฐ ์ด๋ ํ optimization objective๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง ๋ถํ์ค ํ์ต๋ representation์ target task์ transfer ํ๋๋ฐ ๋ชจ๋ธ ์ํคํ
์ณ์ task-specificํ ๋ณํ๋ฅผ ํ๋ ๊ฒ, intricate l..
๐ฌ NLP/PLM
Pre-trained word representation Pre-trained word respresentation์ ๋ง์ neural language understanding model์์ ์ค์ํ ์์ ๋์ ํ์ง์ representation์ 2๊ฐ์ง๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ด์ผ ํจ ๋จ์ด์ ๋ณต์กํ ํน์ฑ(ex> syntax, semantic) ๋จ์ด๋ค์ด linguistic context ์์์ ์๋ก ๋ค๋ฅด๊ฒ ์ฌ์ฉ๋ ๋, ์ฌ์ฉ๋ฒ์ ๋ง๋ representation์ ํํ "๋"์ด๋ผ๋ ๋จ์ด๋ "eye", "snow"๋ก ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ฐ ์ด์ ๋ง๊ฒ embedding์ด ๋ฌ๋ผ์ผ ํจ ELMo(Embeddings from Language Models)์ ํน์ง ๊ธฐ์กด์ ๋จ์ด์ ์ง์คํ๋ ๊ฒ์์ ๋ฒ์ด๋ ์ ์ฒด input sentence๋ฅผ ๊ณ ..