๐ฌ NLP/PLM
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks 0. Abstract ๋ค์ํ source์ text๋ก pre-training์ ์ํํ ๋ชจ๋ธ์ ์ค๋๋ NLP์ ํ ๋๋ฅผ ํ์ฑ pre-trained model์ target task์ ๋๋ฉ์ธ์ ๋ง๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์ฌ์ ํ ๋์์ด ๋๋์ง ํ์ธ 4๊ฐ์ ๋๋ฉ์ธ(biomedical, computer science publications, news, reviews)๊ณผ 8๊ฐ์ classification task๋ฅผ ํตํด study `domain-adaptive pretraining`์ด ๋ฆฌ์์ค๊ฐ ๋ง์ ํ๊ฒฝ๊ณผ ์ ์ ํ๊ฒฝ ๋ชจ๋์์ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์ด๋์ ๋ณด์ unlabeled data์ adapting ํ๋ `..
๐ฌ NLP/PLM
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 0. Abstract sequence-to-sequence model์ pre-trainingํ๊ธฐ ์ํ denoising autoencoder, `BART`๋ฅผ ์ ์ BART๋ ๋ ๊ฐ์ง ๊ณผ์ ์ ํตํด ํ์ต ์์์ `noising function`์ ํตํด text๋ฅผ ์์ ์์๋ text๋ฅผ ํตํด original text๋ฅผ ์ฌ๊ตฌ์ฑํ๋ฉฐ ๋ชจ๋ธ์ ํ์ต ๋จ์ํจ์๋ ๋ถ๊ตฌํ๊ณ BERT(bidirectional encoder๋ก ์ธํด), GPT(left-to-right decoder) ๋ฑ ํ์ฌ์ ์ต์ pre-training ์ฒด..
๐ฌ NLP/PLM
Language Models are Unsupervised Multitask Learners 0. Abstract Question Answering, Machine Translation, Reading Comprehension, Summarization ๋ฑ์ NLP task๋ค์ task-specific dataset์ ํตํ Supervised Learning์ ํ์ฉ ์๋ฐฑ ๋ง๊ฐ์ webpage๋ค๋ก ๊ตฌ์ฑ๋ `WebText`๋ผ๋ dataset์ ํตํด trainํ ๋ Language Model์ด ๋ช
์์ ์ธ supervision ์์ด๋ ์ด๋ฌํ task๋ค์ ์ํํ๊ธฐ ์์ํ๋ค๋ ๊ฒ์ ์
์ฆ Language Model์ ์ฉ๋์ `zero-shot` task transfer์ ์ฑ๊ณต์ ๋งค์ฐ ํ์์ ์ด๋ฉฐ, ์ด๊ฒ์ด ๊ฐ์ ๋๋ฉด ์์
..
๐ฌ NLP/PLM
RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model์ Pre-training ๊ณผ์ ์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ค์ํ approach ๊ฐ์ ์ ์คํ ๋น๊ต ํ์ ํ์ต์ ์๋นํ ๊ณ์ฐ ๋น์ฉ์ด ํ์ํ๊ณ , ๋ค์ํ ํฌ๊ธฐ์ private dataset์ ํตํด ํ๋ จํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ hyperparameter์ ๋ํ ์ ํ์ด ์ต์ข
๊ฒฐ๊ณผ์ ์ปค๋ค๋ ์ํฅ์ ๋ผ์นจ ๋ณธ ๋
ผ๋ฌธ์ `BERT`์ ์ฌ๋ฌ key hyperparameter์ training data size์ ์ํฅ๋ ฅ์ ์ ์คํ๊ฒ ์ธก์ ํ๋ replication study BERT์ ํ์ต์ด ๋งค์ฐ ๋ถ์กฑํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, BERT๋ง์ผ๋ก ์ดํ ๊ฐ๋ฐ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์ด๊ธธ ์ ์..
๐ฌ NLP/PLM
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`๋ผ๋ ์๋ก์ด language representation model์ ์ ์ ๋น์์ ๋์จ language represtation model๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ BERT๋ ๋ชจ๋ layer์์ left/right context๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๋ฐฉ์์ผ๋ก unlabeled text๋ก๋ถํฐDeep Bidirectional Representation์ pre-train ํ๋๋ก ์ค๊ณ BERT๋ ์ถ๊ฐ์ ์ธ 1๊ฐ์ output layer๋ฅผ ํตํด fine-tu..
๐ฌ NLP/PLM
Motivation `ELMo`์ ์์ด๋์ด๋ ๋์ผ Unlabeled Text Corpus๋ฅผ ํ์ฉํ์ฌ GPT๋ฅผ ํตํด `pre-training`์ ๊ฑฐ์ณ embedding vector๋ฅผ ์ฐพ์๋ด๊ณ , specific task๋ฅผ ์ํ Labeled Text Corpus๋ฅผ ํ์ฉํด `fine-tuning`์ ๊ฑฐ์ณ ์ด๋ฅผ ์ํ unlabeled text๋ก๋ถํฐ word-level ์ด์์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ด๋ ค์ `transfer`์ ์ ์ฉํ text representation์ ํ์ตํ๋๋ฐ ์ด๋ ํ optimization objective๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง ๋ถํ์ค ํ์ต๋ representation์ target task์ transfer ํ๋๋ฐ ๋ชจ๋ธ ์ํคํ
์ณ์ task-specificํ ๋ณํ๋ฅผ ํ๋ ๊ฒ, intricate l..
๐ฌ NLP/PLM
Pre-trained word representation Pre-trained word respresentation์ ๋ง์ neural language understanding model์์ ์ค์ํ ์์ ๋์ ํ์ง์ representation์ 2๊ฐ์ง๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ด์ผ ํจ ๋จ์ด์ ๋ณต์กํ ํน์ฑ(ex> syntax, semantic) ๋จ์ด๋ค์ด linguistic context ์์์ ์๋ก ๋ค๋ฅด๊ฒ ์ฌ์ฉ๋ ๋, ์ฌ์ฉ๋ฒ์ ๋ง๋ representation์ ํํ "๋"์ด๋ผ๋ ๋จ์ด๋ "eye", "snow"๋ก ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ฐ ์ด์ ๋ง๊ฒ embedding์ด ๋ฌ๋ผ์ผ ํจ ELMo(Embeddings from Language Models)์ ํน์ง ๊ธฐ์กด์ ๋จ์ด์ ์ง์คํ๋ ๊ฒ์์ ๋ฒ์ด๋ ์ ์ฒด input sentence๋ฅผ ๊ณ ..
๐ฌ NLP/Attention & Transformer
Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction ๋ชจ๋ธ์ `RNN` ํน์ `CNN`์ ๊ธฐ๋ฐํ๋ฉฐ `Encoder-Decoder` ๊ตฌ์กฐ๋ฅผ ํฌํจ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋กํ ๋ชจ๋ธ๋ค๋ Encoder์ Decoder๋ฅผ `Attention mechanism`์ผ๋ก ์ฐ๊ฒฐ ๋ณธ ๋
ผ๋ฌธ์ RNN๊ณผ CNN์ ์์ ํ ๋ฐฐ์ ํ, ์ค์ง Attention mechanism์ ๊ธฐ๋ฐํ ์๋ก์ด ๋คํธ์ํฌ `Transformer`๋ฅผ ์ ์ Transformer๋ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ํ๋ จ์ ์ ์ ์๊ฐ์ด ์์๋จ๊ณผ ๋์์ ๋ ๊ฐ์ ๋ฒ์ญ task์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ WMT 2014 English-German Translation task์์ 28.4 BLEU์ ๊ธฐ๋กํ์ฌ ์ต๊ณ ์ ..
๐ฌ NLP/Attention & Transformer
Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015) 0. Abstract `Attention` mehanism์ ๋ฒ์ญ ๊ณผ์ ์์ source sentence๋ฅผ ์ ํ์ ์ผ๋ก focusing ํ๋ ๋ฐฉ์์ผ๋ก NMT(Neural Machine Translation)๋ฅผ ๊ฐ์ ์ํค๋ ๋ฐ ์ฌ์ฉ๋จ ๊ทธ๋ฌ๋ NMT ๋ถ์ผ์์ ๋์ฑ ํจ์จ์ ์ผ๋ก attention์ ์ฌ์ฉํ๋ architecture๋ฅผ ํ์ํ๋ ์์
์ ๊ฑฐ์ ์์์ 2๊ฐ์ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ Attention Mechanism์ ์ ์ ํญ์ ๋ชจ๋ source word๋ฅผ ํ์ฉํ๋ `global` attentional model ํ ๋ฒ์ source word์ subset๋ง ํ์ฉํ๋ `loc..
๐ฌ NLP/Attention & Transformer
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)(ICLR 2021) Abstract `Transformer` ๊ตฌ์กฐ๊ฐ NLP task์์ ์ฌ์ค์ ๊ธฐ์ค์ด ๋๋ ๋์ Computer Vision์์์ ์์ฉ์ ์ ํ์ Vison์์ `Attention`์ Convolutional networks์ ํจ๊ป ์ ์ฉํ๊ฑฐ๋ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ Convolution Network์ ํน์ ๊ตฌ์ฑ ์์๋ฅผ ๋์ฒดํ๋ ๋ฐ ์ฌ์ฉ CNN์ ์์กดํ ํ์๊ฐ ์์ผ๋ฉฐ Image patches์ sequences์ ์ง์ ์ ์ฉ๋ pure transformer๊ฐ Image classification task์์ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋์ ๋ฐ์ด..