Bert

NLP

[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

2023.10.25

RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model의 Pre-training 과정은 상당한 성능 향상을 가지고 왔지만, 다양한 approach 간에 신중한 비교 필요 학습은 상당한 계산 비용이 필요하고, 다양한 크기의 private dataset을 통해 훈련하는 경우가 많음 hyperparameter에 대한 선택이 최종 결과에 커다란 영향을 끼침 본 논문은 `BERT`의 여러 key hyperparameter와 training data size의 영향력을 신중하게 측정하는 replication study BERT의 학습이 매우 부족했다는 것을 발견했으며, BERT만으로 이후 개발된 모델들의 성능을 이길 수 있..

NLP

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

2023.10.23

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

티스토리툴바