분류 전체보기

NLP

[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)

RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract Language Model의 Pre-training 과정은 상당한 성능 향상을 가지고 왔지만, 다양한 approach 간에 신중한 비교 필요 학습은 상당한 계산 비용이 필요하고, 다양한 크기의 private dataset을 통해 훈련하는 경우가 많음 hyperparameter에 대한 선택이 최종 결과에 커다란 영향을 끼침 본 논문은 `BERT`의 여러 key hyperparameter와 training data size의 영향력을 신중하게 측정하는 replication study BERT의 학습이 매우 부족했다는 것을 발견했으며, BERT만으로 이후 개발된 모델들의 성능을 이길 수 있..

NLP

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

NLP

[NLP] GPT(Generative Pre-Training of a Language Model)

Motivation `ELMo`와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 `pre-training`을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 `fine-tuning`을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 `transfer`에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

NLP

[NLP] ELMo(Embeddings from Language Models)

Pre-trained word representation Pre-trained word respresentation은 많은 neural language understanding model에서 중요한 요소 높은 품질의 representation은 2가지를 모델링할 수 있어야 함 단어의 복잡한 특성(ex> syntax, semantic) 단어들이 linguistic context 상에서 서로 다르게 사용될 때, 사용법에 맞는 representation을 표현 "눈"이라는 단어는 "eye", "snow"로 사용이 가능한데 이에 맞게 embedding이 달라야 함 ELMo(Embeddings from Language Models)의 특징 기존에 단어에 집중했던 것에서 벗어나 전체 input sentence를 고..

NLP

[Paper Review] Attention Is All You Need(NIPS 2017)

Attention Is All You Need(NIPS 2017) 0. Abstract Sequence transduction 모델은 `RNN` 혹은 `CNN`에 기반하며 `Encoder-Decoder` 구조를 포함 가장 좋은 성능을 기록한 모델들도 Encoder와 Decoder를 `Attention mechanism`으로 연결 본 논문은 RNN과 CNN을 완전히 배제한, 오직 Attention mechanism에 기반한 새로운 네트워크 `Transformer`를 제안 Transformer는 병렬화가 가능하며, 훈련에 적은 시간이 소요됨과 동시에 두 개의 번역 task에서 우수한 성능을 보임 WMT 2014 English-German Translation task에서 28.4 BLEU을 기록하여 최고의 ..

NLP

[Paper Review] Effective Approaches to Attention-based Neural Mahine Translation(EMNLP 2015)

Effective Approaches to Attention-based Neural Machine Translation(EMNLP 2015) 0. Abstract `Attention` mehanism은 번역 과정에서 source sentence를 선택적으로 focusing 하는 방식으로 NMT(Neural Machine Translation)를 개선시키는 데 사용됨 그러나 NMT 분야에서 더욱 효율적으로 attention을 사용하는 architecture를 탐색하는 작업은 거의 없었음 2개의 간단하고 효과적인 Attention Mechanism을 제시 항상 모든 source word를 활용하는 `global` attentional model 한 번에 source word의 subset만 활용하는 `loc..

Programming/Python

[Python] 내가 작성한 모듈을 자동으로 reload 하기 - autoreload

%load_ext atoreload %autoreload 2 `%autoreload 2`의 의미는 파이썬 코드를 실행하기 전에 항상 모듈을 Reload하라는 의미이다. 모듈이 사용 중인 경우에도 자동으로 다시 로드 같은 디렉토리 내 모듈을 불러오는 데 사용 Reference [1] https://m.blog.naver.com/wideeyed/221225290242 [2] https://rogerheederer.github.io/Colab_ModuleReload/

Computer Vision

[Paper Review] ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ICLR 2021)

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(ViT)(ICLR 2021) Abstract `Transformer` 구조가 NLP task에서 사실상 기준이 되는 동안 Computer Vision에서의 응용은 제한적 Vison에서 `Attention`은 Convolutional networks와 함께 적용하거나 전체 구조를 그대로 유지하면서 Convolution Network의 특정 구성 요소를 대체하는 데 사용 CNN에 의존할 필요가 없으며 Image patches의 sequences에 직접 적용된 pure transformer가 Image classification task에서 매우 우수한 성능을 보임 대량의 데이..

Machine Learning

[ML] 부스팅(Boosting)

부스팅(Boosting) `부스팅(Boosting)`이란 여러 개의 learning 모델을 순차적으로 구축하여 최종적으로 합치는 방법이다. 여기서 사용하는 learning 모델은 매우 단순한 모델이다. 여기서 단순한 모델이란 Model that slightly better than chance, 즉 이진 분류에서 분류 성능이 0.5를 조금 넘는 정도의 수준의 모델을 말한다. 부스팅은 모델 구축에 순서를 고려하기 때문에 각 단계에서 새로운 base learner를 학습하여 이전 단계의 base learner의 단점을 보완하며, 각 단계를 거치면서 모델이 점차 강해진다. 부스팅 모델의 종류로는 `AdaBoost`, `GBM`, `XGBoost`, `Light GBM`, `CatBoost` 등이 있다. Ada..

Machine Learning

[ML] 불균형 데이터 분석을 위한 샘플링 기법

불균형 데이터란? 불균형 데이터란, 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 데이터를 말한다. 즉, 클래스 별 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 말한다. 불균형 데이터가 문제가 되는 이유는 다수의 데이터를 정확히 분류하는 것보다 일반적으로 소수의 데이터를 정확히 분류하는 것이 중요하지만 다수의 데이터에 편향된 분류 경계선이 형성되어 소수의 데이터를 정확히 찾아내지 못하기 때문이다. 또한 다음과 같은 `정오행렬(Confusion Matrix)`가 있을 때, 이상(소수) 데이터를 제대로 예측하지 못했음에도 예측 정확도가 높게 나오는 모델 성능에 대한 왜곡이 있을 수 있다. 불균형 데이터의 해결 방안 크게 두 가지로, 데이터를 조정해서 이를 해결하는 ..

Junyeong Son
'분류 전체보기' 카테고리의 글 목록 (3 Page)