Fine-tuning

NLP

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract BERT(Bidirectional Encoder Representations from Transformer)라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

NLP

[NLP] GPT(Generative Pre-Training of a Language Model)

Motivation ELMo와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 pre-training을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 fine-tuning을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 transfer에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

Computer Vision

[DL] CNN - convolutional layer, pooling, fully connected, transfer learning, feature extractor, fine-tuning

합성곱 신경망 합성곱층의 필요성 합성곱 신경망은 이미지 전체를 한 번에 계산하는 것이 아닌 이미지의 국소적 부분을 계산함으로써 시간과 자원을 절약하여 이미지의 세밀한 부분까지 분석할 수 있는 신경망이다. 만약 (3 x 3) 배열을 펼쳐서(flattening) 각 픽셀에 가중치를 곱하여 은닉층에 전달하는 경우 데이터의 공간적 구조를 무시하게 된다. 이것을 방지하기 위해 도입된 것이 합성곱층이다. 합성곱 신경망의 구조 합성곱 신경망은 합성곱층과 풀링층을 거치면서 입력 이미지의 주요 특성 벡터(feature vector)를 추출한다. 이후 추출된 주요 특성 벡터들은 완전연결층을 거쳐 1차원 벡터로 변환되며, 마지막으로 출력층에서 활성화 함수인 softmax 함수를 사용하여 최종 결과가 출력된다. 입력층..