Fine-tuning

💬 NLP/PLM

[Paper Review] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 0. Abstract `BERT(Bidirectional Encoder Representations from Transformer)`라는 새로운 language representation model을 제시 당시에 나온 language represtation model들과는 다르게 BERT는 모든 layer에서 left/right context를 동시에 고려하는 방식으로 unlabeled text로부터Deep Bidirectional Representation을 pre-train 하도록 설계 BERT는 추가적인 1개의 output layer를 통해 fine-tu..

💬 NLP/PLM

[NLP] GPT(Generative Pre-Training of a Language Model)

Motivation `ELMo`와 아이디어는 동일 Unlabeled Text Corpus를 활용하여 GPT를 통해 `pre-training`을 거쳐 embedding vector를 찾아내고, specific task를 위한 Labeled Text Corpus를 활용해 `fine-tuning`을 거쳐 이를 수행 unlabeled text로부터 word-level 이상의 정보를 사용하는 것은 어려움 `transfer`에 유용한 text representation을 학습하는데 어떠한 optimization objective가 가장 효과적인지 불확실 학습된 representation을 target task에 transfer 하는데 모델 아키텍쳐에 task-specific한 변화를 하는 것, intricate l..

👁️ Computer Vision/Convolutional Neural Network

[DL] CNN - convolutional layer, pooling, fully connected, transfer learning, feature extractor, fine-tuning

합성곱 신경망 합성곱층의 필요성 합성곱 신경망은 이미지 전체를 한 번에 계산하는 것이 아닌 이미지의 국소적 부분을 계산함으로써 시간과 자원을 절약하여 이미지의 세밀한 부분까지 분석할 수 있는 신경망이다. 만약 (3 x 3) 배열을 펼쳐서(flattening) 각 픽셀에 가중치를 곱하여 은닉층에 전달하는 경우 데이터의 공간적 구조를 무시하게 된다. 이것을 방지하기 위해 도입된 것이 합성곱층이다. 합성곱 신경망의 구조 합성곱 신경망은 합성곱층과 풀링층을 거치면서 입력 이미지의 주요 `특성 벡터(feature vector)`를 추출한다. 이후 추출된 주요 특성 벡터들은 완전연결층을 거쳐 1차원 벡터로 변환되며, 마지막으로 출력층에서 활성화 함수인 `softmax` 함수를 사용하여 최종 결과가 출력된다. 입력층..

Junyeong Son
'Fine-tuning' 태그의 글 목록