'🧠 Deep Learning' 카테고리의 글 목록

[DL] 성능 최적화 - Batch Normalization, Dropout, Early Stopping

2023.09.12

성능 최적화 데이터를 사용한 성능 최적화 일반적으로 ML/DL 알고리즘은 데이터양이 많을수록 성능이 좋기 때문에 가능한 많은 데이터를 수집 많은 데이터를 수집할 수 없다면 직접 데이터를 만들어 사용 활성화 함수로 시그모이드(0~1의 값), 하이퍼볼릭 탄젠트(-1~1의 값) 등을 사용하여 데이터셋 범위를 조정 정규화, 규제화, 표준화 등도 성능 향상에 도움 알고리즘을 사용한 성능 최적화 ML/DL을 위한 다양한 알고리즘 중 유사한 용도의 알고리즘들을 선택하여 모델을 훈련시켜 보고 최적의 성능을 보이는 알고리즘을 선택해야 한다. 알고리즘 튜닝을 위한 성능 최적화 모델을 하나 선택하여 훈련시키려면 다양한 하이퍼파라미터를 변경하면서 훈련시키고 최적의 성능을 도출해야 한다. 진단 : 성능 향상이 어느 순간 멈췄을..

🧠 Deep Learning

[DL] 학습 관련 기술들 - SGD, Momentum, AdaGrad, Adam, optimization, Xavier, He, Batch Normalization

2023.09.11

매개변수 갱신 확률적 경사 하강법(SGD) 신경망 학습의 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것으로 이는 곧 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 `최적화(optimization)`이라고 한다. 최적의 매개변수 값을 찾기 위한 단서로 매개변수의 기울기(미분)를 이용하는데, 매개변수의 기울기를 구해 기울어진 방향으로 매개변수 값을 갱신하는 일을 반복해서 최적의 값을 향해 다가가는 것이 `확률적 경사 하강법(SGD)`이다. SGD는 다음과 같은 수식으로 표현이 가능하다. 결국 SGD는 기울어진 방향으로 일정 거리만 가겠다는 단순한 방법이다. SGD를 파이썬 코드로 구현하면 다음과 같다. class SGD: def __init__(self, lr=0.01): se..

🧠 Deep Learning/RNN

[RNN] Seq2seq Learning - Encoder & Decoder, Attention, Feedforward Neural Network

2023.09.02

Sequence-to-sequence model `Seq2Seq` 모델은 words, letters, features of images 등의 sequence data를 Inputs으로 사용하며 Outputs 또한 또다른 sequence data이다. 여기서 입력에 사용하는 sequence에 해당하는 item의 개수와 출력의 sequence에 해당하는 item의 개수가 동일할 필요는 없다. 이러한 sequence-to-sequence 모델은 번역 머신으로 사용되며 이 경우 sequence는 단어들로 구성되며, output 또한 마찬가지로 단어들로 구성된다. Encoder-Decoder Seq2Seq 모델은 `Encoder`와 `Decoder`로 구성된다. 각각의 역할은 다음과 같다. Encoder : in..

🧠 Deep Learning/RNN

[RNN] 순환 신경망 - RNN, Vanilla RNN, encoder-decoder, BPTT, LSTM, GRU, Attention

2023.08.28

기억을 갖는 신경망 모델 RNN 기억을 전달하는 순환 신경망 시간과 공간적 순서 관계가 있는 데이터를 `순차 데이터(sequence data)`라고 부른다. 순차 데이터는 시공간의 순서 관계로 형성되는 문맥 또는 `콘텍스트(context)`를 갖는다. 현재 데이터를 이해할 때 앞뒤에 있는 데이터를 함께 살펴보면서 콘텍스트를 파악해야 현재 데이터의 역할을 이해할 수 있다. 인공 신경망이 데이터의 순서를 고려하여 콘텍스트를 만들려면 데이터의 순차 구조를 인식할 수 있어야 하고, 데이터의 콘텍스트 범위가 넓더라도 처리할 수 있어야 한다. 이런 점들을 고려하여 만든 인공 신경망이 바로 `순환 신경망(RNN: Recurrent Neural Network)`이다. 순방향 신경망이나 컨벌루션 신경망과는 다르게 순환 ..

🧠 Deep Learning/RNN

[RNN] RNN, LSTM and GRU

2023.08.25

순환 신경망 학습 학습이란 데이터를 통해 parameters를 추정한다는 것을 의미한다. 순환 신경망은 t시점까지의 과거 정보를 활용하여 y를 예측하게 되는데, 학습 대상이 되는 파라미터는 3가지이다. 첫 번째는 t 시점의 데이터를 반영한 W_xh 가중치, 두 번째는 t 시점 이전의 정보를 반영하는 W_hh 가중치, 그리고 t 시점의 y를 예측할 때 활용하는 W_hy 가중치이다. 해당 파라미터는 매 시점마다 공유하는 구조이며(parameter sharing), 매 시점 파라미터를 구성하는 값이 같다. 또한 최적의 W는 W를 매 시점 적용했을 때 Loss가 최소가 되는 W이다. hidden state와 예측값은 다음과 같이 계산된다. 순환 신경망이 3가지의 가중치를 추론하는 학습과정은 다음과 같다. Los..

🧠 Deep Learning/RNN

[RNN] Recurrent Neural Networks and Attention(Introduction)

2023.08.25

시계열 데이터 예측 분석 방법론 트렌드 `시계열 데이터(Time Series Data)`란, 시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받게 되는 데이터를 말한다. 이러한 시계열 데이터에는 `시계열 단변량 데이터(Univariate time series data)`, `시계열 다변량 데이터(Multivariate time series data)`, `시계열 이미지 데이터(Time series image data)` 등이 있다. 전통 통계 기반 시계열 데이터 분석 방법론 이동평균법(Moving average) 지수평활법(Exponential smoothing) ARIMA(Autoregressive integrated moving average) 모델 SARIMA(Seasonal ARIMA) 모델 ..

🧠 Deep Learning

[DL] 초기화와 정규화 - Xavier Initialization, He Initialization, batch normalization, weight decay, early stopping, data augmentation, bagging, Dropout

2023.08.11

가중치 초기화(Weight Initialization) 신경망을 학습할 때 손실 함수에서 출발 위치를 결정하는 방법이 모델 `초기화(initialization)`이다. 특히 가중치는 모델의 파라미터에서 가장 큰 비중을 차지하기 때문에 가중치의 초기화 방법에 따라 학습 성능이 크게 달라질 수 있다. 상수 초기화 신경망의 가중치를 모두 0으로 초기화하여 뉴런의 가중치가 0이면 가중 합산 결과는 항상 0이 되고, 활성 함수는 가중 합산 결과인 0을 입력받아서 늘 같은 값을 출력한다. 예를 들어 활성 함수가 ReLU나 하이퍼볼릭 탄젠트면 출력은 0이 되고 시그모이드면 출력은 항상 0.5가 된다. 0이 아닌 다른 값의 경우에도 만약 가중치를 모두 같은 상수로 초기화하면 신경망에 `대칭성(symmetry)`이 생겨..

🧠 Deep Learning

[DL] 최적화 - Stochastic Gradient Descent, SGD Momentum, overshooting, Nesterov Momentum, AdaGrad, RMSProp, Adam

2023.08.04

확률적 경사 하강법 확률적 경사 하강법은 손실 함수의 곡면에서 경사가 가장 가파른 곳으로 내려가다 보면 언젠가 가장 낮은 지점에 도달한다는 가정으로 만들어졌다. 그러나 가정이 단순하기 때문에 다양한 상황에 잘 대처하지 못하고 학습 속도도 느리기 때문에 성능에 한계가 있다. 고정된 학습률 학습률이란 최적화할 때 한 걸음의 폭을 결정하는 스텝의 크기를 말하며 학습 속도를 결정한다. 확률적 경사 하강법은 지정된 학습률을 사용하는 알고리즘이기 때문에 경험적으로 학습률을 조정할 수밖에 없으며, 이는 효율적이지 않고 최적의 학습률을 정하기 어렵다. 또한 학습률이 고정되어 있기 때문에 최적화가 비효율적으로 진행된다. 학습률이 변화할 수 있다면 처음에는 큰 폭으로 이동하다가 최적해에 가까워질수록 이동 폭을 줄여서 안정..

🧠 Deep Learning

[DL] 신경망 학습 - model parameter, optimization, loss function, cost function, Gradient Descent, chain rule, backpropagation, minibatch, cross-entropy

2023.08.03

신경망 학습의 의미 신경망에는 입력 데이터와 타깃 데이터가 제공될 뿐, 추론을 위한 규칙은 제공되지 않는다. 신경망을 `학습(learning)`한다는 것은 이 규칙을 학습 데이터를 이용해서 스스로 찾는 것이다. 이는 학습 데이터에 기대하는 정답이 들어있기 때문에 가능하다. 신경망에 입력 데이터가 들어왔을 때 어떤 출력 데이터를 만들어야 할지를 정하는 규칙은 함수적 매핑 관계로 표현된다. 가중 합산과 활성 함수가 연결되어 뉴런을 구성하고, 뉴런이 모여 계층을 구성하며, 계층이 쌓여서 신경망의 계층 구조가 정의된다. 이러한 복잡한 신경망의 계층 구조 자체가 신경망의 함수적 매핑 관계를 표현하는 것이다. 신경망의 학습 과정에서 함수적 매핑 관계를 표현하는 전체 계층 구조를 찾아야 하는 것은 아니다. 신경망의 ..

🧠 Deep Learning

[DL] 오차역전파법(backpropagation) - forward propagation, backward propagation, chain rule, affine transformation, softmax with cross entropy error, gradient check

2023.07.25

신경망 학습에서 가중치 매개변수에 대한 손실 함수의 기울기는 수치 미분을 사용해 계산했다. 수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸린다는 단점이 있다. 이에 비해 `오차역전파법(backpropagation)`은 가중치 매개변수의 기울기를 효율적으로 계산한다. 계산 그래프 `계산 그래프(computational graph)`는 계산 과정을 그래프로 나타낸 것이다. 이는 복수의 `노드(node)`와 에지(edge)`로 표현되며, 노드 사이의 직선을 에지라고 한다. 계산 그래프의 문제풀이는 다음과 같은 흐름으로 진행된다. 계산 그래프를 구성한다. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행한다. 여기서 2번째 단계인 그래프에서 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 `순전파(forward..

티스토리툴바