bagging

Machine Learning

[ML] 부스팅(Boosting)

부스팅(Boosting) `부스팅(Boosting)`이란 여러 개의 learning 모델을 순차적으로 구축하여 최종적으로 합치는 방법이다. 여기서 사용하는 learning 모델은 매우 단순한 모델이다. 여기서 단순한 모델이란 Model that slightly better than chance, 즉 이진 분류에서 분류 성능이 0.5를 조금 넘는 정도의 수준의 모델을 말한다. 부스팅은 모델 구축에 순서를 고려하기 때문에 각 단계에서 새로운 base learner를 학습하여 이전 단계의 base learner의 단점을 보완하며, 각 단계를 거치면서 모델이 점차 강해진다. 부스팅 모델의 종류로는 `AdaBoost`, `GBM`, `XGBoost`, `Light GBM`, `CatBoost` 등이 있다. Ada..

Machine Learning

[ML] 랜덤 포레스트(Random Forest) 모델

랜덤 포레스트 모델 배경 - 앙상블 `랜덤 포레스트(Random Forest)`는 앙상블 기법의 하나의 예이다. `앙상블(ensemble)`이란, 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법을 말한다. 앙상블 모델은 Base 모델들이 서로 독립적이며, Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우 Base 모델모다 우수한 성능을 보여준다. 앙상블 모델의 오류율은 다음과 같은 식으로 나타낸다. 랜덤 포레스트 모델은 `의사결정나무(decision tree)모델`을 Base 모델로 사용한다. 의사결정나무모델은 다음과 같은 이유로 Base 모델로써 활용도가 높다. Low computational complexity : 데이터의 크기가..

Deep Learning

[DL] 초기화와 정규화 - Xavier Initialization, He Initialization, batch normalization, weight decay, early stopping, data augmentation, bagging, Dropout

가중치 초기화(Weight Initialization) 신경망을 학습할 때 손실 함수에서 출발 위치를 결정하는 방법이 모델 `초기화(initialization)`이다. 특히 가중치는 모델의 파라미터에서 가장 큰 비중을 차지하기 때문에 가중치의 초기화 방법에 따라 학습 성능이 크게 달라질 수 있다. 상수 초기화 신경망의 가중치를 모두 0으로 초기화하여 뉴런의 가중치가 0이면 가중 합산 결과는 항상 0이 되고, 활성 함수는 가중 합산 결과인 0을 입력받아서 늘 같은 값을 출력한다. 예를 들어 활성 함수가 ReLU나 하이퍼볼릭 탄젠트면 출력은 0이 되고 시그모이드면 출력은 항상 0.5가 된다. 0이 아닌 다른 값의 경우에도 만약 가중치를 모두 같은 상수로 초기화하면 신경망에 `대칭성(symmetry)`이 생겨..

Junyeong Son
'bagging' 태그의 글 목록