๐ค Machine Learning
๋ถ์คํ
(Boosting) `๋ถ์คํ
(Boosting)`์ด๋ ์ฌ๋ฌ ๊ฐ์ learning ๋ชจ๋ธ์ ์์ฐจ์ ์ผ๋ก ๊ตฌ์ถํ์ฌ ์ต์ข
์ ์ผ๋ก ํฉ์น๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฌ๊ธฐ์ ์ฌ์ฉํ๋ learning ๋ชจ๋ธ์ ๋งค์ฐ ๋จ์ํ ๋ชจ๋ธ์ด๋ค. ์ฌ๊ธฐ์ ๋จ์ํ ๋ชจ๋ธ์ด๋ Model that slightly better than chance, ์ฆ ์ด์ง ๋ถ๋ฅ์์ ๋ถ๋ฅ ์ฑ๋ฅ์ด 0.5๋ฅผ ์กฐ๊ธ ๋๋ ์ ๋์ ์์ค์ ๋ชจ๋ธ์ ๋งํ๋ค. ๋ถ์คํ
์ ๋ชจ๋ธ ๊ตฌ์ถ์ ์์๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ๊ฐ ๋จ๊ณ์์ ์๋ก์ด base learner๋ฅผ ํ์ตํ์ฌ ์ด์ ๋จ๊ณ์ base learner์ ๋จ์ ์ ๋ณด์ํ๋ฉฐ, ๊ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉด์ ๋ชจ๋ธ์ด ์ ์ฐจ ๊ฐํด์ง๋ค. ๋ถ์คํ
๋ชจ๋ธ์ ์ข
๋ฅ๋ก๋ `AdaBoost`, `GBM`, `XGBoost`, `Light GBM`, `CatBoost` ๋ฑ์ด ์๋ค. Ada..
๐ค Machine Learning
๋ถ๊ท ํ ๋ฐ์ดํฐ๋? ๋ถ๊ท ํ ๋ฐ์ดํฐ๋, ์ ์ ๋ฒ์ฃผ์ ๊ด์ธก์น ์์ ์ด์ ๋ฒ์ฃผ์ ๊ด์ธก์น ์์ ์ฐจ์ด๊ฐ ํฌ๊ฒ ๋ํ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ฆ, ํด๋์ค ๋ณ ๊ด์ธก์น์ ์๊ฐ ํ์ ํ๊ฒ ์ฐจ์ด๊ฐ ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๊ท ํ ๋ฐ์ดํฐ๋ผ๊ณ ๋งํ๋ค. ๋ถ๊ท ํ ๋ฐ์ดํฐ๊ฐ ๋ฌธ์ ๊ฐ ๋๋ ์ด์ ๋ ๋ค์์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๋ถ๋ฅํ๋ ๊ฒ๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก ์์์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๋ถ๋ฅํ๋ ๊ฒ์ด ์ค์ํ์ง๋ง ๋ค์์ ๋ฐ์ดํฐ์ ํธํฅ๋ ๋ถ๋ฅ ๊ฒฝ๊ณ์ ์ด ํ์ฑ๋์ด ์์์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ์ฐพ์๋ด์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ ๋ค์๊ณผ ๊ฐ์ `์ ์คํ๋ ฌ(Confusion Matrix)`๊ฐ ์์ ๋, ์ด์(์์) ๋ฐ์ดํฐ๋ฅผ ์ ๋๋ก ์์ธกํ์ง ๋ชปํ์์๋ ์์ธก ์ ํ๋๊ฐ ๋๊ฒ ๋์ค๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ํ ์๊ณก์ด ์์ ์ ์๋ค. ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ํด๊ฒฐ ๋ฐฉ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก, ๋ฐ์ดํฐ๋ฅผ ์กฐ์ ํด์ ์ด๋ฅผ ํด๊ฒฐํ๋ ..
๐ค Machine Learning
๊ตฐ์งํ(Clustering) `๊ตฐ์งํ(Clustering)`์ด๋ ์์ธก ๋ชจ๋ธ๊ณผ ๊ฐ์ด ์์ธก์ ๋ชฉ์ ์ผ๋ก ํ๋ ๊ฒ์ด ์๋, ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฌํ ์์ฑ๋ค์ ๊ฐ๋ ๊ด์ธก์น๋ค์ ๋ฌถ์ด ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ช ๊ฐ์ ๊ตฐ์ง(๊ทธ๋ฃน)์ผ๋ก ๋๋๋ ๊ฒ์ ๋งํ๋ค. ๊ตฐ์งํ์ ๊ธฐ์ค์ ๋์ผํ ๊ตฐ์ง์ ์์๋ ๊ด์ธก์น๋ค์ ์๋ก ์ ์ฌํ ์๋ก ์ข์ผ๋ฉฐ, ์์ดํ ๊ตฐ์ง์ ์์๋ ๊ด์ธก์น๋ค์ ์๋ก ๋ค๋ฅผ์๋ก ์ข๋ค. `๋ถ๋ฅ(Classification)`์ `๊ตฐ์งํ(Clustering)`์ ์ฐจ์ด๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ถ๋ฅ : ์ฌ์ ์ ์๋ ๋ฒ์ฃผ๊ฐ ์๋(labeled) ๋ฐ์ดํฐ๋ก๋ถํฐ ์์ธก ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฌธ์ → `์ง๋ํ์ต(Supervised Learning)` ๊ตฐ์งํ : ์ฌ์ ์ ์๋ ๋ฒ์ฃผ๊ฐ ์๋(unlabeled) ๋ฐ์ดํฐ์์ ์ต์ ์ ๊ทธ๋ฃน์ ์ฐพ๋ ๋ฌธ์ → `๋น..
๐ค Machine Learning
๋ถ๋ถ์ต์์ ๊ณฑ๋ฒ(Partial Least Squares, PLS) `๋ถ๋ถ์ต์์ ๊ณฑ๋ฒ(Partial Least Squares, PLS)`์ X์ ์ ํ๊ฒฐํฉ์ ๋ถ์ฐ์ ์ต๋ํํ๋ ๊ฒ๊ณผ ๋๋ถ์ด X์ ์ ํ๊ฒฐํฉ Z์ Y๊ฐ์ ๊ณต๋ถ์ฐ์ ์ต๋ํํ๋ ๋ณ์๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ด๋ค. PLS๋ Y์์ ๊ณต๋ถ์ฐ์ด ๋์ k๊ฐ์ ์ ํ์กฐํฉ ๋ณ์๋ฅผ ์ถ์ถ(Supervised feature extraction)ํ๋ ๋ฐฉ์์ด๋ค. PLS(๋ถ๋ถ์ต์์ ๊ณฑ)์ ์ฉ์ด๋ ์ ํ์กฐํฉ์ผ๋ก ์ถ์ถ๋ ๋ณ์๊ฐ ์ค๋ช
ํ์ง ๋ชปํ๋ ๋ถ๋ถ์(๋ฐ์ดํฐ ์ผ๋ถ๋ถ) ์ง์์ ์ผ๋ก ์ต์์ ๊ณฑ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒ์์ ์ ๋ํ๋ค. PLS์ ์ฃผ์ ๋ชฉ์ ์ PCA์ ๋์ผํ๊ฒ ํ๊ท ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ , ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์์ํค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ PCA์์ ์ฐจ์ด์ ์ ์ถ์ถ๋ ๋ณ์๊ฐ PCA์์๋ ๋ฐ์ํ์ง ๋ชปํ๋ Y์์..
๐ค Machine Learning
๊ณ ์ฐจ์ ๋ฐ์ดํฐ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ X ๋ณ์์ ์๊ฐ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ด๋ ๋ณ์์ ์๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ๋ถํ์ํ ๋ณ์๊ฐ ์กด์ฌํ๋ฉฐ ์๊ฐ์ ์ผ๋ก ํํํ๊ธฐ ์ด๋ ต๋ค. ๋ํ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ๋ง์ด ๋นํจ์จ์ ์ผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ๋ฐ๋ผ์ ์ด ๊ฒฝ์ฐ ์ค์ํ ๋ณ์๋ง์ ์ ํํด์ ๋ชจ๋ธ๋ง์ ํ๋ ๊ฒ์ด ํ์ํ๋ฉฐ, ์ด๋ฅผ `์ฐจ์ ์ถ์(dimension reduction)`๋ผ๊ณ ํ๋ค. ๋ณ์ ์ ํ/์ถ์ถ์ ํตํ ์ฐจ์ ์ถ์ ์ฐจ์ ์ถ์์ ๋ฐฉ๋ฒ์ `๋ณ์ ์ ํ(feature selection)`๊ณผ `๋ณ์ ์ถ์ถ(feature extraction)` ๋ ๊ฐ์ง๊ฐ ์๋ค. ๋ณ์ ์ ํ์ด๋ ๋ถ์ ๋ชฉ์ ์ ๋ถํฉํ๋ ์์์ ์์ธก ๋ณ์๋ง์ ์ ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ณธ ๋ฐ์ดํฐ์์ ๋ณ์๋ฅผ ์ ํํ๊ธฐ ๋๋ฌธ์ ์ ํํ ๋ณ์์ ํด์์ด ์ฉ์ดํ์ง๋ง ๋ณ์๊ฐ ์๊ด๊ด๊ณ๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ด๋ ต..
๐ค Machine Learning
์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine, SVM) `์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine, SVM)`์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ถ๋ฅ ๋ฌธ์ ์ ๊ต์ฅํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ด๋ค. ๋ํ SVM์ 2์ฐจ ๋ฐฉ์ ์์ผ๋ก formulation์ ํ๋ค. ์ฆ, `2์ฐจ ๊ณํ๋ฒ(quadratic programming)`์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ๋๋ถ๋ถ ๋ฌธ์ ๋ฅผ ํ๋ training data์ ๋ํ์ฌ ๋ถ๋ฅ ์ฑ๋ฅ์ ์ต๋ํํ๊ธฐ ์ํด ๋
ธ๋ ฅํ๋ค. ๊ทธ๋ฌ๋ training data์ ๋๋ฌด ๋ง์ถฐ์ง ๋ชจ๋ธ์ ๊ณผ์ ํฉ์ ์ํ์ด ์์ผ๋ฉฐ, ์๋ ค์ง์ง ์์ ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ(generalization ability)๋ ์ข์์ผ ํ๋ค. ์ฌ๊ธฐ์ generalization ability์ fitting to the training da..
๐ค Machine Learning
๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ ๋ฐฐ๊ฒฝ - ์์๋ธ `๋๋ค ํฌ๋ ์คํธ(Random Forest)`๋ ์์๋ธ ๊ธฐ๋ฒ์ ํ๋์ ์์ด๋ค. `์์๋ธ(ensemble)`์ด๋, ์ฌ๋ฌ Base ๋ชจ๋ธ๋ค์ ์์ธก์ ๋ค์๊ฒฐ ๋ฒ์น ๋๋ ํ๊ท ์ ์ด์ฉํด ํตํฉํ์ฌ ์์ธก ์ ํ์ฑ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค. ์์๋ธ ๋ชจ๋ธ์ Base ๋ชจ๋ธ๋ค์ด ์๋ก ๋
๋ฆฝ์ ์ด๋ฉฐ, Base ๋ชจ๋ธ๋ค์ด ๋ฌด์์ ์์ธก์ ์ํํ๋ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ ๊ฒฝ์ฐ Base ๋ชจ๋ธ๋ชจ๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์์๋ธ ๋ชจ๋ธ์ ์ค๋ฅ์จ์ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ๋ํ๋ธ๋ค. ๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ์ `์์ฌ๊ฒฐ์ ๋๋ฌด(decision tree)๋ชจ๋ธ`์ Base ๋ชจ๋ธ๋ก ์ฌ์ฉํ๋ค. ์์ฌ๊ฒฐ์ ๋๋ฌด๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก Base ๋ชจ๋ธ๋ก์จ ํ์ฉ๋๊ฐ ๋๋ค. Low computational complexity : ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ..
๐ค Machine Learning
์์ฌ๊ฒฐ์ ๋๋ฌด ๋ชจ๋ธ ๋ฐ์ดํฐ์ ๋ด์ฌ๋์ด ์๋ ํจํด์ ๋ณ์์ ์กฐํฉ์ผ๋ก ๋ํ๋ด๋ ์์ธก/๋ถ๋ฅ ๋ชจ๋ธ์ ๋๋ฌด์ ํํ๋ก ๋ง๋๋ ๊ฒ ์ง๋ฌธ์ ๋์ ธ์ ๋ง๊ณ ํ๋ฆฌ๋ ๊ฒ์ ๋ฐ๋ผ ์ฐ๋ฆฌ๊ฐ ์๊ฐํ๊ณ ์๋ ๋์์ ์ขํ๋๊ฐ ์ค๋ฌด๊ณ ๊ฐ ๋์ด์ ๋น์ทํ ๊ฐ๋
๋ฐ์ดํฐ๋ฅผ 2๊ฐ ํน์ ๊ทธ ์ด์์ ๋ถ๋ถ์งํฉ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๊ท ์ผํด์ง๋๋ก ๋ถํ ๋ถ๋ฅ : ๋น์ทํ ๋ฒ์ฃผ๋ฅผ ๊ฐ๊ณ ์๋ ๊ด์ธก์น๋ผ๋ฆฌ ๋ชจ์ ์์ธก : ๋น์ทํ ์์น๋ฅผ ๊ฐ๊ณ ์๋ ๊ด์ธก์น๋ผ๋ฆฌ ๋ชจ์ `๋ฟ๋ฆฌ ๋ง๋(Root node)`, `์ค๊ฐ๋ง๋(Intermediate node)`, `๋๋ง๋(Terminal node)`๋ก ๊ตฌ์ฑ ์์ธก๋๋ฌด ๋ชจ๋ธ(Regression Tree) ์์ธก๋๋ฌด ๋ชจ๋ธ์ ๋ํ์ฌ ๋ค์ 3๊ฐ์ง ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฅด๊ฒ ํํํ ๊ฒ์ด๋ค. ์์ธก๋๋ฌด ๋ชจ๋ธ๋ง ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ด์ ๋ถํ ๋ณ์(j)์ ๋ถํ ์ (..
๐ค Machine Learning
๋ถ๋ฅ ๋ฐ ์์ธก์ ์ํ ๋ชจ๋ธ ๋ถ๋ฅ ๋ฐ ์์ธก์ ์ํ ๋ชจ๋ธ์ ํฌ๊ฒ 2๊ฐ์ง๊ฐ ์๋ค. ์ฒซ ๋ฒ์งธ๋ `Model-based Learning`์ด๋ค. ์ด๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ชจ๋ธ์ ์์ฑํ์ฌ ๋ถ๋ฅ ๋ฐ ์์ธก์ ์งํํ๋ ๊ฒ์ผ๋ก ์ ํ/๋น์ ํ๋ชจ๋ธ(linear regression, logistic regression ๋ฑ), Neural Network, ์์ฌ ๊ฒฐ์ ๋๋ฌด, Support Vector Machine ๋ฑ์ ์๋ก ๋ค ์ ์๋ค. ๋ ๋ฒ์งธ๋ `Instance-based Learning`์ด๋ค. ์ด๋ ๋ณ๋์ ๋ชจ๋ธ ์์ฑ ์์ด ์ธ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅ ๋ฐ ์์ธก์ ์ฌ์ฉํ๋ ๊ฒ์ ๋งํ๋ค. ๋ํ์ ์ธ ์๋ก๋ K-nearest neighbor, Locally weighted regression ๋ฑ์ด ์๋ค. Nearest neighbors KNN ์๊ณ ๋ฆฌ์ฆ..
๐ค Machine Learning
Good Model ์ข์ ๋ชจ๋ธ์ด๋ ๋ ๊ฐ์ง๋ก ๋๋ ์ ์๋ค. ์ฒซ ๋ฒ์งธ๋ ํ์ฌ ๋ฐ์ดํฐ(training data)๋ฅผ ์ ์ค๋ช
ํ๋ ๋ชจ๋ธ(Explanatory modeling)์ด๋ฉฐ, ๋ ๋ฒ์งธ๋ ๋ฏธ๋ ๋ฐ์ดํฐ(testing data)์ ๋ํ ์์ธก ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ(Predictive modeling)์ด๋ค. ์ข์ Explanatory model์ด๋ training error๋ฅผ minimizeํ๋ ๋ชจ๋ธ์ด๋ค. ํ๊น ๊ฐ์ด ์ฐ์ํ์ผ ๊ฒฝ์ฐ MSE ๊ฐ์ minimize ํ๋ ๊ฒฝ์ฐ์ด๋ค. ๋ํ ์ข์ Predictive Model์ด๋ ๋ฏธ๋ ๋ฐ์ดํฐ์ ๋ํ expected error๊ฐ ๋ฎ์ ๋ชจ๋ธ์ด๋ค. ์ด ๊ฒฝ์ฐ์๋ Expected MSE๊ฐ์ ๊ฐ์์์ผ์ผ ํ๋ค. ์ฌ๊ธฐ์ Irreducible Error๋ ์ด๋ป๊ฒ ํ ๋ฐฉ๋ฒ์ด ์๋ ์ค๋ฅ๋ฅผ ๋งํ๋ฉฐ,..