딥러닝이란? 인공지능, 머신러닝과 딥러닝 정의 `인공지능(Artificial Intelligence)` : 문제를 인식하고 해결하는 능력인 지능을 구현하는 기술 ` 머신러닝(Machine Learning)` : 기계 스스로 학습하여 지능을 습득하는 기술 학습 알고리즘을 통해 데이터에 숨겨진 정보와 규칙을 기계 스스로 습득하고 그 결과를 이용해서 새로운 것을 예측하고 추론하는 기술 `딥러닝(Deep Learning)` : 생체 신경망을 모방해서 만든 `인공 신경망(Artifical Neural Network, ANN)`을 이용하여 복잡한 데이터 관계를 찾아내는 머신러닝 기법 인공 신경망이 `깊은 신경망(Deep Neural Network)`으로 발전하여 딥러닝이라는 이름 명명 머신러닝과 딥러닝의 관계 전통..
머신러닝 핵심 아이디어 머신러닝의 핵심 아이디어는 X와 Y의 관계를 찾는 것이다. 여기서 우리의 주 관심은 예측하려는 대상인 Y이며, Y를 설명하는 X 변수는 보통 여러 개이기 때문에 여러 개의 X와 Y의 관계를 찾는 것이다. 이를 위해 X 변수들을 조합(결합)하여 Y를 표현하며, 조합하는 방법은 무수히 많다. 이는 수학적으로 Y = f(X1, X2, ..., Xp)로 표현된다. 만약, X1과 X2 두 개의 변수로 Y를 설명하려고 할 때, 이에 대한 수식은 다음과 같이 표현할 수 있다. w1과 w2는 파라미터, 혹은 모수, 매개변수라고 부른다. 머신러닝 모델의 핵심은 결국 주어진 데이터를 통해 모델의 파라미터를 찾는 것이라고 할 수 있다. 파라미터 추정 `Loss function(손실 함수)`의 경우 개..
3. Modeling 앞선 포스팅을 통해 데이터 내 분석 대상 피처를 선정하는 과정과, 데이터 전처리 과정을 나타냈다. 하지만 이번 프로젝트의 주제가 예측 모델을 개발하는 것이기 때문에 모델링에 굉장히 많은 공을 들였고, 다양한 시도를 해봤다. 3-1. 평가 지표 먼저, 모델링을 하는 과정에서 중요하게 생각한 핵심 지표는 F1-Score와 ROC-AUC score이다. 흔히 모델의 평가 지표로 사용되는 정확도(Accuracy) 같은 경우엔 불균형이 심한 데이터에서는 비중이 높은 클래스에 대한 예측만 하더라도 높은 수치가 나올 수 있기 때문에 부적합한 평가 지표라고 생각해 제외했다. 반면 정밀도(Precision)과 재현율(Recall)이 적절하게 조합되어서 사용되는 F1-score와 이진 분류의 예측 성..
Supervised Learning vs Unsupervised Learning 지도 학습 Supervised Learning에는 대표적으로 Discriminative Model이 있다. 이에는 로지스틱 회귀분석, 뉴럴 네트워크 등이 해당된다. Discriminative Model은 Input이 주어지면 Input이 해당하는 클래스를 맞추기 위해 학습하게 된다. 비지도 학습 Unsupervised Learning에는 대표적으로 Generative Model이 있다. Generative 모델은 Label이 없이 학습하게 되며, 학습 데이터의 분포를 학습하는 것이 목적이다. GAN(Generative Adversarial Network)이란? GAN(Generative Adversarial Network)이..