로지스틱 회귀모델의 필요성 앞서 선형 회귀모델에서 본 것과 다르게 반응변수 Y가 범주형일 경우, 즉 이진변수 혹은 멀티변수 등이라면 최소제곱법을 통해 회귀 계수 값을 추정하기가 어렵다. 이는 선형 회귀모델에서의 가정(오차항의 가정 등)이 성립하지 않기 때문이다. 이러한 경우 로지스틱 회귀모델(Logistic Regression Model)을 사용한다. 로지스틱 회귀 모델은 새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측하는 범주예측, 즉 분류(classification) 문제를 풀때 사용하는 모델이다. 로지스틱 회귀모델을 사용하는 예시는 다음과 같다. 제품이 불량인지 양품인지 분류 고객이 이탈고객인지 잔류고객인지 분류 이메일이 스팸인지 정상메일인지 로지스틱 회귀모델의 이론적 배경은 다음과..
머신러닝 핵심 아이디어 머신러닝의 핵심 아이디어는 X와 Y의 관계를 찾는 것이다. 여기서 우리의 주 관심은 예측하려는 대상인 Y이며, Y를 설명하는 X 변수는 보통 여러 개이기 때문에 여러 개의 X와 Y의 관계를 찾는 것이다. 이를 위해 X 변수들을 조합(결합)하여 Y를 표현하며, 조합하는 방법은 무수히 많다. 이는 수학적으로 Y = f(X1, X2, ..., Xp)로 표현된다. 만약, X1과 X2 두 개의 변수로 Y를 설명하려고 할 때, 이에 대한 수식은 다음과 같이 표현할 수 있다. w1과 w2는 파라미터, 혹은 모수, 매개변수라고 부른다. 머신러닝 모델의 핵심은 결국 주어진 데이터를 통해 모델의 파라미터를 찾는 것이라고 할 수 있다. 파라미터 추정 Loss function(손실 함수)의 경우 개..