Machine Learning

Machine Learning

[ML] 로지스틱회귀 모델 - 로지스틱함수, 승산, 파라미터 추정, 해석

로지스틱 회귀모델의 필요성 앞서 선형 회귀모델에서 본 것과 다르게 반응변수 Y가 범주형일 경우, 즉 이진변수 혹은 멀티변수 등이라면 최소제곱법을 통해 회귀 계수 값을 추정하기가 어렵다. 이는 선형 회귀모델에서의 가정(오차항의 가정 등)이 성립하지 않기 때문이다. 이러한 경우 `로지스틱 회귀모델(Logistic Regression Model)`을 사용한다. 로지스틱 회귀 모델은 새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측하는 범주예측, 즉 `분류(classification)` 문제를 풀때 사용하는 모델이다. 로지스틱 회귀모델을 사용하는 예시는 다음과 같다. 제품이 불량인지 양품인지 분류 고객이 이탈고객인지 잔류고객인지 분류 이메일이 스팸인지 정상메일인지 로지스틱 회귀모델의 이론적 배경은 다음과..

Machine Learning

[ML] 선형회귀 모델 - 모델가정, 파라미터 추정, 최소제곱법, 파라미터 구간추정, 가설검정, R2, ANOVA

변수 사이의 관계 X변수(원인)과 Y변수(결과) 사이의 관계는 두가지가 있으며, 머신러닝 및 데이터 마이닝에서는 확률적 관계를 다룬다. 확정적 관계 : X변수만으로 Y를 100% 표현(오차항 없음) ex> 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간) 확률적 관계 : X변수와 오차항이 Y를 표현(오차항 있음) ex> 반도체 수율 = f(설비 파라미터들의 상태, 온도, 습도) + 오차항 선형 회귀 모델 `선형 회귀 모델`이란 출력변수 Y를 입력변수 X들의 선형 결합으로 표현한 모델을 말한다. 여기서 선형 결합은 변수들을 (상수배와) 더하기 빼기를 통해 결합한 것을 의미한다. 만약 X 변수 1개가 Y를 표현하는 경우는 다음과 같다. 선형 회귀 모델링의 목적은 두 가지가 있다. X 변수와 Y 변수..

Machine Learning

[ML] 머신러닝 모델 학습 프로세스

머신러닝 핵심 아이디어 머신러닝의 핵심 아이디어는 X와 Y의 관계를 찾는 것이다. 여기서 우리의 주 관심은 예측하려는 대상인 Y이며, Y를 설명하는 X 변수는 보통 여러 개이기 때문에 여러 개의 X와 Y의 관계를 찾는 것이다. 이를 위해 X 변수들을 조합(결합)하여 Y를 표현하며, 조합하는 방법은 무수히 많다. 이는 수학적으로 Y = f(X1, X2, ..., Xp)로 표현된다. 만약, X1과 X2 두 개의 변수로 Y를 설명하려고 할 때, 이에 대한 수식은 다음과 같이 표현할 수 있다. w1과 w2는 파라미터, 혹은 모수, 매개변수라고 부른다. 머신러닝 모델의 핵심은 결국 주어진 데이터를 통해 모델의 파라미터를 찾는 것이라고 할 수 있다. 파라미터 추정 `Loss function(손실 함수)`의 경우 개..

Machine Learning

[ML] 수치예측, 범주예측(분류)

수치예측 / 범주예측(분류) 연속형 데이터 : 데이터 자체를 숫자로 표현(ex> 가격, 길이, 압력, 두께) → `수치예측(Regression)` 범주형 데이터 : 원칙적으로 숫자로 표시할 수 없는 데이터(ex> 제품불량여부(양품/불량), 보험사기여부(정상/비정상)) → `범주예측(Classification)` 수치예측 / 범주예측 모델링 수치예측 모델링에선 X와 Y의 관계를 직선으로 모델링한다. 이후 새로운 데이터가 주어졌을 때 해당 직선을 통해 Y 값을 예측한다. 범주예측 모델링에선 실제 숫자를 예측하는 것이 목적이 아니기 때문에, 범주 사이를 잘 나눌 수 있는 모델을 찾고, 해당 모델을 통해 새로운 데이터가 어느 범주에 속하는지 예측하게 된다. 이 포스팅은 고려대학교 산업경영공학부 김성범 교수님 유..

Machine Learning

[ML] 머신러닝 및 인공지능 개요

기계학습(Machine Learning) `머신러닝(Machine Learning)`이란, 인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계에게 학습시키는 행위이다. 여기서 `컴퓨터 언어(computer languages)`란 인간과 컴퓨터가 소통하기 위한 수단이며, `알고리즘(algorithm)`은 문제를 해결하기 위한 방법들의 체계적인 모임을 말한다. Algorithm : Least Square Estimation, Backpropagation, Gradient 등 Computer Languages : C++, Fortran, JAVA, Matlab, R, Python 등 머신러닝 모델링 머신러닝 모델링이란, X와 Y가 주어졌을 때 이들의 관계를 잘 설명해주는 function, algorithm을 컴..

Machine Learning

[ML/DL] 교차 검증(Cross Validation) - K-Fold Cross Validation, Stratified K-Fold, GridSearchCV, cross_val_score

교차 검증(Cross Validation) 알고리즘을 학습시키기 위해선 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트용 데이터가 필요하다. 하지만 이러한 방법은 과적합(Overfitting)의 위험이 있다. 과적합이란, 모델이 학습 데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 매우 떨어지는 것을 말한다. 또한 고정된 학습 데이터와 테스트 데이터를 통해 모델을 평가하면, 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하게 된다. 이러한 문제점을 개선하는 방법은 교차 검증(Cross Validation)을 수행하는 것이다. 교차 검증이란, 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트를 통해 학습과 평가를 수행..

Junyeong Son
'Machine Learning' 카테고리의 글 목록 (2 Page)