oversampling

Machine Learning

[ML] 불균형 데이터 분석을 위한 샘플링 기법

불균형 데이터란? 불균형 데이터란, 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 데이터를 말한다. 즉, 클래스 별 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 말한다. 불균형 데이터가 문제가 되는 이유는 다수의 데이터를 정확히 분류하는 것보다 일반적으로 소수의 데이터를 정확히 분류하는 것이 중요하지만 다수의 데이터에 편향된 분류 경계선이 형성되어 소수의 데이터를 정확히 찾아내지 못하기 때문이다. 또한 다음과 같은 `정오행렬(Confusion Matrix)`가 있을 때, 이상(소수) 데이터를 제대로 예측하지 못했음에도 예측 정확도가 높게 나오는 모델 성능에 대한 왜곡이 있을 수 있다. 불균형 데이터의 해결 방안 크게 두 가지로, 데이터를 조정해서 이를 해결하는 ..

Project

[Project] 핀다 앱 사용성 데이터를 활용한 대출 신청 예측 모델 개발 - Modeling

3. Modeling 앞선 포스팅을 통해 데이터 내 분석 대상 피처를 선정하는 과정과, 데이터 전처리 과정을 나타냈다. 하지만 이번 프로젝트의 주제가 예측 모델을 개발하는 것이기 때문에 모델링에 굉장히 많은 공을 들였고, 다양한 시도를 해봤다. 3-1. 평가 지표 먼저, 모델링을 하는 과정에서 중요하게 생각한 핵심 지표는 F1-Score와 ROC-AUC score이다. 흔히 모델의 평가 지표로 사용되는 정확도(Accuracy) 같은 경우엔 불균형이 심한 데이터에서는 비중이 높은 클래스에 대한 예측만 하더라도 높은 수치가 나올 수 있기 때문에 부적합한 평가 지표라고 생각해 제외했다. 반면 정밀도(Precision)과 재현율(Recall)이 적절하게 조합되어서 사용되는 F1-score와 이진 분류의 예측 성..

Junyeong Son
'oversampling' 태그의 글 목록