undersampling

Machine Learning

[ML] 불균형 데이터 분석을 위한 샘플링 기법

불균형 데이터란? 불균형 데이터란, 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 데이터를 말한다. 즉, 클래스 별 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 말한다. 불균형 데이터가 문제가 되는 이유는 다수의 데이터를 정확히 분류하는 것보다 일반적으로 소수의 데이터를 정확히 분류하는 것이 중요하지만 다수의 데이터에 편향된 분류 경계선이 형성되어 소수의 데이터를 정확히 찾아내지 못하기 때문이다. 또한 다음과 같은 `정오행렬(Confusion Matrix)`가 있을 때, 이상(소수) 데이터를 제대로 예측하지 못했음에도 예측 정확도가 높게 나오는 모델 성능에 대한 왜곡이 있을 수 있다. 불균형 데이터의 해결 방안 크게 두 가지로, 데이터를 조정해서 이를 해결하는 ..

Junyeong Son
'undersampling' 태그의 글 목록