대회 정보 https://dacon.io/competitions/official/236082/overview/description DACON에서 진행한 '도배 하자 유형 분류 AI 경진대회'에 참여했다. 해당 대회는 19가지의 도배 하자 이미지를 가지고 유형 분류를 하는 AI 모델을 개발하는 대회이다. Train dataset의 경우 19개의 class folder에 총 3,457개의 데이터가 포함되어 있으며 모델 예측에 활용하는 Test dataset은 레이블이 주어져있지 않은 791개의 이미지 데이터이다. 평가 지표로는 weighted f1 score을 활용한다. 해당 데이터는 데이터 불균형이 매우 심한 데이터이다. 가장 데이터의 개수가 많은 클래스는 훼손으로 1,405개의 데이터가 있었고, ..
3. Modeling 앞선 포스팅을 통해 데이터 내 분석 대상 피처를 선정하는 과정과, 데이터 전처리 과정을 나타냈다. 하지만 이번 프로젝트의 주제가 예측 모델을 개발하는 것이기 때문에 모델링에 굉장히 많은 공을 들였고, 다양한 시도를 해봤다. 3-1. 평가 지표 먼저, 모델링을 하는 과정에서 중요하게 생각한 핵심 지표는 F1-Score와 ROC-AUC score이다. 흔히 모델의 평가 지표로 사용되는 정확도(Accuracy) 같은 경우엔 불균형이 심한 데이터에서는 비중이 높은 클래스에 대한 예측만 하더라도 높은 수치가 나올 수 있기 때문에 부적합한 평가 지표라고 생각해 제외했다. 반면 정밀도(Precision)과 재현율(Recall)이 적절하게 조합되어서 사용되는 F1-score와 이진 분류의 예측 성..
0. Outline 인하대학교 통계학과 유동현 교수님의 '빅데이터 자료분석' 강의를 수강하면서 조장으로써 총 4명의 인하대학교 학생들과 함께 진행한 프로젝트이다. 해당 프로젝트의 주제 및 데이터는 2022 빅콘테스트 데이터분석리그 퓨처스 부문에서 가져왔다. 프로젝트 주제는 다음과 같다.'핀다' 앱 사용성 데이터를 활용한 대출 신청 분류 모델 개발 1. Data 데이터는 앱 사용자 데이터와 대출 상품 정보 데이터를 활용하였다. 각 데이터에 포함된 피처의 내용은 다음과 같다. User 데이터 : 가명화된 핀다 앱 사용자의 개인 정보(shape : (1394216,17)) Loan 데이터 : 핀다 앱을 통해 신청한 금융사별 대출 상품승인 결과(shape : (13527363,7))..