Project

Project

[Project] 도배 하자 유형 분류 AI 경진대회

대회 정보 https://dacon.io/competitions/official/236082/overview/description DACON에서 진행한 '도배 하자 유형 분류 AI 경진대회'에 참여했다. 해당 대회는 19가지의 도배 하자 이미지를 가지고 유형 분류를 하는 AI 모델을 개발하는 대회이다. Train dataset의 경우 19개의 class folder에 총 3,457개의 데이터가 포함되어 있으며 모델 예측에 활용하는 Test dataset은 레이블이 주어져있지 않은 791개의 이미지 데이터이다. 평가 지표로는 `weighted f1 score`을 활용한다. 해당 데이터는 데이터 불균형이 매우 심한 데이터이다. 가장 데이터의 개수가 많은 클래스는 `훼손`으로 1,405개의 데이터가 있었고, ..

Project

[Project] 핀다 앱 사용성 데이터를 활용한 대출 신청 예측 모델 개발 - Modeling

3. Modeling 앞선 포스팅을 통해 데이터 내 분석 대상 피처를 선정하는 과정과, 데이터 전처리 과정을 나타냈다. 하지만 이번 프로젝트의 주제가 예측 모델을 개발하는 것이기 때문에 모델링에 굉장히 많은 공을 들였고, 다양한 시도를 해봤다. 3-1. 평가 지표 먼저, 모델링을 하는 과정에서 중요하게 생각한 핵심 지표는 F1-Score와 ROC-AUC score이다. 흔히 모델의 평가 지표로 사용되는 정확도(Accuracy) 같은 경우엔 불균형이 심한 데이터에서는 비중이 높은 클래스에 대한 예측만 하더라도 높은 수치가 나올 수 있기 때문에 부적합한 평가 지표라고 생각해 제외했다. 반면 정밀도(Precision)과 재현율(Recall)이 적절하게 조합되어서 사용되는 F1-score와 이진 분류의 예측 성..

Project

[Project] 핀다 앱 사용성 데이터를 활용한 대출 신청 예측 모델 개발 - Data preprocessing

0. Outline 인하대학교 통계학과 유동현 교수님의 '빅데이터 자료분석' 강의를 수강하면서 조장으로써 총 4명의 인하대학교 학생들과 함께 진행한 프로젝트이다. 해당 프로젝트의 주제 및 데이터는 2022 빅콘테스트 데이터분석리그 퓨처스 부문에서 가져왔다. 프로젝트 주제는 다음과 같다.'핀다' 앱 사용성 데이터를 활용한 대출 신청 분류 모델 개발 1. Data 데이터는 앱 사용자 데이터와 대출 상품 정보 데이터를 활용하였다. 각 데이터에 포함된 피처의 내용은 다음과 같다. User 데이터 : 가명화된 핀다 앱 사용자의 개인 정보(shape : (1394216,17)) Loan 데이터 : 핀다 앱을 통해 신청한 금융사별 대출 상품승인 결과(shape : (13527363,7))..

Junyeong Son
'Project' 카테고리의 글 목록