3. Modeling 앞선 포스팅을 통해 데이터 내 분석 대상 피처를 선정하는 과정과, 데이터 전처리 과정을 나타냈다. 하지만 이번 프로젝트의 주제가 예측 모델을 개발하는 것이기 때문에 모델링에 굉장히 많은 공을 들였고, 다양한 시도를 해봤다. 3-1. 평가 지표 먼저, 모델링을 하는 과정에서 중요하게 생각한 핵심 지표는 F1-Score와 ROC-AUC score이다. 흔히 모델의 평가 지표로 사용되는 정확도(Accuracy) 같은 경우엔 불균형이 심한 데이터에서는 비중이 높은 클래스에 대한 예측만 하더라도 높은 수치가 나올 수 있기 때문에 부적합한 평가 지표라고 생각해 제외했다. 반면 정밀도(Precision)과 재현율(Recall)이 적절하게 조합되어서 사용되는 F1-score와 이진 분류의 예측 성..
0. Outline 인하대학교 통계학과 유동현 교수님의 '빅데이터 자료분석' 강의를 수강하면서 조장으로써 총 4명의 인하대학교 학생들과 함께 진행한 프로젝트이다. 해당 프로젝트의 주제 및 데이터는 2022 빅콘테스트 데이터분석리그 퓨처스 부문에서 가져왔다. 프로젝트 주제는 다음과 같다.'핀다' 앱 사용성 데이터를 활용한 대출 신청 분류 모델 개발 1. Data 데이터는 앱 사용자 데이터와 대출 상품 정보 데이터를 활용하였다. 각 데이터에 포함된 피처의 내용은 다음과 같다. User 데이터 : 가명화된 핀다 앱 사용자의 개인 정보(shape : (1394216,17)) Loan 데이터 : 핀다 앱을 통해 신청한 금융사별 대출 상품승인 결과(shape : (13527363,7))..
Generative Adversarial Networks Generative Adversarial Networks은 두 개 이상의 신경망이 서로를 향하게 하고, 서로 대항하듯이 훈련하게 함으로써, 결과적으로 생성 모델(generative model)을 산출해낸다. GAN의 이점 데이터가 한정된 상황에서도 일반화(Generalization)를 할 수 있다. 작은 데이터셋을 가지고도 새로운 장면을 생각할 수 있다. 모조 데이터(simulated data)를 더욱 진짜처럼 보이게 할 수 있다. Generative Modeling & Discriminative Modeling 판별 모델링(Discriminative Modeling) 그림을 살펴본 다음에 해당 그림의 style을 정하는 일은 무엇인가를 판단하는 ..
교차 검증(Cross Validation) 알고리즘을 학습시키기 위해선 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트용 데이터가 필요하다. 하지만 이러한 방법은 과적합(Overfitting)의 위험이 있다. 과적합이란, 모델이 학습 데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 매우 떨어지는 것을 말한다. 또한 고정된 학습 데이터와 테스트 데이터를 통해 모델을 평가하면, 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하게 된다. 이러한 문제점을 개선하는 방법은 교차 검증(Cross Validation)을 수행하는 것이다. 교차 검증이란, 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트를 통해 학습과 평가를 수행..
Supervised Learning vs Unsupervised Learning 지도 학습 Supervised Learning에는 대표적으로 Discriminative Model이 있다. 이에는 로지스틱 회귀분석, 뉴럴 네트워크 등이 해당된다. Discriminative Model은 Input이 주어지면 Input이 해당하는 클래스를 맞추기 위해 학습하게 된다. 비지도 학습 Unsupervised Learning에는 대표적으로 Generative Model이 있다. Generative 모델은 Label이 없이 학습하게 되며, 학습 데이터의 분포를 학습하는 것이 목적이다. GAN(Generative Adversarial Network)이란? GAN(Generative Adversarial Network)이..
Paper 딥러닝을 활용한 반도체 웨이퍼 불량 유형 구분 모델에 관한 연구(백선재, 이민혁) Summary 0. Abstract 기존 산업현장에서는 반도체 웨이퍼 맵을 직접 확인하여 불량을 선별한다. 육안을 통한 웨이퍼 선별과정은 폭증하는 시장의 수요를 충족시킬 수 없다. 따라서 인간보다 신속, 정확한 반도체 웨이퍼 불량을 검출하여 자동화에 기여할 수 있는 AI 기술을 제시한다. 이를 위해 다층퍼셉트론(MLP)과 합성곱 신경망(CNN)을 기반으로 한 2가지 인공지능 모델을 고안하였고, 실험 결과 CNN 모델이 정확도가 평균 6.4% 더 높았음을 확인했다. 1. Introduction 반도체 칩은 수많은 제조공정을 거친 뒤 마지막 절차인 테스트를 통해 양품, 불량품을 선별한다. 반도체 수율 향상과 직결된 ..
새로운 프로젝트로 웨이퍼 맵 데이터를 활용한 이미지 분류와 관련된 연구를 진행하게 되었다. 이와 관련된 선행 연구를 찾아보던 중, 이 논문을 발견하게 되었고 프로젝트를 진행하는 데 있어 많은 도움이 될 것 같아 리뷰를 진행했다. 이 연구는 국내 반도체 기업에서 확보한 웨이퍼 맵 데이터를 통해 전처리 과정을 거쳐 이미지 분류 모델을 활용해 불량과 정상을 판단했다. 논문 : 합성곱 신경망을 이용한 웨이퍼 맵 기반 불량 탐지 0. 초록 이미지 분류에서 좋은 성능을 보여주는 합성곱 신경망을 웨이퍼 맵 이미지 데이터의 불량 여부를 판단하는 분류 모델로 사용 실제 제안하는 모델이 실제 반도체 공정에서 수집된 데이터를 활용한 실험을 통해 기본적인 다층 퍼셉트론과 랜덤 포레스트보다 더 나은 예측 정확도를 가지고 있음을..