๐ฅ Project
๋ํ ์ ๋ณด https://dacon.io/competitions/official/236082/overview/description DACON์์ ์งํํ '๋๋ฐฐ ํ์ ์ ํ ๋ถ๋ฅ AI ๊ฒฝ์ง๋ํ'์ ์ฐธ์ฌํ๋ค. ํด๋น ๋ํ๋ 19๊ฐ์ง์ ๋๋ฐฐ ํ์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง๊ณ ์ ํ ๋ถ๋ฅ๋ฅผ ํ๋ AI ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๋ํ์ด๋ค. Train dataset์ ๊ฒฝ์ฐ 19๊ฐ์ class folder์ ์ด 3,457๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ ๋ชจ๋ธ ์์ธก์ ํ์ฉํ๋ Test dataset์ ๋ ์ด๋ธ์ด ์ฃผ์ด์ ธ์์ง ์์ 791๊ฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ด๋ค. ํ๊ฐ ์งํ๋ก๋ `weighted f1 score`์ ํ์ฉํ๋ค. ํด๋น ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ์ด ๋งค์ฐ ์ฌํ ๋ฐ์ดํฐ์ด๋ค. ๊ฐ์ฅ ๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ๋ง์ ํด๋์ค๋ `ํผ์`์ผ๋ก 1,405๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์๊ณ , ..
๐ฅ Project
3. Modeling ์์ ํฌ์คํ
์ ํตํด ๋ฐ์ดํฐ ๋ด ๋ถ์ ๋์ ํผ์ฒ๋ฅผ ์ ์ ํ๋ ๊ณผ์ ๊ณผ, ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋ํ๋๋ค. ํ์ง๋ง ์ด๋ฒ ํ๋ก์ ํธ์ ์ฃผ์ ๊ฐ ์์ธก ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ๋ง์ ๊ต์ฅํ ๋ง์ ๊ณต์ ๋ค์๊ณ , ๋ค์ํ ์๋๋ฅผ ํด๋ดค๋ค. 3-1. ํ๊ฐ ์งํ ๋จผ์ , ๋ชจ๋ธ๋ง์ ํ๋ ๊ณผ์ ์์ ์ค์ํ๊ฒ ์๊ฐํ ํต์ฌ ์งํ๋ F1-Score์ ROC-AUC score์ด๋ค. ํํ ๋ชจ๋ธ์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉ๋๋ ์ ํ๋(Accuracy) ๊ฐ์ ๊ฒฝ์ฐ์ ๋ถ๊ท ํ์ด ์ฌํ ๋ฐ์ดํฐ์์๋ ๋น์ค์ด ๋์ ํด๋์ค์ ๋ํ ์์ธก๋ง ํ๋๋ผ๋ ๋์ ์์น๊ฐ ๋์ฌ ์ ์๊ธฐ ๋๋ฌธ์ ๋ถ์ ํฉํ ํ๊ฐ ์งํ๋ผ๊ณ ์๊ฐํด ์ ์ธํ๋ค. ๋ฐ๋ฉด ์ ๋ฐ๋(Precision)๊ณผ ์ฌํ์จ(Recall)์ด ์ ์ ํ๊ฒ ์กฐํฉ๋์ด์ ์ฌ์ฉ๋๋ F1-score์ ์ด์ง ๋ถ๋ฅ์ ์์ธก ์ฑ..
๐ฅ Project
0. Outline ์ธํ๋ํ๊ต ํต๊ณํ๊ณผ ์ ๋ํ ๊ต์๋์ '๋น
๋ฐ์ดํฐ ์๋ฃ๋ถ์' ๊ฐ์๋ฅผ ์๊ฐํ๋ฉด์ ์กฐ์ฅ์ผ๋ก์จ ์ด 4๋ช
์ ์ธํ๋ํ๊ต ํ์๋ค๊ณผ ํจ๊ป ์งํํ ํ๋ก์ ํธ์ด๋ค. ํด๋น ํ๋ก์ ํธ์ ์ฃผ์ ๋ฐ ๋ฐ์ดํฐ๋ 2022 ๋น
์ฝํ
์คํธ ๋ฐ์ดํฐ๋ถ์๋ฆฌ๊ทธ ํจ์ฒ์ค ๋ถ๋ฌธ์์ ๊ฐ์ ธ์๋ค. ํ๋ก์ ํธ ์ฃผ์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.'ํ๋ค' ์ฑ ์ฌ์ฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋์ถ ์ ์ฒญ ๋ถ๋ฅ ๋ชจ๋ธ ๊ฐ๋ฐ 1. Data ๋ฐ์ดํฐ๋ ์ฑ ์ฌ์ฉ์ ๋ฐ์ดํฐ์ ๋์ถ ์ํ ์ ๋ณด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์๋ค. ๊ฐ ๋ฐ์ดํฐ์ ํฌํจ๋ ํผ์ฒ์ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. User ๋ฐ์ดํฐ : ๊ฐ๋ช
ํ๋ ํ๋ค ์ฑ ์ฌ์ฉ์์ ๊ฐ์ธ ์ ๋ณด(shape : (1394216,17)) Loan ๋ฐ์ดํฐ : ํ๋ค ์ฑ์ ํตํด ์ ์ฒญํ ๊ธ์ต์ฌ๋ณ ๋์ถ ์ํ์น์ธ ๊ฒฐ๊ณผ(shape : (13527363,7))..