๐๏ธ Computer Vision/Convolutional Neural Network
Visualizing and Understanding Convolutional Networks(2013) 0. Abstract AlexNet ์ดํ `Large Convolutional Network` ๋ชจ๋ธ๋ค์ด ImageNet bechmark์์ ์ธ์์ ์ธ classification ์ฑ๋ฅ์ ๋ณด์ ๊ทธ๋ฌ๋ ์ ์ฑ๋ฅ์ด ์ข์์ง, ์ด๋ป๊ฒ ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋์ง์ ๋ํด์ ๋ช
ํํ๊ฒ ์ดํดํ์ง ๋ชปํจ ๋ณธ ๋
ผ๋ฌธ์์ Large Convolutional Network์ ์ค๊ฐ์ ์๋ feature layers์ ๊ธฐ๋ฅ๊ณผ classifier์ ์๋ ๊ณผ์ ์ ํ์ธํ๋ ์๋ก์ด ์๊ฐํ ๊ธฐ๋ฒ์ ์ ์ ํด๋น visualization ๊ธฐ์ ์ด diagnostic role์ ์ํํ์ฌ AlexNet๋ณด๋ค ImageNet benchmark์์ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ..
๐๏ธ Computer Vision/Convolutional Neural Network
ImageNet Classification with Deep Convolutional Neural Networks 0. Abstract ImageNet LSVRC-2010์์ 1.2m๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ๋ํด 1000๊ฐ์ ํด๋์ค๋ก ๋ถ๋ฅํ๊ธฐ ์ํด large, deep convolutional neural network๋ฅผ ํ์ต test data์์ ์ด์ SOTA ๋ชจ๋ธ๋ณด๋ค ์ข์ top-1๊ณผ top-5 error rates์์ 37.5%์ 17.0%๋ฅผ ๊ธฐ๋ก `AlexNet`์๋ ์ฝ 6,000๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ์ 65๋ง ๊ฐ์ neurons๊ฐ 5๊ฐ์ convolutional layers๋ก ๊ตฌ์ฑ ์ด์ ๋ํด max-pooling layers์ 1000-way softmax๋ก ๊ตฌ์ฑ๋ 3๊ฐ์ fully-connected l..
๐๏ธ Computer Vision/Convolutional Neural Network
`์ด๋ฏธ์ง ๋ถ๋ฅ(classification)`๋ ํน์ ๋์์ด ์์ ๋ด์ ์กด์ฌํ๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์ด๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ ํ์ ๋ค์ํ๋ค. LeNet-5 `LeNet-5`๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ด๋ผ๋ ๊ฐ๋
์ ์ต์ด๋ก ๊ฐ๋ฐํ ๊ตฌ์กฐ๋ก, ํ์ฌ CNN์ ์ด์์ด ๋์๋ค. LeNet-5๋ `ํฉ์ฑ๊ณฑ(convolutional)`๊ณผ `๋ค์ด ์ํ๋ง(sub-sampling)`(ํน์ ํ๋ง)์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฑฐ์น๋ฉด์ ๋ง์ง๋ง์ ์์ ์ฐ๊ฒฐ์ธต์์ ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. LeNet-5์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค. (32 x 32 x 1) ํฌ๊ธฐ์ ์ด๋ฏธ์ง์ ํฉ์ฑ๊ณฑ์ธต๊ณผ ์ต๋ ํ๋ง์ธต์ด ์์ผ๋ก ๋ ๋ฒ ์ ์ฉ๋ ํ ์์ ์ฐ๊ฒฐ์ธต์ ๊ฑฐ์ณ ์ด๋ฏธ์ง๊ฐ ๋ถ๋ฅ๋๋ ์ ๊ฒฝ๋ง์ด๋ค. ์ด๋ฌํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํ์ดํ ์น๋ฅผ ํตํด ๊ตฌํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์
๋ ฅ ์ด๋ฏธ์ง..
๐๏ธ Computer Vision/Convolutional Neural Network
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ํฉ์ฑ๊ณฑ์ธต์ ํ์์ฑ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๊ณ์ฐํ๋ ๊ฒ์ด ์๋ ์ด๋ฏธ์ง์ ๊ตญ์์ ๋ถ๋ถ์ ๊ณ์ฐํจ์ผ๋ก์จ ์๊ฐ๊ณผ ์์์ ์ ์ฝํ์ฌ ์ด๋ฏธ์ง์ ์ธ๋ฐํ ๋ถ๋ถ๊น์ง ๋ถ์ํ ์ ์๋ ์ ๊ฒฝ๋ง์ด๋ค. ๋ง์ฝ (3 x 3) ๋ฐฐ์ด์ ํผ์ณ์(flattening) ๊ฐ ํฝ์
์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ์ฌ ์๋์ธต์ ์ ๋ฌํ๋ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ฒ ๋๋ค. ์ด๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ๋์
๋ ๊ฒ์ด ํฉ์ฑ๊ณฑ์ธต์ด๋ค. ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํฉ์ฑ๊ณฑ์ธต๊ณผ ํ๋ง์ธต์ ๊ฑฐ์น๋ฉด์ ์
๋ ฅ ์ด๋ฏธ์ง์ ์ฃผ์ `ํน์ฑ ๋ฒกํฐ(feature vector)`๋ฅผ ์ถ์ถํ๋ค. ์ดํ ์ถ์ถ๋ ์ฃผ์ ํน์ฑ ๋ฒกํฐ๋ค์ ์์ ์ฐ๊ฒฐ์ธต์ ๊ฑฐ์ณ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ณํ๋๋ฉฐ, ๋ง์ง๋ง์ผ๋ก ์ถ๋ ฅ์ธต์์ ํ์ฑํ ํจ์์ธ `softmax` ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ข
๊ฒฐ๊ณผ๊ฐ ์ถ๋ ฅ๋๋ค. ์
๋ ฅ์ธต..
๐๏ธ Computer Vision/Convolutional Neural Network
LeNet-5 ์ ๋ฅด์ฟค์ 1998๋
์ฐํธ๋ฌผ์ ํ๊ธฐ์ฒด๋ก ์ฐ์ธ ์ฐํธ๋ณํธ๋ฅผ ์ธ์ํ๋ ์ต์ด์ ์ปจ๋ฒ๋ฃจ์
์ ๊ฒฝ๋ง์ธ `LeNet-5`๋ฅผ ์ ๋ณด์๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ LeNet-5๋ ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต๊ณผ ํ๋ง ๊ณ์ธต์ 2๋ฒ ๋ฐ๋ณตํ ๋ค ์์ ์ฐ๊ฒฐ 3๊ณ์ธต์ผ๋ก ์ฐ๊ฒฐ๋๋ ๊ตฌ์กฐ์ด๋ค. ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต๊ณผ ํ๋ง ๊ณ์ธต์ ์์ฒด ์ ๊ฒฝ๋ง์ ์๊ฐ ์์ญ์, ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์ฐ๊ด ์์ญ์ ๋ชจ๋ธ๋งํ๋ค. ์
๋ ฅ ๋ฐ์ดํฐ๋ (32 x 32 x 1) ์ด๋ฏธ์ง ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต์ (5 x 5) ํํฐ(stride=1) ํ์ฑ ํจ์๋ ์๊ทธ๋ชจ์ด๋ ํน์ ํ์ดํผ๋ณผ๋ฆญ ํ์ ํธ ํ๋ง ๊ณ์ธต์ (2 x 2) ํํฐ(stride=2)๋ก ํ๊ท ํ๋ง์ ํตํด ์กํฐ๋ฒ ์ด์
๋งต์ ํฌ๊ธฐ๋ฅผ ์ ๋ฐ์ผ๋ก ๊ฐ์ ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์กํฐ๋ฒ ์ด์
๋งต๊ณผ ๊ฐ์ ํฌ๊ธฐ์ (5 x 5 x 16) ์ปจ๋ฒ๋ฃจ์
ํํฐ 120๊ฐ๋ก ํฌ๊ธฐ๊ฐ 120์ธ ..
๐๏ธ Computer Vision/Convolutional Neural Network
์๊ฐ ํจํด ์ธ์์ ์ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ์๋ฐฉํฅ ์ ๊ฒฝ๋ง์ผ๋ก MNIST ํ๊ธฐ์ฒด ์ซ์๋ฅผ ์ธ์ํ๋ ค๋ฉด 28x28 ์ด๋ฏธ์ง๋ฅผ 784 ํฌ๊ธฐ์ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํด์ ๋ชจ๋ธ์ ์
๋ ฅํด์ผ ํ๋ค. 2์ฐจ์ ์ด๋ฏธ์ง๋ฅผ 1์ฐจ์์ผ๋ก ํผ์น๋ฉด ์ด๋ค ์ซ์์ธ์ง ์ธ์ํ๊ธฐ ์ด๋ ต๋ค. ์ด๋ ๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ 1์ฐจ์์ผ๋ก ๋ณํํ๋ ์๊ฐ ํ์ ์ ๋ณด๊ฐ ๋ถ์ฐ๋๊ธฐ ๋๋ฌธ์ ์ ํํ ํจํด์ ์ธ์ํ๊ธฐ ์ด๋ ค์ด ๊ฒ์ด๋ค. ๋ํ ์ด๋ฏธ์ง์ ๊ฐ์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ ์ฐจ์๋ณ๋ก ํฌ๊ธฐ๊ฐ ์กฐ๊ธ์ฉ๋ง ์ปค์ ธ๋ ์ ์ฒด ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. ์
๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ปค์ง์๋ก ๋ ๋ง์ ํน์ง์ ํฌํจํ๊ธฐ ๋๋ฌธ์ ๊ทธ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ค. ๋ฐ๋ผ์ ์๋ฐฉํฅ ์ ๊ฒฝ๋ง์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ์ ํจ์จ์ ์ด์ง ์๋ค. CNN์ ๊ตฌ์กฐ ํ๋์ CNN๋ ์ต์ด์ CNN ๋ชจ๋ธ์ธ `LeNet-5`์ ๊ฐ์ด ..
๐๏ธ Computer Vision/Convolutional Neural Network
Paper ImageNet Classification with Deep Convolutional Neural Networks(NIPS 2012) ๋ณธ ๋
ผ๋ฌธ์ ์ฝ๋ ๊ตฌํ์ ๊นํ๋ธ์์ ํ์ธ ๊ฐ๋ฅํฉ๋๋ค. 0. Abstract ImageNet LSVRC-2010 ๋ํ์์ 120๋ง ๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ 1000๊ฐ์ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก ๋ถ๋ฅํ๊ธฐ ์ํด ํฌ๊ณ ๊น์ convolutional neural network๋ฅผ ํ๋ จ์์ผฐ๋ค. ํ
์คํธ ๋ฐ์ดํฐ์์ ์ด์ ์ SOTA ๋ชจ๋ธ๋ณด๋ค ๋์ 37.5%, 17.0%์ top-1 error rate์ top-5 error rate๋ฅผ ๋ฌ์ฑํ๋ค. 6์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค๊ณผ 650,000๊ฐ์ ๋ด๋ฐ์ผ๋ก ๊ตฌ์ฑ๋ neural network๋ 5๊ฐ์ convolutional layers๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ทธ ์ค..
๐๏ธ Computer Vision/GAN
Generative Adversarial Networks Generative Adversarial Networks์ ๋ ๊ฐ ์ด์์ ์ ๊ฒฝ๋ง์ด ์๋ก๋ฅผ ํฅํ๊ฒ ํ๊ณ , ์๋ก ๋ํญํ๋ฏ์ด ํ๋ จํ๊ฒ ํจ์ผ๋ก์จ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์์ฑ ๋ชจ๋ธ(generative model)์ ์ฐ์ถํด๋ธ๋ค. GAN์ ์ด์ ๋ฐ์ดํฐ๊ฐ ํ์ ๋ ์ํฉ์์๋ ์ผ๋ฐํ(Generalization)๋ฅผ ํ ์ ์๋ค. ์์ ๋ฐ์ดํฐ์
์ ๊ฐ์ง๊ณ ๋ ์๋ก์ด ์ฅ๋ฉด์ ์๊ฐํ ์ ์๋ค. ๋ชจ์กฐ ๋ฐ์ดํฐ(simulated data)๋ฅผ ๋์ฑ ์ง์ง์ฒ๋ผ ๋ณด์ด๊ฒ ํ ์ ์๋ค. Generative Modeling & Discriminative Modeling ํ๋ณ ๋ชจ๋ธ๋ง(Discriminative Modeling) ๊ทธ๋ฆผ์ ์ดํด๋ณธ ๋ค์์ ํด๋น ๊ทธ๋ฆผ์ style์ ์ ํ๋ ์ผ์ ๋ฌด์์ธ๊ฐ๋ฅผ ํ๋จํ๋ ..
๐๏ธ Computer Vision/GAN
Supervised Learning vs Unsupervised Learning ์ง๋ ํ์ต Supervised Learning์๋ ๋ํ์ ์ผ๋ก Discriminative Model์ด ์๋ค. ์ด์๋ ๋ก์ง์คํฑ ํ๊ท๋ถ์, ๋ด๋ด ๋คํธ์ํฌ ๋ฑ์ด ํด๋น๋๋ค. Discriminative Model์ Input์ด ์ฃผ์ด์ง๋ฉด Input์ด ํด๋นํ๋ ํด๋์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํด ํ์ตํ๊ฒ ๋๋ค. ๋น์ง๋ ํ์ต Unsupervised Learning์๋ ๋ํ์ ์ผ๋ก Generative Model์ด ์๋ค. Generative ๋ชจ๋ธ์ Label์ด ์์ด ํ์ตํ๊ฒ ๋๋ฉฐ, ํ์ต ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค. GAN(Generative Adversarial Network)์ด๋? GAN(Generative Adversarial Network)์ด..
๐๏ธ Computer Vision/Convolutional Neural Network
Paper ๋ฅ๋ฌ๋์ ํ์ฉํ ๋ฐ๋์ฒด ์จ์ดํผ ๋ถ๋ ์ ํ ๊ตฌ๋ถ ๋ชจ๋ธ์ ๊ดํ ์ฐ๊ตฌ(๋ฐฑ์ ์ฌ, ์ด๋ฏผํ) Summary 0. Abstract ๊ธฐ์กด ์ฐ์
ํ์ฅ์์๋ ๋ฐ๋์ฒด ์จ์ดํผ ๋งต์ ์ง์ ํ์ธํ์ฌ ๋ถ๋์ ์ ๋ณํ๋ค. ์ก์์ ํตํ ์จ์ดํผ ์ ๋ณ๊ณผ์ ์ ํญ์ฆํ๋ ์์ฅ์ ์์๋ฅผ ์ถฉ์กฑ์ํฌ ์ ์๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ๋ณด๋ค ์ ์, ์ ํํ ๋ฐ๋์ฒด ์จ์ดํผ ๋ถ๋์ ๊ฒ์ถํ์ฌ ์๋ํ์ ๊ธฐ์ฌํ ์ ์๋ AI ๊ธฐ์ ์ ์ ์ํ๋ค. ์ด๋ฅผ ์ํด ๋ค์ธตํผ์
ํธ๋ก (MLP)๊ณผ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ๊ธฐ๋ฐ์ผ๋ก ํ 2๊ฐ์ง ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๊ณ ์ํ์๊ณ , ์คํ ๊ฒฐ๊ณผ CNN ๋ชจ๋ธ์ด ์ ํ๋๊ฐ ํ๊ท 6.4% ๋ ๋์์์ ํ์ธํ๋ค. 1. Introduction ๋ฐ๋์ฒด ์นฉ์ ์๋ง์ ์ ์กฐ๊ณต์ ์ ๊ฑฐ์น ๋ค ๋ง์ง๋ง ์ ์ฐจ์ธ ํ
์คํธ๋ฅผ ํตํด ์ํ, ๋ถ๋ํ์ ์ ๋ณํ๋ค. ๋ฐ๋์ฒด ์์จ ํฅ์๊ณผ ์ง๊ฒฐ๋ ..