๐๏ธ Computer Vision/Convolutional Neural Network
Visualizing and Understanding Convolutional Networks(2013) 0. Abstract AlexNet ์ดํ `Large Convolutional Network` ๋ชจ๋ธ๋ค์ด ImageNet bechmark์์ ์ธ์์ ์ธ classification ์ฑ๋ฅ์ ๋ณด์ ๊ทธ๋ฌ๋ ์ ์ฑ๋ฅ์ด ์ข์์ง, ์ด๋ป๊ฒ ์ฑ๋ฅ์ ๊ฐ์ ์์ผฐ๋์ง์ ๋ํด์ ๋ช
ํํ๊ฒ ์ดํดํ์ง ๋ชปํจ ๋ณธ ๋
ผ๋ฌธ์์ Large Convolutional Network์ ์ค๊ฐ์ ์๋ feature layers์ ๊ธฐ๋ฅ๊ณผ classifier์ ์๋ ๊ณผ์ ์ ํ์ธํ๋ ์๋ก์ด ์๊ฐํ ๊ธฐ๋ฒ์ ์ ์ ํด๋น visualization ๊ธฐ์ ์ด diagnostic role์ ์ํํ์ฌ AlexNet๋ณด๋ค ImageNet benchmark์์ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ..
๐๏ธ Computer Vision/Convolutional Neural Network
ImageNet Classification with Deep Convolutional Neural Networks 0. Abstract ImageNet LSVRC-2010์์ 1.2m๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ๋ํด 1000๊ฐ์ ํด๋์ค๋ก ๋ถ๋ฅํ๊ธฐ ์ํด large, deep convolutional neural network๋ฅผ ํ์ต test data์์ ์ด์ SOTA ๋ชจ๋ธ๋ณด๋ค ์ข์ top-1๊ณผ top-5 error rates์์ 37.5%์ 17.0%๋ฅผ ๊ธฐ๋ก `AlexNet`์๋ ์ฝ 6,000๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ์ 65๋ง ๊ฐ์ neurons๊ฐ 5๊ฐ์ convolutional layers๋ก ๊ตฌ์ฑ ์ด์ ๋ํด max-pooling layers์ 1000-way softmax๋ก ๊ตฌ์ฑ๋ 3๊ฐ์ fully-connected l..
๐๏ธ Computer Vision/Convolutional Neural Network
`์ด๋ฏธ์ง ๋ถ๋ฅ(classification)`๋ ํน์ ๋์์ด ์์ ๋ด์ ์กด์ฌํ๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๊ฒ์ด๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ ํ์ ๋ค์ํ๋ค. LeNet-5 `LeNet-5`๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ด๋ผ๋ ๊ฐ๋
์ ์ต์ด๋ก ๊ฐ๋ฐํ ๊ตฌ์กฐ๋ก, ํ์ฌ CNN์ ์ด์์ด ๋์๋ค. LeNet-5๋ `ํฉ์ฑ๊ณฑ(convolutional)`๊ณผ `๋ค์ด ์ํ๋ง(sub-sampling)`(ํน์ ํ๋ง)์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฑฐ์น๋ฉด์ ๋ง์ง๋ง์ ์์ ์ฐ๊ฒฐ์ธต์์ ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. LeNet-5์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค. (32 x 32 x 1) ํฌ๊ธฐ์ ์ด๋ฏธ์ง์ ํฉ์ฑ๊ณฑ์ธต๊ณผ ์ต๋ ํ๋ง์ธต์ด ์์ผ๋ก ๋ ๋ฒ ์ ์ฉ๋ ํ ์์ ์ฐ๊ฒฐ์ธต์ ๊ฑฐ์ณ ์ด๋ฏธ์ง๊ฐ ๋ถ๋ฅ๋๋ ์ ๊ฒฝ๋ง์ด๋ค. ์ด๋ฌํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํ์ดํ ์น๋ฅผ ํตํด ๊ตฌํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์
๋ ฅ ์ด๋ฏธ์ง..
๐๏ธ Computer Vision/Convolutional Neural Network
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ํฉ์ฑ๊ณฑ์ธต์ ํ์์ฑ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๊ณ์ฐํ๋ ๊ฒ์ด ์๋ ์ด๋ฏธ์ง์ ๊ตญ์์ ๋ถ๋ถ์ ๊ณ์ฐํจ์ผ๋ก์จ ์๊ฐ๊ณผ ์์์ ์ ์ฝํ์ฌ ์ด๋ฏธ์ง์ ์ธ๋ฐํ ๋ถ๋ถ๊น์ง ๋ถ์ํ ์ ์๋ ์ ๊ฒฝ๋ง์ด๋ค. ๋ง์ฝ (3 x 3) ๋ฐฐ์ด์ ํผ์ณ์(flattening) ๊ฐ ํฝ์
์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ์ฌ ์๋์ธต์ ์ ๋ฌํ๋ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ฒ ๋๋ค. ์ด๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ๋์
๋ ๊ฒ์ด ํฉ์ฑ๊ณฑ์ธต์ด๋ค. ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํฉ์ฑ๊ณฑ์ธต๊ณผ ํ๋ง์ธต์ ๊ฑฐ์น๋ฉด์ ์
๋ ฅ ์ด๋ฏธ์ง์ ์ฃผ์ `ํน์ฑ ๋ฒกํฐ(feature vector)`๋ฅผ ์ถ์ถํ๋ค. ์ดํ ์ถ์ถ๋ ์ฃผ์ ํน์ฑ ๋ฒกํฐ๋ค์ ์์ ์ฐ๊ฒฐ์ธต์ ๊ฑฐ์ณ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ณํ๋๋ฉฐ, ๋ง์ง๋ง์ผ๋ก ์ถ๋ ฅ์ธต์์ ํ์ฑํ ํจ์์ธ `softmax` ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ข
๊ฒฐ๊ณผ๊ฐ ์ถ๋ ฅ๋๋ค. ์
๋ ฅ์ธต..
๐๏ธ Computer Vision/Convolutional Neural Network
LeNet-5 ์ ๋ฅด์ฟค์ 1998๋
์ฐํธ๋ฌผ์ ํ๊ธฐ์ฒด๋ก ์ฐ์ธ ์ฐํธ๋ณํธ๋ฅผ ์ธ์ํ๋ ์ต์ด์ ์ปจ๋ฒ๋ฃจ์
์ ๊ฒฝ๋ง์ธ `LeNet-5`๋ฅผ ์ ๋ณด์๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ LeNet-5๋ ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต๊ณผ ํ๋ง ๊ณ์ธต์ 2๋ฒ ๋ฐ๋ณตํ ๋ค ์์ ์ฐ๊ฒฐ 3๊ณ์ธต์ผ๋ก ์ฐ๊ฒฐ๋๋ ๊ตฌ์กฐ์ด๋ค. ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต๊ณผ ํ๋ง ๊ณ์ธต์ ์์ฒด ์ ๊ฒฝ๋ง์ ์๊ฐ ์์ญ์, ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์ฐ๊ด ์์ญ์ ๋ชจ๋ธ๋งํ๋ค. ์
๋ ฅ ๋ฐ์ดํฐ๋ (32 x 32 x 1) ์ด๋ฏธ์ง ์ปจ๋ฒ๋ฃจ์
๊ณ์ธต์ (5 x 5) ํํฐ(stride=1) ํ์ฑ ํจ์๋ ์๊ทธ๋ชจ์ด๋ ํน์ ํ์ดํผ๋ณผ๋ฆญ ํ์ ํธ ํ๋ง ๊ณ์ธต์ (2 x 2) ํํฐ(stride=2)๋ก ํ๊ท ํ๋ง์ ํตํด ์กํฐ๋ฒ ์ด์
๋งต์ ํฌ๊ธฐ๋ฅผ ์ ๋ฐ์ผ๋ก ๊ฐ์ ์์ ์ฐ๊ฒฐ ๊ณ์ธต์ ์กํฐ๋ฒ ์ด์
๋งต๊ณผ ๊ฐ์ ํฌ๊ธฐ์ (5 x 5 x 16) ์ปจ๋ฒ๋ฃจ์
ํํฐ 120๊ฐ๋ก ํฌ๊ธฐ๊ฐ 120์ธ ..
๐๏ธ Computer Vision/Convolutional Neural Network
์๊ฐ ํจํด ์ธ์์ ์ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ์๋ฐฉํฅ ์ ๊ฒฝ๋ง์ผ๋ก MNIST ํ๊ธฐ์ฒด ์ซ์๋ฅผ ์ธ์ํ๋ ค๋ฉด 28x28 ์ด๋ฏธ์ง๋ฅผ 784 ํฌ๊ธฐ์ 1์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํด์ ๋ชจ๋ธ์ ์
๋ ฅํด์ผ ํ๋ค. 2์ฐจ์ ์ด๋ฏธ์ง๋ฅผ 1์ฐจ์์ผ๋ก ํผ์น๋ฉด ์ด๋ค ์ซ์์ธ์ง ์ธ์ํ๊ธฐ ์ด๋ ต๋ค. ์ด๋ ๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ 1์ฐจ์์ผ๋ก ๋ณํํ๋ ์๊ฐ ํ์ ์ ๋ณด๊ฐ ๋ถ์ฐ๋๊ธฐ ๋๋ฌธ์ ์ ํํ ํจํด์ ์ธ์ํ๊ธฐ ์ด๋ ค์ด ๊ฒ์ด๋ค. ๋ํ ์ด๋ฏธ์ง์ ๊ฐ์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ ์ฐจ์๋ณ๋ก ํฌ๊ธฐ๊ฐ ์กฐ๊ธ์ฉ๋ง ์ปค์ ธ๋ ์ ์ฒด ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. ์
๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ปค์ง์๋ก ๋ ๋ง์ ํน์ง์ ํฌํจํ๊ธฐ ๋๋ฌธ์ ๊ทธ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ค. ๋ฐ๋ผ์ ์๋ฐฉํฅ ์ ๊ฒฝ๋ง์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ์ ํจ์จ์ ์ด์ง ์๋ค. CNN์ ๊ตฌ์กฐ ํ๋์ CNN๋ ์ต์ด์ CNN ๋ชจ๋ธ์ธ `LeNet-5`์ ๊ฐ์ด ..
๐๏ธ Computer Vision/Convolutional Neural Network
Paper ImageNet Classification with Deep Convolutional Neural Networks(NIPS 2012) ๋ณธ ๋
ผ๋ฌธ์ ์ฝ๋ ๊ตฌํ์ ๊นํ๋ธ์์ ํ์ธ ๊ฐ๋ฅํฉ๋๋ค. 0. Abstract ImageNet LSVRC-2010 ๋ํ์์ 120๋ง ๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ 1000๊ฐ์ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก ๋ถ๋ฅํ๊ธฐ ์ํด ํฌ๊ณ ๊น์ convolutional neural network๋ฅผ ํ๋ จ์์ผฐ๋ค. ํ
์คํธ ๋ฐ์ดํฐ์์ ์ด์ ์ SOTA ๋ชจ๋ธ๋ณด๋ค ๋์ 37.5%, 17.0%์ top-1 error rate์ top-5 error rate๋ฅผ ๋ฌ์ฑํ๋ค. 6์ฒ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค๊ณผ 650,000๊ฐ์ ๋ด๋ฐ์ผ๋ก ๊ตฌ์ฑ๋ neural network๋ 5๊ฐ์ convolutional layers๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ทธ ์ค..
๐๏ธ Computer Vision/Convolutional Neural Network
Paper ๋ฅ๋ฌ๋์ ํ์ฉํ ๋ฐ๋์ฒด ์จ์ดํผ ๋ถ๋ ์ ํ ๊ตฌ๋ถ ๋ชจ๋ธ์ ๊ดํ ์ฐ๊ตฌ(๋ฐฑ์ ์ฌ, ์ด๋ฏผํ) Summary 0. Abstract ๊ธฐ์กด ์ฐ์
ํ์ฅ์์๋ ๋ฐ๋์ฒด ์จ์ดํผ ๋งต์ ์ง์ ํ์ธํ์ฌ ๋ถ๋์ ์ ๋ณํ๋ค. ์ก์์ ํตํ ์จ์ดํผ ์ ๋ณ๊ณผ์ ์ ํญ์ฆํ๋ ์์ฅ์ ์์๋ฅผ ์ถฉ์กฑ์ํฌ ์ ์๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ๋ณด๋ค ์ ์, ์ ํํ ๋ฐ๋์ฒด ์จ์ดํผ ๋ถ๋์ ๊ฒ์ถํ์ฌ ์๋ํ์ ๊ธฐ์ฌํ ์ ์๋ AI ๊ธฐ์ ์ ์ ์ํ๋ค. ์ด๋ฅผ ์ํด ๋ค์ธตํผ์
ํธ๋ก (MLP)๊ณผ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ๊ธฐ๋ฐ์ผ๋ก ํ 2๊ฐ์ง ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๊ณ ์ํ์๊ณ , ์คํ ๊ฒฐ๊ณผ CNN ๋ชจ๋ธ์ด ์ ํ๋๊ฐ ํ๊ท 6.4% ๋ ๋์์์ ํ์ธํ๋ค. 1. Introduction ๋ฐ๋์ฒด ์นฉ์ ์๋ง์ ์ ์กฐ๊ณต์ ์ ๊ฑฐ์น ๋ค ๋ง์ง๋ง ์ ์ฐจ์ธ ํ
์คํธ๋ฅผ ํตํด ์ํ, ๋ถ๋ํ์ ์ ๋ณํ๋ค. ๋ฐ๋์ฒด ์์จ ํฅ์๊ณผ ์ง๊ฒฐ๋ ..
๐๏ธ Computer Vision/Convolutional Neural Network
์๋ก์ด ํ๋ก์ ํธ๋ก ์จ์ดํผ ๋งต ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๊ด๋ จ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ๊ฒ ๋์๋ค. ์ด์ ๊ด๋ จ๋ ์ ํ ์ฐ๊ตฌ๋ฅผ ์ฐพ์๋ณด๋ ์ค, ์ด ๋
ผ๋ฌธ์ ๋ฐ๊ฒฌํ๊ฒ ๋์๊ณ ํ๋ก์ ํธ๋ฅผ ์งํํ๋ ๋ฐ ์์ด ๋ง์ ๋์์ด ๋ ๊ฒ ๊ฐ์ ๋ฆฌ๋ทฐ๋ฅผ ์งํํ๋ค. ์ด ์ฐ๊ตฌ๋ ๊ตญ๋ด ๋ฐ๋์ฒด ๊ธฐ์
์์ ํ๋ณดํ ์จ์ดํผ ๋งต ๋ฐ์ดํฐ๋ฅผ ํตํด ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์ณ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ฉํด ๋ถ๋๊ณผ ์ ์์ ํ๋จํ๋ค. ๋
ผ๋ฌธ : ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์ด์ฉํ ์จ์ดํผ ๋งต ๊ธฐ๋ฐ ๋ถ๋ ํ์ง 0. ์ด๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ์จ์ดํผ ๋งต ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๋ถ๋ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ์ฌ์ฉ ์ค์ ์ ์ํ๋ ๋ชจ๋ธ์ด ์ค์ ๋ฐ๋์ฒด ๊ณต์ ์์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์คํ์ ํตํด ๊ธฐ๋ณธ์ ์ธ ๋ค์ธต ํผ์
ํธ๋ก ๊ณผ ๋๋ค ํฌ๋ ์คํธ๋ณด๋ค ๋ ๋์ ์์ธก ์ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์์..