์ ๊ฒฝ๋ง ํ์ต์ ์๋ฏธ
์ ๊ฒฝ๋ง์๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํ๊น ๋ฐ์ดํฐ๊ฐ ์ ๊ณต๋ ๋ฟ, ์ถ๋ก ์ ์ํ ๊ท์น์ ์ ๊ณต๋์ง ์๋๋ค. ์ ๊ฒฝ๋ง์ `ํ์ต(learning)`ํ๋ค๋ ๊ฒ์ ์ด ๊ท์น์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด์ ์ค์ค๋ก ์ฐพ๋ ๊ฒ์ด๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๊ธฐ๋ํ๋ ์ ๋ต์ด ๋ค์ด์๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ๋ค.
์ ๊ฒฝ๋ง์ ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ์ด๋ค ์ถ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ผ ํ ์ง๋ฅผ ์ ํ๋ ๊ท์น์ ํจ์์ ๋งคํ ๊ด๊ณ๋ก ํํ๋๋ค. ๊ฐ์ค ํฉ์ฐ๊ณผ ํ์ฑ ํจ์๊ฐ ์ฐ๊ฒฐ๋์ด ๋ด๋ฐ์ ๊ตฌ์ฑํ๊ณ , ๋ด๋ฐ์ด ๋ชจ์ฌ ๊ณ์ธต์ ๊ตฌ์ฑํ๋ฉฐ, ๊ณ์ธต์ด ์์ฌ์ ์ ๊ฒฝ๋ง์ ๊ณ์ธต ๊ตฌ์กฐ๊ฐ ์ ์๋๋ค. ์ด๋ฌํ ๋ณต์กํ ์ ๊ฒฝ๋ง์ ๊ณ์ธต ๊ตฌ์กฐ ์์ฒด๊ฐ ์ ๊ฒฝ๋ง์ ํจ์์ ๋งคํ ๊ด๊ณ๋ฅผ ํํํ๋ ๊ฒ์ด๋ค.
์ ๊ฒฝ๋ง์ ํ์ต ๊ณผ์ ์์ ํจ์์ ๋งคํ ๊ด๊ณ๋ฅผ ํํํ๋ ์ ์ฒด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฐพ์์ผ ํ๋ ๊ฒ์ ์๋๋ค. ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ์ ๊ด๋ จ๋ ๊ฒ๋ค์ ํ์ต ์ ์ ๋ฏธ๋ฆฌ ์ ํด๋๊ณ , ํ์ต ๊ณผ์ ์์๋ `๋ชจ๋ธ ํ๋ผ๋ฏธํฐ(model parameter)`์ ๊ฐ์ ์ฐพ๋๋ค. ๋ด๋ฐ์ ์ฐ๊ฒฐ ๊ฐ๋๋ฅผ ๊ฒฐ์ ํ๋ ๊ฐ์ค์น์ ํธํฅ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ๋๋ถ๋ถ์ ์ฐจ์งํ๋ค. ๊ทธ ์ธ์ ํ์ฑ ํจ์, ๋ชจ๋ธ ๊ตฌ์กฐ์ ๊ด๋ จ๋ ํ๋ผ๋ฏธํฐ๋ค, ์ ๊ทํ ๊ธฐ๋ฒ๊ณผ ๊ด๋ จ๋ ํ๋ผ๋ฏธํฐ๋ค, ๋ชจ๋ธ ํ์ต๊ณผ ๊ด๋ จ๋ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ํฌํจ๋ ์ ์๋ค.
์ ๊ฒฝ๋ง ํ์ต์์ ์ต์ ์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ฐพ์๋ผ ๋๋ `์ต์ ํ(Optimization)` ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค. ์ต์ ํ ๊ธฐ๋ฒ์ ํจ์์ ํด๋ฅผ ๊ทผ์ฌ์ ์ผ๋ก ์ฐพ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ๊ฒฝ๋ง์ด ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ํํํ๋ ํจ์๊ฐ ๋๋๋ก ๋ง๋ค์ด์ค๋ค.
์ ๊ฒฝ๋ง ํ์ต๊ณผ ์ต์ ํ
์ต์ ํ๋?
์ต์ ํ๋ ์ ํํ ๋ฐฉ์ ์์ผ๋ก ์ ํํ ํด๋ฅผ ๊ตฌํ ์ ์์ ๋ ๊ทผ์ฌ์ ์ผ๋ก ํด๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋ฉด์ ๋ชฉ์ ํจ์๋ฅผ ์ต๋ํํ๊ฑฐ๋ ์ต์ํํ๋ ํด๋ฅผ ๋ฐ๋ณตํ์ฌ ์กฐ๊ธ์ฉ ์ ๊ทผํ๋ ๋ฐฉ์์ผ๋ก ์ฐพ์๊ฐ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ฅผ ์ํ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ํ์ค ํํ๋ก ์ ์ํ๋ค.
์ต์ ํ ๋ฌธ์ ๋ `๋ชฉ์ ํจ์(objective function)` f(x)์ ์ฌ๋ฌ `์ ์ฝ ์กฐ๊ฑด(constraints)`์ผ๋ก ์ด๋ฃจ์ด์ง๋ค. ์ ์ฝ ์กฐ๊ฑด์ ๋ถ๋ฑ์ ํํ์ ๋ฑ์ ํํ์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ๊ตฌ๋ถ๋๋ค. ํ์ค ์ต์ ํ ๋ฌธ์ ๋ '๋ณ์ x์ ๋ํ ๋ฑ์๊ณผ ๋ถ๋ฑ์์ผ๋ก ํํ๋๋ ์ฌ๋ฌ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋ฉด์ ๋ชฉ์ ํจ์์ธ f(x)๋ฅผ ์ต์ํํ๋ x์ ๊ฐ์ ์ฐพ๋ ๋ฌธ์ '๋ก ํ์ด์ ์ด์ผ๊ธฐํ ์ ์๋ค. ์ต์ ํ๋ฅผ ํตํด ์ฐพ์ x์ ๊ฐ์ `์ต์ ํด(optimal solution)`์ด๋ผ๊ณ ํ๋ฉฐ, ์ต์ ํด์ ์ ์ ๊ฐ๊น์ด ๊ฐ๋ ์ํ๋ฅผ `์๋ ดํ๋ค(converge)`๊ณ ํ๊ณ ์ต์ ํด๋ฅผ ์ฐพ์ผ๋ฉด '์๋ ดํ๋ค'๋ผ๊ณ ํํํ๋ค.
์ต์ ํ ๋ฌธ์ ๋ ํ์ค ํํ์ ๊ฐ์ด ๋ฐ๋์ ์ต์ํ ๋ฌธ์ ์ผ ํ์๋ ์๋ค. ๋ ์ค ๋ฌธ์ ๋ฅผ ๋ ์ ํํํ ์ ์๋ ๋ฐฉ์์ ์ ํํ๋ฉด ๋๋ค. ๋ํ ๋ชฉ์ ํจ์์ ๋ถํธ๋ง ๋ฐ๊ฟ์ฃผ๋ฉด ์ต์ํ ๋ฌธ์ ๋ ์ต๋ํ ๋ฌธ์ ๊ฐ ๋๊ณ ์ต๋ํ ๋ฌธ์ ๋ ์ต์ํ ๋ฌธ์ ๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฒ ๋ณํ๊ฐ ๊ฐ๋ฅํ๋ค. ์ต์ํ ๋ฌธ์ ์์ ๋ชฉ์ ํจ์๋ `๋น์ฉ ํจ์(cost function)` ํน์ `์์ค ํจ์(loss function)`์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ์ต๋ํ ๋ฌธ์ ์์๋ `์ ํธ๋ฆฌํฐ ํจ์(utility function)`๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ ๊ฒฝ๋ง ํ์ต์ ์ํ ์ต์ ํ ๋ฌธ์ ์ ์
ํ๊ท ๋ฌธ์ ๋ 'ํ๊น๊ณผ ์์ธก๊ฐ์ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ผ๋ผ'๋ผ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. ํ๊ท ๋ฌธ์ ์์ ์์ค ํจ์๋ `ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE : Mean Square Error)`๋ก ์ ์๋๋ฉฐ ํ๊น๊ณผ ์์ธก๊ฐ์ ์ค์ฐจ๋ฅผ ๋ํ๋ธ๋ค. ๊ธฐ๋ณธ ํ๊ท ๋ฌธ์ ๋ ์ ์ฝ ์กฐ๊ฑด์ด ์์ง๋ง, ์ ๊ทํ ๊ธฐ๋ฒ์ด ์ ์ฉ๋๊ฑฐ๋ ๋ฌธ์ ๊ฐ ํ์ฅ๋๋ฉด ์ ์ฝ ์กฐ๊ฑด์ด ์ถ๊ฐ๋ ์ ์๋ค.
๋ถ๋ฅ ๋ฌธ์ ๋ ํ๋ฅ ๋ชจ๋ธ์ ๊ด์ ์์ '๊ด์ธก ํ๋ฅ ๋ถํฌ์ ์์ธก ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ผ๋ผ'๋ผ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. ๋ถ๋ฅ ๋ฌธ์ ์์ ์์ค ํจ์๋ `ํฌ๋ก์ค ์ํธ๋กํผ(cross entroy)`๋ก ์ ์๋๋ฉฐ, ํ๊น์ ํ๋ฅ ๋ถํฌ์ ๋ชจ๋ธ ์์ธก ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๋ํ๋ธ๋ค. ๊ธฐ๋ณธ ๋ถ๋ฅ ๋ฌธ์ ๋ ์ ์ฝ ์กฐ๊ฑด์ด ์์ง๋ง, ์ ๊ทํ ๊ธฐ๋ฒ์ด ์ ์ฉ๋๊ฑฐ๋ ๋ฌธ์ ๊ฐ ํ์ฅ๋๋ฉด ์ ์ฝ ์กฐ๊ฑด์ด ์ถ๊ฐ๋ ์ ์๋ค.
์ต์ ํ ๋ฌธ์ ๋ฅผ ํตํ ์ ๊ฒฝ๋ง ํ์ต
์ ๊ฒฝ๋ง ํ์ต์ ์ํ ์ต์ ํ ๋ฌธ์ ๊ฐ ์ ์๋์๋ค๋ฉด, ์ต์ ํ๋ฅผ ํตํด ์ ๊ฒฝ๋ง ํ์ต์ ์ํํ๋ค. ์ต์ ํ๋ ์์ค ํจ์์ ์ต์ ์ง์ ์ ์ฐพ์๊ฐ๋ ๊ณผ์ ์ด๋ค. ์ฆ, ์์ค ํจ์์ ์์์ ์์น์์ ์ถ๋ฐํด์ ์ต์ ํด๊ฐ ์๋ ์ต์ ์ง์ ์ ์ฐพ์๊ฐ๋ ๊ณผ์ ์ ์ต์ ํ ๊ณผ์ ์ด๋ผ๊ณ ํ๋ค. ์ต์ ํด๋ฅผ ์ฐพ๊ธฐ ์ ์๋ ์ด๋์์ ์ถ๋ฐํด์ผ ์ข์์ง ์ ์ ์๋ค. ๋ฐ๋ผ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ ์์น์์ ์ถ๋ฐํ๋ ์์ค ํจ์์ ์ต์ ์ง์ ์ผ๋ก ๊ฐ ์ ์์ด์ผ ํ๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ
์ ๊ฒฝ๋ง์ ํ์ต ๋ชฉํ
์ ๊ฒฝ๋ง์ ์์ค ํจ์๋ ์ฐจ์์ด ๋งค์ฐ ๋๊ณ ๋ณต์กํ ๋ชจ์์ด๊ธฐ ๋๋ฌธ์ ์ต์ ํ๊ฐ ์ด๋ ต๋ค. ์์ค ํจ์์๋ ํ๋์ `์ ์ญ ์ต์(global minimum)`์ ์๋ง์ `์ง์ญ ์ต์(local minimum)`๊ฐ ์๋ค. ์ ์ญ ์ต์๋ ํจ์ ์ ์ฒด์์ ๊ฐ์ฅ ๋ฎ์ ๊ณณ์ ๋งํ๋ฉฐ, ์ง์ญ ์ต์๋ ํจ์์์ ๋ถ๋ถ์ ์ผ๋ก ๋ฎ์ ๊ณณ์ ๋งํ๋ค. ๊ถ๊ทน์ ์ธ ์ต์ ํด๋ ์ ์ญ ์ต์์ ํด๋นํ๋ ํ๋ผ๋ฏธํฐ ๊ฐ์ด์ง๋ง, ์ ์ญ ์ต์๋ฅผ ์ฐพ์ผ๋ ค๋ฉด ๊ณก๋ฉด ์ ์ฒด ๋ชจ์์ ํ์ธํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๋ฉฐ ๋ฌธ์ ๊ฐ ํฌ๊ณ ๋ณต์กํ ๊ฒฝ์ฐ ์ ์ญ ์ต์๋ฅผ ์ฐพ๊ธฐ ๋งค์ฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ๋๋ถ๋ถ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ชฉํ๋ ์ง์ญ ์ต์๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ํด๋ฅผ ์ฌ๋ฌ ๋ฒ ์ฐพ์์ ๊ทธ์ค ๊ฐ์ฅ ์ข์ ํด๋ฅผ ์ ํํ๊ฑฐ๋, ๋์์ ์ฌ๋ฌ ํด๋ฅผ ์ฐพ์์ ํจ๊ป ๊ณ ๋ คํ๊ธฐ๋ ํ๋ค.
์ ๊ฒฝ๋ง ํ์ต์ ์ํ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
์ผ๋ฐ์ ์ผ๋ก ์ต์ ํ ๋ฌธ์ ๋ ๊ด์ธก ๋ณ์๊ฐ ๋ง๊ณ `๋ซํ ํํ(closed form)`๋ก ์ ์๋์ง ์๊ธฐ ๋๋ฌธ์ ํจ์๋ฅผ ๋ฏธ๋ถํด์ ์ต๋, ์ต์๋ฅผ ๊ตฌํ ์ ์๋ค. ๋ซํ ํํ์ ๋ฌธ์ ๋ ์ ํ๊ฐ์ ๋ฐฉ์ ์์ผ๋ก ๋ช ํํ ํด๋ฅผ ํํํ ์ ์๋ ๋ฌธ์ ๋ฅผ ๋งํ๋ค. ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์์ค ํจ์ ๊ณก๋ฉด์ ๋งค๋ฒ ๊ทผ์ฌํ๋๋ฐ ์ด๋ ์ฌ์ฉํ๋ ๋ฏธ๋ถ์ ์ฐจ์์ ๋ฐ๋ผ 1์ฐจ ๋ฏธ๋ถ, 1.5์ฐจ ๋ฏธ๋ถ, 2์ฐจ ๋ฏธ๋ถ ๋ฐฉ์ ์์ผ๋ก ๋๋๋ค.
- 2์ฐจ ๋ฏธ๋ถ
- ๊ณก๋ฅ ์ ์ฌ์ฉํ๋ฏ๋ก ์ต์ ํด๋ฅผ ๋น ๋ฅด๊ฒ ์ฐพ์ ์ ์์
- ์์ค ํจ์ ๊ณก๋ฉด์ด `๋ณผ๋ก(convex)`ํด์ผ๋ง ์ต์ ํด๋ฅผ ์ฐพ์ ์์์
- ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ง์ ์ ๊ฒฝ๋ง์์ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์
- ๋ดํด ๋ฐฉ๋ฒ(newton method), ๋ด๋ถ์ ๋ฒ(interior point method)
- 1.5์ฐจ ๋ฏธ๋ถ
- 1์ฐจ ๋ฏธ๋ถ์ ์ฌ์ฉํด์ 2์ฐจ ๋ฏธ๋ถ์ ๊ทผ์ฌํ๋ ๋ฐฉ์์ผ๋ก ์ต์ ํด๋ฅผ ๋น ๋ฅด๊ฒ ์ฐพ์ ์ ์์
- ์ ๊ฒฝ๋ง ํ์ต๊ณผ ๋ณ๋๋ก 2์ฐจ ๋ฏธ๋ถ์ ๊ทผ์ฌํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์คํํด์ผ ํ๋ฉฐ ๊ทผ์ฌ๋ 2์ฐจ ๋ฏธ๋ถ๊ฐ์ ์ ์ฅํด์ผ ํ๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ง์
- ์ค ๋ดํด ๋ฐฉ๋ฒ(quasi-newton method), ์ผค๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(conjugate gradient descent), ๋ ๋ฒค๋ฒ๊ทธ-๋ง์ฟผํธ ๋ฐฉ๋ฒ(levenberg-marquardt method)
- 1์ฐจ ๋ฏธ๋ถ
- ์๋์ ์ผ๋ก ์๋ ด ์๋๊ฐ ๋๋ฆผ
- ์์ค ํจ์ ๊ณก๋ฉด์ด ๋ณผ๋กํ์ง ์์๋ ์ต์ ํด๋ฅผ ์ฐพ์ ์ ์์ด ์์ค ํจ์ ๊ณก๋ฉด์ด ๋งค์ฐ ๋ณต์กํ ์ ๊ฒฝ๋ง์์ ์์ ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅ
- ์ ๊ฒฝ๋ง์์๋ ์ฃผ๋ก 1์ฐจ ๋ฏธ๋ถ ๋ฐฉ์์ธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๊ณผ ์ด๋ฅผ ๊ฐ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ
- ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋ณํ ์๊ณ ๋ฆฌ์ฆ : SGD, SGD ๋ชจ๋ฉํ , AdaGrad, RMSProp, Adam
๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)
`๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)`์ ์์ค ํจ์์ ์ต์ ์ง์ ์ ์ฐพ๊ธฐ ์ํด ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๊ณณ์ ์ฐพ์์ ํ ๊ฑธ์์ฉ ๋ด๋ ค๊ฐ๋ ๋ฐฉ๋ฒ์ด๋ค. ํ์ฌ ์์น์์ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๊ณณ์ ์ฐพ๊ธฐ ์ํด ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๊ณ ๊ธฐ์ธ๊ธฐ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ด๋ ค๊ฐ๋ค.
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ผ๋ก ํ์ฌ ์์น์์ ๋ค์ ์์น๋ก ํ ๊ฑธ์ ์ด๋ํ๋ ค๋ฉด ๋ค์๊ณผ ๊ฐ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์ ์ฌ์ฉํ๋ค.
`๊ทธ๋ ์ด๋์ธํธ(Gradient)`๋ ์ค์ ํจ์์ ๋ฏธ๋ถ์ ๋งํ๋ค. f(x) = f(x1, x2, ..., xn)์ ๊ฐ์ด ๋ณ์ x๊ฐ n์ฐจ์ ๋ฒกํฐ์ด๊ณ ํจ์ซ๊ฐ์ด ์ค์์ธ ๊ฒฝ์ฐ, ์ ๋ ฅ ๋ฒกํฐ์ ์์๋ณ๋ก ํจ์ f(x)๋ฅผ ํธ๋ฏธ๋ถ ํ ๋ฒกํฐ๋ฅผ ๊ทธ๋ ์ด๋์ธํธ๋ผ๊ณ ํ๋ค. ๊ทธ๋ ์ด๋์ธํธ๋ x์์ ํจ์ f(x)๊ฐ ์ฆ๊ฐํ๋ ๋ฐฉํฅ๊ณผ ์ฆ๊ฐ์จ์ ๋ํ๋ธ๋ค. ์ ๊ฒฝ๋ง์ ์์ค ํจ์ J๋ ์ค์ ํจ์์ด๊ณ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ ๋ฒกํฐ์ด๊ธฐ ๋๋ฌธ์ ์์ค ํจ์๋ฅผ ํ๋ผ๋ฏธํฐ๋ก ๋ฏธ๋ถํ๋ฉด ๊ทธ๋ ์ด๋์ธํธ๊ฐ ๋๋ค.
์ ๊ฒฝ๋ง์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ์ ์ฉ
2๊ณ์ธต ์ ๊ฒฝ๋ง ํ๊ท ๋ชจ๋ธ
๋ค์๊ณผ ๊ฐ์ด 2๊ณ์ธต ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑ๋ ํ๊ท ๋ชจ๋ธ์ด ์๋ค. ์๋ ๊ณ์ธต์ ํ์ฑ ํจ์๋ ReLU์ด๊ณ , ํ๊ท ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ์ถ๋ ฅ ๊ณ์ธต์ ํ์ฑ ํจ์๋ ํญ๋ฑ ํจ์์ด๋ฉฐ, ์์ค ํจ์๋ ํ๊ท ์ ๊ณฑ์ค์ฐจ์ด๋ค.
ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์
๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํ์ฌ ๊ฐ์ค์น ๊ฐ์ ์ ๋ฐ์ดํธํ๋ ค๋ฉด ๋จผ์ ์์ค ํจ์์ ๋ํ ๊ฐ์ค์น์ ๋ฏธ๋ถ ๊ฐ์ ๊ตฌํด์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธํ ์ ์๋ค.
๊ทธ๋ฌ๋ ์ด ์ ๋ฐ์ดํธ ์์ ์์ค ํจ์์ ์ ์์ ๊ฐ์ค์น ๋ณ์๊ฐ ํฌํจ๋์ด ์์ง ์๊ธฐ ๋๋ฌธ์ ๋ฐ๋ก ๊ณ์ฐํ ์ ์๋ค. ์ ๊ฒฝ๋ง์์ ๊ฐ์ค์น ๋ณ์๋ ์๋ ๋ด๋ฐ์ ์ ์๋๋ฉฐ ์ถ๋ ฅ ๋ด๋ฐ์ ๊ฑฐ์ณ์ ์์ค ํจ์์ ๊ฐ์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์น๋ค. ์ฆ, ์์ค ํจ์๋ ํฉ์ฑ ํจ์๋ก ์ ์๋๋ฉฐ ํฉ์ฑ ํจ์๋ฅผ ๋ฏธ๋ถํ๋ ค๋ฉด `์ฐ์ ๋ฒ์น(chain rule)`์ ์ฌ์ฉํด์ผ ํ๋ค. ์ฐ์ ๋ฒ์น์ ์ ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ์ฌ๊ธฐ์ ์ โ ๊ณผ โก๋ ์๋ ๋ด๋ฐ์ ์ ์๋ ๊ฐ์ค ํฉ์ฐ๊ณผ ReLU์ด๋ค. ๋ํ ์ โข, โฃ๋ ์ถ๋ ฅ ๋ด๋ฐ์ ์ ์๋ ๊ฐ์ค ํฉ์ฐ๊ณผ ํญ๋ฑ ํจ์์ด๋ฉฐ, ์ โค๋ ์์ค ํจ์์ด๋ค. ์์ค ํจ์์์ ๊ฐ์ค์น๊น์ง ๊ฐ ํจ์๋ฅผ ๊ฑฐ๊พธ๋ก ๋ฐ๋ผ๊ฐ๋ฉฐ โค,โฃ,โข,โก,โ ์์ผ๋ก ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ๊ณฑํ๋ฉด ๋๋ค.
์ ๊ฒฝ๋ง์์ ์ฐ์ ๋ฒ์น์ผ๋ก ๋ฏธ๋ถํ๋ ๊ณผ์
์์ ํ์ธํ ์ ๊ฒฝ๋ง์์ ์ฐ์ ๋ฒ์น์ผ๋ก ๋ฏธ๋ถํ๋ ๊ณผ์ ์ ๊ทธ๋ฆผ์ผ๋ก ํ์ธํด ๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ๋ค. ๋นจ๊ฐ์ ํ์ดํ๋ฅผ ๋ฐ๋ผ ์ ๊ฒฝ๋ง์ ์ญ๋ฐฉํฅ์ผ๋ก ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ๊ณฑํด ๋๊ฐ๋ค.
์ด๋ ๊ฒ ๊ณ์ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์ ์ ์ฉํ๋ฉด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ด ์์ฑ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๋ชจ๋ ํ๋ผ๋ฏธํฐ์ ๋ฏธ๋ถ์ ์ฐ์ ๋ฒ์น์ ์ ์ฉํด์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ ์ฉํ ์ ์๋ค.
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ
์ ๊ฒฝ๋ง์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ ์ฉํ ๋ ์์ค ํจ์์์ ๊ฐ ๊ฐ์ค์น๊น์ง ์ ๊ฒฝ๋ง์ ์ญ๋ฐฉํฅ์ผ๋ก ์คํํ๋ ํจ์๋ฅผ ๋ฐ๋ผ๊ฐ๋ฉฐ ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ๊ณฑํ๋ค. ๋ง์ฝ ์ด ๊ณผ์ ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ์งํํ๊ฒ ๋๋ฉด ๊ฐ์ ๋ฏธ๋ถ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ ๋นํจ์จ์ฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉฐ, ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด `์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ(backpropagation algorithm)`์ด๋ค. ์์ ๋ณธ ๊ฐ์ค์น์ ๋ ๋ค๋ฅธ ๊ฐ์ค์น์ ๋ํด ๋ฏธ๋ถ์ ์ฐ์ ๋ฒ์น์ผ๋ก ํํํด ๋ณด๋ฉด ๋ง์ง๋ง ํญ์ ์ ์ธํ ์๋ถ๋ถ์ด ๋์ผํ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ๊ณตํต๋ถ๋ถ์ ํ ๋ฒ ๊ณ์ฐํด ๋๋ฉด ๊ฐ์ ๋ด๋ฐ์ ์ํ ๋ชจ๋ ๊ฐ์ค์น์ ๋ฏธ๋ถ์ ๊ณ์ฐํ ๋ ์ฌ์ฌ์ฉํ ์ ์๋ค.
๊ณตํต๋ถ๋ถ์ ๊ณ์ฐ์ ์ค๋ณตํ์ง ์์ผ๋ ค๋ฉด ์์ค ํจ์์์ ์์ํด์ ์ ๋ ฅ ๊ณ์ธต ๋ฐฉํฅ์ผ๋ก ๊ณ์ฐ๋ ๋ฏธ๋ถ๊ฐ์ ์ญ๋ฐฉํฅ์ผ๋ก ์ ํํด ์ฃผ๋ฉด ๋๋ค. ๊ฐ ๋ด๋ฐ์ ๊ณตํต๋ถ๋ถ์ ํด๋นํ๋ ๋ฏธ๋ถ๊ฐ์ `์ค์ฐจ`๋ผ๊ณ ํ๋ฉฐ ์ค์ฐจ๋ฅผ ์ญ๋ฐฉํฅ์ผ๋ก ์ ํํ๋ฉด์ ๋ฏธ๋ถ์ ๊ณ์ฐํ๋ ๋ฏธ๋ถ ๊ณ์ฐ ๋ฐฉ์์ ์ค์ฐจ์ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ํ๋ค.
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์คํ ์์
์์ค ํจ์ ๋ฏธ๋ถ
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์์ค ํจ์์์ ์์ํ๋ฏ๋ก, ๋จผ์ ์์ค ํจ์์ ๋ํ ์ ๋ ฅ์ ๋ฏธ๋ถ์ ๊ณ์ฐํ์ฌ ์ถ๋ ฅ ๊ณ์ธต์ ์ ๋ฌํ๋ค.
์ถ๋ ฅ ๋ด๋ฐ ๋ฏธ๋ถ
์ถ๋ ฅ ๋ด๋ฐ O๋ ์์ค ํจ์์ ์ ์ญ ๋ฏธ๋ถ๊ฐ์ ์ ๋ฌ๋ฐ๋ ๊ฐ์ค์น์ ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ์ดํ ์ ๋ ฅ์ ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ์๋ ๊ณ์ธต์ ์ ๋ฌํ๋ค. O์ ํ์ฑ ํจ์์ ๊ฐ์ค ํฉ์ฐ์ ๋ณ๋๋ก ๋ฏธ๋ถ์ ์ํํ๋ค.
์๋ ๋ด๋ฐ ๋ฏธ๋ถ
์๋ ๋ด๋ฐ์ ์ถ๋ ฅ ๋ด๋ฐ์๊ฒ ์ ์ญ ๋ฏธ๋ถ ๊ฐ์ ์ ๋ฌ๋ฐ๊ณ ๊ฐ์ค์น์ ๋ฏธ๋ถ์ ๊ณ์ฐํด์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ๋ํ ๋ค์ ์๋ ๊ณ์ธต์ด ์๊ธฐ ๋๋ฌธ์ ์ ๋ ฅ์ ๋ฏธ๋ถ์ ๊ณ์ฐํ์ง ์๋๋ค. ์๋ ๋ด๋ฐ์ ํ์ฑ ํจ์์ ๊ฐ์ค ํฉ์ฐ์ ๋ณ๋๋ก ๋ฏธ๋ถ์ ์ํํ๋ค. ์๋ ๊ณ์ธต์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ์๋ฃ๋๋ฉด ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ๋ ์ข ๋ฃํ๋ค.
๋ด๋ฐ ๊ด์ ์์ ๋ณด๋ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ
์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํ๋์ ๋ด๋ฐ ๊ด์ ์์ ๋ณด๋ฉด ๋ฏธ๋ถ ๊ณ์ฐ ๊ท์น์ ์ข ๋ ์ฝ๊ฒ ์ดํดํ ์ ์๋ค. ๋ค์๊ณผ ๊ฐ์ด ์ ๋ ฅ x, y๊ฐ ์๊ณ ํ์ฑ ํจ์ z = f(x,y)๋ฅผ ์คํํ๋ ๋ด๋ฐ์ด ์๋ค. ๋ด๋ฐ ์ถ๋ ฅ z๋ ์์ค ํจ์ J(z)์ ์ ๋ ฅ์ด๋ค. ์ด๋ฌํ ๋ด๋ฐ์ ์ ์ฅ์์ ๋ฏธ๋ถ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ ์ง์ญ ๋ฏธ๋ถ์ ๊ตฌํ๊ณ ์ ๋ฌ๋ฐ์ ์ ์ญ ๋ฏธ๋ถ์ ๊ณฑํ๋ ๊ฒ์ด ์ ๋ถ์ด๋ค.
๊ณ์ธต ๋จ์์ ๋ฏธ๋ถ
์ด๋ฌํ ๋ฏธ๋ถ ๊ณผ์ ์ ์ค์ ๊ตฌํ ์ ๊ณ์ธต ๋จ์๋ก ๊ณ์ฐ๋๋๋ฐ, ๋ด๋ฐ์์ ๋ฒกํฐ๋ก ํํํ๋ ๊ฐ์ค์น๊ฐ ๊ณ์ธต์์๋ ํ๋ ฌ๋ก ํํ๋๋ค. ๋ด๋ฐ์์ ๊ฐ์ค์น์ ๋ฏธ๋ถ์ ๋ํ๋ด๋ ๊ทธ๋ ์ด๋์ธํธ๋ ๋ฒกํฐ๋ก ํํ๋์ง๋ง, ๊ณ์ธต์์ ๊ฐ์ค์น์ ๋ฏธ๋ถ์ ๋ํ๋ด๋ `์ผ์ฝ๋น์(jacobian)`์ ํ๋ ฌ๋ก ํํ๋๋ค. X = (X1, X2,..., Xn)์ ๊ฐ์ด ์ ๋ ฅ์ด n์ฐจ์ ๋ฒกํฐ์ด๊ณ f(x) = (f1(x), f2(x),..., fm(x))์ ๊ฐ์ด ํจ์ซ๊ฐ์ด m์ฐจ์ ๋ฒกํฐ์ธ ๊ฒฝ์ฐ, ์ ๋ ฅ์ ์ฐจ์๋ณ๋ก ํจ์ซ๊ฐ์ ๊ฐ ์ฐจ์์ ํธ๋ฏธ๋ถ ํด์ ์ ์ํ ํ๋ ฌ์ ์ผ์ฝ๋น์์ด๋ผ๊ณ ํ๋ค.
์ ๊ฒฝ๋ง ํ์ต์ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํด์ ๋ฏธ๋ถ์ ๊ณ์ฐํ๊ณ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๊ณผ ๊ฐ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ฉด์ ์ต์ ํด๋ฅผ ์ฐพ๋ ์ต์ ํ ๊ณผ์ ์ด๋ผ๊ณ ํ ์ ์๋ค.
์ฃผ์ ํ์ฑ ํจ์์ ๋ฏธ๋ถ
ํ์ฑ ํจ์์ ๋ฏธ๋ถ์ ๋๋ถ๋ถ ๊ฐ๋จํ ํํ๋ก ์ ์๋๋ค. ์๊ทธ๋ชจ์ด๋ ๊ณ์ด์ ๋ํจ์๋ ํ์ฑ ํจ์ f(x)์ ์์ผ๋ก ์ ์๋๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ์ด ๊ฐ๋จํ๋ฉฐ, ReLU ๊ณ์ด์ ๊ตฌ๊ฐ ์ ํ ํจ์์ด๋ฏ๋ก ๋ฏธ๋ถ๊ฐ์ด ์์์ด๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ถ์ ๋ณ๋๋ก ๊ณ์ฐํ ํ์๊ฐ ์๋ค.
๋ฐ์ดํฐ์ ๊ตฌ์ฑ๊ณผ ํ๋ จ ๋ฐ์ดํฐ ๋จ์
๋ฐ์ดํฐ์ ๊ตฌ์ฑ
๊ด์ธก ๋ฐ์ดํฐ์ ๊ตฌ์ฑ
์ค์ํ์์ ๋ชจ์ง๋จ์ ๊ตฌํ๊ธฐ๋ ๋๋ถ๋ถ ๋ถ๊ฐ๋ฅํ๋ฉฐ, ํ์ค์ ์ผ๋ก ๋ชจ์ง๋จ์ ๋ํํ ์ ์๋ ํ๋ณธ ์ง๋จ์ ๊ตฌ์ฑํ ์๋ฐ์ ์๋ค. ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ ๋ ์ค์ํ ๊ฒ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ํด๋์ค๋ณ๋ก ๋น์จ์ ๋ง์ถ๋ ๊ฒ์ด๋ค. ๋ง์ผ ํน์ ํด๋์ค์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ ์ด๋ ค์ ํ์ชฝ ํด๋์ค์ ๋ฐ์ดํฐ๊ฐ ์น์ฐ์น๋ค๋ฉด ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ๋ก ๋๋ ค์ฃผ๊ฑฐ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ฌ ์์ค ํจ์์ ๊ฐ์ค์น๊ฐ ์กฐ์ ๋๋๋ก ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ํด๊ฒฐํด์ผ ํ๋ค.
๋ฐ์ดํฐ์ ์ ๋ถ๋ฆฌ
๊ด์ธก ๋ฐ์ดํฐ๊ฐ ์ค๋น๋๋ฉด ๋ฐ์ดํฐ๋ฅผ `ํ๋ จ ๋ฐ์ดํฐ์ (train set)`, `๊ฒ์ฆ ๋ฐ์ดํฐ์ (valid set)`, `ํ ์คํธ ๋ฐ์ดํฐ์ (test set)`์ผ๋ก ๋ถ๋ฆฌํ๋ค.
- ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ธ์ ํ๋ จํ ๋ ์ฌ์ฉ
- ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํ๋ ๋ฐ ์ฌ์ฉ
- ํ ์คํธ ๋ฐ์ดํฐ์ ์ ํ๋ จ์ด ์๋ฃ๋ ๋ชจ๋ธ์ ์ต์ข ์ฑ๋ฅ์ ํ๊ฐํ ๋ ์ฌ์ฉ
์ด ์ธ ์ข ๋ฅ์ ๋ฐ์ดํฐ์ ์ ์๋ก ์ค๋ณต๋์ง ์๋๋ก ๋ฐฐํ์ ์ผ๋ก ๋ถ๋ฆฌํด์ผ ํ๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ ์, ๋ถ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ๋ถํฌ๊ฐ ์๋์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ํด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ์ฆ, ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋ถํฌ๋ ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ถํฌ์ ๋์ผํด์ผ ํ๋ค. ๋ฐ๋ผ์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋ํ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํ ๋ฐ์ดํฐ๊ฐ ๊ณจ๊ณ ๋ฃจ ๋ค์ด๊ฐ๋๋ก ์ต์์ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ ์ ์๋ค๋ฉด, ๋๋จธ์ง ๋ฐ์ดํฐ๋ ํ๋ จ ๋ฐ์ดํฐ๋ก ํ ๋นํ๋ค. ๋ณดํต ํ๋ จ ๋ฐ์ดํฐ์ ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋น์จ์ ์ ์ฒด ๊ด์ธก ๋ฐ์ดํฐ์ ์ 8:2, 7.5:3.5, 7:3 ์ ๋์ ๋น์จ๋ก ๋ถํ ํ๋ฉฐ, ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ํ๋ จ ๋ฐ์ดํฐ์ ์์ 10%~20%๋ฅผ ๋ถํ ํ๋ค.
ํ๋ จ ๋ฐ์ดํฐ ๋จ์
ํ๋ จ ๋ฐ์ดํฐ์ ๋จ์
์ ๊ฒฝ๋ง์ ํ์ตํ ๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํ๊บผ๋ฒ์ ์ ๋ ฅํ๋ ๊ฒ์ `๋ฐฐ์น(batch) ๋ฐฉ์`์ด๋ผ๊ณ ํ๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์์ ๊ฒฝ์ฐ ๋ฐฐ์น ๋ฐฉ์์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ์ง๋ง, ์ ๊ฒฝ๋ง์ ๋ง์ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์ํ์ฌ ๊ทธ๋งํผ ํ๋ จ ๋ฐ์ดํฐ์ ์ด ํฌ๊ธฐ ๋๋ฌธ์ ๋ฐฐ์น ๋ฐฉ์์ผ๋ก ํ์ตํ๋ฉด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์ด๊ณผํ๋ค. ์ด์ ๊ฐ์ ๋ฐฐ์น ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ๋ฐ์ดํฐ๋ฅผ ์์ ๋จ์๋ก ๋ฌถ์ด์ ํ๋ จํ๋ ๋ฐฉ์์ `๋ฏธ๋๋ฐฐ์น(minibatch) ๋ฐฉ์`์ด๋ผ๊ณ ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ ๊ฒฝ๋ง์ ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ ํตํด ํ์ตํ๋ค. ๋ฐ์ดํฐ ๊ฐ๊ฐ์ ์ํ์ ์ฉ๋์ด ๋งค์ฐ ํด ๋๋ ์ํ ๋จ์๋ก ํ๋ จํ๋ `ํ๋ฅ ์ (stochastic) ๋ฐฉ์`์ ํตํด ํ๋ จํ๊ธฐ๋ ํ๋ค. ๋ฏธ๋๋ฐฐ์น์ ํฌ๊ธฐ๋ฅผ 1๋ก ํ๋ฉด ํ๋ฅ ์ ๋ฐฉ์์ด ๋๊ณ , ๋ฏธ๋๋ฐฐ์น์ ํฌ๊ธฐ๋ฅผ ํ๋ จ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ก ํ๋ฉด ๋ฐฐ์น ๋ฐฉ์์ด ๋๋ฏ๋ก ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ด ๊ฐ์ฅ ์ตํ์ฑ ์๋ ๋ฐฉ์์ด๋ค.
ํ๋ จ ๋ฐ์ดํฐ ๋จ์์ ๋ฐ๋ฅธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ถ๋ฅ
ํ๋ จ ๋ฐ์ดํฐ์ ๋จ์์ ๋ฐ๋ผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ๋ `๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(batch gradient descent)`, `๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(minibatch gradient descent)`, `ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(stochastic gradient descent)`์ผ๋ก ๋๋๋ค. ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๊ทธ๋ ์ด๋์ธํธ๋ฅผ ์ ํํ๊ฒ ๊ณ์ฐํ๋ฏ๋ก ๋ถ๋๋ฌ์ด ๊ฒฝ๋ก๋ฅผ ๋ง๋ค์ง๋ง, ํ๋ฅ ์ ๋ฐฉ์์ ํ๋์ ์ํ๋ก ๊ทธ๋ ์ด๋์ธํธ๋ฅผ ๊ทผ์ฌํ๊ธฐ ๋๋ฌธ์ ์๋นํ ๋ง์ด ์ง๋ํ๋ค. ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์๋ ์์ ๋ฌถ์์ ์ํ๋ก ๊ทธ๋ ์ด๋์ธํธ๋ฅผ ๊ทผ์ฌํ๋ฏ๋ก ๋ ๋ฐฉ์์ ์ค๊ฐ ์ ๋ ์์ค์์ ์ง๋ํ๋ค. ์ด ์ธ ๊ฐ์ง ๋ฐฉ์์ ์๋ฐํ ๊ตฌ๋ถํ์ง ์๋๋ค๋ฉด ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์๋ฏธํ๋ฉฐ ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ฏธ๋๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํฌํจํ ์๋ฏธ๋ก ์ฌ์ฉํ๋ค.
๋ฏธ๋๋ฐฐ์น ํ๋ จ ๋ฐฉ์
๋ฏธ๋๋ฐฐ์น ํ๋ จ ๋ฐฉ์์ ์ฑ๋ฅ์ด ์ฐ์ํ ์ด์
์ผ๋ฐ์ ์ผ๋ก ์ ๊ฒฝ๋ง ํ๋ จ์ ํ ๋๋ ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ค. ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ๊ฐ์ด ์ํ ์ฉ๋์ด ํด ๊ฒฝ์ฐ๋ ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ๋ฅผ 1๋ก ํ์ฌ ํ๋ จํ๊ธฐ ๋๋ฌธ์ ํ๋ฅ ์ ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ ์ ์ด๋ค. ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ๋ฐฐ์น ๋ฐฉ์๋ณด๋ค ํ์ต์ด ๋ ๋นจ๋ผ์ง๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข์์ง๋ค. ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ ๋ฐ์ดํฐ๋ฅผ ์์ ๋จ์๋ก ๋ฌถ์ด์ ํ๋ จํ๊ธฐ ๋๋ฌธ์ ๋ฏธ๋๋ฐฐ์น๋ฅผ ์์ฑํ ๋๋ง๋ค ๋งค๋ฒ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ก ๋ฌถ์ฌ ์กฐ๊ธ์ฉ ๋ค๋ฅธ ํต๊ณ๋์ ๊ฐ๋ ํ๋ฅ ์ ์ฑ์ง์ด ์๊ธฐ๊ฒ ๋๋ค. ์ด๋ฌํ ํ๋ฅ ์ ์ฑ์ง์ด ์๊ธฐ๊ฒ ๋๋ฉด ์ผ๋ฐํ ์ค๋ฅ๊ฐ ์ค์ด๋ค๊ณ ๊ณผ์ ํฉ์ด ๋ฐฉ์ง๋๋ ์ ๊ทํ ํจ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ๋ฏธ๋๋ฐฐ์น ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ฉด ๊ทธ๋ ์ด๋์ธํธ๋ ๊ทผ์ฟ๊ฐ์ ๊ฐ์ง๋ง ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง๊ณ ์ ๊ทํ ํจ๊ณผ ๋๋ถ์ ์ข์ ์ต์ ํด๋ฅผ ์ฐพ์ ์ ์๋ค.
๋ฏธ๋๋ฐฐ์น์ ํฌ๊ธฐ๋ ์ด๋ ์ ๋๋ก ์ ํด์ผ ํ ๊น?
์ผ๋ฐ์ ์ผ๋ก ๋ฏธ๋๋ฐฐ์น์ ํฌ๊ธฐ๋ 2์ ๊ฑฐ๋ญ์ ๊ณฑ(2,4,8,16,32,64,128,256,512)์ผ๋ก ์ ํด์ผ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ค. ๋ฏธ๋๋ฐฐ์น๋ฅผ ํค์ธ ๊ฒฝ์ฐ ์ฆ๊ฐํ๋ ๊ณ์ฐ ์๊ฐ์ ๋นํด ์ป์ ์ ์๋ ํต๊ณ์ ์ด๋์ด ํฌ์ง ์๊ธฐ ๋๋ฌธ์ ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋ฌด์์ ํค์ด๋ค๊ณ ์ฑ๋ฅ์ด ์ข์์ง์ง ์๋๋ค. ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ๋ ์ ๊ฒฝ๋ง์ ํ๋ จํ๋ฉด์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ์ด์ฉํด์ ์ ์ ํ ํฌ๊ธฐ๋ฅผ ์ฐพ์์ผ ํ๋ค.
์์ค ํจ์ ์ ์
์์ค ํจ์๋ฅผ ์ ์ํ๋ ๊ธฐ์ค
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ์ ํํ๊ฒ ์์ธกํ๋ ค๋ฉด ๋ชจ๋ธ์ ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ๋ ํจ์๋ฅผ ํํํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด์ ์์ค ํจ์๋ ์ต์ ํด๊ฐ ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ ์ ์๋ ํจ์์ ํ๋ผ๋ฏธํฐ๊ฐ์ด ๋๋๋ก ์ ์๋์ด์ผ ํ๋ค. ์ด๋ฅผ ์ํด์ ๋ ๊ฐ์ง ๊ธฐ์ค์ผ๋ก ์์ค ํจ์๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ๊ฒฐ๊ตญ ๋์ผํ ์ต์ ํด๋ฅผ ๊ฐ๋ ํจ์๊ฐ ๋์ด ๊ฐ์ ๋์์ ๋ค๋ฅด๊ฒ ํด์ํ๋ ๊ฒ์ด๋ค.
- ๋ชจ๋ธ์ด `์ค์ฐจ ์ต์ํ(error minimization)`๋๋๋ก ์ ์
- ๋ชจ๋ธ์ ์ค์ฐจ๋ ๋ชจ๋ธ์ ์์ธก๊ณผ ๊ด์ธก ๋ฐ์ดํฐ์ ํ๊น์ ์ฐจ์ด
- ์์ค ํจ์์ ๋ชฉํ๋ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ๊ฒ์ด๋ฉฐ, ์์ค ํจ์๋ฅผ ์ ์ํ ๋ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ค์ฐจ์ ํฌ๊ธฐ๋ฅผ ์ธก์ ํ ์ง ๊ฒฐ์
- ๋ชจ๋ธ์ด ์ถ์ ํ๋ ๊ด์ธก ๋ฐ์ดํฐ์ ํ๋ฅ ์ด ์ต๋ํ๋๋๋ก `์ต๋์ฐ๋์ถ์ (MLE·Maximum Likelihood Estimation)` ๋ฐฉ์ ์ ์
- `์ฐ๋(likelihood)` : ๋ชจ๋ธ์ด ์ถ์ ํ๋ ๊ด์ธก ๋ฐ์ดํฐ์ ํ๋ฅ
- ์์ค ํจ์์ ๋ชฉํ๋ ๊ด์ธก ๋ฐ์ดํฐ์ ํ๋ฅ ์ด ์ต๋ํ๋๋ ํ๋ฅ ๋ถํฌ ํจ์๋ฅผ ๋ชจ๋ธ์ด ํํํ๋๋ก ๋ง๋๋ ๊ฒ
- ํ๋ฅ ๋ชจ๋ธ์ธ ๊ฒฝ์ฐ์๋ง ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋๋ถ๋ถ์ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํ๋ฅ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ฏ๋ก ์์ค ํจ์ ์ ๋ ๊ฐ๋ฅ
์ค์ฐจ ์ต์ํ ๊ด์ ์์ ์์ค ํจ์ ์ ์
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ธํ(theta)๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ ํ์ต ๋ฐ์ดํฐ D๊ฐ ์๋ค๊ณ ํ ๋, ๋ชจ๋ธ์ ์์ธก์ y๋ผ๊ณ ํ๊ณ ํ๊น์ t๋ผ๊ณ ํ๋ฉด ์ค์ฐจ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ค์ฐจ ์ต์ํ ๊ด์ ์์ ์์ค ํจ์๋ ์ค์ฐจ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ํจ์๋ก ์ ์ํ๋ฉด ๋๋ค. ์ค์ฐจ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ๋ํ์ ์ธ ํจ์๋ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ `๋ ธ๋ฆ(norm)`์ด๋ค. ์ฃผ๋ก L2 ๋ ธ๋ฆ๊ณผ L1 ๋ ธ๋ฆ์ ์ฌ์ฉํ๋ฉฐ ์ด๋ ์์ค ํจ์๋ฅผ `ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE·Mean Squared Error)`์ `ํ๊ท ์ ๋์ค์ฐจ(MAE·Mean Absolute Error)๋ผ๊ณ ํ๋ค.
ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ N๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด ์ค์ฐจ์ L2 ๋ ธ๋ฆ์ ์ ๊ณฑ์ ํ๊ท ์ผ๋ก ์ ์๋๋ฉด l2 ์์ค๋ก ํ๊ธฐํ๋ค. ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ ๋ชจ๋ธ์ด ํ๊น t์ ํ๊ท ์ ์์ธกํ๋๋ก ๋ง๋ ๋ค. ์ค์ฐจ๊ฐ ์ปค์ง์๋ก ์์ค์ด ์ ๊ณฑ์น์ผ๋ก ์์นํ๊ธฐ ๋๋ฌธ์ ์ด์์น์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ค๋ ๋จ์ ์ด ์๋ค.
ํ๊ท ์ ๋์ค์ฐจ๋ N๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด ์ค์ฐจ์ L1 ๋ ธ๋ฆ์ ํ๊ท ์ผ๋ก ์ ์ํ๋ฉฐ l1 ์์ค์ด๋ผ๊ณ ํ๊ธฐํ๋ค. ํ๊ท ์ ๋์ค์ฐจ๋ ๋ชจ๋ธ์ด ํ๊น์ ์ค์๊ฐ์ ์์ธกํ๋๋ก ๋ง๋ ๋ค. ์ค์ฐจ๊ฐ ์ปค์ง์๋ก ์์ค์ด ์ ํ์ ์ผ๋ก ์ฆ๊ฐํด ์ด์์น์ ๋ ๋ฏผ๊ฐํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํจ์๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ๊ตฌ๊ฐ๋ณ๋ก ๋ฏธ๋ถ์ ์ฒ๋ฆฌํด์ผ ํ๋ ๋จ์ ์ด ์๋ค.
์ค์ฐจ ์ต์ํ ๊ด์ ์์ ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ฅผ ํต ์ ๊ฒฝ๋ง ํ์ต์ ์ํ ์ต์ ํ ๋ฌธ์ ๋ฅผ ์ ์ํ๋ค ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
๋ ธ๋ฆ๊ณผ ๊ฑฐ๋ฆฌ ํจ์
์์ ๋ณธ ๋ ธ๋ฆ์ด๋, ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ฉฐ ๋ค์๊ณผ ๊ฐ์ p-๋ ธ๋ฆ์ ์์ผ๋ก ์ ์๋๋ค. p์ ๊ฐ์ ๋ฐ๋ผ ๋ ธ๋ฆ์ ์ข ๋ฅ๊ฐ ๋ฌ๋ผ์ง๋ค.
p=1์ผ ๋๋ L1 ๋ ธ๋ฆ์ด๋ผ๊ณ ํ๋ฉฐ, ๋ฒกํฐ x์ ๊ฐ ์์์ ์ ๋๊ฐ์ ์ทจํด์ ํฉ์ฐํ ๊ฐ์ด๋ค.
p=2์ผ ๋๋ L2 ๋ ธ๋ฆ์ด๋ผ๊ณ ํ๋ฉฐ, ๋ฒกํฐ x์ ๊ฐ ์์์ ์ ๋๊ฐ์ ์ทจํด์ ์ ๊ณฑํ ํ ํฉ์ฐํด์ ์ ๊ณฑ๊ทผ์ ์ทจํ ๊ฐ์ด๋ค.
๋ ธ๋ฆ์ `๊ฑฐ๋ฆฌ ํจ์(distance function)`์ผ๋ก๋ ์ฌ์ฉํ ์ ์๋ค. ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ ๋ ๋ ์ ์ ์ฐจ ๋ฒกํฐ๋ฅผ ๊ตฌํ ํ ๋ ธ๋ฆ์ ๊ณ์ฐํ๋ฉด ๊ฑฐ๋ฆฌ๊ฐ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
- `์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)` : ๋ ์ ์ฌ์ด์ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ด๋ฉฐ ๋ ๋ฒกํฐ์ ์ฐจ์ L2 ๋ ธ๋ฆ ์ ์ฉ
- `๋งจํดํผ ๊ฑฐ๋ฆฌ(Manhattan distance)` : ๊ฐ ์ถ์ ๋ฐ๋ผ ์ง๊ฐ์ผ๋ก ์ด๋ํ๋ ๊ฑฐ๋ฆฌ๋ก ๋ ๋ฒกํฐ์ ์ฐจ์ L1 ๋ ธ๋ฆ ์ ์ฉ
- `๋ฏผ์ฝํ์คํค ๊ฑฐ๋ฆฌ(Minkowski distance)` : ์์์ p ๊ฐ์ ๋ํด ๋ ๋ฒกํฐ์ ์ฐจ์ p-๋ ธ๋ฆ์ ์ ์ฉ
์ต๋์ฐ๋์ถ์ ๊ด์ ์์ ์์ค ํจ์ ์ ์
๊ด์ธก ๋ฐ์ดํฐ์ ์ฐ๋์ ์์ค ํจ์
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ธํ(theta)๋ก ์ด๋ฃจ์ด์ง ํ๋ฅ ๋ชจ๋ธ์ด๊ณ , ํ์ต ๋ฐ์ดํฐ D์ ๊ฐ ์ํ์ ๊ฐ์ ๋ถํฌ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋ง๋์ด i.i.d ์ฑ์ง์ ๋ง์กฑํ์๊ณ ํ ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ๋ก ์ถ์ ํ ๊ด์ธก ๋ฐ์ดํฐ์ ํ๋ฅ ์ด ์ฐ๋์ด๋ค. ๊ฐ ์ํ์ ์๋ก ๋ ๋ฆฝ์ด๊ธฐ ๋๋ฌธ์ ๊ด์ธก ๋ฐ์ดํฐ์ ์ฐ๋๋ N๊ฐ์ ์ํ์ ์ฐ๋์ ๊ณฑ์ผ๋ก ํํํ ์ ์๋ค.
์ต๋์ฐ๋์ถ์ ๊ด์ ์์ ๋ชฉ์ ํจ์์ธ ์ฐ๋๋ฅผ ์ต๋ํํ๋ ํ๋ฅ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ธํ(theta)๋ฅผ ์ฐพ๋ ์ต์ ํ ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ต๋์ฐ๋์ถ์ ๊ด์ ์ ์ต์ ํ ๋ฌธ์ ๊ฐ์
์์ ์ ์ํ ์ต์ ํ ๋ฌธ์ ๋ฅผ ์กฐ๊ธ๋ง ๋ณํํ๋ฉด ์์น์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ฌ์์ง๋ฉฐ ์์ ์ ์ผ๋ก ์ต์ ํํ ์ ์๋ค. ๋ํ ํ์ค ํํ์ ์ต์ํ ๋ฌธ์ ๋ก ํต์ผํ ์๋ ์๋ค. ์ด๋ฅผ ์ํด์ ๋ค์๊ณผ ๊ฐ์ ๋ณํ ๊ณผ์ ์ ๊ฑฐ์ณ ๋ฌธ์ ๋ฅผ ์ฌ์ ์ํ๋ค.
- ๋ชฉ์ ํจ์๋ฅผ ๊ฐ์ ๋ ํํ๋ก ๋ง๋ค๊ธฐ ์ํด ์ฐ๋ ๋์ `๋ก๊ทธ ์ฐ๋(log likelihood)` ์ฌ์ฉ
- ์ต๋ํ ๋ฌธ์ ๋ฅผ ์ต์ํ ๋ฌธ์ ๋ก ๋ณํํ๊ธฐ ์ํด ๋ชฉ์ ํจ์์ `์์ ๋ก๊ทธ ์ฐ๋(negative log likelihood)` ์ฌ์ฉ
๋จผ์ , ๋ชฉ์ ํจ์๋ฅผ ๋ก๊ทธ ์ฐ๋๋ก ๋ณํํ๋ ๊ณผ์ ์ด๋ค. ๋ก๊ทธ ์ฐ๋๋ ์ฐ๋์ ๋ก๊ทธ๋ฅผ ์ทจํ ํํ๋ฅผ ๋งํ๋ฉฐ ๋ก๊ทธ ์ฐ๋๋ฅผ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ๋ณํ๋๋ค.
์ฐ๋ ๋์ ๋ก๊ทธ ์ฐ๋๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ฐ์ฐ์์ ๋ถํฌ ๋๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๊ฐ์ ์ง์ ํจ์ ํํ๋ก ํํ๋๋ ํ๋ฅ ๋ถํฌ๋ ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ์ง์ ํญ์ด ์์๋์ด ๋คํญ์์ผ๋ก ๋ณํ๋๊ธฐ ๋๋ฌธ์ ํจ์ ํํ๊ฐ ๋ค๋ฃจ๊ธฐ ์ฌ์์ง
- N๊ฐ ์ํ์ ๋ํ ์ฐ๋์ ๊ณฑ์ ๋ก๊ทธ ์ฐ๋์ ํฉ์ฐ์ผ๋ก ๋ฐ๊พธ๋ฉด ์ธ๋ํ๋ก๋ฅผ ๋ฐฉ์ง
- ํ๋ฅ ์ 1๋ณด๋ค ์๊ธฐ ๋๋ฌธ์ ํ๋ฅ ์ N๋ฒ ๊ณฑํ๋ฉด N์ด ์ปค์ง์๋ก ์ธ๋ํ๋ก๊ฐ ์ฝ๊ฒ ๋ฐ์
- ๋ก๊ทธ ์ฐ๋๋ฅผ ์ฌ์ฉํ๋ฉด ๊ณฑ์ด ํฉ์ฐ ํํ๋ก ๋ฐ๋์ด ์ธ๋ํ๋ก๋ฅผ ๋ฐฉ์ง
- ์ต์ ํ ๋ฌธ์ ๋ ๋ชฉ์ ํจ์์ ๋ก๊ทธ์ ๊ฐ์ ์ฆ๊ฐํจ์๋ฅผ ์ ์ฉํ๋๋ผ๋ ๋์ผํ ํด๋ฅผ ์ป์ ์ ์์ผ๋ฏ๋ก ์ต์ ํด ๋ณํ x
๋ค์์ ์ต๋ํ ๋ฌธ์ ๋ฅผ ์ต์ํ ๋ฌธ์ ๋ก ๋ณํํ๋ ๊ณผ์ ์ด๋ค. ์ด ๊ณผ์ ์์ ๋ก๊ทธ ์ฐ๋์ ์์๋ฅผ ์ทจํ ์์ ๋ก๊ทธ ์ฐ๋, ์ฆ `NLL(Negative Log Likelihood)`๋ก ์์ค ํจ์๊ฐ ์ ์๋๋ค. NLL์ ์์ค ํจ์์ ์ด๋ฅผ ํตํ ํ์ค ํํ์ ์ต์ํ ๋ฌธ์ ๋ก ์ฌ์ ์๋ ์์ ๋ค์๊ณผ ๊ฐ๋ค.
์ ๋ณด๋, ์ํธ๋กํผ, ํฌ๋ก์ค ์ํธ๋กํผ
์ ๋ณด๋(self-information)
`์ ๋ณด๋(self-information)`์ ํ๋ฅ ์ ํํํ๋ ๋ฐ ํ์ํ ๋นํธ ์๋ก ์ฌ๊ฑด์ด ์ผ๋ง๋ ์์ฃผ ๋ฐ์ํ๋์ง๋ฅผ ๋ํ๋ธ๋ค. ๋ํ ์ ๋ณด๋์ ํ๋ฅ ์ ๋ฐ๋น๋กํ๋ฉด์ ๋ ๋ฆฝ ์ฌ๊ฑด๋ค์ ์ ๋ณด๋์ ๋ํด์ ธ์ผ ํ๋ฏ๋ก, ํ๋ฅ ์ ์ญ์์ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฐ์ผ๋ก ์ ์๋๋ค. ๋ค์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ํ๋ฅ ์ด 0์ด๋ฉด ์ ๋ณด๋์ ๋ฌดํ๋๊ฐ ๋๊ณ ํ๋ฅ ์ด 1์ด๋ฉด ์ ๋ณด๋์ 0์ด๋ค.
์ํธ๋กํผ(entropy)
`์ํธ๋กํผ(entropy)`๋ ํ๋ฅ ๋ณ์๊ฐ ์ผ๋ง๋ `๋ถํ์ค(uncertain)`ํ์ง ํน์ `๋ฌด์์(random)`ํ์ง๋ฅผ ๋ํ๋ธ๋ค. ๋ถ์ฐ์ด ํฐ ํ๋ฅ ๋ถํฌ์ ๊ฒฝ์ฐ ๋์ ๋ฒ์์์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ฏ๋ก ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ์ง ๋ถํ์คํด ์ํธ๋กํผ ๋ํ ๋๋ค. ๋ฐ๋ฉด ๋ถ์ฐ์ด ์์ ํ๋ฅ ๋ถํฌ์ ๊ฒฝ์ฐ ์ข์ ๋ฒ์์์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ฏ๋ก ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ์ง ํ์คํด ์ํธ๋กํผ๋ ๋ฎ๋ค. ์ด๋ฌํ ์ํธ๋กํผ๋ ํ๋ฅ ๋ณ์์ ์ ๋ณด๋์ ๊ธฐ๋๊ฐ์ผ๋ก ์ ์๋๋ค. ์ํธ๋กํผ๋ p(x) = 0 ํน์ 1์ผ ๋ 0์ด ๋๊ณ , p(x) = 0.5์ผ ๋ ์ต๋๊ฐ 1์ด ๋๋ค.
ํฌ๋ก์ค ์ํธ๋กํผ(Cross Entropy)
`ํฌ๋ก์ค ์ํธ๋กํผ(Cross Entropy)`๋ ๋ ํ๋ฅ ๋ถํฌ์ ์ฐจ์ด ๋๋ ์ ์ฌํ์ง ์์ ์ ๋(dissimilarity)๋ฅผ ๋ํ๋ธ๋ค. ํ๋ฅ ๋ถํฌ q๋ก ํ๋ฅ ๋ถํฌ p๋ฅผ ์ถ์ ํ๋ค๊ณ ํ ๋ ํฌ๋ก์ค ์ํธ๋กํผ๋ q์ ์ ๋ณด๋์ p์ ๋ํ ๊ธฐ๋๊ฐ์ ์ทจํ๋ ๊ฒ์ผ๋ก ์ ์ํ๋ค. q๊ฐ p๋ฅผ ์ ํํ ์ถ์ ํด์ ๋ ๋ถํฌ๊ฐ ๊ฐ์์ง๋ฉด ํฌ๋ก์ค ์ํธ๋กํผ๋ ์ต์ํ๋๊ณ , ์๋ชป ์ถ์ ํ ๊ฒฝ์ฐ ํฌ๋ก์ค ์ํธ๋กํผ๋ ๋์์ง๋ค. ์ด๋ฅผ ํตํด ํฌ๋ก์ค ์ํธ๋กํผ๋ q์ p์ ์ ์ฌํ์ง ์์ ์ ๋๋ฅผ ๋ํ๋ด๋ ์งํ๋ก ๋ณผ ์ ์๋ค.
ํ๋์ ๋ฐ์ดํฐ ์ํ (x,t)์ ๋ํด์ ์ด์ง ํฌ๋ก์ค ์ํธ๋กํผ ์์ค ํจ์๊ฐ ์ด๋ป๊ฒ ๋ณํํ๋์ง ํ์ธํด ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ฆ, ์ ๊ฒฝ๋ง์ ์์ธก ๋ถํฌ์ ํ๊น ๋ถํฌ๊ฐ ๊ฐ์ผ๋ฉด ํฌ๋ก์ค ์ํธ๋กํผ๋ ์ต์ํ๋๋ฉฐ, ์ ๊ฒฝ๋ง์ ์์ธก ๋ถํฌ์ ํ๊น ๋ถํฌ๊ฐ 0๊ณผ 1๋ก ์๋ก ๋ฐ๋๊ฐ ๋๋ฉด ํฌ๋ก์ค ์ํธ๋กํผ๋ ∞๊ฐ ๋๋ค.
๋ณธ ํฌ์คํ ์ 'Do it! ๋ฅ๋ฌ๋ ๊ต๊ณผ์' ๊ต์ฌ๋ฅผ ๊ณต๋ถํ๊ณ ์์ฑํ ๊ธ์ ๋๋ค.