PRML [1.2] 확률론
목적
패턴 인식 분야에서 중요한 콘셉트 중 하나는 바로 ‘불확실성’이다. 확률론은 불확실성을 계량화하고 조작하기 위한 이론적인 토대를 마련해 주며, 1.5절에서 논의할 의사 결정 이론과 이번 절의 확률론을 함께 활용하면, 주어진 정보가 불확실하거나 완전하지 않은 제약 조건하에서 최적의 예측을 시행할 수 있게 된다.
정의 초기화
$X$와 $Y$라는 두 가지 확률 변수가 있다고 하자.
- $X$는 $x_i(i=1, …, M)$ 중 1
- $Y$는 $y_i(i=1, …, L)$ 중 1
- $X=x_i, Y=y_j$ 인 시도의 개수 = $n_{ij}$
- $X=x_i$인 시도의 숫자 = $c_i$
- $Y=y_i$인 시도의 숫자 = $r_i$
sum rule (합의 법칙)
$p(X=x_i)=\sum _{j=1} ^L p(X=x_i, Y=y_j)$
conditional probability (조건부 확률)
$p(Y=y_j|X=x_i)={n_{ij} \over c_i}$
product rule (곱의 법칙)
$p(X=x_i,Y=y_j)={n_{ij} \over N }={n_{ij}\over c_i}\cdot {c_i \over N}=p(Y=y_j|X=x_i)p(X=x_i)$
확률의 법칙
합의 법칙
$p(X)=\sum _{Y} p(X, Y)$
곱의 법칙
$p(X, Y)=p(Y|X)P(X)$
Bayes’ theorem (베이즈 정리)
위 개념들을 이용하여 다음 식을 도출할 수 있다.
\[p(Y|X)= {p(X|Y)p(Y) \over p(X) }\tag{식 1.12}\]베이지안 정리의 분모는 다음과 같이 나타내어 지는데, 정규화 상수로 볼 수 있다. 모든 Y 값에 대하여 식 1.12의 왼쪽 항의 합이 1이 되도록 한다.
\[p(X)=∑_Yp(X|Y)p(Y) \tag{식 1.13}\]고등학교 확통 시간으로 돌아간 기분이 드는데, 빨간 상자를 고를 확률이 40%, 파란 상자를 고를 확률이 60%라고 하자. 그리고 과일이 다음과 같이 있다고 하자.
사과 | 오렌지 | |
---|---|---|
빨간 상자 | 2 | 6 |
파란 상자 | 3 | 1 |
상자가 주어졌을 때, 고른 게 어느 과일인지 계산하는 것은 매우 쉽다. 하지만, 과일이 주어졌을 때 고른 상자가 뭐였는지 묻는다면?
베이지안 정리를 적용하여 조건부 확률을 뒤집으면 된다. 오렌지를 골랐는데, 그게 빨간 상자에서 나온 것일 확률은
\[p(B=r|F=o)={p(F=o|B=r)p(B=r) \over p(F=o)}={3 \over 4} \times {4 \over 10} \times {20 \over 9}={2 \over 3}\]이다. 합의 법칙에 따라 고른 오렌지가 파란 박스 출신일 확률은 1/3.
과일을 모르는 상태에서 어떤 박스를 선택했는가? → prior probability 사전 확률 (어떤 과일이 선택되었는지 관찰 전의 확률)
과일이 오렌지라는 것을 알게 되면 $p(B|F)$ 계산 가능 → posterior probability 사후 확률 (사건 F 관찰 후)
파란 상자를 고를 사전 확률이 더 높음. 하지만, 과일이 오렌지라는 것을 알고 나면 빨간 상자를 고를 사후 확률이 2/3. 오렌지를 골랐다는 증거로 사전 지식을 뒤엎음.
1.2.1 확률 밀도
이산적인 사건이 아닌, 연속적인 변수에서는 확률 값을 구간으로 표현한다.
$(x, x+ \delta x)$
변수의 확률 $\delta x$이 0에 수렴하면 $p(x)$를 $x$의 확률밀도라고 한다.
\[p(x \in (a, b)) = \int_{a}^{b}p(x)dx \qquad{(식\ 1.24)}\]$x$가 범위 $a$~$b$ 안에 들어갈 확률은 확률 밀도 함수의 구간 부피와 같겠다.
확률 밀도 함수 $p(x)$는 다음의 두 조건을 만족시켜야 한다.
- $p(x)≥0 \qquad{(식\ 1.25)}$ $\rightarrow$ 확률이 음수가 될 수는 없으므로 당연함.
- $\int_{-\infty}^{\infty}p(x)dx=1 \qquad{(식\ 1.26)}$ $\rightarrow$ 모든 경우의 확률의 합은 1이 되어야 함.
확률 분포 함수는 변수의 변화에 따라 달라지는데, 특히 비선형 변환의 경우에는 확률 밀도 함수가 변환된 변수의 공간에서 올바른 확률을 유지하도록 조정해야 한다. 두 변수의 확률 밀도가 다르므로 확률식도 함께 변환 되어야 한다. 이때 야코비안 인자(Jacobian factor)가 필요하다.
비선형 변환 $x = g(y)$를 적용할 때, $x$에 대한 확률 밀도 함수 $p_x(x)$를 $y$에 대한 확률 밀도 함수 $p_y (y)$로 변환하기 위해 야코비안 인자 $\left|\dfrac{dx}{dy}\right|$가 필요하다. 야코비안 인자는 y에서 x로 변환 될 때, 각 점에서 미소 영역(small area)이 얼마나 확장되거나 압축되는지를 나타낸다.
$f(x)→\tilde f(y)=f(g(y))$
$(x, x+ \delta x)$를 $(y, y+ \delta y)$로 변환.
\[p_y(y)=p_x(x)\left|\dfrac{dx}{dy}\right|=p_x(g(y))\left|g'(y)\right| \qquad{(식\ 1.27)}\]최종으로는 위와 같이 사용된다.
$x$ 에 대해 확률 함수 $p(x)$ 가 주어졌을 때 구간 $(−∞,z)$ 에 대한 확률 값을 cumulative distribution function 누적 분포 함수라고 한다.
$P(z)=∫^z_{−∞}p(x)dx\qquad{(식\ 1.28)}$
- 개념적으로도, 식으로도 당연한 소리긴 하지만, $P(x)$를 미분하면 $p(x)$ 구할 수 있다.
벡터로 표현되는 $\bf x$에 대해서도 결합 확률 밀도 $p(x)=p(x_1,…,x_D)$로 정의할 수 있다. $\bf x$가 다변수 벡터이며 D차원 공간에서 각 변수 $x_1,…,x_D$가 함께 취하는 값의 확률 분포.
다변량 확률 밀도에서도 다음 두 조건을 만족시켜야 한다.
- $p({\bf x}) \ge 0 \qquad{(식\ 1.29)}$
- $\int p({\bf x}) d{\bf x} = 1 \qquad{(식\ 1.30)}$
$x$가 이산 변수일 때는 $p(x)$는 probability mass function (확률 질량 함수)라고 부르기도 한다.
연속 변수의 확률 밀도와 이산/연속 변수가 조합된 경우에도 확률 밀도에 합의 법칙과 곱의 법칙, 베이지안 정리를 적용할 수 있다.
- $p(x)=\int{p(x,y)dy} \qquad{(식\ 1.31)}$
- $p(x,y)=p(y|x)p(x) \qquad{(식\ 1.32)}$
1.2.2 기댓값과 공분산
평균값을 기댓값이라고 하며, 분포의 종류에 따라 다음과 같이 나타난다.
- 이산 분포
- $E[f]=\sum_x{p(x)f(x)} \qquad{(식\ 1.33)}$
- 연속 변수
- $E[f]=\int{ {p(x)f(x)} dx} \qquad{(식\ 1.34)}$
- 유한한 $N$개의 포인트에서 추출된 값의 평균은 기댓값에 근사 ($N$이 무한으로 수렴하면 거의 정확해짐)
- $E[f]\simeq\dfrac{1}{N}\sum_{n=1}^{N}{f(x_n)} \qquad{(식\ 1.35)}$
변수 여러 개를 사용하는 함수에 대한 평균
- $E_x[f(x,y)] \qquad{(1.36)}$
조건부 기댓값
- $E_x[f|y]=\sum_x{p(x|y)f(x)} \qquad{(1.37)}$
분산
- $var[f]=E[(f(x)-E[f(x)])^2] \qquad{(1.38)}$
- $var[f]=E[f(x)^2]-E[f(x)]^2 \qquad{(1.39)}$
- $var[x]=E[x^2]-E[x]^2 \qquad{(1.40)}$
두 변수 $x$, $y$에 대한 공분산
- $cov[x,y]=E_{x,y}[(x-E[x])(y-E[y])] = E_{x,y}[xy]-E[x]E[y] \qquad{(1.41)}$
벡터에 대한 공분산
- $cov[{\bf x},{\bf y}]=E_{\bf x,y}[({\bf x}-E[{\bf x}])({\bf y}^T-E[{\bf y}^T])] = E_{\bf x,y}[{\bf xy}^T]-E[{\bf x}]E[{\bf y}^T] \qquad{(1.42)}$
Exercise 1.5
식 1.38의 정의를 이용해서 $var[f(x)]$가 식 1.39를 만족함을 증명하라.
$E [ ( f ( x ) - E [ f ( x ) ] ) ^ { 2 } ] $
$= E [ f ( x )^ { 2 } - 2 f ( x )\cdot E [ f ( x ) ] + E [ f ( x ) ] ^ { 2 } ]$
$= E [ f ( x )^ { 2 } ] - 2E [ f ( x ) ] ^ { 2 } + E [ f ( x ) ] ^ { 2 }$
$= E [ f ( x )^ { 2 } ] - E [ f ( x ) ] ^ { 2 }$
Exercise 1.6
두 변수 $x$와 $y$가 서로 독립적일 때 $x$와 $y$의 공분산이 0임을 증명하라.
식 1.41의 결과값이 0임을 증명하면 되니까, 결국 $E_{x, y}[x, y]=E[x]E[y]$를 증명하면 된다.
$x$와 $y$가 독립적이므로, $p(x, y)=p_x(x)p_y(y)$이다.
$E _ { x , y } [ x , y ] = \int\int x y\ p ( x , y ) d x d y$ 라고 표현한다는 것만 알면
$\int\int x y\ p ( x , y ) d x d y=\int x p _ { x } ( x ) d x \cdot \int y p _y ( y ) d y$
$E _ { x , y } [ x , y ]=E [ x ] [ y ]$
1.2.3 베이지안 확률 (Bayesian probabilities)
빈도론적인 관점 | 베이지안 관점 |
---|---|
빈도를 통해 모델링을 하므로, 실제 데이터가 존재해야 불확실성을 정량화할 수 있음 | 사건이 발생하지 않은 경우에도 확률을 부여할 수 있음 |
- 데이터가 주어지기 전에 사전 확률 값이 있고, 데이터가 주어지면서 어떻게 변화하는지 계산할 수 있음
- 새 증거가 주어질 때마다 불확실성을 수정하고, 새로운 결과에 따라 최적의 선택을 내리고 싶음
- 관측값들을 이용하여 사전 확률을 사후 확률로 바꾸는 역할
- 사후 확률 $\varpropto$ 가능도 $\times$ 사전 확률
- 데이터의 개수가 부족한 경우 유용
- 데이터를 계속 추가적으로 얻는 상황에서, 전체 데이터를 새로 분석하지 않고, 이전 분석 결과에 새로운 데이터를 합쳐서 업데이트만 하면 됨
학습 모델의 매개변수 w를 정할 때, 불확실성을 수치화하고 표현하는 데 사용할 수 있음
- 데이터를 관측하기 전의 w에 대한 우리의 가정을 사전 확률 분포 $p(w$)로 표현
- 관측된 데이터 $D={t_1, …, t_N}$은 조건부 확률 $p(D|w)$로 작용
- D를 관측한 후에 $w$에 대한 불확실성 $p(\textbf{w}|D)={p(D|\textbf{w})p(\textbf{w}) \over p(D)}$
- 가능도 함수 (likelihood function) : $p(D|\textbf{w})$
- 관측 데이터 집합 D를 바탕으로 계산
- 매개변수 벡터 $\textbf{w}$의 함수. $\textbf{w}$에 대한 “확률 분포”가 아님 (적분값 1 아니어도 됨)
- 각각의 매개변수 벡터 $\textbf{w}$에 대해 관측된 데이터 집합이 얼마나 ‘그렇게 나타날 가능성이 있었는지’ 표현
- 정규화 상수 : $p(D)$
- 사후 분포가 적법한 확률 분포가 되고, 적분값이 1이 되도록 하기 위한 정규화 상수
- 양변을 w에 대해 적분하면 베이지안 정리의 분모를 사전 확률과 가능도 함수로 표현할 수 있음
- $p(D)=\int p(D|\textbf{w})p(\textbf{w})d\textbf{w}$
가능도 함수 $p(D|w)$
- 빈도적 확률 관점
- $\textbf{w}$ : 고정된 매개변수 (뭔지 모르지만, 데이터로부터 추정함)
- Maximum likelihood (최대 가능도)
- $p(D|\textbf{w}_ {ML})$가 최대가 되는 $\textbf{w}_ {ML}$ 추정
- 부트스트랩을 통해 데이터 집합을 여러 개 만들어서, 각각의 부트스트랩 데이터 집합에서의 예측치와 실제 매개변수 값과의 차이를 바탕으로 매개변수 추정값의 통계적 정확도 판단
- cross validation
- 베이지안 확률 관점
- 실제로 관측된, 오직 하나의 데이터 집합 D만이 존재하고, 매개변수의 불확실성은 $\textbf{w}$의 확률 분포를 통해 표현됨
- 실제로는 평균이나 최빈값과 같은 값으로 사용함 (MAP)
베이즈 정리 이해를 위한 예시
어떠한 질병에 걸릴 확률이 0.5%라고 하자. 이 질병을 진단하는 검사가 질병이 있는 사람을 양성으로 판정할 확률이 99%이고, 질병이 없는 사람을 양성으로 판정할 확률이 2%라고 한다.
- 어떤 사람의 검가 결과가 양성이라고 한다. 실제로 질병에 걸렸을 확률은? 질병에 걸렸을 사전 확률 $P(A)=0.5\%=0.005$ 검사가 양성으로 뜰 확률 $P(B)=0.005 \times 0.99 + 0.995 \times 0.02 = 0.02485$ 실제로 질병에 걸렸는데 진단이 양성일 확률 (가능도) $P(B|A) = 0.99$ 검사가 양성일 때, 실제로 질병에 걸렸을 확률은 다음과 같다.
사전 확률이 0.5% 였는데, 양성이라는 증거 관찰 이후, 사후 확률은 20%가 되었다.
- 이 사람이 검사를 한 번 더 했는데, 또 양성이 떴다고 한다. 실제로 질병에 걸렸을 확률은? 사전 확률 $P(A)=20\%=0.2$ 검사가 양성으로 뜰 확률 $P(B)=0.2 \times 0.99 + 0.8 \times 0.02 =0.214$ 실제로 질병에 걸렸는데 진단이 양성일 확률 (가능도) $P(B|A) = 0.99$ 검사가 양성일 때, 실제로 질병에 걸렸을 확률은 다음과 같다.
이 사람이 양성 판정을 한 번 받았을 때, 질병에 걸렸을 확률은 20%였다. 양성 판정을 한 번 더 받고 나니, 질병에 걸렸을 확률이 92.5%까지 올라갔다.
이렇게, 사전 확률에서 사후 확률을 알아내고, 새로운 증거가 들어오면 기존 알고 있던 사후 확률을 다시 사전 확률로 삼아 다시 사후 확률을 계산한다.
1.2.4 가우시안 분포
$N(x\;|\;\mu, \sigma^2)$
Gaussian distribution 가우시안 분포는 normal distribution 정규 분포라고도 한다.
단일 실수 변수 $x$에 대하여 가우시안 분포는 다음과 같이 정의된다.
\[N(x\;|\;\mu, \sigma^2)=\dfrac{1}{(2\pi\sigma^2)^{1/2}}\exp\left\{-\dfrac{1}{2\sigma^2}(x-\mu)^2\right\} \qquad{(식\ 1.46)}\]- $\mu$ : mean (평균)
- $\sigma ^ 2$ : variance (분산)
- $\sigma$ : standard deviation (표준 편차)
- $\beta = 1/ \sigma ^ 2$ : precision (정밀도)
- 가우시안 분포는 정규화 되어 있다.
- $\int_{-\infty}^{\infty}N(x\;|\;\mu, \sigma^2)\;dx=1 \qquad{(식\ 1.48)}$
- 가우시안 분포를 따르는 임의의 $x$에 대한 함수의 기댓값을 구할 수 있다. (평균과 동일)
- $E[x]=\int_{-\infty}^{\infty}N(x\;|\;\mu, \sigma^2)\ x\;dx=\mu \qquad{(식\ 1.49)}$
- $E[x^2]=\int_{-\infty}^{\infty}N(x\;|\;\mu, \sigma^2)\ x^2\;dx=\mu^2+\sigma^2 \qquad{(식\ 1.50)}$
- $var[x]=E[x^2]-E[x]^2=\sigma^2 \qquad{(식\ 1.51)}$
- 가우시안 분포는 최빈값과 평균값이 동일하다.
- 분포의 최댓값 = mode (최빈값)
이걸 $D$ 차원으로 확장하면 다변량 가우시안 분포가 된다. D차원에서 각 변수들이 어떻게 함께 분포하는지 나타내는 확률 밀도 함수.
\[N({\bf x}|{\pmb \mu}, {\pmb \Sigma})=\dfrac{1}{(2\pi)^{D/2}|{\pmb \Sigma}|^{1/2}}\exp\left\{-\dfrac{1}{2}({\bf x}-{\pmb \mu})^T{\pmb \Sigma}^{-1}({\bf x}-{\pmb \mu})\right\} \qquad{(식\ 1.52)}\]- $Σ$ : $D×D$ 크기의 공분산(covariance) 행렬
- $|Σ|$ : $Σ$ 의 행렬식
- $D$ 차원 벡터 $\mu$ : 평균
MLE (Maximum likelihood estimation)
$p({\bf x}|\mu, \sigma^2)$
관측된 데이터 집합 $\bf x$에 대하여
- ${\bf x}=(x_1,…,x_N)^T$
이 데이터 집합이 관찰될 확률을 계산해보자.
모든 데이터 포인트들은 서로 독립적이다. i.i.d (independent and identically distributed)
따라서, 확률 곱으로 표현할 수 있다. 가우시안 분포에서 크기가 N인 데이터셋 $\bf x$가 추출될 확률은 다음과 같다.
\[p({\bf x}|\mu, \sigma^2)=\prod_{n=1}^{N}{N(x_n\;|\;\mu, \sigma^2)} \qquad{(식\ 1.53)}\]각 데이터 포인트 $x_n$에 대하여 가우시안 분포 $N(x_n\;|\;\mu, \sigma^2)$를 고려하고, 이들의 확률을 모두 곱한다. $\mu, \sigma ^ 2$ 의 함수로 보면, 이 식은 데이터셋 전체가 특정 $\mu$와 $\sigma ^ 2$ 값을 가진 가우시안 분포에서 나올 확률, 즉 가능도 함수이다.
이제 가능도 함수를 최대화 하는 방법으로 가우시안 분포의 $\mu$와 $\sigma ^ 2$를 찾아보자.
- 가능도 함수를 최대화 하는 이유 :
주어진 데이터가 관측될 가능성을 최대화 함으로써 적절한 피팅 곡선을 유추해 나가야 한다.
어차피 로그 함수도 단조증가하는 함수이므로, 로그를 씌우고 최댓값을 찾는 것도 원래 함수의 최댓값을 찾는 것과 같다. 로그 씌우면 작은 값 계속 곱하다가 일어날 수도 있는 언더플로우 방지 가능.
\[\ln{p({\bf x}\;|\;\mu, \sigma^2)} = -\dfrac{1}{2\sigma^2}\sum_{n=1}^{N}{(x_n-\mu)^2}-\dfrac{N}{2}\ln\sigma^2-\dfrac{N}{2}\ln(2\pi) \qquad{(식\ 1.54)}\]데이터셋 $\bf x$가 주어졌을 때, 식 1.54의 로그 가능도 함수를 최대화하는 (이 데이터셋을 가장 잘 성명하는 파라미터인) 평균 $\mu$와 분산 $\sigma ^2$을 찾은 후, 이들을 가능도 추정치로 사용한다.
- $\mu_{ML}$ : 표본평균에 대한 최대 가능도 해
- $\mu_{ML}=\dfrac{1}{N}\sum_{n=1}^{N}x_n \qquad{(식\ 1.55)}$
- $\sigma ^ 2 _ {ML}$ : 표본분산에 대한 최대 가능도 해
- $\sigma_{ML}^2=\dfrac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{ML})^2 \qquad{(식\ 1.56)}$
(단변량) 가우시안 분포에서 최대 가능도 방법을 통한 매개변수 계산의 문제점 : bias (편향)
- 표본 분산이 표본 평균 $\mu_{ML}$를 사용하여 각 데이터 포인트에서의 차이를 계산하는데, 각 데이터 포인트의 편차 제곱의 평균이 실제 분산보다 적게 나와서, 분포의 분산을 $1/N$만큼 과소평가하게 된다.
- 데이터 집합의 평균 : $E[\mu_{ML}]=\mu$
- 데이터 집합의 분산의 평균 : $E[\sigma_{ML}^2]=\left(\dfrac{N-1}{N}\right)\sigma^2$
이를 보정하여, 아래에서 계산한 분산 추정치는 비편향이다.
\[\tilde{\sigma}^2=\dfrac{N}{N-1}\sigma_{ML}^2=\dfrac{1}{N-1}\sum_{n=1}^{N}(x_n-\mu_{ML})^2 \qquad{(식\ 1.59)}\]$\lim N → \infty$ 일 때는 $\sigma ^ 2 _ {ML}$이 원래 분포의 분산과 같아진다.
편향 문제가 다항식 곡선 피팅에서의 과적합 문제의 근본적인 원인이다.
1.2.5 곡선 피팅
곡선 피팅 문제의 목표는 새로운 입력 변수 $x$가 주어졌을 때 타깃 변수 $t$를 예측해 내는 것이다.
$N$개의 입력값 ${\bf x}=(x_1,…,x_N)^T$과 해당 표적값 ${\bf t}=(t_1,…,t_N)^T$가 주어져 있다. 입력 $x$와 매개변수 $\bf w$가 주어졌을 때, 표적 t의 조건부 분포가 가우시안 분포를 가진다.
이 가우시안 분포의 평균이 $y(x, \textbf {w})$ ($x$에 대한 모델 예측)이다.
이게 무슨 소리냐면, $x$에 대한 $t$ 값이 $y(x, \textbf{w})$ 주위에 가우시안 노이즈로 분포한다고 가정한다는 것이다. 노이즈가 가우시안 분포로 생성되어 있는 형태.
$p(t\;|\;x, {\bf w}, \beta)$
이때, 조건부 분포는 다음과 같다.
\[p(t\;|\;x, {\bf w}, \beta)=N(t\;|\;y(x,{\bf w}), \beta^{-1}) \qquad{(식\ 1.60)}\]- 입력 $x$, 가중치 벡터 $\bf w$, 정밀도 $\beta$가 주어졌을 때, 특정 표적값 t가 나올 확률 밀도
- $\beta$ : 정밀도 매개변수(노이즈의 정확도). 실제 분포의 분산의 역수
$p({\bf t}|{\bf x}, {\bf w}, \beta)$
이제 훈련 집합 ${x, t}$를 바탕으로 MLE를 이용해 알려지지 않은 매개변수 $w$와 $\beta$를 구하자.
데이터가 위 분포에서 독립적으로 추출되었다면, 가능도 함수는 다음과 같다.
\[p({\bf t}|{\bf x}, {\bf w}, \beta) = \prod_{n=1}^{N}N(t_n|y(x_n, {\bf w}), \beta^{-1}) \qquad{(식\ 1.61)}\]식 1.54와 같이 로그를 취해 최댓값을 구하면 편하다.
\[\ln p({\bf t}|{\bf x}, {\bf w}, \beta) = -\dfrac{\beta}{2}\{y(x_n, {\bf w})-t_n\}^2+\dfrac{N}{2}\ln\beta-\dfrac{N}{2}\ln(2\pi) \qquad{(식\ 1.62)}\]이제 여기서 $\bf w_{ML}$을 구하자.
- 우변의 마지막 두 항은 $\bf w$와 관련이 없다. 날려.
- 로그 가능도 함수에 양의 상수를 곱해도 $\bf w$ 최댓값의 위치는 변하지 않는다. 계수 $\beta /2$를 그냥 1/2로 변경.
- 로그 가능도를 최대화하는 대신, (-) 붙여서 최솟값을 찾는 것과 같다.
- 제곱합 오차 함수가 유도된다.
$\bf w_{ML}$를 구했으면 $\beta_{ML}$도 구할 수 있다.
\[\dfrac{1}{\beta_{ML}}=\dfrac{1}{N}\sum_{n=1}^{N}\{y(x_n, {\bf w}_{ML})-t_n\}^2 \qquad{(식\ 1.63)}\]MLE로 구한 매개변수들을 식 1.60에 대입하면 $t$에 대한 predictive distribution (예측 분포)를 얻을 수 있다. 그럼 새로운 $x$에 대한 $t$를 예측할 수 있을 것이다.
\[p(t\;|\;x, {\textbf w_{ML}, \beta_{ML}})=N(t\;|\;y(x, \textbf w_{ML}), \beta_{ML}^{-1}) \qquad{(식\ 1.64)}\]MAP
베이지안은 초기값을 부여할 수 있다. 식 1.65는 베이지안 접근에 따라 매개변수 $\bf w$에 대한 사전 분포를 설정한다.
\[p({\bf w}|\alpha)=N({\bf w}|0, \alpha^{-1}{\bf I})=\left(\dfrac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\left\{-\dfrac{\alpha}{2}{\bf w}^T{\bf w}\right\} \qquad{(식\ 1.65)}\]위 가우시안 분포에서
- $\alpha$ : 분포의 정밀도
- $M+1$ : $M$ 차수 다항식에서 벡터 $\bf w$의 원소의 개수
이다. $\alpha$와 같이 매개변수의 분포를 제어하는 변수들을 hyperparameter라고 한다.
베이지안 정리에 따라, $\bf w$의 {사후 분포}는 {사전 분포 $\times$ 가능도 함수}에 비례한다.
\[p({\bf w}|{\bf x}, {\bf t}, \alpha, \beta) \propto p({\bf t}|{\bf x}, {\bf w}, \beta)p({\bf w}|\alpha) \qquad{(식\ 1.66)}\]이제, 사후 분포를 최대화하는 방식으로 $\bf w$를 결정할 수 있다. → MAP (Maximum A Posteriori)
식 1.67은 사후 확률을 최대화하는 $\bf w$를 찾기 위해서 최소화해야하는 목적 함수이다. MAP을 사용하여 가장 가능성이 높은 매개변수 값을 찾을 수 있다.
\[\dfrac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, {\bf w}-t_n)\}^2+\dfrac{\alpha}{2}{\bf w}^T{\bf w} \qquad{(식\ 1.67)}\]사후 확률의 최댓값을 찾는 것은 식 1.67의 최솟값을 찾는 것과 동일하다.
1.2.6 베이지안 곡선 피팅
$p(t|x, {\bf x}, {\bf t})$
위에서 구한 사전 분포 $p(\textbf{w}|\alpha)$도 결국은 점추정이다. 완전한 베이지안 방법론에서는 가능한 모든 $\bf w$값을 나타내야 하므로, 모든 $\bf w$ 값에 대해서 적분을 시행하는 주변화를 해야 한다.
예측 분포 $p(t|x, {\bf x}, {\bf t})$를 구해보자. 새로운 입력 변수 $x$에 대해서 타깃 변수 $t$를 예측해 내야 한다.
베이지안 방법은 확률의 합과 곱의 법칙을 연속적으로 적용하는 것으로, 다음과 같은 형태로 나타내어진다.
\[p(t|x, {\bf x}, {\bf t})=\int{p(t|x, {\bf w})p({\bf w}|{\bf x}, {\bf t})}d{\bf w} \qquad{(식\ 1.68)}\]- $p(t|x, {\bf w})$ : t에 대한 조건부 분포
- $p({\bf w}|{\bf x}, {\bf t})$ : 매개변수들에 대한 사후 분포
- 결국, 예측분포 $p(t|x, {\bf x}, {\bf t})$는 모든 $\bf w$에 대해 {해당 $\bf w$에서 t가 나올 확률 $\times$ 해당 $\bf w$가 나올 확률}의 합이다.
cf)
- 기존 샘플 데이터 : 벡터 (x,t)
- 예측할 데이터 : (x,t)
- 특정한 w 값을 고정하는 것이 아니라 w 에 대한 모든 가능한 확률 함수 고려
식 1.69는 새로운 입력 $x$에 대한 타깃 $t$의 예측 분포를 나타낸다.
\[p(t|x, {\bf x}, {\bf t})=N(t\;|\;m(x), s^2(x)) \qquad{(식\ 1.69)}\]- $m(x)$ : 예측된 평균
- $m(x)=\beta\phi(x)^T{\bf S}\sum_{n=1}^{N}\phi(x_n)t_n \qquad{(식\ 1.70)}$
- 입력 $x$에 대한 함수 벡터 $\phi(x)$와 행렬 $S$를 사용해 계산된다.
- $s^2(x)$ : 예측된 분산
- $s^2(x)=\beta^{-1}+\phi(x)^T{\bf S}\phi(x) \qquad{(식\ 1.71)}$
- 두 가지 불확실성 (타깃 변수의 노이즈, 매개변수 $\bf w$의 불확실성)을 포함한다.
- 첫 번째 항 : 타깃 변수의 노이즈로 인한 예측값 $t$의 불확실성
- 두 번째 항 : $\bf w$의 불활실성으로부터 기인한 것이며, 베이지안 접근법을 통해 구해진 것
- $\bf S$ : 가중치 벡터 $\bf w$에 대한 사후 분포의 공분산 행렬
- 모델의 복잡도와 데이터에 의해 정의되고, 모델의 불확실성을 수치화한다.
- 베이지안 접근법에서는 가중치가 고정된 값이 아니라 확률 분포를 가진다. $\bf S$의 값이 결정되고 나서 평균과 분산을 예측하고, 모델의 예측에 대한 확시의 정도를 평가할 수 있다.
- ${\bf S}^{-1}=\alpha{\bf I}+\beta\sum_{n=1}^{N}\phi(x_n)\phi(x_n)^T \qquad{(식\ 1.72)}$
- $\bf I$ : 단위 행렬
- $\phi(x)$ : $\phi_i(x)=x^i$ ($i=0, …, M$)인 벡터
- $M$ = 9, $\alpha$ = 0.005, $\beta$ = 11.1
- 초록색 선이 원래 함수 $\sin2\pi$
- 빨간색 선이 예측 분포의 평균값
- 빨간색 하이라이트 영역은 평균값으로부터 $\pm1$ 편차를 갖는 영역