베이즈 정리의 기초

April 20, 2017

베이즈 정리는 특정 사건 B가 발생했을 때, 사건 A가 일어날 조건부 확률의 변화를 나타내는 정리이다. 수식은 아래와 같다.

\(P(A\mid B)=\frac{P(A,B)}{P(B)} = \frac{P(B\mid A)P(A)}{P(B)}\)

베이즈 정리는 크게 2가지 방식으로 쓰인다.

역확률 추정

병원에서 유방암 검사를 한다고 가정해보자. 유방암에 걸릴 확률을 A, 유방암 검사에서 양성반음을 보일 확률을 B라고 할 수 있다. 우리는 다음의 4가지 경우를 가정볼 수 있다.

비고 병에 걸림 병에 걸리지 않음
검사결과 양성 p($B\mid A$) p($B\mid A^c$)
검사결과 음성 p($B^c\mid A$) p($B^c\mid A^c$)

여기서 아래의 정보가 주어졌다고 하자.

\[P(A|B)=\frac{P(B|A)P(A)}{P(B)} \\ =\frac{P(B|A)P(A)}{P(A)P(B|A)+P(A^c)P(B|A^c)}\\ =\frac{0.99*0.002}{0.002*0.99+ 0.998*0.1}\]

양성반응을 보인 사람이 병에 걸려 있을 확률은 19%정도 밖에 되지 않는다.

사후확률 추정

어던 사건 A의 확률이 있는데, 새로운 사건 B가 발견되었다고 하자. 이 사건이 일어난 뒤 사후 확률을 추정하는데, 베이즈 정리가 사용된다. 이러한 사후확률 추정은 현대 확률론에서 매우 중요한 역할을 한다. 실제로 모수(parameter)에 대해서 전혀 알지 못하는 경우, 사전확률을 설정하고 이후 발생하는 사건마다 사후확률을 수정해서 최적의 확률을 구한다.

앞선 예에서 살펴보면, 사전 확률 P(A)는 0.0002이다. 그런데 새로운 사건 B,검사를 통해서 양성반응이 나왔다고 해보자. 그럴 경우 사후확률은 검사에서 양성이 나왔는데, 유방암에 실제로 결렸을 확률인 0.19로 올라간다.

이렇든 새로운 사건의 발생했을 때마다,사후확률을 지속적으로 수정해주면서, 보다 정확한 확률을 구하는 것이 베이지언 통계학의 기본적 원리다.

\[P(A_i|B)=\frac{P(A_i,B)}{P(B)}\\ =\frac{p(A_i)p(B|A_i)}{P(A_1)P(B|A_1) \cdots +P(A_n)P(B|A_n)}\]

현실의 베이지언 통계학은 여기에다가 몬테카를로 시뮬레이션(Monte-Carlo Simulation)을 접목해서 최적의 확률을 찾아내기도 한다.

본 글은 데이터사언스 스쿨나무위키를 참조해서 작성되었습니다.