확률론에서의 패러다임

 

확률론에서의 패러다임:
고전 확률론과 베이즈 확률론 간의 비교분석을 중심으로

정준형

1. 머리말

쿤이 “과학혁명의 구조” 에서 제시한 과학사적 사례들은 물리학과 화학 분야에 집중되어 있다. 쿤이 의도적으로 그렇게 한 것처럼 보이지는 않지만, 이는 쿤의 주장에 대한 적용범위와 관련하여 예기치 않은 논란을 불러일으킬 소지가 있다. (조인래, 1996) 본 보고서에서는 통계학까지 그 범위를 넓히는 작업을 할 것이며, 이를 통해 쿤의 논지를 한층 강화하고자 한다.

현재 통계학은 확률을 빈도론적으로 접근하는 고전 확률론과 확률을 합리적 기대의 척도로 접근하는 베이즈 확률론으로 나뉜 채 연구가 활발히 지속되고 있다. 본 보고서는 현재의 상황이 고전 확률론이 위기를 맞이함에 따라 베이즈 확률론이라는 경쟁 패러다임이 제시된 것으로 해석될 수 있음을 주장하려고 한다. 이러한 해석이 성립하기 위해서는 1.고전 확률론의 위기를 설명 해야 하고, 2.베이즈 확률론은 고전 확률론의 미세조정을 넘어 하나의 새로운 패러다임 임을 보여야 하며, 3.고전 확률론이 해결할 수 없었던 변칙 현상을 베이즈 확률론이 해결하였는지 를 살펴보아야 한다.

흥미로운 점은 통계학에서의 ‘현상’은 여타 과학의 ‘현상’과 사뭇 다르다는 것인데, 통계학에서의 현상은 관측된 것에 국한되지 않는다. 통계학은 데이터 자체를 다루는 학문이기 때문에 실제로 관측된 것들 뿐만 아니라 가상실험을 통해 생성된 데이터들까지 모두 아우를 수 있는 설명을 필요로 한다. 따라서 여기서 쓰이는 ‘현상’이라는 용어는 쿤의 ‘현상’보다는 조금 더 폭넓게 쓰일 수 있음을 미리 알리고자 한다.

2. 베이즈 확률론의 등장 배경

베이즈 확률론은 베이즈 정리를 바탕에 두고 있다. 베이즈 정리는 영국의 목사인 토마스 베이즈에 의해 처음으로 제안되었다. 하지만 이 때 베이즈는 해당 정리를 수식화되어 있지 않은 문장의 형태로 제시했는데, 초기의 믿음이 있는 상태에서 새로운 데이터가 주어지게 되면 이를 반영하여 보다 개선된 믿음을 가질 수 있다고 주장했다. 하지만 이러한 주장은 엄밀한 수학에 주관적인 ‘믿음’을 대입했다는 이유로 당시 수학자들에게 많은 비판을 받았다. 결국 베이즈는 관련된 논문을 “An Essay towards solving a Problem in the Doctrine of Chances” 이라는 제목으로 정리해두었지만 이를 발표하지 않았고 이 정리는 한동안 잊혀지게 되었다.

하지만 이 정리는 라플라스에 의해 다시 주목받기 시작했다. 처음에는 라플라스 역시 베이즈 정리의 존재를 모르고 있었다. 그는 사건 A가 주어졌을 때 사건 B의 확률은, 사건 B가 주어졌을 때 사건 A의 확률과 비례할 것이라는 명료화되지 않은 생각만을 가지고 있었다. 그는 이러한 생각을 1774년 “Memoir on the Probability of Cause of Events” 라는 제목의 논문으로 정리하여 출판하였다. 이후 1781년에 라플라스는 베이즈 정리에 대해 알게 되면서 자신의 생각에 대해 더욱 확신을 가지게 되었다. 그리고 라플라스는 오랜 기간을 자신의 생각을 체계화하는 데에 쏟았고, 그 결과 우리가 알고 있는 형태의 베이즈 정리가 만들어지게 되었다.

\[P(A \mid B)=\frac{P(A)P(B \mid A)}{\sum_i{P(A_i)P(B \mid A_i)}}\]

1900년대로 넘어오면서 베이즈 확률론은 비로소 현대의 모습과 유사한 형태를 갖추게 되었는데, 제프리스가 이에 혁혁한 공을 세웠다. 당시 통계학은 피셔가 고전 확률론에 기반한 이론적 토대를 단단히 세운 덕에 빈도론이 주류 학파였다. 피셔는 가설 검정 절차를 제시했는데, 어떠한 가설이 참일 때 이미 관측된 데이터를 실제로 목격할 확률을 계산하는 방식으로 검정이 진행된다. 하지만 제프리스는 한 가지 논증을 제시하며 피셔의 가설검정 방식은 적절치 못하다고 주장하였다.

제프리스는 $t_1,t_2,\dots,t_n$의 시간 동안 자유낙하했을 때의 위치 $s_1,s_2,\dots,s_n$을 관측한 상황을 가정했다. 이 때, 제프리스는 우리가 공식으로

\[s=a+ut+\frac{1}{2}gt^2\] \[s=a+ut+\frac{1}{2}gt^2+f(t)(t-t_1)(t-t_2)\dots(t-t_n)\]

중 무엇을 택할지에 대해 연역적 논증은 아무런 도움을 줄 수 없다고 보았다. 그렇기 때문에 빈도론적 가설검정의 논리구조는 과학 영역에 적용되는 데에 분명한 한계가 있고, 따라서 역으로 데이터가 주어졌을 때 가설이 참일 확률을 계산하는 방식의 귀납적 구조를 가진 가설검정이 필요함을 역설했다.

제프리스는 이를 수학적으로 보다 명료화하여 1939년 “Theory of Probability” 를 출판하며 현대적 베이즈 확률론의 초석을 마련하였다. 이후 왈드, 블랙웰, 래너드 새비지 등 많은 통계학자들의 손을 거쳐 베이즈 확률론이 정교화되었지만, 패러다임의 형태를 갖추게 된 것은 제프리스가 위 논문을 출판한 시점이다.

이렇게 베이즈 확률론의 등장 배경을 살펴보았을 때 이는 쿤이 설명한 경쟁 패러다임의 출현 과정과 상당히 흡사하다. 제프리스는 빈도론적 가설 검정 하에서는 귀무가설과 대립가설이 식별불가능할 수 있다는 점을 하나의 변칙현상이자 위기로 간주하였다. 더러는 이를 위기로 보지 않을 수도 있겠지만, 쿤은 변칙현상과 위기를 받아들이는 정도를 주관의 영역으로 보고 있기 때문에 이는 문제되지 않는다. 그리고 후술하겠지만, 제프리스는 이러한 문제를 해결하기 위해 확률의 개념을 재정의하고 베이즈 정리를 수학적으로 명료화함으로써 패러다임을 성공적으로 구축했고, 이는 실제로 고전 확률론이 난관을 겪었던 몇 가지 문제들을 해결하였다. 결국 베이즈 확률론의 등장 배경은 고전 확률론의 변칙현상에 기인하고 있었다.

3. 고전 확률론과 베이즈 확률론의 공약불가능성

고전 확률론에서의 확률은 특정한 조건의 사건이 일어날 경우의 빈도 를 말한다. 동전의 앞면이 나올 확률이 0.5라는 것은 어떤 사람이 동전을 10,000번을 던졌을 때 5,000번은 앞면이 나올 것임을 뜻한다. 하지만 베이즈 확률론에서의 확률은 얼마나 그럴 듯한지를 나타내는 척도 를 의미한다. $P(A \mid C)>P(B \mid C)$인 것은 $C$가 주어졌을 때 사건 $A$가 발생하는 것이 더 그럴 듯하다는 말과 같다.

고전 확률론에서의 확률에는 ‘주관(subjective)’ 대신 ‘객관(objective)’이 존재하고, ‘믿음(belief)’ 대신 빈도(frequency)’가 존재한다. 반면, 베이즈 확률론에서의 확률 속에는 ‘객관(objective)’과 빈도(frequency)’가 존재하지 않으며 ‘주관(subjective)’과 믿음(belief)’이 있을 뿐이다.

가설검정 절차에 대해서도 각각의 확률론은 상이한 입장 차이를 보이고 있다. 고전 확률론에서의 가설검정의 논리 구조를 자세히 살펴보면 아래와 같다.

일반적으로 모집단 분포가 확률밀도함수 $f(x;\theta), \theta \in \Omega$ 중의 하나로 모형이 설정된 경우에 귀무가설 $H_0$과 $H_1$은

\[H_0: \theta \in \Omega_0 \quad vs. \quad H_1: \theta \in \Omega_1 \quad (\Omega_0 \cap \Omega_1 = \emptyset, \Omega_0 \cup \Omega_1 = \Omega)\]

과 같이 나타내어지고, 랜덤표본 $X_1,X_2,\dots,X_n$의 관측 결과가 대립가설의 증거로서 귀무가설에 대한 반증의 정도가 뚜렷한가를 판단한다. 이러한 검정에서 실수로 귀무가설을 기각하는 확률의 최대 허용한계를 유의수준 $\alpha$로 정했을 때, 귀무가설의 기각역 $[X_1,\dots,X_n]^T \in C_\alpha$ 에 대해 귀무가설이 참이라는 가정 하에 $P_\theta([X_1,\dots,X_n]^T \in C_\alpha) \leq \alpha$ 이면 귀무가설을 기각한다.

상술했듯이 고전 확률론에서의 가설검정 절차는 연역적 구조를 따른다. 가설이 참임을 가정했을 때, 이미 관측된 데이터가 실제로 발생할 확률이 현저히 낮다면 우리는 이 가설을 참이라고 생각하기 어려운 것이다. 한 가지 또 중요한 점은, 고전 확률론에서의 가설 검정에는 대립가설이 큰 의미가 없다. 오로지 귀무가설을 기각할지 말지 여부만이 관심사이기 때문에 $H_0$ 과 $H_1$이 이분법적으로 나뉠 수 있도록 설정해주어야 한다.

베이지안 관점에서 가설

\[H_0: \theta \in \Omega_0 \quad vs. \quad H_1: \theta \in \Omega_1\]

을 검정할 때에는 각 가설의 사후확률 $P(\theta \in \Omega_0 \mid \mathbf{X}=\mathbf{x})$과 $P(\theta \in \Omega_1 \mid \mathbf{X}=\mathbf{x})$을 비교하여 판단하게 된다. 만약,

\[\frac{P(\theta \in \Omega_0 \mid \mathbf{X}=\mathbf{x})}{P(\theta \in \Omega_1 \mid \mathbf{X}=\mathbf{x})} < 1\]

이라면 귀무가설을 기각한다.

베이즈 확률론에서의 가설검정 절차는 귀납적 구조를 따른다. 데이터가 주어졌을 때, 이 데이터를 설명할 수 있는 가설로 $H_0$과 $H_1$ 중 무엇이 더 그럴 듯한지를 따진다. 그렇기 때문에 고전 확률론과 달리 대립가설인 $H_1$의 설정이 상당히 중요한 부분을 차지한다.

이처럼 두 확률론은 동일한 용어에 대해 저마다의 정의를 각각 활용하고 있는 것을 확인하였다. 이제부터는 베이즈 확률론이 이러한 개념을 통해 고전 확률론의 어떠한 변칙현상들을 해결하였는지 살펴볼 것이다.

4. 고전 확률론에서의 변칙현상

고전 확률론에 입각한 가설검정에서는 가설 대 가설을 검정한다기보다는 주어진 가설을 채탁할 것인지 기각할 것인지 여부만을 판단할 수 있다. 그렇기 때문에 어떤 가설을 채택하고자 할 때에는 가설검정을 반복수행해주어야 한다는 번거로움이 있다. 하지만 베이즈 확률론은 가설이 참일 확률을 정의할 수 있기 때문에 가설검정에 유연성을 더할 수 있었고, 결과적으로 단순히 귀무가설을 기각하는 것을 넘어 하나의 가설을 채택할 수 있게 되었다.

실용적인 측면에서도 베이즈 확률론은 다양한 가능성을 열어주었다. 앨런 튜링은 에니그마 메시지를 해독하는 데 베이지안적 접근을 활용하였다. 새로운 단서들이 주어질 때마다 기계를 업데이트하면서 경우의 수를 좁혀 나가는 방식으로 암호 해독에 접근하였고 이는 성공적이었다. 하루종일 걸려도 풀리지 않았던 암호가 몇 시간만에 풀리면서 연합군은 독일군에게 우세를 점하기 시작했다.

비즈니스적인 의사결정을 수행할 떄에도 베이지안 접근이 큰 영향을 주었다. 하버드 경영대학의 슐라이퍼는 불확실성 하에서 의사결정을 내릴 때에는 빈도적인 접근보다 사전정보와 데이터를 통해 결정을 내리는 것이 더욱 합리적이라고 생각했다. 그는 하워드 라이파와 함께 베이즈 확률론에 온전한 기초를 두고 있는 “Probability and Statistics for Business Decisions” 라는 교재를 1959년에 출판했다. 이 교재에서는 의사결정트리 등 지금도 유용하게 쓰이고 있는 다양한 도구들이 제안되기도 하였다.

5. 결론

과거 베이즈 확률론의 가장 큰 한계는 사후분포의 확률밀도함수의 형태가 복잡하여 적분하기가 까다로웠다는 점이었다. 하지만 대안으로 “마코프 체인 몬테카를로” 방법이 제시된 이후 현대에는 컴퓨팅 기술의 향상과 계산 알고리즘의 발달로 이 한계점을 극복할 수 있게 되었다. 실제로 현재 다양한 분야에서 활용되고 있는 인공지능 분야에 베이지안적 접근이 큰 영향을 주고 있다.

하지만 아직 고등학교 교육과정에서는 고전 확률론에 입각한 통계학을 가르치고 있다. 신사고 확률과 통계 교과서에서는 확률을 다음과 같이 정의하고 있다.

어떤 시행에서 표본공간 $S$의 각 근원사건이 일어날 가능성이 모두 같은 정도로 기대될 때, 사건 $A$가 일어날 확률 $P(A)$를

\[P(A)=\frac{n(A)}{n(S)}\]

로 정의하고, 이를 사건 $A$가 일어날 수학적 확률 이라고 한다.

또한 서울대학교 통계학과 교과과정에서도 베이즈통계학을 학부 4학년 과목으로 두고 있기 때문에 통계학을 전공하는 대학생들도 대부분 빈도주의에 기반한 확률론을 학습하고 있다.

이는 마치 쿤이 제시했던 뉴턴 패러다임과 상대성 이론 패러다임의 관계와 흡사해보이지만 살짝 다른 부분이 있다. 아직 고전 확률론 패러다임은 전복되지 않았다. 확률을 어떻게 바라보아야 할지에 대해서는 지금도 의견이 분분하다.

이러한 논의는 쿤이 생각한 주장이 물리학과 화학을 넘어 다른 분야에도 적용될 수 있음을 보임으로써 쿤의 논지를 한층 강화했을 뿐만 아니라, 통계학에서도 수학과 과학의 특성이 공존하고 있음을 보였다는 점에서 흥미롭다.

6. 참고문헌

  1. Fornacon-Wood, I., Mistry, H., Johnson-Hart, C., Faivre-Finn, C., O’Connor, J. P. B., & Price, G. J. (2022). Understanding the differences between Bayesian and frequentist statistics. International Journal of Radiation OncologyBiologyPhysics, 112(5), 1076–1082. https://doi.org/10.1016/j.ijrobp.2021.12.011

  2. Gottlieb, M. J., & Schlaifer, R. (1960). Probability and statistics for business decisions. Journal of Marketing, 25(2), 116. https://doi.org/10.2307/1248623

  3. Jeffreys, H. (1950). Theory of probability. University Press.

  4. Kuhn, T. S. (1979). The structure of Scientific Revolutions. Chicago University press.

  5. Lukeprog. (n.d.). A history of Bayes’ theorem. LessWrong. Retrieved January 27, 2023, from https://www.lesswrong.com/posts/RTt59BtFLqQbsSiqd/a-history-of-bayes-theorem

  6. Robert, C. P., Chopin, N., & Rousseau, J. (2009). Harold Jeffreys’s theory of probability revisited. Statistical Science, 24(2). https://doi.org/10.1214/09-sts284

  7. Turnbull, C. (2017). Laplace’s Bayesian Analysis (1774-1781). In History of British actuarial thought. essay, Palgrave Macmillan.

  8. 고성은. (2019). 확률과 통계(pp.43~49). 좋은책 신사고.

  9. 김우철. (2022). 개정판 수리통계학(pp.297~324,451~470). 민영사.

  10. 조인래. (1996). 공약불가능성 논제의 방법론적 도전. 철학, 47(), 155-187.