Likelihood Ratio Test

 

대학교 기초통계학에서 배우는 가설검정들은 우리가 통계량의 확률분포를 알아야 할 수가 있다. 통계량의 확률분포를 모른다면 유의확률을 계산할 수 없고, 그에 따라 귀무가설을 기각할지 말지도 정할 수 없기 때문이다. 통계량의 정확한 확률분포를 몰라도 가설검정을 할 수 있는 방법은 없을까?

우선 이 포스트를 이해하려면 Maximum Likelihood Estimation와 극한분포의 개념에 대해 알고 있어야 한다.

LRT의 기본 원리

귀무가설과 대립가설이

\[H_0: \theta \in \Omega_0 \quad vs. \quad H_1: \theta \in \Omega_1 \quad (\Omega_0 \cap \Omega_1 = \emptyset, \Omega_0 \cup \Omega_1 = \Omega)\]

로 주어진 경우에 각 가설 하에서 관측결과 $\mathbf{x}=[x_1,\dots,x_n]^T$이 생성되었을 가능성이 가장 큰 경우의 가능도를 비교하자는 것이 LRT의 원리이다. 즉,

\[\frac{\max_{\theta \in \Omega_1}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}}\]

이 일정 값보다 크면 귀무가설을 기각하는 것이다. 여기서 조금만 더 나아가 생각해보면,

\[\max_{\theta \in \Omega}L(\theta ; \mathbf{x}) =\max\{\max_{\theta \in \Omega_1}{L(\theta;\mathbf{x})},\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}\}\]

인 것을 알 수가 있는데 그럼 결국

\[\frac{\max_{\theta \in \Omega}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}} = \max\left\{1,\frac{\max_{\theta \in \Omega_1}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}}\right\}\]

이기 때문에 $\frac{\max_{\theta \in \Omega_1}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}}$이 큰 것은 $\frac{\max_{\theta \in \Omega}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}}$이 큰 것과 사실상 같다. 구태여 이렇게 바꿔 쓰는 이유는 $\max_{\theta \in \Omega}{L(\theta;\mathbf{x})}$을 구하는 것이 $\max_{\theta \in \Omega_1}{L(\theta;\mathbf{x})}$을 구하는 것보다 쉽기 때문이다.

그래서 우리는

\[C_{\alpha} = \left\{\mathbf{x}: \frac{\max_{\theta \in \Omega}{L(\theta;\mathbf{x})}}{\max_{\theta \in \Omega_0}{L(\theta;\mathbf{x})}} \geq \lambda \right\}, \quad \max_{\theta \in \Omega_0}P_\theta([X_1,\dots,X_n]^T \in C_\alpha) = \alpha\]

인 기각역 $C_\alpha$로 가설검정을 수행한다.

여기서 기각역을

\[C_{\alpha} = \left\{\mathbf{x}: 2(l(\hat{\theta}^{\Omega};\mathbf{x})-l(\hat{\theta}^{\Omega_0};\mathbf{x})) \geq c \right\}\]

로 잡아도 전혀 문제가 없다는 점을 생각하자.

LRT의 극한분포,그리고 왈드통계량과 라오통계량

근데 놀랍게도 확률밀도함수가 $f(x;\theta), \theta \in \Omega \subseteq R^k$ 인 확률 모형에서

\[H_0: \theta=\theta_0 \quad vs. \quad H_1: \theta \neq \theta_0\]

을 검정하기 위한 LRT 통계량에 대해 몇 가지 가정들이 만족될 경우 다음이 성립한다.

(a) under $H_0$,

\[2\{l(\hat{\theta}^{\Omega}_n)-l(\theta_0)\} \overset{d}\to \chi^2(k)\]

(b) under $H_0$,

\[2\{l(\hat{\theta}^{\Omega}_n)-l(\theta_0)\}=n(\hat{\theta}^{\Omega}_n-\theta_0)^TI(\theta_0)(\hat{\theta}^{\Omega}_n-\theta_0)+r_n, \quad r_n \overset{p}\to 0\]

(c) under $H_0$,

\[2\{l(\hat{\theta}^{\Omega}_n)-l(\theta_0)\}=n\bar{\dot{l}}(\theta_0)^T[I(\theta_0)]^{-1}\bar{\dot{l}}(\theta_0)+r_n, \quad r_n \overset{p}\to 0\]

여기서 (b),(c)의 통계량을 각각 왈드통계량(Wald’s Statistics), 라오통계량(Rao’s Statistics)라고 말한다.

증명은 따로 여기서 다루지 않겠지만, 왈드통계량과 라오통계량은 LRT에서 파생된 통계량이라는 것과 근사적으로 카이제곱분포를 따른다는 것만 알아도 충분하다!

Reference

  • 김우철. (2022). 개정판 수리통계학(pp.297~324). 민영사.