CUSUM Test

 

시계열 분석에서 모형 모수의 변화를 무시하는 것은 모형 설정에 오류를 불러올 수 있기 때문에 변화점 탐지는 매우 중요한 주제이다. CUSUM Test(cumulative sum test)는 바로 이 변화점 탐지를 수행하는 검정방법 중 하나이다.

Brownian motion

이 글을 이해하기 위해서는 Brownian motion에 대한 개념이 필요하다. 정의는 아래와 같다.

연속인 확률과정 $\{ W(s): s \geq 0 \}$이 다음을 만족하면 브라운 운동(brownian motion) 이 된다.

(1) $W(0)=0$이다.

(2) 모든 $t>s\geq0$에 대하여 $W(t)-W(s)$은 $N(0,t-s)$을 따른다.

(3) 모든 $0 \leq t_1 < \dots < t_k$에 대하여, $W(t_1),W(t_2)-W(t_1),\dots,W(t_k)-W(t_{k-1})$은 서로 독립이다.

그리고 이 때 다음 정리가 성립한다.

$\epsilon_1,\epsilon_2,\dots,\epsilon_n \overset{i.i.d.}{\sim} (0,\sigma^2)$일 때

\[W_n(s)=\frac{1}{\sqrt{n}\sigma}\sum_{t=1}^{\lfloor ns \rfloor}{\epsilon_t}, \quad 0 \leq s \leq 1\]

을 정의하면

\[W_n \overset{d}{\to} W\]

이다.

CUSUM Test

CUSUM Test에서는 시계열 자료 $x_1,\dots,x_n$이 주어졌을 때 다음과 같은 검정을 고려한다.

$H_0: x_1,\dots,x_n$은 모수의 변화가 없는 GARCH(1,1) 모형을 따른다.

$H_1: x_1,\dots,x_n$은 GARCH(1,1) 모형을 따르나 어느 시점에서 모수 변화를 겪는다.

참고로 ${ x_t }$가 다음의 구조식

\[x_t=\sigma_t\xi_t \quad \{ \xi_t \} \sim IID(0,1)\] \[\sigma_t^2 = \alpha_0+\alpha_1x_{t-1}^2+\beta_1\sigma_{t-1}^2 \quad \alpha_0 > 0, \alpha_1,\beta_1 \geq 0\]

을 만족하면 GARCH(1,1) 모형을 따른다고 한다. 특히 $\alpha_1+\beta_1 < 1$ 일 때 ${ x_t }$는 정상시계열을 만족한다.

귀무가설 아래에서는 이 자료가 GARCH(1,1) 모형을 따르기 때문에 MLE 추정을 활용하여 우리는 모수의 추정량을 구할 수 있다. $\hat{\alpha}_0,\hat{\alpha}_1,\hat{\beta}_1$ 을 각각의 추정량이라고 할 때 우리는 아래와 같은 식을 유도해낼 수 있다.

\[\hat{\xi}_t = \frac{x_t}{\hat{\sigma}_t}, \quad \hat{\sigma}_t=\frac{\hat{\alpha}_0}{1-\hat{\beta}_1}+\hat{\alpha}_1\sum_{j=1}^{t-1}{\hat{\beta}_1^{j-1}x_{t-j}^2}\]

아래와 같은 통계량을 생각해보자.

\[\hat{T}_n = \max_{m \leq k \leq n} \frac{1}{\sqrt{n}\hat{\tau}}\bigg\lvert \sum_{t=1}^k{\hat{\xi}_t^2}-\frac{k}{n}\sum_{t=1}^{n}{\hat{\xi}_t^2} \bigg\rvert\]

여기서

\[\hat{\tau}^2=\frac{1}{n}\sum_{t=1}^{n}{\hat{\xi}_t^4}-\left(\frac{1}{n}\sum_{t=1}^{n}{\hat{\xi}_t^2}\right)^2\]

은 $\tau^2=Var(\xi_1^2)$의 추정량이고 $m$은 임의로 지정된 5에서 10사이의 정수이다.

만약 귀무가설이 참이라면 모수의 변화는 없기 때문에 $\hat{\xi}_t^2 \approx \xi_t^2, \quad \forall t=1,\dots,n$ 일 것이다. 따라서,

\[\hat{T}_n \approx T_n = \max_{m \leq k \leq n} \frac{1}{\sqrt{n}\tau}\bigg\lvert \sum_{t=1}^k{\xi_t^2}-\frac{k}{n}\sum_{t=1}^{n}{\xi_t^2} \bigg\rvert\]

가 성립한다. 또한 ${ \xi_t } \sim IID(0,1)$이므로

\[\sum_{t=1}^k{\xi_t^2} \approx k, \quad \frac{k}{n}\sum_{t=1}^n{\xi_t^2} \approx k\]

임을 보일 수 있다. 따라서 귀무가설 아래에서 (8)번 식의 $\hat{T}_n$은 충분히 작은 값을 가져야 한다.

하지만 만약 특정 시점 $k^{\ast}$에서 모수의 변화가 있다고 해보자. 그렇다면, $t=1,\dots,k^{\ast}$에서의 잔차와 $t=k^{\ast}+1,\dots,n$에서의 잔차는 그 차이가 클 것이다. 아마 두 partition 중에 모형 적합이 제대로 되지 않은 partition의 잔차가 크게 나타날 것이다. 이를 수식적으로 표현하면, $n$이 충분히 크고 $\frac{k^{\ast}}{n}$이 0 또는 1에 가깝지 않을 때

\[\bigg\lvert \sum_{t=1}^{k^{\ast}}{\hat{\xi}_t^2}-\frac{k^{\ast}}{n}\sum_{t=1}^{n}{\hat{\xi}_t^2} \bigg\rvert\]

은 충분히 큰 양의 실수값에 수렴하게 된다. 따라서 $\hat{T}_n$이 매우 큰 값을 가지게 되므로, 우리는 만약 $\hat{T}_n$이 충분히 크다면 귀무가설을 기각하는 결론을 얻을 수 있다.

이 때 (8)번 식에서의 $T_n$은 점근적으로 $T=\max_{0 \leq u \leq 1}{\lvert B^0(u) \rvert}$ 의 분포를 따른다. 여기서 $B^0$은 [0,1]에서 정의된 Brownian bridge, 즉 $B^0(u)=W(u)-uW(1)$이고 $W$는 [0,1]에서 정의된 Brownian motion이다.

식을 다시 한번 보자.

\[T_n = \max_{m \leq k \leq n} \frac{1}{\sqrt{n}\tau}\bigg\lvert \sum_{t=1}^k{\xi_t^2}-\frac{k}{n}\sum_{t=1}^{n}{\xi_t^2} \bigg\rvert\]

여기서 $u=\frac{k}{n} (0 \leq u \leq 1)$으로 놓고 식을 조금 변형해보면 ($n$은 충분히 크다고 생각하자),

\[T_n=\max_{\frac{m}{n} \approx 0 \leq u \leq 1}\frac{1}{\sqrt{n}\tau}\bigg\lvert \sum_{t=1}^{n \cdot u}{\xi_t^2}-u\sum_{t=1}^{n \cdot 1}{\xi_t^2} \bigg\rvert\]

가 된다.

그리고 $\xi_1^2,\dots,\xi_n^2 \overset{i.i.d.}{\sim} (0,\tau^2)$ 임을 생각했을 때 (1)번 식을 통해

\[\frac{1}{\sqrt{n}\tau}\sum_{t=1}^{nu}{\xi_t^2} \overset{d}{\to} W(u)\] \[u\frac{1}{\sqrt{n}\tau}\sum_{t=1}^{n}{\xi_t^2} \overset{d}{\to} uW(1)\] \[T_n \overset{d}{\to} \max_{0 \leq u \leq 1}\lvert W(u)-uW(1) \rvert\]

을 보일 수 있다.

이 때 $P(T \geq 1.358)=0.05$라는 사실을 이용하여 우리는 $\hat{T}_n \geq 1.358$ 이면 유의수준 5%에서 귀무가설을 기각할 수 있게 된다.

만약 변화점이 있다는 사실을 알고 있다면,

\[\hat{T}_n(\hat{k}) = \max_{1 \leq k \leq n}\hat{T}_n(k) = \frac{1}{\sqrt{n}\hat{\tau}}\bigg\lvert \sum_{t=1}^k{\hat{\xi}_t^2}-\frac{k}{n}\sum_{t=1}^{n}{\hat{\xi}_t^2} \bigg\rvert\]

인 $\hat{k}$를 변화점으로 지정하면 된다. 이 때 변화점이 여러개 있을 수 있기 때문에 $t=1,\dots,\hat{k}$ , $t=\hat{k}+1,\dots,n$ 각각에 대해서 위 방법을 반복하여 변화점 검정을 수행하면 된다.

다만 CUSUM Test는 변화점이 양끝에 있는 경우 잘 찾아내지 못한다는 단점이 있다.

Reference

  • 이상열. (2013). 시계열 분석 이론 및 SAS 실습(pp.142~191). 자유아카데미.