Home

인과모델은 통상적으로 우리가 생각하는 것만큼 그리 단순하지가 않다. 수많은 확률변수들이 서로 얽혀있고, 이를 그래프로 나타내기 시작하면 뭐가 뭔지 알아보기 힘들 정도일 때도 있을 것이다. 과연 확률변수 $A$와 $B$ 사이에 dependecy가 존재하는지를 확인할 수 있을만한 하나의 좋은 rule은 없을까?

유의수준 $\alpha$ 하에서 $r$개의 가설검정을 진행하는 프로세스를 생각해보자. \[H_{0i} \quad \text{vs.} \quad H_{1i} \quad i=1,\dots,r\] 이 때 우리는 이 큰 프로세스의 유의수준을 어떻게 생각해야 할까?

우선 네이버 뉴스 기사를 긁어오는 코드를 짜봤다. 아무래도 뉴스기사들을 훑어보며 종목이 어떠한 상황에 있는지 파악할 필요가 있겠다는 생각이 들었다. 그리고 뭐 겸사겸사…?

지난 글에서는 LiNGAM 알고리즘이 어떻게 돌아가는지 로직을 들여다보았다. 하지만 우리가 이렇게 얻은 $\widetilde{\mathbf{B}}$ 가 얼마나 믿을 수 있는지 알 방법이 있어야 하지 않을까? 이번에는 통계적 검정방법에 대해서 알아보자.

대학교 기초통계학에서 배우는 가설검정들은 우리가 통계량의 확률분포를 알아야 할 수가 있다. 통계량의 확률분포를 모른다면 유의확률을 계산할 수 없고, 그에 따라 귀무가설을 기각할지 말지도 정할 수 없기 때문이다. 통계량의 정확한 확률분포를 몰라도 가설검정을 할 수 있는 방법은 없을까?

나는 원래 Hydejack 테마로 블로그를 시작했다. 벌써 일주일 정도가 된 것 같은데, 일주일동안 이 테마에만 매달리다가 결국 포기하고 지금 TeXt 테마로 넘어오게 되었다. 내가 왜 맨 처음에 Hydejack 테마를 선택했는지, 그런데 왜 포기했고 왜 TeXt 테마를 선택했는지 그 이유를 여기서 다뤄보려고 한다.

지난 글에서 LiNGAM 알고리즘을 적용하기 위해 필요한 기본적인 가정들에 대해 알아보았다. 이제 구체적인 알고리즘을 알아보도록 하자.

\[\mathbf{x}=B\mathbf{x}+\mathbf{e}\] 을 다시 보자. 우리가 궁금한 것은 $B$ 행렬이 도대체 무엇이냐인데, 여기서 해는 어떻게 찾을 수 있을까?

d-Separation

Multiple Comparisons

네이버 뉴스기사 크롤링 2023.ver

03-LiNGAM algorithm

Likelihood Ratio Test

02-Hydejack에서 TeXt로 넘어오기까지

02-LiNGAM algorithm

01-LiNGAM algorithm