본문 바로가기

통계 이모저모/공간 통계

[공간 통계] 4. Spatial scan statistics

728x90
반응형

안녕하세요, 이번 포스팅에서는 Spatial scan statistics에 대해서 배워보도록 하겠습니다.

Spatial scan statistics 방법은 통계학의 관점에서 공간 상의 핫스팟을 찾아내는 기법중에서 정말 유명한 방법입니다.

원리는 매우 간단합니다.

예를 들어서, 데이터를 질병의 발생 유무를 나타내는 (0,1) binary 데이터가 공간상에 원 모양으로 찍혀 있다고 해봅시다.

그리고 우리는 귀무가설로 모든 공간에서 질병이 발생할 확률은 모수가 p인 베르누이 분포를 따른다고 가정합니다.

물론 이 때, 가설은 포아송 분포여도 되고, 어떤 분포든 가정하기 나름입니다.

만약에 위의 그림 처럼 핫스팟이 존재한다면, 핫 스팟 내부 공간에서는 관찰된 바에 의하면 질병이 일어날 확률이 핫 스팟 외부보다는 클 것입니다.

(왜냐하면, 핫 스팟 내부에는 다른 지역보다 더 많은 질병이 발생했으므로)

즉, 간단하게 클러스터 내부와 외부에서 분포에 대한 차이가 발생하는가를 통계적 검정함으로써, 핫스팟을 발견하는 방법이 Spatial scan statistics 이라고 생각하시면 됩니다.

그렇다면 분포의 차이를 어떻게 통계적 검정하는가가 중요한 방법입니다.

Spatial scan statistics 에서는 우도비 검정을 통해서 이 과정을 수행합니다.

우선 귀무가설 하에서의 분포의 우도비를 계산합니다.

그리고, 저희는 분포의 차이가 존재하는 핫스팟이 있을 것이라는 대립가설하의 실제 데이터에 대한 로그우도비를 계산 할 수 있습니다.

그리고 우도비 검정을 수행하기 위한 우도비 검정 통계량을 계산합니다.

이러한 방법으로, 핫 스팟이 있을 것이라 예측하는 공간에 클러스터의 크기를 변화시키면서 우도비 검정 통계량이 최대가 되는 클러스터를 발견합시다.

아까 본 그림에서 생성된 핫스팟이 최대 우도비 검정 통계량을 가지는 클러스터라고 할 때, 이 클러스터가 과연 통계적으로 유의한가를 보아야합니다.

Spatial scan statistics은 가설의 유의성 검정을 위해 Monte Carlo hypothesis testing을 수행합니다.

Monte Carlo hypothesis testing은 우선 실제 데이터와 같은 전체 관측치의 개수 및 질병으로 발견된 관측치의 개수를 가지는 공간 맵을 랜덤하게 999개 생성합니다.

예를 들어서, 관측치가 총 10개가 있으며, 질병으로 관측된 것이 5개가 있다고 할 때, 생성되는 랜덤맵은 다음과 같습니다.

그리고 각 Sample Map 마다 실제 공간 맵에서의 핫 스팟 클러스터와 같은 크기를 가지면서, 최대 우도비 검정 통계량을 가지는 클러스터를 각각 발견합니다.

총 999의 Sample Map 의 우도비 검정 통계량 중에서 실제 공간 맵의 우도비 검정량 보다 큰 값이 n 개 존재할 때, 실제 공간 맵의 p-value는 (n+1)/1000로 p-value가 계산됩니다.

일반적으로 p-value가 0.005보다 작거나 같으면 분포의 차이가 통계적으로 유의하며, 핫스팟이라고 할 수 있습니다.

반응형