Missing data(1)-Intuitive understanding

이번 글은 연세대학교 강승호 교수님의 신약개발에 필요한 의학통계학 2판 과 Generalized Mixed Model 강의노트의 내용을 정리한 내용임을 밝힙니다.

Missing data(결측치)

결측치는 다양한 원인으로 발생할 수 있다. 환자들이 어떠한 실험에 참가하여 한 달에 한 번씩 혈압을 측정한다고 가정해보자. 실험이 진행되면서 다양한 원인으로 결측치(Missing data)가 발생할 수 있다.

A 환자가 1월부터 12월까지 실험에 참여한다고 해보자. 이 환자가 만약 3월에 어떠한 이유로 혈압을 측정하지 않았지만 1월~2월, 4월~12월에는 병원에 방문하여 혈압을 측정하였다고 한다. 이렇게 중간에 결측치가 발생한 경우, 이 결측치를 intermittent missing value 라고 한다.

반면 B환자는 어떤 이유에선지 1월부터 8월까지 매달 병원에 방문하여 혈압을 측정하였으나, 9월 이후로는 병원에 방문하지 않았다고 한다. 이러한 경우를 중도탈락, 혹은 dropout 이라고 한다.

결측치의 종류

통계학에서 말하는 결측치의 종류는 3가지로 나뉜다.

Acronyms	Full name
MCAR	Missing Completly At Random
MAR	Missing At Random
MNAR	Missing Not At Random

이제 하나씩 살펴보기 전에, 이번 post에서 사용할 notation에 대한 정리를 하고 가도록 하자.

Notation of $Y$, $r$

notation	name
$Y_{ij}$	$i$번째 피험자의 $j$번째 관측치
$Y_{i,(obs)}$	$i$번째 피험자의 관측된 반응값들로 이루어진 벡터
$Y_{i,(miss)}$	$i$번째 피험자의 관측되지 않아 결측치가 된 반응값들의 벡터. 다시 말하면, 결측치가 아니었더라면 관측되었을, $i$번째 피험자의 반응값.
$r_{ij}$	$i$번째 피험자의 $j$번째 관측치의 결측치 여부(0:관측, 1:결측)
$r_i$	$r_i = (r_{i1}, r_{i2},...,r_{ik})$ : $i$번째 환자의 결측치 여부 vector

예시)

피험자 A(i번째 피험자)가 고혈압치료를 위한 신약 임상실험을 위하여 1월부터 5개월 간 매월 병원을 방문하여 혈압을 측정한다고 하자. 1, 2, 3월에는 병원을 방문하여 측정하였고, 측정된 값은 110, 105, 100이었다. 그리고 그 이후로 어떠한 이유로 4월부터는 실험에 참가하지 않게 되었다. 만약 A 피험자가 4월과 5월에도 병원을 방문하여 혈압을 측정하였다면 얻을 수 있었던 혈압 값은 106, 107이라고 한다. 물론 실제 현실에서 피험자는 이 값을 알 수 있겠지만, 실험자는 이 값은 알 수 없을 것이다.

이 경우, $Y_{ij}$, $Y_{i,(obs)}$, $Y_{i,(miss)}$, $r_{ij}$, $r_{i}$는 다음과 같다.

\[\begin{align*} Y_{ij} = \begin{cases} 110\;\;\;\;\;\;\;\;\;\;\;\;j=1\\ 105\;\;\;\;\;\;\;\;\;\;\;\;j=2\\ 100\;\;\;\;\;\;\;\;\;\;\;\;j=3\\ Missing\;\;\;\;j=4\\ Missing\;\;\;\;j=5\\ Missing\;\;\;\;j=6\\ \end{cases} \end{align*}\] \[Y_{i,(obs)} = (110, 105, 100)\] \[Y_{i,(miss)} = (106,107)\] \[\begin{align*} r_{ij} = \begin{cases} 0\;\;\;\;j=1\\ 0\;\;\;\;j=2\\ 0\;\;\;\;j=3\\ 1\;\;\;\;j=4\\ 1\;\;\;\;j=5 \end{cases} \end{align*}\] \[r_{i} = (0,0,0,1,1)\]

MCAR

$r_{i}$가 $Y_{i,(obs)}$와 독립이고,
$r_{i}$가 $Y_{i,(miss)}$와도 독립인 경우,

그 i 번째 피험자의 결측치는 MCAR 이라고 한다.

즉, 결측치 발생 여부 $r_{i}$ 가 반응값 $Y_{ij}$ (즉, $Y_{ij,(obs)}$, $Y_{ij,(miss)}$)에 의존하지 않는다 는 것이다.

예를 들어보자. 만약 피험자가 경미한 교통사고로 인하여 4월에 입원을 하게 되었고, 실험에 참가하지 못하게 되었다고 하자. 이 경우, 입원으로 인하여 참가하지 못한 4월의 결측치는 MCAR로 발생한 intermittent missing value 가 된다.

만약 큰 교통사고로 인하여 장기간 입원하게 되었고, 이로 인하여 4월부터 이어지는 모든 실험에 참가하지 못했다고 하자. 이 경우 4월부터 발생한 결측치는 MCAR로 발생한 dropout 이라고 한다.

MAR

$r_{i}$가 $Y_{i,(obs)}$에 의존한다. 하지만,
$r_{i}$가 $Y_{i,(miss)}$와는 독립인 경우,

그 i 번째 피험자의 결측치는 MAR 이라고 한다.

우리가 만약 결측치가 MAR 이라는 사실을 알 수 있다면, $r_{i}$가 $Y_{i,(obs)}$에 의존한다는 사실을 모델링에 활용할 수 있다.

예를 통해 조금 더 확실하게 이해해보자. 위의 예시에서 4월부터 피험자가 실험에 참가하지 못했다고 하자. 하지만 이번에는 그 이유가 다르다. 1월부터 3월까지 피험자가 실험에 참가하면서 고혈압 약을 복용하였으나, 효과가 전혀 없다는 것에 낙담하여 4월부터 실험에 참여하지 않았다. 즉 이번에는 결측치가 $Y_{i,(obs)}$에 의존하는 것이다. 이 경우, 4월부터 발생한 결측치는 MAR로 발생한 dropout 이라고 한다.

MNAR

$r_{i}$가 $Y_{i,(obs)}$에 의존하고,
$r_{i}$가 $Y_{i,(miss)}$에도 의존하는 경우,

그 i 번째 피험자의 결측치는 MNAR 이라고 한다.

역시 예를 통해 이해해보자. 역시 피험자는 3월까지는 혈압 측정을 위하여 꾸준히 한 달 에 한 번씩 병원을 방문하였으나 4월부터 실험에 참여하지 않게 되었다.

3월까지는 고혈압 약의 효과가 좋아서 혈압이 꾸준히 줄어들었다. 하지만 4월의 병원 방문하기 하루 전에 피험자가 집에서 스스로 혈압을 측정해보았더니 갑자기 혈압이 높아진 것을 알게 되었고, 이에 실망한 나머지 그 이후로 실험에 참여하지 않게 된 것이 결측치가 발생한 이유다.

이번에는 결측치가 $Y_{i,(obs)}$는 물론, $Y_{i,(miss)}$에도 의존한다. 이 경우, 4월부터 발생한 결측치는 MNAR로 발생한 dropout 이라고 한다.

사실 실험자 입장에서는 피험자의 결측치가 발생한 이유가 $Y_{i,(miss)}$에 독립/의존하는지에 대해 알 수 있는 방법이 없으므로 MAR 과 MNAR 을 구분할 수 있는 경우가 거의 없다고 볼 수 있다.

세 가지의 결측치 비교

MCAR 가장 강한 가정(Assumption)

MAR MCAR보다는 약한 가정

현실에서 거의 존재하지 않는 결측치

Mixed model로 해결이 가능

MNAR 가장 약한 가정

현실에 존재하는 결측치의 대부분

해결할 수 있는 모델이 많음

하지만 결측치는 말 그대로 우리가 관측하지 못한 데이터이기 때문에 MNAR/MAR 여부를 구분하기 매우 힘들다.

통계학에서 MAR 가정이 중요한 이유

MNAR인 경우에는 결측치가 발생한 메커니즘을 바르게 모델링한 경우 에 한하여 불편추정량을 얻을 수 있다. 하지만 결측치가 발생한 메커니즘을 바르게 모델링하는 것은 거의 불가능 하다.

하지만 MCAR, MAR의 경우 불편추정량(Unbiased estimator)을 구할 수 있는 통계적 분석 방법이 존재한다.

그런데 여기서 드는 한 가지 의문이 있다. MAR은 현실에 거의 볼 수 없는데 무슨 의미가 있을까?

비록 MNAR인지, MAR인지에 대한 여부를 확인하는 것은 쉽지 않지만, MAR은 MCAR보다 약한 가정을 가진다는 장점이 있다. MAR은 MCAR보다 약한 가정임에도 불구하고, 적절한 모델링이 가능하다는 것에 큰 의의가 있다.

MAR&MNAR, 그리고 modeling

결측치가 MAR이라는 사실을 확신할 수 있다면 관측된 $Y_{i,(obs)}$를 활용하여 $Y_{i,(miss)}$를 예측하여 모델링할 수 있다.

반면 MNAR일 경우, 관측된 $Y_{i,(obs)}$를 활용하여 $Y_{i,(miss)}$를 예측할 경우 Bias 가 발생하게 된다.

(예시를 생각해보면 이해하기 쉽다. 위의 혈압 예제의 경우 $Y_{i,(obs)}$는 낮아지는 경향성을 보였지만 $Y_{i,(miss)}$는 높은 값을 보인다. 즉, 이 경우 $Y_{i,(obs)}$를 활용하여 $Y_{i,(miss)}$를 예측할 경우 Bias가 발생하게 된다.)

앞서 말했듯이 현실에서 우리가 관측한 값만으로는 결측치가 어떤 종류인지 알 수가 없다. 그 이유는 결측치는 우리가 관측하지 못한 값이기 때문이다.

\[\text{You don't know what you don't know.}\]

즉, 우리가 관측한 값만을 활용하여 결측치를 예측하는 것은 불가능하다. 다시 말하여 결측치는 관측하지 못한 자료이고, 그렇기 때문에 그 결측치가 발생한 Mechanism을 올바르게 modeling하는 것은 거의 불가능하다고 볼 수 있다.

Reference

강승호(2019), 신약개발에 필요한 임상통계학, 자유아카데미