y의 평균에 대한 모델을 생각해보자.
단순하게 $i_{th}$ Treatment 효과에 해당하는 $\tau_i$를 독립변수로, y를 종속변수로 둘 수 있다.
그렇다면 어떤 모델을 활용하여 모델링할 수 있을까?
다음 두 모델을 생각해보자.
\[\begin{align*} y_{ij} &= \mu + \tau_i + \epsilon_{ij} \;\;\;\;\text{ : ANOVA}\\ y_{ij} &= \mu + \beta x_{i} + \epsilon_{ij} \;\;\text{ : Linear Regression} \end{align*}\]우리가 가장 간단하게 떠올릴 수 있는 모델은 One Way ANOVA와 Simple Linear Regression 모델이다.
ANCOVA
위의 두 모델을 결합하여 다음과 같은 새로운 모델을 만들 수 있을 것이다.
\[\begin{align*} y_{ij} &= \mu + \tau_i + \beta x_{i} + \epsilon_{ij} \;\;\text{ : ANCOVA} \end{align*}\]우리는 ANOVA와 Linear Regression을 결합한 형태의 모델을 ANCOVA 모델이라고 한다.
여기서 주목할 점은 $x$변수의 coefficient가 $\beta_i$가 아닌 $\beta$라는 것이다.
즉, 기울기가 같으면서 그룹 간 절편만 다른 평행한 직선을 fitting하는 것이 ANCOVA이다. 이 때 해당 직선들간의 거리는 treatment effect가 될 것이다.
Linear Regression with Dummy variable
사실 이 모형(ANCOVA)은 $\tau_i$를 Dummy variable로 두어 적합시킨 회귀분석 모형과 동일하게 보인다.
이 두 모델이 같은 모델이라면 왜 ANCOVA라는 이름을 따로 두어 구분하는 것일까?
사실 회귀분석(with dummy)과 ANCOVA는 관심을 가지는 모수가 다르다.
회귀분석에서는 모든 모수(회귀계수)에 관심을 가지지만, ANCOVA에서는 오직 $\tau_i$에 대해서만 관심을 가진다.
ANCOVA는 ANOVA를 확장한 것으로써 그룹 간 $\tau_i$가 같은지 같지 않은지에 대해 관심을 가진다.
ANOVA와 ANCOVA의 차이점
ANCOVA는 그룹 간 비교시 공변량 $x_i$를 감안하여 $\tau_i$가 같은지를 비교한다.
반면 ANOVA는 공변량 $x_i$를 고려하지 않고, 그룹 간 비교가 이루어진다는 차이점이 존재한다.