y의 평균에 대한 모델을 생각해보자.

단순하게 $i_{th}$ Treatment 효과에 해당하는 $\tau_i$를 독립변수로, y를 종속변수로 둘 수 있다.

그렇다면 어떤 모델을 활용하여 모델링할 수 있을까?

다음 두 모델을 생각해보자.

\[\begin{align*} y_{ij} &= \mu + \tau_i + \epsilon_{ij} \;\;\;\;\text{ : ANOVA}\\ y_{ij} &= \mu + \beta x_{i} + \epsilon_{ij} \;\;\text{ : Linear Regression} \end{align*}\]

우리가 가장 간단하게 떠올릴 수 있는 모델은 One Way ANOVA와 Simple Linear Regression 모델이다.



ANCOVA

위의 두 모델을 결합하여 다음과 같은 새로운 모델을 만들 수 있을 것이다.

\[\begin{align*} y_{ij} &= \mu + \tau_i + \beta x_{i} + \epsilon_{ij} \;\;\text{ : ANCOVA} \end{align*}\]


우리는 ANOVA와 Linear Regression을 결합한 형태의 모델을 ANCOVA 모델이라고 한다.

여기서 주목할 점은 $x$변수의 coefficient가 $\beta_i$가 아닌 $\beta$라는 것이다.

즉, 기울기가 같으면서 그룹 간 절편만 다른 평행한 직선을 fitting하는 것이 ANCOVA이다. 이 때 해당 직선들간의 거리는 treatment effect가 될 것이다.



Linear Regression with Dummy variable

사실 이 모형(ANCOVA)은 $\tau_i$를 Dummy variable로 두어 적합시킨 회귀분석 모형과 동일하게 보인다.

이 두 모델이 같은 모델이라면 왜 ANCOVA라는 이름을 따로 두어 구분하는 것일까?


사실 회귀분석(with dummy)과 ANCOVA는 관심을 가지는 모수가 다르다.

회귀분석에서는 모든 모수(회귀계수)에 관심을 가지지만, ANCOVA에서는 오직 $\tau_i$에 대해서만 관심을 가진다.

ANCOVA는 ANOVA를 확장한 것으로써 그룹 간 $\tau_i$가 같은지 같지 않은지에 대해 관심을 가진다.



ANOVA와 ANCOVA의 차이점

ANCOVA는 그룹 간 비교시 공변량 $x_i$를 감안하여 $\tau_i$가 같은지를 비교한다.

반면 ANOVA는 공변량 $x_i$를 고려하지 않고, 그룹 간 비교가 이루어진다는 차이점이 존재한다.