분산분석(ANOVA)은 세 개 이상의 집단 간의 평균 차이를 비교하는 통계적인 방법 중 하나입니다. 일반적으로 t-test는 두 집단 간의 평균 차이를 비교하는 데 사용되지만, 집단이 세 개 이상인 경우에는 여러 번의 t-test를 시행하게 되면 1종 오류(유의수준에서 오류를 범할 확률)를 증가시킬 수 있습니다. 그래서 이를 피하기 위해 ANOVA를 사용합니다.
그런데 여기에서 우리는 생각해볼수 있습니다.
왜 평균 분석이 아니라 분산 분석인걸까요?
분산분석이 사용되는 이유
먼저 one way Anova에 사용되는 변수를 보면,
- 종속 변수 (Dependent Variable): 연속형 변수여야 합니다. 즉, 수치형 데이터여야 하며, 예를 들어 키, 몸무게, 성적 등이 종속 변수가 될 수 있습니다. ANOVA는 이러한 연속형 변수의 그룹 간 차이를 비교하는 데 사용됩니다.
- 독립 변수 (Independent Variable): 이산형 또는 범주형 변수만 가능합니다. 단, 주의할 점은 변수는 한 개이며 그 안에 여러 개의 범주 또는 여러 개의 레벨이 있어야 한다는 점입니다. 예를 들어, 교육 수준, 성별, 직업 등이 독립 변수가 될 수 있습니다. 여기서 교육 수준이라는 독립 변수는 한 개의 변수이며 그 안에는 초등학교 졸업, 중학교 졸업, 고등학교 졸업, 대학교 졸업 등의 여러 레벨이 있을 수 있습니다. 이러한 레벨들이 ANOVA에서 각각의 그룹을 형성하고, 이들 간의 종속 변수의 평균 차이를 비교하는 데 사용됩니다.
F-VALUE
z-test에는 z값, t-test에는 t값이 사용되는 것처럼, ANOVA(Analysis of Variance)에는 F값이 사용됩니다.
ANOVA에서의 F값은 두 개의 분산의 비율을 나타냅니다. 그룹 간의 변동과 그룹 내의 변동을 비교하여 계산되며, 그룹 간의 변동이 그룹 내의 변동에 비해 충분히 크다면, 이는 적어도 한 그룹의 평균이 다른 그룹과 통계적으로 유의하게 다르다는 것을 의미합니다. 그래서 분산분석이라고 부르게 됩니다.
그런데 어떻게 두 개의 분산으로 평균값이 같은지 다른지를 어떻게 알 수 있는걸까요? 여기서 우리는 두 개의 분산을 계산하기 위해 두 개의 평균값이 필요하게 됩니다.
두 개의 분산 비율
그림에서 첫번째 평균은 GM으로 전체평균이고, 두번째평균값은 M1,2,3,4 -> 각 그룹의 평균값입니다.
여기서 앞에서 얘기했다시피 두번째 평균은 네가지가 아닙니다. "두번째 평균값"은 단순히 각 그룹의 평균값을 의미하며, 그룹의 개수나 독립 변수의 레벨 수와는 관련이 없습니다. 독립 변수의 한 가지 종류에 대한 여러 그룹의 평균을 비교하는 데 사용되는 것입니다.
이제, 이 두가지의 평균을 토대로 두 가지 종류의 분산을 얘기해보겠습니다.
- Between Variance (그룹 간 분산):
- Between Variance는 전체 평균으로부터 각 그룹의 평균까지의 분산을 나타냅니다.
- 그룹 간의 차이를 나타내는 분산이기 때문에 Between Variance라고 합니다.
- Between Variance가 클수록 적어도 한 그룹의 평균이 다른 그룹과 다를 가능성이 높아집니다.
- Between Variance가 우연히 클 가능성은 확률적으로 어느 정도인지를 판단하기 위해 F-분포를 사용합니다.
- Within Variance (그룹 내 분산):
- Within Variance는 각 그룹 내의 데이터의 분산을 나타냅니다.
- 각 그룹내에서의 개별 차이나 오차를 의미합니다.
- Within Variance는 random한(무의미한) 변화의 정도이기에 t-test에서 t-value를 계산할 때 사용했던 분모의 표준편차와 같은 의미로 보면 됩니다.
먼저 적었지만, 우리는 Between Variance가 얼마나 커야 통계적으로 큰 것인지,
즉 이 Between Variance가 우연히 클 가능성은 확률적으로 얼마나 되는지 확인하기 위해 비교할만한 대상인 다른 변수가 필요한데 이 때문에 두 번째 분산인 Within Variance가 나오게 되는 것입니다.
여기서 우리는 Between variance가 Within Variance보다 충분히 커야 우리는 Between Variance가 통계적으로 크다고 말할수 있고 이것은 적어도 한 그룹의 평균값이 전체 평균과는 다르다고 할 수 있습니다.
앞에서도 설명드렸다시피 F-value는 두 개의 분산의 비율로서, Between Variance와 Within Variance를 나눈 값입니다. 이때, Between Variance는 각 그룹의 평균이 전체 평균으로부터 얼마나 떨어져 있는지를 나타내며, Within Variance는 그룹 내 데이터 포인트들 간의 차이를 나타냅니다.
따라서 F-value는 그룹 간의 평균 차이가 우연히 발생한 것이 아니라는 것을 나타내는 지표입니다.
즉, Between Variance가 충분히 클 때, 적어도 한 그룹의 평균이 다른 그룹과 다를 가능성이 높아집니다.
결론적으로, F-value는 분자부분의 분산과 비교하여 분모부분의 분산을 나타내는 비율로써, 그룹 간의 차이를 통계적으로 검정하는 데 사용됩니다.
One-Way ANOVA의 통계적 가설
- 귀무 가설 (H0): 모든 그룹의 평균은 서로 동일하다.
- 대립 가설 (Ha): 적어도 한 그룹의 평균은 다른 그룹과 다르다.
그런데, 통계적 가설에 따라 F-값이 충분히 커서 유의하다면 이는 우리의 Between Variance가 충분히 크다는 의미인데 이것만으로는 몇 개의 그룹이 그리고 어떤 그룹이 전체평균과 어떻게 다르다는 것인지 알 수 없습니다.
ANOVA에서는 F-테스트를 수행할 때, F-값을 비교하기 위해 F-테이블을 사용하고, 이 테이블은 F-분포의 임계치를 제공하여 유의수준에 따라 통계적으로 유의한 F-값을 결정하는 데 도움을 줍니다.
그러나, 어떤 그룹이 어떻게 다른지를 확인하려면 사후 검정을 수행해야 합니다.
(참고) F-테이블을 사용할 때는 자유도가 필요한데, F-분포의 값을 찾기 위해서는 두 가지 자유도 값을 사용합니다
첫 번째는 분자의 자유도(df1), 두 번째는 분모의 자유도(df2)입니다. 분자의 자유도는 Between Variance에 해당하며 df1은 그룹의 개수 - 1입니다. 분모의 자유도는 Within Variance에 해당하며, df2는 (전체 샘플의 수) - (그룹의 개수)입니다.
사후 검정
사후 검정은 여러 그룹 간의 평균 차이를 비교하는 여러 다중 비교 기법 중 하나입니다. 주로 사용되는 사후 검정 방법에는 Tukey의 HSD(Honestly Significant Difference)나 Bonferroni 방법 등이 있습니다. 이러한 사후 검정을 통해 각 그룹 간의 평균 차이가 통계적으로 유의한지를 확인할 수 있습니다.
따라서 One-Way ANOVA의 결과만으로는 그룹 간 평균의 차이가 통계적으로 유의한지 확인할 수 있지만, 어떤 그룹이 다른 그룹과 다르게 평균을 가지고 있는지를 알아보기 위해서는 여러 그룹 간의 모든 가능한 조합을 비교하여 특정 그룹 간의 평균 차이를 확인하기 위한 사후 검정이 필요합니다. 이를 통해 각 그룹 간의 특정한 차이를 식별하고 이해할 수 있습니다.
이 포스팅은 Sapientia a Dei님의 통알못을 위한 통계튜브 - 기초편 - 을 참고하였습니다.
Sapientia a Dei
통알못을 위한 통계튜브 - 통통튜브 - 통알못(통계를 알지 못하는 사람)을 위한 통계튜브입니다. 이제 책도 웹/모바일에서 보실 수 있습니다. 통알못을 위한 기초통계 1권: https://who4u78.github.io/book
www.youtube.com