통계적 사고방식이란 '어떤 사건이 우연히 발생할 확률이 얼마일까'라고 질문하는 것입니다. 또한, 통계란 분산(표준편차)의 마법이라 할수 있는데 왜 그런지 t-test에 대해 글을 쓰면서 알려드리고자 합니다.
먼저 우리는 통계를 공부하면서 t-test에 대해 종종 듣곤 하는데 외우기만을 급급해서 언제 어떻게 사용하는지, 이 t-test의 목적은 대체 무엇인지에 대해 정확히 모르는 경우가 허다합니다.
t-test란?
두개의 집단이 같은지 다른지 비교하기 위해 사용하는 통계적방법입니다. 그런데 무엇을 가지고 두개의 집단을 비교를 할까요? 바로 두 표본의 대표값인 평균값을 가지고 같은지 다른지를 확인합니다. 그래서 두 집단 샘플(표본)의 평균값을 비교하고, 두 집단의 차이가 우연히 발생했을 확률을 구함으로써 t-test에 대한 결론을 내리는 것이 t-test의 목적이라고 할수 있습니다.
예를 들어보겠습니다.
A대학 남학생들의 키가 B대학 남학생들의 키를 비교해본다고 할때, 두 대학 남학생들의 키는 같은지 다른지를 토대로 각 대학의 남학생의 평균키를 대표값으로 하여 각각을 비교하게 됩니다.
이 말은 A대학 남학생 평균키와 B대학 남학생 평균키가 우연히 같은 확률은 얼마나 될까와 같으며 A대학과 B대학의 남학생 평균키 차이가 우연히 발생했을 확률은 얼마나 될까? 의 문장과 같게 됩니다.
여기서 만약 차이가 우연히 발생한것이라면, 두 대학의 남학생 키는 같은것(차이가 의미가 없는 것)이고, 우연히 발생하지 않았다면 두 대학 남학생 키는 다른 것이라 할 수 있습니다.
표준편차(분산)의 활용
그런데 여기서 과연 그 차이가 우연히 발생하지 않았을만큼 큰것인가?
대체 얼마나 커야 우연인지는 어떻게 확인할 수 있을까요?
얼마나 큰 건지 작은 건지를 결정할 나름의 비교 대상이 필요하게 되는데 이 때 나오는 개념이 표준편차(분산)입니다.
왜 표준편차가 비교의 대상일까요?
표준편차는 데이터에 큰 문제가 없는 한, 의미 없는 우연히 퍼져 있는 정도라 할 수 있습니다. 즉, 평균값을 중심으로 규칙없이 우연히 퍼져있는 것이죠
이 때 두 집단의 평균값의 차이 또한 두 집단의 평균적인 거리라 할 수 있습니다.
왜냐하면 두 집단의 수 많은 데이터들 사이의 평균적인 거리가 그 차이만큼인것이기 때문입니다.
그래서 평균값의 차이가 표준편차보다 현저히 작으면 우리는 이 차이가 우연히 발생했다 할 수 있으며 평균값의 차이가 표준편차보다 현저히 크다면 우연히 발생하지 않았다고 결론을 내릴수 있습니다.
결론
결론적으로는 t-test란 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고서 두개의 집단이 같은지 다른지를 결정하는 통계적 과정입니다.
이를 위해 t-값과 t-분포를 사용하게 됩니다.
- t-값: 두 집단의 평균값 차이를 표준편차로 나눈 값으로, 이 값이 얼마나 큰지 혹은 작은지를 판단하여 두 집단의 차이를 평가합니다. 표본의 개수가 많을수록 t-값의 표준편차는 작아지며, 이는 t-값의 신뢰도를 높여줍니다. 또한, t-분포를 따르는 t-값을 사용하여 두 집단 간의 차이가 우연에 의한 것인지를 판단합니다. 따라서 t-test에서는 표본의 개수가 많을수록 t-값의 신뢰도가 높아지고, 이를 통해 두 집단 간의 차이를 더 정확하게 평가할 수 있습니다.
- t-분포는 t-값의 분포를 나타내며, 자유도에 따라 모양이 달라집니다. 자유도는 일반적으로 표본의 크기에서 1을 뺀 값으로 계산되며, 표본의 크기가 커질수록 t-분포는 표준정규분포에 가까워집니다.
따라서 t-test에서는 표본의 크기가 크고, 평균값의 차이가 표준편차보다 현저히 큰 경우에는 두 집단의 차이가 통계적으로 유의미하다고 판단할 수 있습니다. 또한 반대의 경우에는 의미가 없다고 보면 됩니다.
이 포스팅은 Sapientia a Dei님의 t-test (t-검정)이란 무엇인가? 강의를 참고하였습니다.
Sapientia a Dei
통알못을 위한 통계튜브 - 통통튜브 - 통알못(통계를 알지 못하는 사람)을 위한 통계튜브입니다. 이제 책도 웹/모바일에서 보실 수 있습니다. 통알못을 위한 기초통계 1권: https://who4u78.github.io/book
www.youtube.com