본문 바로가기

통계

[통계] 통계적 가설과 오류

통계적 사고방식이란 '어떤 사건이 우연히 발생할 확률이 얼마일까'라고 질문하는 것

 

통계적 가설과 오류

통계책을 보면 다음과 같은 식이 나오곤 합니다. 

 

H0μ - μ0 = 0

H1 :  μ - μ0 ≠ 0

 

여기서 H0란 Null Hypothesis의 약자로, 귀무가설입니다. 귀무가설에서의 귀무란 歸(돌아갈 귀) + 無(없을 무)란 뜻으로 무로 돌아가는 가설이라고 해석할 수 있습니다. 즉, 귀무가설은 '아무 영향도 없고, 아무 일도 없다라는 것을 가정하는 가설'로서, 이 가설이 맞다면 아무 일도 없다는 것으로 이해하시면 됩니다. 반면, H1은 Alternative Hypothesis의 약자로 대립가설입니다. 대립가설은 귀무가설을 대체하는 대립하는 가설입니다. 

H0의 경우 거의 언제나  0이 되는 반면, H1의 경우 0이 아니거나 약간 다른 형태를 띌 수 있습니다. 

 

두 가설은 무엇에 사용되는 걸까요?

통계학에서는 가설을 정해놓고 어떤 사건이 우연히 일어났을 때의 가능성과 그렇지 않을때의 가능성을 검정하는 과정을 거치게됩니다.

 

그래서 어떤 사건이 우연히 일어날 확률을 구할 때 p값을 사용하는데, 여기서 말하는 '그 사건이 우연히 일어났다라고 가정하는 것이' 귀무가설이고, 그 사건이 우연히 일어난 것이 아니고 '뭔가 인과관계가 있다'라고 가정하는 것이 대립가설입니다.

즉, 귀무가설이 맞다면 그 사건은 우연히 일어난 것으로 추정하고, 대립가설이 맞다면 우연히 일어난 것이 아닌 뭔가 인과관계가 있다고 추정하는 것입니다. 

그래서 만약 p값이 0.05보다 작다면, 우리는 대립가설을 선택하고 0.05보다 크다면 우리는 귀무가설을 선택합니다.

 

1종 오류와 2종 오류

우리가 하는 연구나 실험은 항상 맞을수는 없기에, 이를 진실과 연구결과로 나누어보면 두가지 오류가 존재 가능합니다.

1종오류는 실제로는 참인데 연구결과가 거짓이라고 나오는 경우이고, 2종오류는 실제로는 거짓인데 연구결과가 참으로 나오는 경우입니다. 여기서 말하는 1종오류의 기준이 5%이고, 이 5%가 p값의 기준이 된 것입니다.

 

즉 , 엄밀히 말하면, 우리가 사용하는 p값의 확률값은 1종오류의 수준을 5%로 제약한다는 의미로 사용되는 것입니다.

다르게 말하면, 어떤 사건이 우연히 발생했음에도 우연히 발생하지 않았다고 결론 내릴 오류를 5%이내로 하겠다는 것이라고 이해하시면 됩니다.

 


이 포스팅은 Sapientia a Dei님의 통알못을 위한 통계튜브 - 기초편 - 을 참고하였습니다.

 

Sapientia a Dei

통알못을 위한 통계튜브 - 통통튜브 - 통알못(통계를 알지 못하는 사람)을 위한 통계튜브입니다. 이제 책도 웹/모바일에서 보실 수 있습니다. 통알못을 위한 기초통계 1권: https://who4u78.github.io/book

www.youtube.com