통계학을 공부하면서 많은 새로운 용어들과 만나게 된다. 그 중 1종 오류와 2종 오류가 대표적인 새로운 용어라고 할 수 있다.
특별히 숫자로부터 얻는 의미는 없지만 이름을 구별하기 위해 1종(type I), 2종(type II)라고 붙여놓은 것으로 보인다.
1종 오류는 귀무가설이 참인데 잘못 기각할 때 발생하는 오류를 말한다.
2종 오류는 귀무가설이 거짓인데 기각하지 않았을 때 발생하는 오류를 말한다.
이러한 정의를 생각해본다면, 우리는 ‘귀무가설’이라는게 무엇인지부터 정확히 짚고 넘어가는 것이 좋을 것 같아 보인다.
또, ‘잘못 기각’이라는 말과 ‘잘못 채택’이라는 말을 어떻게 이해하면 좋을지에 대해서도 알아보도록 하자.
사건과 귀무가설
1종 오류와 2종 오류에 대해 이야기 하기에 앞서 우선은 이 모든 내용들이 ‘사건에 대한 가설’과 관련된 것이라는 것을 이해하는 것이 좋다.
다시 말해, 우리가 t-test, 분산분석 등의 분석을 통해 수행하는 것이 가설 검증이라는 것을 잊으면 안된다는 의미이다.
다만 어떤 가설 검정도 100% 확실한 것은 없다. 검정은 확률을 기반으로 하기 때문이다. 그래서 언제나 잘못된 결론을 내릴 가능성이 있다.
오케이. 그렇다면 우리는 어떤 일에 대한 가설을 검증하게 되는 것일까? 다시 말해 우리가 다루고자 하는 일은 가령 어떤 것이라고 할 수 있을까? 어떤 일, 즉 사건(事件, event)이라 함은 “내가 살고 있는 아파트에 불이 났다” 같은 것이 될 수 있다.
사건은 꼭 이렇게 새롭거나 이례적인 것이 될 필요는 없다. 가령, “주사위를 던졌을 때 나오는 눈금은 1이다” 역시도 사건이 될 수 있다. 하지만, 보통은 가설 검증을 진행한다고 하면 보통은 새로운 결과들이 정말로 새로운 것인지에 대한 검증을 수행한다고 할 수 있다. 따라서 가설 검증에서 다루는 대부분의 사건들은(혹은 그 예시들은) 새롭거나 이례적인 것들에 대해 다룰 가능성이 높을 수 있다.
따라서, 우리가 사건에 대해 다루는 가설은 딱 두가지이다. 이 사건이 일어났거나, 일어나지 않았거나.
보통 사회에서는 사건이 일어났을 가능성에 초점을 두고 대화가 진행되거나 하는데, 희안하게도 통계학에서는 사건이 일어나지 않았을 가설에 좀 더 초점을 두고 가설 검증을 진행하는 경우가 많다. 왜냐하면, 통계학에서의 주요한 가설 검증 방식은 이 사건이 일어나지 않았을 것이라고 가정한 뒤, 그 사건이 일어나지 않았다고 볼 수 있는 가능성이 매우 희박하다는 사실을 발견함으로써 오히려 이 사건이 일어났을 것이라고 간접적을 증명하는 방식이기 때문이다.
즉, 통계학이 사건이 일어나지 않았다는 가정에 초점을 더 맞추는 경우가 많기에, 이러한 가정에 이름도 붙여놓았는데, 그것이 바로 “귀무가설”이다.
귀무가설은 아무일도 일어나지 않았음을 가정하는 가설이다. 그래서 없을 무(無)가 이름안에 들어있다고 볼 수 있는 것이다.
1종 오류와 2종 오류
그림 1. 1종 오류와 2종 오류를 이해하는 데에는 화재경보 만한 예시가 없는 것 같다.
그림 출처: 위키피디아 Fire Alarm System
1종 오류: False Alarm
앞서 언급한 1종 오류의 정의는 “귀무가설이 참인데 잘못 판단해 기각 해버리는 오류”라고 하였다. 이 말의 의미를 다시 한번 짚어보도록 하자
귀무가설이 참이라는 말은 아무 일도 일어나지 않았음을 의미한다.
다시 말해, 아파트에 불이 난 일은 없었다는 것이다. 그런데, 여기서 잘못 판단해 기각했다는 것은 아파트에 불이 나지 않았음에도 화재 경보 알람이 울린 경우를 말하게 된다.
그래서, 이 말을 한마디로 하면 False Alarm이라고 표현하고 싶다.
즉, 실제로는 일이 일어나지 않았는데도 기각(즉, 알람이 울리는 것) 해버린 것이다.
2종 오류: Miss
한편 2종 오류의 정의는 “귀무가설을 거짓인데도 기각하지 않아서 생기는 오류”라고 하였다. 이 말의 의미도 하나하나 짚어보자.
귀무가설이 거짓이라는 말은 어떤 일이 실제로 발생했음을 의미한다.
다시 말해 이미 아파트에 불은 났다는 의미이다. 그런데 여기서 기각하지 않았다는 것은 아파트에 불이 났음에도 화재경보 알람이 울리지 않고 그대로 지나간 경우를 말하게 된다.
그래서, 이 말을 한마디로 하면 Miss 라고 표현하고 싶다.
실제로 일어난 일임에도 기각(즉, 알람이 울리는 것)할 타이밍을 놓친 것이다.
요약
표로 요약하면 다음과 같은 결과를 확인할 수 있다.
그림 2. 1종 오류와 2종 오류에 대한 정보 요약
p-value와의 관계
우선 p-value는 1종 오류와 관련이 있다. p-value라는 것이 무엇인지 다시 한번 곱씹어 생각해보면 그 이유를 알 수 있다.
p-value는 “귀무가설이 맞다고 했을 때, 귀무가설이 말이 될 확률”을 의미하기 때문이다.
즉, p-value는 1종 오류를 범할 확률과 같은 의미를 갖는다.