p-value의 의미

p-value를 이용한 가설 검증 방법의 문제를 재밌게 보여주고 있는 만화
원본 그림: https://imgs.xkcd.com/comics/significant.png

p-value는 통계학에 기반한 과학적인 방법으로 연구를 수행하고 그 결과의 유의성을 확인하기 위해 매우 필요한 도구 중 하나이다. 하지만 많은 연구자들이 p-value를 잘못 사용하고 있거나, 어떤 경우 고의적으로 p-value의 특성을 이용해 연구 결과를 부풀리는 경우가 있다.

이번 article에서는 p-value의 의미와 대표적인 오용 사례에 대해 짚어보고자 한다.

p-value의 의미

우선은 조금은 딱딱하지만, p-value의 수학적 의미부터 짚고 넘어가보도록 하자. 그 후에 차근 차근 p-value에 대한 내용을 후려처서 좀 더 쉽게 이해해볼 수 있도록 하자.

가령 우리가 두 표본 집단의 특징값의 평균이 통계적으로 유의한 차이가 있는지 검증하자. 이 때, 두 표본 집단으로부터 검정 통계량(가령, t-value)을 계산해낼 수 있다.

p-value는 이 검정 통계량에 관한 확률인데, 우리가 얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률을 의미한다.

한 가지 짚고 넘어가야할 매우 중요한 포인트 중 하나는 우리가 계산하는 검정 통계량들은 거의 대부분이 귀무가설을 가정하고 얻게되는 값이라는 것이다.

다시 말해 두 표본 평균의 차이를 검증한다고 할 때, 두 표본 집단의 모집단은 같다는 가정을 전제한다.

그러므로, p-value가 말하고자 하는 것을 대략적으로나마 가벼운 말로 풀어쓰자면 다음과 같다고 할 수 있다.

"우리가 얻은 데이터에 있는 두 표본 집단이 같은 모집단에서부터 나온거라고 치자.
그랬을 때, 우리가 이런 검정 통계량(가령, t-value)을 얻었는데 이게 얼마나 말이되는거냐?"

p-value의 편리함

사람들은 편리한 것을 좋아한다. 비단 생활에서 뿐만 아니라 연구분야에서도 마찬가지로 누구나 연구 결과를 복잡하게 설명하는 것 보다 최대한 쉽고, 간결하게 설명하는 것을 좋아한다.

두 표본 집단의 차이를 비교하여 결과를 낸 연구가 있다고 해보자. 우리는 여러가지 방법으로 두 표본 집단의 차이에 대해 서술할 수 있다.

모든 데이터 값들을 다 적어놓는 방식도 있을 수 있고, 두 데이터의 histogram을 그려서 시각적으로 보여주는 방법도 가능할 것 같다. 그렇지만, 이러한 방법들은 엄밀성이 배제되어 있다는 점에서 한계점이 분명하다.

그래서 엄밀성을 담보하기 위해 나온 개념이 검정 통계량이다.

검정 통계량 t-value를 어떻게 계산했더라?

다시 한번 생각해보면 상당히 일리가 있음을 알 수 있다. t-value는 두 표본에 대해서 표본 집단 평균 간의 차이에, 그 차이에 대한 불확실도를 나눠줌으로써 집단간의 차이와 이 차이가 얼마나 확실한지를 한꺼번에 설명해주고 있다.

그래서 검정 통계량만을 제시함으로써 엄밀하고도 편리한 방식으로 두 표본 집단간의 차이를 표현할 수 있게 되었다.

그런데 또 하나의 문제가 더 있었다. t-분포는 표본수(즉, 자유도)에 따라 모양이 다르다보니 같은 t-value라고 하더라도 표본 수에 따라서 표본 간의 차이가 충분히 크다고 할 수도 있고 그렇지 않다고도 할 수 있는 것이다.

이런 과정을 생각해보면 왜 p-value와 같은 ‘확률’로 유의성을 점검할 수 있는 지표로 기재했는지 알 수 있다. 표본수에 상관없이, 검정통계량의 분포의 모양에 상관없이 확률이라는 값 하나만 기재해두면 헷갈릴 이유가 없는 것이다.

확률은 정규화된 값이므로 하나의 기준치만 정해져있으면 실험 결과의 유의성을 한눈에 파악하기 좋다. 보통은 5% 기준을 많이 사용한다. 그래서 p-value가 5%보다 작으면 유의한 차이가 있다고 얘기한다.

편리함의 역효과

p-value는 검정통계량이 압축적으로 담고있던 정보를 더 압축했다.

즉, p-value는 효과의 크기(effect size)와 표본의 크기(n 수)의 정보를 한꺼번에 담고있다.

따라서 효과의 크기가 커지거나 표본의 크기가 커지거나 둘 중 하나만 변하더라도 p-value는 마치 유의한 차이를 담보할수 있을 것 마냥 작아지는 것을 알 수 있다.

효과의 크기(effect size)
- ex) 표본 평균간의 차이

그림 1. 동일한 n수에 대해 effect size가 변함으로써 p-value가 변한다.

표본의 크기(n 수)
- ex) t-value에서 표본의 크기는 불확실도, 자유도에 모두 포함된 개념이다.

그림 2. 동일한 effect size 대해 n수가 변함으로써 p-value가 변한다.

그림 1과 2를 보면 effect size가 변해서 p-value가 작아지는 현상 뿐만 아니라 n수가 커짐으로써 p-value가 작아지는 현상도 확인할 수 있다.

즉, 실제로 한 모집단에서 두 표본 집단이 나왔음에도 p-value는 0.05보다 낮을 수 있으며, 귀무가설이 기각되어 대립 가설이 채택됨에도 불구하고 대립 가설이 참이 아닐 수도 있다.

최근에는 과학 기술의 발전으로 수 많은 n수의 데이터를 쉽게 얻을 수 있게 되는 연구들도 많아지고 있으니 통계적 검증 단계에서 p-value를 맹신하지 않도록 특히 주의를 기울여야 할 것으로 보인다.

참고문헌

Primer of biostatistics 6th edition, Stanton A Glantz, McGraw-Hill Medical Publishing Division

이전실패를 기도하는 이론 - 귀무가설, 대립가설

다음신뢰구간의 의미