포아송 분포


파라미터 λ를 수정해가며 다양한 경우의 포아송분포의 생김새에 대해 확인해보자.
포아송분포에서 x 축에 있는 k가 갖는 것은 어떤 의미일까?
그리고 각 막대의 길이는 어떤 의미를 갖는지 설명할 수 있는가?

포아송 분포는 생각보다 이항분포 만큼 실생활에서 유용하다.

이름도 복잡해보이고 수식도 어려워 보이지만, 실제 이 분포가 말하는 것이 무엇인지 알고나면 정규분포보다 더 친근해질 수 있는 좋은 친구라는 것을 알 수 있을 것이다.

Prerequisites

포아송 분포를 잘 이해하기 위해서는 아래의 내용에 대해 알고오시는 것이 좋습니다.

포아송 분포의 정의

정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 라고 했을 때, 그 사건이 회 일어날 확률은 다음과 같다.

여기서 는 자연상수이다.

포아송 분포가 필요한 이유?

1시간 동안 창밖을 바라보는 상상을 해보자.

창 밖에는 수많은 사람들이 지나가고 있는데, 이 중 한 사람이 넘어질 가능성이 얼마나 될까?

가령 1000명의 사람들이 지나가고 있다고 했을 때, 10초에 1명 꼴로 사람이 넘어진다고 가정해보자.

즉, 10초에 0.1%의 확률로 사람이 한명 넘어진다고 해보자는 말이다.

그러면, 우리는 3600초 동안 10초에 0.1%의 확률로 일어나는 사건이 독립적으로 360번 일어나는 일을 가정하고 있다고도 볼 수 있다.

이런 경우에 우리는 이항분포를 이용해 1시간 동안 몇 명의 사람이 넘어지는지에 대한 확률에 대한 분포를 확인할 수 있을 것이다.

다시 말해, 총 시행회수 과 성공확률 인 경우의 이항분포를 라고 했을 때, 를 따르는 사건이라고 생각하고 문제를 풀어보자. 평균적으로는 명이라는 결론은 쉽게 얻을 수 있지만… 이것의 분포를 과연 쉽게 계산할 수 있을까?

다시 말해, 360번 중 번 사건이 이어날 확률은

라는 사실을 알 수 있는데, 360 factorial 이라… 이건 무한대나 다름없는 어마어마하게 큰 숫자임을 직감할 수 있을 것이다.

실제로 구글에서 360 factorial을 계산해보라고 하면 '불능'이라고 말해줄 정도이니 말이다.


그림 1. 너무 큰 숫자의 factorial은 계산이 불가능하다.

이처럼 이항분포에서 이 너무 크고 가 너무 작은 경우에 이항 분포의 확률분포를 근사적으로 계산하기 위해서는 극한값을 이용한 새로운 형태의 분포를 제시하는 것이 바람직해보인다.

포아송 분포는 이러한 문제를 해결하기 위해 탄생한 분포라고 할 수 있다.

포아송 분포의 유도 과정

포아송 분포는 이항분포에서부터 유도할 수 있다.

라고 하면, 이므로,

여기서 로 극한을 취하면 다음과 같은 변화가 생김을 알 수 있다.

따라서,

인 것을 알 수 있다.

다시 말해 포아송 분포는 수 많은 사건 중(즉, ) 특정한 사건이 발생할 확률이 매우 적은(즉, ) 확률변수가 갖는 분포임을 알 수 있다.

포아송 분포 예시 문제

문제 1.

보험사 A는 2000건의 보험 계약을 가지고 있다. 이 보험을 계약한 사람이 보험을 청구할 확률이 0.001이라고 할 때 포아송 근사를 이용하여 다음 확률을 구하시오.

1) 보험 청구가 한번도 없을 확률

2) 보험 청구가 3번 이하일 확률

3) 보험 청구가 5번 이상일 확률

문제 1의 Solution

총 2000건의 보험에 대해 청구할 확률이 0.001이므로 평균 2건의 보험이 청구될 것임을 알 수 있다.

1) 보험 청구가 한번도 없을 확률은 인 포아송 분포에 대하여 인 경우이므로,

약 13.5%임을 알 수 있다.

2) 보험 청구가 2번 이하일 확률은

약 85.7% 임을 알 수 있다.

3) 보험 청구가 5번 이상일 확률은

이다. 즉 약 5.26%임을 알 수 있다. 다시 말해 보험 청구가 5건 이상 들어올 확률은 5%정도로 꽤 낮다고 볼 수 있다.

문제 2.

어느 산골짜기 보건소에는 환자가 자주 오지 않아서 한산하다. 하루 평균 3명의 환자가 내원한다고 했을 때, 하루에 두 명 이상의 환자가 내원할 확률은?

문제 2의 Solution

보건소에 하루 두 명 이상이 내원하는 경우는 2명 + 3명 + 3명 + + 명의 경우의 수를 모두 더해야 하므로, 확률의 총 합은 1이라는 것에서 생각하여 1에서 내원하는 경우가 0명 + 1명인 확률을 빼준 값으로 두 명 이상 내원하는 확률을 계산하자.

즉,

즉 약 80% 확률로 하루 두 명 이상의 환자를 볼 수 있다.