문학적 딥러닝 2024. 11. 22. 18:12

시메옹 푸아송이 발견한 푸아송 분포는 이항분포를 특수한 상황으로 만들면 생기는 분포이다. 

 

시행 횟수 n이 무한으로 많아지고, 발생할 확률 p는 무한히 작아지는 것을 뜻한다. 

 

예시를 들자면, "하루(24시간) 거리에서 마주치는 길냥이의 수"라고 한다면

 

마주칠 확률 p는 한 없이 작을 것이고

시행횟수 n은 24시간의 모든 순간을 의미하니(정각마다 한마리씩 나오는 것도 아니고), 거의 무한대에 가깝다고 할 수 있다.

 

다른 말로 하면, 푸아송 분포에서는 시행횟수 n과 발생 확률 p를 정의할 수 없다는 특징이 있다. 반대로 n*p는 정의할 수 있다는 특징이 있다. 참고로 n*p는 이항분포의 기대값이다.

 

이게 무슨 소리냐고 하면, 확률을 직관적으로 바라볼 수 없을 때는 결과를 통해서 바라보자는 것이라고 나는 생각했다. 

 

우선 "확률과 통계"라고 나뉜 것부터 생각해보자, 확률론은 "어떤 일이 발생할 가능성"을 생각하는 것이고, 통계론은 "이미 발생한 사건들에는 어떤 것들을 알 수 있는가?"가 있다. 

 

푸아송 분포는 이항분포와 다르게 통계론 관점으로 접근했다고 생각된다(아닐 수 도)

 

우리는 길냥이가 나타날 확률은 알 수 없지만, 특정 시간동안 길냥이를 마주친 횟수는 나가서 구할 수 있다(미국 시트콤을 보다보면, 장거리 운전을 해야 하는 상황에서 하는 놀이가, "차 밖에 특정 동물을 누가 먼저 발견하는가"를 하는 민속 게임도 있다).

 

그렇다면 1시간 동안 밖에 나가서 길냥이를 만난 횟수를 기록하다보면, 기록이 많이질수록 "1시간동안 길냥이를 만나는 횟수의 평균"을 구할 수 있다는 것이다. -> E(X)=n*p

 

푸아송은 λ = n*p 라고 쓰며, λ(람다)를 사용한다(n과 p는 각각 다룰 수 없기 때문이다).

 

그리고 정말로 재미있게도, 푸아송 분포의 기대값과 분산은 간단하다

 

둘이 동일하게 λ라는 결과를 얻을 수 있다(근데 그 계산 과정이 길다, 그만큼 직접 손으로 풀어봐야 한다, 보기만 해서는 잘 모른다)

 

https://youtu.be/JOWYEDwqAtY?feature=shared