文章目錄
- 一、引例——鯨魚研究
- 二、泊松分布
一、引例——鯨魚研究
有生態學家對生活在北冰洋水域的鯨魚進行了跟蹤研究,他們利用一臺水下無人機來探測鯨魚數量,這是近十天的數據:
第1天 | 第2天 | 第3天 | 第4天 | 第5天 | 第6天 | 第7天 | 第8天 | 第9天 | 第10天 |
---|---|---|---|---|---|---|---|---|---|
10 | 10 | 14 | 12 | 11 | 15 | 8 | 9 | 7 | 6 |
最后四天鯨魚數目的連續減少趨勢令人擔憂,水質惡化嗎?。
注意到每天探測到的鯨魚不會是同時發生的,而是分散在一天的不同時間段。
這事實上是一個隨機事件的時間分布,于是我們將一天時間劃分為12段,那么第一天的數據如下:
那么對于這組數據,鯨魚出現的概率 p = 5/6
我們試圖把魚群數量轉換成時間上的二項分布,那么 12 個 時間段就轉化成了一個二項分布,一天內出現10頭鯨魚的概率如下:
Cnk?pk?(1?p)n?k=C1210?(56)10?(16)2=0.2961C_n^k \cdot p^k \cdot (1-p)^{n-k} = C_{12}^{10} \cdot (\frac{5}{6})^{10} \cdot (\frac{1}{6})^2 = 0.2961 Cnk??pk?(1?p)n?k=C1210??(65?)10?(61?)2=0.2961
這正是 拉普拉斯 得意門生 西莫恩·德尼·泊松(1781~1840) 的思路。
前面我們選取的是第一天的數據,我們現在選取第二天的數據,有14頭鯨魚,12個時間段有些不夠用,于是我們劃分成24個時間段。
則一天中出現14頭鯨魚的概率:
pi=1424=712則Cnk?pk?(1?p)n?k=C2414?(712)14?(512)10=0.1634\begin{align} & p_i = \frac{14}{24} = \frac{7}{12} & 則 C_n^k \cdot p^k \cdot (1-p)^{n-k} = C_{24}^{14} \cdot (\frac{7}{12})^{14} \cdot (\frac{5}{12})^{10} = 0.1634 \end{align} ?pi?=2414?=127??則Cnk??pk?(1?p)n?k=C2414??(127?)14?(125?)10=0.1634??
但是我們上面的思考有一個漏洞就:一個時間段是有可能有多頭鯨魚出現的
這說明什么?時間段太大了!我們直接把一天劃分成無數個時間段,單獨每個時間段都趨于無窮小,這樣無論兩頭鯨魚的時間挨得有多近,都能區分開來,則有:
limn→∞Cnk?pk?(1?p)n?k,其中:n代表時間分段數,p代表任意時間段內鯨魚出現的概率p的估計不再以某一天數據為準,而是選取平均值,即p=μn\begin{align} & lim_{n \rightarrow \infty} C_n^k \cdot p^k \cdot (1-p)^{n-k},其中:\\ & n代表時間分段數,p代表任意時間段內鯨魚出現的概率 \\ & p的估計不再以某一天數據為準,而是選取平均值,即 p = \frac{\mu}{n} \end{align} ?limn→∞?Cnk??pk?(1?p)n?k,其中:n代表時間分段數,p代表任意時間段內鯨魚出現的概率p的估計不再以某一天數據為準,而是選取平均值,即p=nμ???
公式的進一步推導:
limn→∞Cnk?pk?(1?p)n?k=limn→∞Cnk?(μn)k?(1?μn)n?k=lim?n→∞n(n?1)(n?2)?(n?k+1)k!?μknk?(1?μn)n?k=μkk!?lim?n→∞n(n?1)(n?2)?(n?k+1)nk?(1?μn)n?k=μkk!?lim?n→∞nn(n?1)n(n?2)n?(n?k+1)n?(1?μn)n?k=μkk!?lim?n→∞1?1…1?(1?μn)n?k=μkk!?lim?n→∞(1?μn)n?k=μkk!?lim?n→∞(1?μn)n?lim?n→∞(1?μn)?k=μkk!?lim?n→∞(1?μn)n=μkk!e?μ(等價無窮小)\begin{align} & lim_{n \rightarrow \infty} C_n^k \cdot p^k \cdot (1-p)^{n-k} \\ =& lim_{n \rightarrow \infty} C_n^k \cdot (\frac{\mu}{n})^k \cdot (1-\frac{\mu}{n})^{n-k} \\ =& \lim _{n \rightarrow \infty} \frac{n(n-1)(n-2) \cdots(n-k+1)}{k!} \cdot \frac{\mu^{k}}{n^{k}} \cdot\left(1-\frac{\mu}{n}\right)^{n-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} \frac{n(n-1)(n-2) \cdots(n-k+1)}{n^{k}} \cdot\left(1-\frac{\mu}{n}\right)^{n-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} \frac{n}{n} \frac{(n-1)}{n} \frac{(n-2)}{n} \cdots \frac{(n-k+1)}{n} \cdot\left(1-\frac{\mu}{n}\right)^{n-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} 1 \cdot 1 \dots 1 \cdot\left(1-\frac{\mu}{n}\right)^{n-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} \left(1-\frac{\mu}{n}\right)^{n-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} \left(1-\frac{\mu}{n}\right)^{n} \cdot \lim _{n \rightarrow \infty} \left(1-\frac{\mu}{n}\right)^{-k} \\ =& \frac{\mu^{k}}{k!} \cdot \lim _{n \rightarrow \infty} \left(1-\frac{\mu}{n}\right)^{n} \\ =& \frac{\mu^{k}}{k!} e^{-\mu} (等價無窮小) \\ \end{align} =========?limn→∞?Cnk??pk?(1?p)n?klimn→∞?Cnk??(nμ?)k?(1?nμ?)n?kn→∞lim?k!n(n?1)(n?2)?(n?k+1)??nkμk??(1?nμ?)n?kk!μk??n→∞lim?nkn(n?1)(n?2)?(n?k+1)??(1?nμ?)n?kk!μk??n→∞lim?nn?n(n?1)?n(n?2)??n(n?k+1)??(1?nμ?)n?kk!μk??n→∞lim?1?1…1?(1?nμ?)n?kk!μk??n→∞lim?(1?nμ?)n?kk!μk??n→∞lim?(1?nμ?)n?n→∞lim?(1?nμ?)?kk!μk??n→∞lim?(1?nμ?)nk!μk?e?μ(等價無窮小)??
二、泊松分布
我們把上面的μ 換成 λ,就得到了我們熟悉的泊松分布公式:
λkk!e?λ,其中λ代表給定時間段或空間區域內,隨機事件平均發生的次數。\frac{\lambda^k}{k!}e^{-\lambda},其中 \lambda 代表給定時間段或空間區域內,隨機事件平均發生的次數。 k!λk?e?λ,其中λ代表給定時間段或空間區域內,隨機事件平均發生的次數。
我們利用該公式計算引例中各時間段鯨魚出現數目的可能性,并用柱狀圖來表示:
我們取顯著性水平為 6.5%,那么從圖中可以得知,鯨魚數目在[5, 15]都是正常范圍,我們的樣本都在正常范圍內。
有時候我們會用用泊松分布近似二項分布,一般在 試驗次數n 很大,成功概率 p 很小,且 λ = np 為有限值時,二項分布可以用泊松分布來近似,經過前面的推導,不難明白其中緣由。