M1 溫習筆記:泊松分佈

大家好!歡迎大家來到M1統計學最有趣嘅課題之一:泊松分佈嘅溫習筆記!呢個名聽落可能會有啲陌生,但唔使擔心。佢係一個超級有用嘅工具,幫我哋理解喺時間或空間上隨機發生嘅事件。

喺呢個章節,我哋會學點樣預測以下呢啲事情嘅概率:

  • 你一個鐘頭內收到嘅電郵數量。
  • 一本書入面,一頁紙上嘅打字錯誤數量。
  • 十分鐘內到達收銀處嘅顧客數量。

溫習完呢份筆記之後,你就會明白咩係泊松分佈、幾時用佢、同埋點樣用佢嚟計算概率。我哋一齊開始啦!


1. 泊松分佈到底係咩嚟㗎?

想像一下你試吓數某件事發生咗幾多次,但呢啲事件都係隨機同獨立嘅。二項分佈適用於有固定次數試驗嘅情況(例如擲硬幣10次)。但如果無固定嘅「試驗次數」呢?如果只係喺固定嘅時間區間入面,等啲事件發生呢?

呢個時候,泊松分佈就派上用場喇!佢係一種離散概率分佈,幫我哋搵出喺固定嘅時間、面積、體積或距離區間內,特定數量事件發生嘅概率。

關鍵參數:Lambda (λ)

成個泊松分佈都圍繞住一個唯一而超級重要嘅參數:lambda,寫做λ

λ (Lambda) = 喺一個特定區間內,事件嘅平均發生數量。

可以當佢係「平均發生率」。例如:

  • 如果一個客戶服務中心平均每個鐘收到10個電話,咁λ就係10(對於一個鐘嘅區間)。
  • 如果一位生物學家喺一片田野入面,平均每平方米搵到2朵稀有花朵,咁λ就係2(對於1平方米嘅區間)。
幾時可以用泊松分佈?

泊松分佈唔係萬能㗎!一個情況要符合以下條件,先至可以用泊松分佈嚟建立模型:

  1. 事件以恆定嘅平均發生率發生(即係λ嘅數值唔會變)。
  2. 事件之間互相獨立(即係一件事件嘅發生唔會令另一件事件變得更可能或更唔可能發生)。
  3. 事件隨機發生。
  4. 兩個事件唔可以喺同一瞬間發生。
重點提示:第一部分

泊松分佈用於計算喺固定區間(例如時間或空間)內,隨機、獨立事件嘅數量。佢唯一嘅參數係λ (lambda),即係該區間內事件嘅平均發生率


2. 泊松概率公式

好啦,到重頭戲喇!如果隨機變量`X`遵循泊松分佈,平均發生率為λ,我哋會咁樣寫:

$$ X \sim Po(\lambda) $$

喺該區間內觀察到剛好k個事件嘅概率,可以用以下公式表示:

$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \quad \text{for } k = 0, 1, 2, ... $$

唔使俾條公式嚇親!我哋嚟拆解一下:

  • P(X=k) 係我哋想搵嘅嘢:即係事件數量剛好係`k`嘅概率。
  • k 係你感興趣嘅特定事件數量(例如,剛好有3個電話嘅概率)。
  • λ 係該區間內事件嘅平均數量。
  • e 係歐拉數(你部計數機識佢㗎,佢大約係2.718)。
  • k! 係「k階乘」,即係 k × (k-1) × ... × 2 × 1(例如,3! = 3 × 2 × 1 = 6)。記住 0! = 1
逐步範例

一個客戶服務熱線平均每個鐘頭收到5個電話。喺一個特定嘅鐘頭內,佢哋剛好收到2個電話嘅概率係幾多?

步驟1:確認分佈同參數。

  • 事件(電話)喺固定嘅區間(一個鐘)內隨機發生。呢個聽落就好似泊松分佈!
  • 平均發生率係每個鐘5個電話,所以 λ = 5
  • 我哋想搵剛好有2個電話嘅概率,所以 k = 2
  • 因此,我哋有 $$X \sim Po(5)$$ 並且需要搵 $$P(X=2)$$。

步驟2:將數值代入公式。

$$ P(X=2) = \frac{e^{-5} \cdot 5^2}{2!} $$

步驟3:計算結果。

$$ P(X=2) = \frac{e^{-5} \cdot 25}{2 \times 1} $$ $$ P(X=2) = \frac{(0.006738) \cdot 25}{2} $$ $$ P(X=2) \approx 0.0842 $$

所以,喺嗰個鐘頭內剛好收到2個電話嘅機會大約係8.42%。

常見錯誤要避開
  • 混淆λ同k:記住,`λ`係該區間嘅平均數,`k`係你測試嘅特定數值。
  • 忘記0! = 1:零事件嘅概率係 $$P(X=0) = \frac{e^{-\lambda} \lambda^0}{0!} = e^{-\lambda}$$,因為 $$\lambda^0=1$$ 同 $$0!=1$$。
  • 計數機錯誤:輸入階乘同埋`e`嘅次方時要小心。記得用你部計數機上面嘅`e^x`按鈕。

3. 泊松分佈嘅特性

呢個部分簡單又重要。課程要求你認識泊松分佈嘅均值同方差。唔需要證明㗎!

均值同方差

對於一個隨機變量 $$X \sim Po(\lambda)$$:

  • 均值(或者期望值)係: $$ E(X) = \lambda $$
  • 方差係: $$ Var(X) = \lambda $$
記憶法

呢個有個簡單嘅記法:「泊松分佈好簡單,均值方差都一樣!」

呢個係泊松分佈一個獨特嘅性質!如果題目話你知一個離散分佈嘅均值同佢嘅方差相等,咁就係一個好大嘅提示,話你可能係處理緊泊松分佈嘅問題喇。

你知唔知?

標準差係方差嘅平方根。所以對於泊松分佈嚟講,標準差就係 $$\sqrt{\lambda}$$。

快速回顧區

如果 $$X \sim Po(3)$$,咁:

  • 事件嘅平均數量係3。
  • 均值 `E(X)` 係3。
  • 方差 `Var(X)` 係3。

睇吓?係咪好簡單呢!


4. 調整發生率 (λ)

呢個係考試問題入面好常見嘅「考法」,所以要特別留意!λ嘅數值必須要同題目中嘅區間相符

如果題目俾你一個區間嘅平均發生率,但係問緊另一個*唔同*區間嘅概率,你必須要先調整λ。

逐步範例

一個網站平均每個鐘頭收到180次點擊。喺1分鐘嘅時間內,剛好收到4次點擊嘅概率係幾多?

步驟1:搵出原始發生率。

  • 發生率係每60分鐘180次點擊。

步驟2:將發生率 (λ) 調整到新嘅區間(1分鐘)。

  • 平均每分鐘發生率 = $$\frac{180 \text{ 次點擊}}{60 \text{ 分鐘}} = 3$$ 次點擊每分鐘。
  • 我哋新嘅、已調整嘅 λ = 3

步驟3:喺泊松公式中使用新嘅λ。

  • 我哋想搵喺呢個1分鐘區間內有4次點擊(k=4)嘅概率。
  • 所以,我哋需要為 $$X \sim Po(3)$$ 計算 $$P(X=4)$$。
$$ P(X=4) = \frac{e^{-3} \cdot 3^4}{4!} = \frac{e^{-3} \cdot 81}{24} \approx 0.168 $$

喺開始計算之前,調整λ係至關重要㗎!


5. 使用泊松分佈近似二項分佈

有時,用二項分佈 $$X \sim B(n, p)$$ 計算概率會好困難,尤其當`n`好大嘅時候。想像一下人手計算 $$C(500, 2)$$ 有幾麻煩!

值得慶幸嘅係,當符合特定條件時,我哋可以用簡單得多嘅泊松分佈嚟做一個出色嘅近似。

近似嘅條件

如果你想用泊松分佈近似一個二項分佈,需要滿足以下條件:

  1. n 好大(通常 `n > 50` 係一個好嘅參考)。
  2. p 好細(通常 `p < 0.1` 係一個好嘅參考)。

簡單嚟講,我哋係喺大量試驗中,計算一個稀有事件「成功」嘅次數。

點樣進行近似

如果 $$X \sim B(n, p)$$ 並且符合上面嘅條件,你可以用以下方法嚟近似:

$$ Y \sim Po(\lambda) \quad \text{where} \quad \lambda = np $$

點解係 `λ = np` 呢?因為二項分佈嘅均值就係 `np`。我哋將泊松分佈嘅均值設為我哋要近似嘅二項分佈嘅均值。咁樣做完全合情合理!

逐步範例

一間工廠生產大量電腦晶片。晶片有缺陷嘅概率係0.005。晶片每400塊裝一盒。搵出一個盒入面剛好有3塊有缺陷晶片嘅近似概率。

步驟1:確認原始分佈。

  • 呢個係一個二項分佈嘅情況。我哋有固定嘅試驗次數(`n=400`),同埋一個恆定嘅成功概率(晶片有缺陷,`p=0.005`)。
  • 所以,$$X \sim B(400, 0.005)$$。

步驟2:檢查泊松近似嘅條件。

  • `n = 400`(好大)。
  • `p = 0.005`(好細)。
  • 條件符合!用二項公式計算會好麻煩。我哋用泊松分佈啦。

步驟3:為泊松模型計算λ。

$$ \lambda = np = 400 \times 0.005 = 2 $$

步驟4:喺泊松公式中使用新嘅λ。

  • 我哋而家可以用 $$Y \sim Po(2)$$ 嚟建立模型。
  • 我哋想搵剛好有3塊有缺陷晶片嘅概率,所以k=3。
$$ P(Y=3) = \frac{e^{-2} \cdot 2^3}{3!} = \frac{e^{-2} \cdot 8}{6} \approx 0.180 $$

近似概率大約係18.0%。

重點提示:第五部分

當你見到一個二項分佈問題,如果 `n` 好大`p` 好細,就即刻諗起「泊松近似」!只要計算 λ = np 再用泊松公式就得喇。咁樣簡單得多!