M1 溫習筆記:泊松分佈
大家好!歡迎大家來到M1統計學最有趣嘅課題之一:泊松分佈嘅溫習筆記!呢個名聽落可能會有啲陌生,但唔使擔心。佢係一個超級有用嘅工具,幫我哋理解喺時間或空間上隨機發生嘅事件。
喺呢個章節,我哋會學點樣預測以下呢啲事情嘅概率:
- 你一個鐘頭內收到嘅電郵數量。
- 一本書入面,一頁紙上嘅打字錯誤數量。
- 十分鐘內到達收銀處嘅顧客數量。
溫習完呢份筆記之後,你就會明白咩係泊松分佈、幾時用佢、同埋點樣用佢嚟計算概率。我哋一齊開始啦!
1. 泊松分佈到底係咩嚟㗎?
想像一下你試吓數某件事發生咗幾多次,但呢啲事件都係隨機同獨立嘅。二項分佈適用於有固定次數試驗嘅情況(例如擲硬幣10次)。但如果無固定嘅「試驗次數」呢?如果只係喺固定嘅時間區間入面,等啲事件發生呢?
呢個時候,泊松分佈就派上用場喇!佢係一種離散概率分佈,幫我哋搵出喺固定嘅時間、面積、體積或距離區間內,特定數量事件發生嘅概率。
關鍵參數:Lambda (λ)
成個泊松分佈都圍繞住一個唯一而超級重要嘅參數:lambda,寫做λ。
λ (Lambda) = 喺一個特定區間內,事件嘅平均發生數量。
可以當佢係「平均發生率」。例如:
- 如果一個客戶服務中心平均每個鐘收到10個電話,咁λ就係10(對於一個鐘嘅區間)。
- 如果一位生物學家喺一片田野入面,平均每平方米搵到2朵稀有花朵,咁λ就係2(對於1平方米嘅區間)。
幾時可以用泊松分佈?
泊松分佈唔係萬能㗎!一個情況要符合以下條件,先至可以用泊松分佈嚟建立模型:
- 事件以恆定嘅平均發生率發生(即係λ嘅數值唔會變)。
- 事件之間互相獨立(即係一件事件嘅發生唔會令另一件事件變得更可能或更唔可能發生)。
- 事件隨機發生。
- 兩個事件唔可以喺同一瞬間發生。
重點提示:第一部分
泊松分佈用於計算喺固定區間(例如時間或空間)內,隨機、獨立事件嘅數量。佢唯一嘅參數係λ (lambda),即係該區間內事件嘅平均發生率。
2. 泊松概率公式
好啦,到重頭戲喇!如果隨機變量`X`遵循泊松分佈,平均發生率為λ,我哋會咁樣寫:
$$ X \sim Po(\lambda) $$喺該區間內觀察到剛好k個事件嘅概率,可以用以下公式表示:
$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \quad \text{for } k = 0, 1, 2, ... $$唔使俾條公式嚇親!我哋嚟拆解一下:
- P(X=k) 係我哋想搵嘅嘢:即係事件數量剛好係`k`嘅概率。
- k 係你感興趣嘅特定事件數量(例如,剛好有3個電話嘅概率)。
- λ 係該區間內事件嘅平均數量。
- e 係歐拉數(你部計數機識佢㗎,佢大約係2.718)。
- k! 係「k階乘」,即係 k × (k-1) × ... × 2 × 1(例如,3! = 3 × 2 × 1 = 6)。記住 0! = 1。
逐步範例
一個客戶服務熱線平均每個鐘頭收到5個電話。喺一個特定嘅鐘頭內,佢哋剛好收到2個電話嘅概率係幾多?
步驟1:確認分佈同參數。
- 事件(電話)喺固定嘅區間(一個鐘)內隨機發生。呢個聽落就好似泊松分佈!
- 平均發生率係每個鐘5個電話,所以 λ = 5。
- 我哋想搵剛好有2個電話嘅概率,所以 k = 2。
- 因此,我哋有 $$X \sim Po(5)$$ 並且需要搵 $$P(X=2)$$。
步驟2:將數值代入公式。
$$ P(X=2) = \frac{e^{-5} \cdot 5^2}{2!} $$步驟3:計算結果。
$$ P(X=2) = \frac{e^{-5} \cdot 25}{2 \times 1} $$ $$ P(X=2) = \frac{(0.006738) \cdot 25}{2} $$ $$ P(X=2) \approx 0.0842 $$所以,喺嗰個鐘頭內剛好收到2個電話嘅機會大約係8.42%。
常見錯誤要避開
- 混淆λ同k:記住,`λ`係該區間嘅平均數,`k`係你測試嘅特定數值。
- 忘記0! = 1:零事件嘅概率係 $$P(X=0) = \frac{e^{-\lambda} \lambda^0}{0!} = e^{-\lambda}$$,因為 $$\lambda^0=1$$ 同 $$0!=1$$。
- 計數機錯誤:輸入階乘同埋`e`嘅次方時要小心。記得用你部計數機上面嘅`e^x`按鈕。
3. 泊松分佈嘅特性
呢個部分簡單又重要。課程要求你認識泊松分佈嘅均值同方差。唔需要證明㗎!
均值同方差
對於一個隨機變量 $$X \sim Po(\lambda)$$:
- 均值(或者期望值)係: $$ E(X) = \lambda $$
- 方差係: $$ Var(X) = \lambda $$
記憶法
呢個有個簡單嘅記法:「泊松分佈好簡單,均值方差都一樣!」
呢個係泊松分佈一個獨特嘅性質!如果題目話你知一個離散分佈嘅均值同佢嘅方差相等,咁就係一個好大嘅提示,話你可能係處理緊泊松分佈嘅問題喇。
你知唔知?
標準差係方差嘅平方根。所以對於泊松分佈嚟講,標準差就係 $$\sqrt{\lambda}$$。
快速回顧區
如果 $$X \sim Po(3)$$,咁:
- 事件嘅平均數量係3。
- 均值 `E(X)` 係3。
- 方差 `Var(X)` 係3。
睇吓?係咪好簡單呢!
4. 調整發生率 (λ)
呢個係考試問題入面好常見嘅「考法」,所以要特別留意!λ嘅數值必須要同題目中嘅區間相符。
如果題目俾你一個區間嘅平均發生率,但係問緊另一個*唔同*區間嘅概率,你必須要先調整λ。
逐步範例
一個網站平均每個鐘頭收到180次點擊。喺1分鐘嘅時間內,剛好收到4次點擊嘅概率係幾多?
步驟1:搵出原始發生率。
- 發生率係每60分鐘180次點擊。
步驟2:將發生率 (λ) 調整到新嘅區間(1分鐘)。
- 平均每分鐘發生率 = $$\frac{180 \text{ 次點擊}}{60 \text{ 分鐘}} = 3$$ 次點擊每分鐘。
- 我哋新嘅、已調整嘅 λ = 3。
步驟3:喺泊松公式中使用新嘅λ。
- 我哋想搵喺呢個1分鐘區間內有4次點擊(k=4)嘅概率。
- 所以,我哋需要為 $$X \sim Po(3)$$ 計算 $$P(X=4)$$。
喺開始計算之前,調整λ係至關重要㗎!
5. 使用泊松分佈近似二項分佈
有時,用二項分佈 $$X \sim B(n, p)$$ 計算概率會好困難,尤其當`n`好大嘅時候。想像一下人手計算 $$C(500, 2)$$ 有幾麻煩!
值得慶幸嘅係,當符合特定條件時,我哋可以用簡單得多嘅泊松分佈嚟做一個出色嘅近似。
近似嘅條件
如果你想用泊松分佈近似一個二項分佈,需要滿足以下條件:
- n 好大(通常 `n > 50` 係一個好嘅參考)。
- p 好細(通常 `p < 0.1` 係一個好嘅參考)。
簡單嚟講,我哋係喺大量試驗中,計算一個稀有事件「成功」嘅次數。
點樣進行近似
如果 $$X \sim B(n, p)$$ 並且符合上面嘅條件,你可以用以下方法嚟近似:
$$ Y \sim Po(\lambda) \quad \text{where} \quad \lambda = np $$點解係 `λ = np` 呢?因為二項分佈嘅均值就係 `np`。我哋將泊松分佈嘅均值設為我哋要近似嘅二項分佈嘅均值。咁樣做完全合情合理!
逐步範例
一間工廠生產大量電腦晶片。晶片有缺陷嘅概率係0.005。晶片每400塊裝一盒。搵出一個盒入面剛好有3塊有缺陷晶片嘅近似概率。
步驟1:確認原始分佈。
- 呢個係一個二項分佈嘅情況。我哋有固定嘅試驗次數(`n=400`),同埋一個恆定嘅成功概率(晶片有缺陷,`p=0.005`)。
- 所以,$$X \sim B(400, 0.005)$$。
步驟2:檢查泊松近似嘅條件。
- `n = 400`(好大)。
- `p = 0.005`(好細)。
- 條件符合!用二項公式計算會好麻煩。我哋用泊松分佈啦。
步驟3:為泊松模型計算λ。
$$ \lambda = np = 400 \times 0.005 = 2 $$步驟4:喺泊松公式中使用新嘅λ。
- 我哋而家可以用 $$Y \sim Po(2)$$ 嚟建立模型。
- 我哋想搵剛好有3塊有缺陷晶片嘅概率,所以k=3。
近似概率大約係18.0%。
重點提示:第五部分
當你見到一個二項分佈問題,如果 `n` 好大而 `p` 好細,就即刻諗起「泊松近似」!只要計算 λ = np 再用泊松公式就得喇。咁樣簡單得多!