M1 溫習筆記:泊松分佈
大家好!歡迎大家來到M1統計學最有趣的課題之一:泊松分佈的溫習筆記!這個名稱聽起來可能有些陌生,但不用擔心。它是一個超級有用的工具,幫助我們理解在時間或空間上隨機發生的事件。
在這個章節,我們會學習如何預測以下這些事情的概率:
- 你一個小時內收到的電郵數量。
- 一本書裡面,一頁紙上的打字錯誤數量。
- 十分鐘內到達收銀處的顧客數量。
溫習完這份筆記之後,你就會明白什麼是泊松分佈、何時使用它、以及如何使用它來計算概率。我們一起開始吧!
1. 泊松分佈究竟是什麼?
想像一下你試圖計算某件事發生了多少次,但這些事件都是隨機且獨立的。二項分佈適用於有固定次數試驗的情況(例如擲硬幣10次)。但如果沒有固定的「試驗次數」呢?如果只是在固定的時間區間內,等待事件發生呢?
這個時候,泊松分佈就派上用場了!它是一種離散概率分佈,幫助我們找出在固定的時間、面積、體積或距離區間內,特定數量事件發生的概率。
關鍵參數:Lambda (λ)
整個泊松分佈都圍繞著一個唯一而超級重要的參數:lambda,寫作λ。
λ (Lambda) = 在一個特定區間內,事件的平均發生數量。
可以將它視為「平均發生率」。例如:
- 如果一個客戶服務中心平均每個小時收到10個電話,那麼λ就是10(對於一個小時的區間)。
- 如果一位生物學家在一片田野中,平均每平方米找到2朵稀有花朵,那麼λ就是2(對於1平方米的區間)。
何時可以使用泊松分佈?
泊松分佈並非萬能!一個情況要符合以下條件,才能使用泊松分佈來建立模型:
- 事件以恆定的平均發生率發生(即是λ的數值不會改變)。
- 事件之間互相獨立(即是一件事件的發生不會讓另一件事件變得更可能或更不可能發生)。
- 事件隨機發生。
- 兩個事件不能在同一瞬間發生。
重點提示:第一部分
泊松分佈用於計算在固定區間(例如時間或空間)內,隨機、獨立事件的數量。它唯一的參數是λ (lambda),即是該區間內事件的平均發生率。
2. 泊松概率公式
好的,接下來是重頭戲了!如果隨機變量`X`遵循泊松分佈,平均發生率為λ,我們會這樣寫:
$$ X Po( lambda) $$在該區間內觀察到剛好k個事件的概率,可以使用以下公式表示:
$$ P(X=k) = rac{e^{- lambda} lambda^k}{k!} text{for } k = 0, 1, 2, ... $$不用被這條公式嚇到!我們來拆解一下:
- P(X=k) 是我們想找的:即是事件數量剛好是`k`的概率。
- k 是你感興趣的特定事件數量(例如,剛好有3個電話的概率)。
- λ 是該區間內事件的平均數量。
- e 是歐拉數(你的計算機認識它,它大約是2.718)。
- k! 是「k階乘」,即是 k × (k-1) × ... × 2 × 1(例如,3! = 3 × 2 × 1 = 6)。記住 0! = 1。
逐步範例
一個客戶服務熱線平均每個小時收到5個電話。在一個特定的小時內,他們剛好收到2個電話的概率是多少?
步驟1:確認分佈和參數。
- 事件(電話)在固定的區間(一個小時)內隨機發生。這聽起來就像泊松分佈!
- 平均發生率是每個小時5個電話,所以 λ = 5。
- 我們想找出剛好有2個電話的概率,所以 k = 2。
- 所以,我們有 $$X Po(5)$$ 並且需要找出 $$P(X=2)$$。
步驟2:將數值代入公式。
$$ P(X=2) = rac{e^{-5} cdot 5^2}{2!} $$步驟3:計算結果。
$$ P(X=2) = rac{e^{-5} cdot 25}{2 times 1} $$$$ P(X=2) approx 0.0842 $$所以,在那個小時內剛好收到2個電話的機會大約是8.42%。
常見錯誤要避開
- 混淆λ和k:記住,`λ`是該區間的平均數,`k`是你測試的特定數值。
- 忘記0! = 1:零事件的概率是 $$P(X=0) = rac{e^{- lambda} lambda^0}{0!} = e^{- lambda}$$,因為 $$ lambda^0=1$$ 和 $$0!=1$$。
- 計算機錯誤:輸入階乘以及`e`的次方時要小心。記得用你的計算機上面的`e^x`按鈕。
3. 泊松分佈的特性
這個部分簡單又重要。課程要求你認識泊松分佈的均值和方差。不需要證明!
均值和方差
對於一個隨機變量 $$X Po( lambda)$$:
- 均值(或者期望值)是: $$ E(X) = lambda $$
- 方差是: $$ Var(X) = lambda $$
記憶技巧
這有一個簡單的記憶方法:「泊松分佈很簡單,均值方差都一樣!」
這是泊松分佈一個獨特的性質!如果題目告訴你一個離散分佈的均值和它的方差相等,那麼這就是一個很大的提示,表示你可能正在處理泊松分佈的問題了。
你知道嗎?
標準差是方差的平方根。所以對於泊松分佈來說,標準差就是 $$ sqrt{ lambda}$$。
快速回顧區
如果 $$X Po(3)$$,那麼:
- 事件的平均數量是3。
- 均值 `E(X)` 是3。
- 方差 `Var(X)` 是3。
看到了嗎?是不是很簡單呢!
4. 調整發生率 (λ)
這是考試問題中很常見的「考法」,所以要特別留意!λ的數值必須要與題目中的區間相符。
如果題目給你一個區間的平均發生率,但是問著另一個*不同*區間的概率,你必須要先調整λ。
逐步範例
一個網站平均每個小時收到180次點擊。在1分鐘的時間內,剛好收到4次點擊的概率是多少?
步驟1:找出原始發生率。
- 發生率是每60分鐘180次點擊。
步驟2:將發生率 (λ) 調整到新的區間(1分鐘)。
- 平均每分鐘發生率 = $$rac{180 text{ 次點擊}}{60 text{ 分鐘}} = 3$$ 次點擊每分鐘。
- 我們新的、已調整的 λ = 3。
步驟3:在泊松公式中使用新的λ。
- 我們想找出在這個1分鐘區間內有4次點擊(k=4)的概率。
- 所以,我們需要為 $$X Po(3)$$ 計算 $$P(X=4)$$。
在開始計算之前,調整λ是至關重要的!
5. 使用泊松分佈近似二項分佈
有時,使用二項分佈 $$X B(n, p)$$ 計算概率會很困難,尤其當`n`很大的時候。想像一下人手計算 $$C(500, 2)$$ 有多麻煩!
值得慶幸的是,當符合特定條件時,我們可以用簡單得多的泊松分佈來做一個出色的近似。
近似的條件
如果你想使用泊松分佈近似一個二項分佈,需要滿足以下條件:
- n 很大(通常 `n > 50` 是一個好的參考)。
- p 很小(通常 `p < 0.1` 是一個好的參考)。
簡單來說,我們是在大量試驗中,計算一個稀有事件「成功」的次數。
如何進行近似
如果 $$X B(n, p)$$ 並且符合上面的條件,你可以用以下方法來近似:
$$ Y Po( lambda) text{where} quad lambda = np $$為什麼是 `λ = np` 呢?因為二項分佈的均值就是 `np`。我們將泊松分佈的均值設為我們要近似的二項分佈的均值。這樣做完全合情合理!
逐步範例
一間工廠生產大量電腦晶片。晶片有缺陷的概率是0.005。晶片每400塊裝一盒。找出一個盒子裡面剛好有3塊有缺陷晶片的近似概率。
步驟1:確認原始分佈。
- 這是一個二項分佈的情況。我們有固定的試驗次數(`n=400`),以及一個恆定的成功概率(晶片有缺陷,`p=0.005`)。
- 所以,$$X B(400, 0.005)$$。
步驟2:檢查泊松近似的條件。
- `n = 400`(很大)。
- `p = 0.005`(很小)。
- 條件符合!使用二項公式計算會很麻煩。我們使用泊松分佈吧。
步驟3:為泊松模型計算λ。
$$ lambda = np = 400 times 0.005 = 2 $$步驟4:在泊松公式中使用新的λ。
- 我們現在可以用 $$Y Po(2)$$ 來建立模型。
- 我們想找出剛好有3塊有缺陷晶片的概率,所以k=3。
近似概率大約是18.0%。
重點提示:第五部分
當你看到一個二項分佈問題,如果 `n` 很大而 `p` 很小,就立刻想起「泊松近似」!只要計算 λ = np 再使用泊松公式就可以了。這樣簡單得多!