M1 溫習筆記:泊松分佈

大家好!歡迎大家來到M1統計學最有趣的課題之一:泊松分佈的溫習筆記!這個名稱聽起來可能有些陌生,但不用擔心。它是一個超級有用的工具,幫助我們理解在時間或空間上隨機發生的事件。

在這個章節,我們會學習如何預測以下這些事情的概率:

  • 你一個小時內收到的電郵數量。
  • 一本書裡面,一頁紙上的打字錯誤數量。
  • 十分鐘內到達收銀處的顧客數量。

溫習完這份筆記之後,你就會明白什麼是泊松分佈、何時使用它、以及如何使用它來計算概率。我們一起開始吧!


1. 泊松分佈究竟是什麼?

想像一下你試圖計算某件事發生了多少次,但這些事件都是隨機且獨立的。二項分佈適用於有固定次數試驗的情況(例如擲硬幣10次)。但如果沒有固定的「試驗次數」呢?如果只是在固定的時間區間內,等待事件發生呢?

這個時候,泊松分佈就派上用場了!它是一種離散概率分佈,幫助我們找出在固定的時間、面積、體積或距離區間內,特定數量事件發生的概率。

關鍵參數:Lambda (λ)

整個泊松分佈都圍繞著一個唯一而超級重要的參數:lambda,寫作λ

λ (Lambda) = 在一個特定區間內,事件的平均發生數量。

可以將它視為「平均發生率」。例如:

  • 如果一個客戶服務中心平均每個小時收到10個電話,那麼λ就是10(對於一個小時的區間)。
  • 如果一位生物學家在一片田野中,平均每平方米找到2朵稀有花朵,那麼λ就是2(對於1平方米的區間)。
何時可以使用泊松分佈?

泊松分佈並非萬能!一個情況要符合以下條件,才能使用泊松分佈來建立模型:

  1. 事件以恆定的平均發生率發生(即是λ的數值不會改變)。
  2. 事件之間互相獨立(即是一件事件的發生不會讓另一件事件變得更可能或更不可能發生)。
  3. 事件隨機發生。
  4. 兩個事件不能在同一瞬間發生。
重點提示:第一部分

泊松分佈用於計算在固定區間(例如時間或空間)內,隨機、獨立事件的數量。它唯一的參數是λ (lambda),即是該區間內事件的平均發生率


2. 泊松概率公式

好的,接下來是重頭戲了!如果隨機變量`X`遵循泊松分佈,平均發生率為λ,我們會這樣寫:

$$ X Po( lambda) $$

在該區間內觀察到剛好k個事件的概率,可以使用以下公式表示:

$$ P(X=k) = rac{e^{- lambda} lambda^k}{k!} text{for } k = 0, 1, 2, ... $$

不用被這條公式嚇到!我們來拆解一下:

  • P(X=k) 是我們想找的:即是事件數量剛好是`k`的概率。
  • k 是你感興趣的特定事件數量(例如,剛好有3個電話的概率)。
  • λ 是該區間內事件的平均數量。
  • e 是歐拉數(你的計算機認識它,它大約是2.718)。
  • k! 是「k階乘」,即是 k × (k-1) × ... × 2 × 1(例如,3! = 3 × 2 × 1 = 6)。記住 0! = 1
逐步範例

一個客戶服務熱線平均每個小時收到5個電話。在一個特定的小時內,他們剛好收到2個電話的概率是多少?

步驟1:確認分佈和參數。

  • 事件(電話)在固定的區間(一個小時)內隨機發生。這聽起來就像泊松分佈!
  • 平均發生率是每個小時5個電話,所以 λ = 5
  • 我們想找出剛好有2個電話的概率,所以 k = 2
  • 所以,我們有 $$X Po(5)$$ 並且需要找出 $$P(X=2)$$。

步驟2:將數值代入公式。

$$ P(X=2) = rac{e^{-5} cdot 5^2}{2!} $$

步驟3:計算結果。

$$ P(X=2) = rac{e^{-5} cdot 25}{2 times 1} $$$$ P(X=2) approx 0.0842 $$

所以,在那個小時內剛好收到2個電話的機會大約是8.42%。

常見錯誤要避開
  • 混淆λ和k:記住,`λ`是該區間的平均數,`k`是你測試的特定數值。
  • 忘記0! = 1:零事件的概率是 $$P(X=0) = rac{e^{- lambda} lambda^0}{0!} = e^{- lambda}$$,因為 $$ lambda^0=1$$ 和 $$0!=1$$。
  • 計算機錯誤:輸入階乘以及`e`的次方時要小心。記得用你的計算機上面的`e^x`按鈕。

3. 泊松分佈的特性

這個部分簡單又重要。課程要求你認識泊松分佈的均值和方差。不需要證明!

均值和方差

對於一個隨機變量 $$X Po( lambda)$$:

  • 均值(或者期望值)是: $$ E(X) = lambda $$
  • 方差是: $$ Var(X) = lambda $$
記憶技巧

這有一個簡單的記憶方法:「泊松分佈很簡單,均值方差都一樣!」

這是泊松分佈一個獨特的性質!如果題目告訴你一個離散分佈的均值和它的方差相等,那麼這就是一個很大的提示,表示你可能正在處理泊松分佈的問題了。

你知道嗎?

標準差是方差的平方根。所以對於泊松分佈來說,標準差就是 $$ sqrt{ lambda}$$。

快速回顧區

如果 $$X Po(3)$$,那麼:

  • 事件的平均數量是3。
  • 均值 `E(X)` 是3。
  • 方差 `Var(X)` 是3。

看到了嗎?是不是很簡單呢!


4. 調整發生率 (λ)

這是考試問題中很常見的「考法」,所以要特別留意!λ的數值必須要與題目中的區間相符

如果題目給你一個區間的平均發生率,但是問著另一個*不同*區間的概率,你必須要先調整λ。

逐步範例

一個網站平均每個小時收到180次點擊。在1分鐘的時間內,剛好收到4次點擊的概率是多少?

步驟1:找出原始發生率。

  • 發生率是每60分鐘180次點擊。

步驟2:將發生率 (λ) 調整到新的區間(1分鐘)。

  • 平均每分鐘發生率 = $$ rac{180 text{ 次點擊}}{60 text{ 分鐘}} = 3$$ 次點擊每分鐘。
  • 我們新的、已調整的 λ = 3

步驟3:在泊松公式中使用新的λ。

  • 我們想找出在這個1分鐘區間內有4次點擊(k=4)的概率。
  • 所以,我們需要為 $$X Po(3)$$ 計算 $$P(X=4)$$。
$$ P(X=4) = rac{e^{-3} cdot 3^4}{4!} = rac{e^{-3} cdot 81}{24} approx 0.168 $$

在開始計算之前,調整λ是至關重要的!


5. 使用泊松分佈近似二項分佈

有時,使用二項分佈 $$X B(n, p)$$ 計算概率會很困難,尤其當`n`很大的時候。想像一下人手計算 $$C(500, 2)$$ 有多麻煩!

值得慶幸的是,當符合特定條件時,我們可以用簡單得多的泊松分佈來做一個出色的近似。

近似的條件

如果你想使用泊松分佈近似一個二項分佈,需要滿足以下條件:

  1. n 很大(通常 `n > 50` 是一個好的參考)。
  2. p 很小(通常 `p < 0.1` 是一個好的參考)。

簡單來說,我們是在大量試驗中,計算一個稀有事件「成功」的次數。

如何進行近似

如果 $$X B(n, p)$$ 並且符合上面的條件,你可以用以下方法來近似:

$$ Y Po( lambda) text{where} quad lambda = np $$

為什麼是 `λ = np` 呢?因為二項分佈的均值就是 `np`。我們將泊松分佈的均值設為我們要近似的二項分佈的均值。這樣做完全合情合理!

逐步範例

一間工廠生產大量電腦晶片。晶片有缺陷的概率是0.005。晶片每400塊裝一盒。找出一個盒子裡面剛好有3塊有缺陷晶片的近似概率。

步驟1:確認原始分佈。

  • 這是一個二項分佈的情況。我們有固定的試驗次數(`n=400`),以及一個恆定的成功概率(晶片有缺陷,`p=0.005`)。
  • 所以,$$X B(400, 0.005)$$。

步驟2:檢查泊松近似的條件。

  • `n = 400`(很大)。
  • `p = 0.005`(很小)。
  • 條件符合!使用二項公式計算會很麻煩。我們使用泊松分佈吧。

步驟3:為泊松模型計算λ。

$$ lambda = np = 400 times 0.005 = 2 $$

步驟4:在泊松公式中使用新的λ。

  • 我們現在可以用 $$Y Po(2)$$ 來建立模型。
  • 我們想找出剛好有3塊有缺陷晶片的概率,所以k=3。
$$ P(Y=3) = rac{e^{-2} cdot 2^3}{3!} = rac{e^{-2} cdot 8}{6} approx 0.180 $$

近似概率大約是18.0%。

重點提示:第五部分

當你看到一個二項分佈問題,如果 `n` 很大`p` 很小,就立刻想起「泊松近似」!只要計算 λ = np 再使用泊松公式就可以了。這樣簡單得多!