M1 統計學:二項分佈和泊松分佈的應用

大家好!歡迎來到M1統計學中最實用的課題之一。在之前的章節中,你們學習了兩個強大的機率工具:二項分佈泊松分佈。現在,是時候將它們應用出來了!

這一章的重點就是要你們成為一個機率偵探。你將會學會如何分析一個現實世界的問題,並弄清楚應該用哪個工具去解決問題。就好像你懂得何時用錘子,何時用螺絲刀一樣。掌握了這一點,你就能夠解決各式各樣的問題,從工廠的品質管制到預測商店的顧客流量。我們開始吧!


1. 快速回顧:認識這些分佈

在我們應用它們之前,不如先快速回顧一下我們的兩個主角。就算你生疏了少許都不用擔心,這個回顧會幫你追回進度!

二項分佈:計算成功次數

當你遇到一個情況,當中包含固定次數的試驗,而每次試驗都只有兩種可能的結果(例如成功/失敗、是/否、有缺陷/無缺陷)時,就應該想起二項分佈。

例子:想像你正在猜一份10題的多項選擇題測驗。每條問題都是一次「試驗」。你答對(「成功」)或者答錯(「失敗」)。二項分佈可以幫助我們找到恰好答對例如3條問題的機率。

二項分佈的條件 (記住B.I.N.S.口訣!)

要一個情況可以用二項分佈來建模,它必須符合以下四個條件:

Binary (二元):每次試驗只有兩種可能結果(成功或失敗)。

Independent (獨立):一次試驗的結果不會影響另一次試驗的結果。

Number of trials (固定次數):試驗次數 n 是預先固定的。

Same probability (相同機率):每次試驗成功的機率 p 都是一樣的。

你需要用到的公式

如果隨機變數 X 服從二項分佈,我們寫成 $$X \sim B(n, p)$$

機率公式:n 次試驗中獲得恰好 k 次成功的機率是:

$$ P(X=k) = C_k^n p^k (1-p)^{n-k} $$

平均值(期望值):平均成功次數。

$$ E(X) = np $$

變異數:衡量結果分散程度的指標。

$$ Var(X) = np(1-p) $$
重點提示

當你在固定次數的嘗試 (n) 中計算「成功」的次數時,就用二項分佈


泊松分佈:計算在某個區間內發生的事件次數

當你計算一個事件在時間、面積或空間的固定區間內發生的次數時,就應該想起泊松分佈。關鍵是這些事件是隨機發生並以恆定的平均速率發生的。

例子:想像你在一家電話中心工作。你想知道在下一個小時內恰好接到5個電話的機率。你知平均每小時接到8個電話。泊松分佈就是處理這種情況的最佳工具。

泊松分佈的條件

• 事件以恆定平均速率(用 λ 表示)發生。

• 事件是隨機互相獨立的(一個電話的到來不會讓另一個電話更可能或更不可能到來)。

你需要用到的公式

如果隨機變數 X 服從泊松分佈,我們寫成 $$X \sim Po(\lambda)$$ 其中 λ (lambda) 是在指定區間內事件發生的平均次數。

機率公式:在該區間內恰好發生 k 次事件的機率是:

$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$

平均值(期望值):這個就是平均速率!

$$ E(X) = \lambda $$

變異數:超容易記!

$$ Var(X) = \lambda $$
你知道嗎?

對於泊松分佈,平均值和變異數永遠都是一樣的!這是一個獨有的特性,有時會是考試題目的一個小提示。

重點提示

當你在連續的區間(例如時間或空間)內發生的事件次數,以及給了一個平均速率 (λ) 時,就用泊松分佈


2. 重頭戲:如何選擇合適的分佈

這是這一章最重要的技巧。當你閱讀一個問題時,你需要尋找線索來決定它是一個二項分佈問題還是泊松分佈問題。這裡有一個方便的比較表來幫助你決定。

| 特徵 | 二項分佈 | 泊松分佈 || ----------------------- | ----------------------------------------------------------- | --------------------------------------------------------- || 我們數的是什麼? | 成功的次數 | 事件的次數 || 設定是怎樣的? | 在固定次數的試驗 (n) 中 | 在固定區間(時間、空間等)內 || 主要參數 | n(試驗次數)和 p(成功機率) | λ(區間內事件發生的平均次數) || 線索詞 | 「20件物品中...」、「擲了15次硬幣...」、「50個樣本中...」 | 「每小時...」、「每平方米...」、「一分鐘內...」 || 例子 | 擲10次硬幣有3次是正面的機率。 | 一頁書上面有5個錯字的機率。 |

簡單決策指南

當你閱讀一個問題時,問自己這些問題:

1. 我是不是給了一個固定次數的嘗試(例如 n=20),以及每次嘗試的成功機率(例如 p=0.1)?
如果是,那幾乎肯定是二項分佈

2. 我是不是給了一個在一段時間或空間內發生的某樣東西的平均速率(例如每小時3個顧客)?
如果是,那幾乎肯定是泊松分佈

就算一開始覺得有些難都不用擔心。多做一些練習,你就會越來越快地找到線索了!


3. 實例演練:將理論付諸實踐

例子1:籃球員 (二項分佈)

一位籃球員射入罰球的機率是70%。如果他在一場比賽中射8個罰球,他恰好射入其中6個的機率是多少?

逐步解答:

1. 判斷分佈:
• 有沒有固定次數的試驗?有,n = 8 個罰球。
• 有沒有兩種結果?有,射入(「成功」)或者射失(「失敗」)。
• 成功機率是常數?有,每個罰球的 p = 0.7
• 試驗是不是獨立?有,一次射球不會影響下一次。
這完全符合 B.I.N.S. 的條件。所以,我們用二項分佈!我們有 $$X \sim B(8, 0.7)$$。

2. 確定變數:
n = 8
p = 0.7
1-p = 0.3
k = 6(我們想得到恰好6次成功)

3. 套用公式:
$$ P(X=6) = C_6^8 (0.7)^6 (0.3)^{8-6} $$
$$ P(X=6) = 28 \times (0.7)^6 \times (0.3)^2 $$
$$ P(X=6) = 28 \times 0.117649 \times 0.09 $$
$$ P(X=6) \approx 0.2965 $$

4. 最終答案:
他恰好射入6個罰球的機率約為 0.2965 (或 29.65%)。


例子2:咖啡店 (泊松分佈)

一家小型咖啡店平均每10分鐘有4個顧客。在10分鐘內恰好有3個顧客到達的機率是多少?那麼在5分鐘內呢?

甲部:10分鐘內的機率

1. 判斷分佈:
我們計算著在固定區間(10分鐘)內的事件(顧客到來)次數,以及給了平均速率。這是一個經典的泊松分佈問題!

2. 確定變數:
• 區間是10分鐘。
• 這個區間的平均速率是 λ = 4。
• 我們想找恰好 k = 3 個事件發生的機率。
所以,$$X \sim Po(4)$$。

3. 套用公式:
$$ P(X=3) = \frac{e^{-4} 4^3}{3!} $$
$$ P(X=3) = \frac{e^{-4} \times 64}{6} $$
$$ P(X=3) \approx 0.018315 \times \frac{64}{6} \approx 0.1954 $$

4. 最終答案:
在10分鐘內恰好有3個顧客到達的機率約為 0.1954。

乙部:5分鐘內的機率

1. 調整 λ! (這是一個常見小技巧!)
題目現在是關於一個5分鐘的區間,而不是10分鐘。我們必須調整我們的平均速率 λ 來配合新的區間。
• 原始速率:每10分鐘有4個顧客。
• 新速率:區間是一半長,所以顧客的平均數量亦會減半。
• 新 λ = 4 × (5 / 10) = 每5分鐘2個顧客。
所以,這一部份我們用 $$Y \sim Po(2)$$。

2. 用新的 λ 套用公式:
我們仍然想找恰好3個顧客的機率,所以 k = 3。
$$ P(Y=3) = \frac{e^{-2} 2^3}{3!} $$
$$ P(Y=3) = \frac{e^{-2} \times 8}{6} $$
$$ P(Y=3) \approx 0.1353 \times \frac{8}{6} \approx 0.1804 $$

常見錯誤要避免

忘記調整 λ!永遠都要檢查題目中的時間區間,以及給出平均速率的區間是不是一樣。如果不是,你就必須按比例調整 λ。


4. 特別情況:泊松分佈近似二項分佈

有時,一個問題看起來是二項分佈,但數值計算上會非常困難。想像一下 $$X \sim B(2000, 0.001)$$。計算 $$C_{2}^{2000}$$ 簡直是惡夢!

好彩,有個捷徑。當 n 非常大p 非常小的時候,二項分佈就會好像泊松分佈。我們可以用泊松分佈來做一個簡單的近似!

何時可以用這個近似法?

當一個二項分佈符合以下條件時,就可以用:

n 是大數(一般經驗法則是 n > 50)

p 是小數(一般經驗法則是 p < 0.1)

如何做?

很簡單的!只是將泊松分佈的平均速率 λ 等於二項分佈的平均值 (np)。

神奇一步:計算 $$ \lambda = np $$

例子3:有缺陷的晶片 (泊松近似)

一家工廠生產電腦晶片,其中有0.2%是有缺陷的。在一個1000塊晶片的隨機樣本中,恰好有4塊是有缺陷的機率是多少?

逐步解答:

1. 判斷原始分佈:
這是一個二項分佈問題。我們有固定次數的試驗 (n=1000),以及恆定的成功機率(晶片有缺陷,p=0.002)。所以,$$X \sim B(1000, 0.002)$$。

2. 檢查近似法是否適用:
n = 1000(非常大! ✓)
p = 0.002(非常小! ✓)
條件完美。我們可以用泊松近似。這會比計算 $$C_4^{1000}$$ 容易得多!

3. 計算新的 λ:
$$ \lambda = np = 1000 \times 0.002 = 2 $$

4. 使用泊松公式:
我們現在當這是一個泊松分佈問題,其中 λ=2,我們想找 k=4 的機率。
所以我們用 $$X' \sim Po(2)$$。
$$ P(X'=4) = \frac{e^{-2} 2^4}{4!} $$
$$ P(X'=4) = \frac{e^{-2} \times 16}{24} $$
$$ P(X'=4) \approx 0.1353 \times \frac{16}{24} \approx 0.0902 $$

5. 最終答案:
找到恰好4塊有缺陷晶片的近似機率約為 0.0902。

重點提示

如果你看到一個二項分佈問題,當中 n 非常大,而 p 非常小,你的腦袋應該尖叫:「泊松近似!」只需計算 λ=np,然後將它當成一個簡單的泊松分佈問題來解決就可以了。