M1 統計學:二項分佈和泊松分佈的應用
大家好!歡迎來到M1統計學中最實用的課題之一。在之前的章節中,你們學習了兩個強大的機率工具:二項分佈和泊松分佈。現在,是時候將它們應用出來了!
這一章的重點就是要你們成為一個機率偵探。你將會學會如何分析一個現實世界的問題,並弄清楚應該用哪個工具去解決問題。就好像你懂得何時用錘子,何時用螺絲刀一樣。掌握了這一點,你就能夠解決各式各樣的問題,從工廠的品質管制到預測商店的顧客流量。我們開始吧!
1. 快速回顧:認識這些分佈
在我們應用它們之前,不如先快速回顧一下我們的兩個主角。就算你生疏了少許都不用擔心,這個回顧會幫你追回進度!
二項分佈:計算成功次數
當你遇到一個情況,當中包含固定次數的試驗,而每次試驗都只有兩種可能的結果(例如成功/失敗、是/否、有缺陷/無缺陷)時,就應該想起二項分佈。
例子:想像你正在猜一份10題的多項選擇題測驗。每條問題都是一次「試驗」。你答對(「成功」)或者答錯(「失敗」)。二項分佈可以幫助我們找到恰好答對例如3條問題的機率。
二項分佈的條件 (記住B.I.N.S.口訣!)
要一個情況可以用二項分佈來建模,它必須符合以下四個條件:
• Binary (二元):每次試驗只有兩種可能結果(成功或失敗)。
• Independent (獨立):一次試驗的結果不會影響另一次試驗的結果。
• Number of trials (固定次數):試驗次數 n 是預先固定的。
• Same probability (相同機率):每次試驗成功的機率 p 都是一樣的。
你需要用到的公式
如果隨機變數 X 服從二項分佈,我們寫成 $$X \sim B(n, p)$$
• 機率公式:在 n 次試驗中獲得恰好 k 次成功的機率是:
$$ P(X=k) = C_k^n p^k (1-p)^{n-k} $$• 平均值(期望值):平均成功次數。
$$ E(X) = np $$• 變異數:衡量結果分散程度的指標。
$$ Var(X) = np(1-p) $$重點提示
當你在固定次數的嘗試 (n) 中計算「成功」的次數時,就用二項分佈。
泊松分佈:計算在某個區間內發生的事件次數
當你計算一個事件在時間、面積或空間的固定區間內發生的次數時,就應該想起泊松分佈。關鍵是這些事件是隨機發生並以恆定的平均速率發生的。
例子:想像你在一家電話中心工作。你想知道在下一個小時內恰好接到5個電話的機率。你知平均每小時接到8個電話。泊松分佈就是處理這種情況的最佳工具。
泊松分佈的條件
• 事件以恆定平均速率(用 λ 表示)發生。
• 事件是隨機且互相獨立的(一個電話的到來不會讓另一個電話更可能或更不可能到來)。
你需要用到的公式
如果隨機變數 X 服從泊松分佈,我們寫成 $$X \sim Po(\lambda)$$ 其中 λ (lambda) 是在指定區間內事件發生的平均次數。
• 機率公式:在該區間內恰好發生 k 次事件的機率是:
$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$• 平均值(期望值):這個就是平均速率!
$$ E(X) = \lambda $$• 變異數:超容易記!
$$ Var(X) = \lambda $$你知道嗎?
對於泊松分佈,平均值和變異數永遠都是一樣的!這是一個獨有的特性,有時會是考試題目的一個小提示。
重點提示
當你在連續的區間(例如時間或空間)內發生的事件次數,以及給了一個平均速率 (λ) 時,就用泊松分佈。
2. 重頭戲:如何選擇合適的分佈
這是這一章最重要的技巧。當你閱讀一個問題時,你需要尋找線索來決定它是一個二項分佈問題還是泊松分佈問題。這裡有一個方便的比較表來幫助你決定。
| 特徵 | 二項分佈 | 泊松分佈 || ----------------------- | ----------------------------------------------------------- | --------------------------------------------------------- || 我們數的是什麼? | 成功的次數 | 事件的次數 || 設定是怎樣的? | 在固定次數的試驗 (n) 中 | 在固定區間(時間、空間等)內 || 主要參數 | n(試驗次數)和 p(成功機率) | λ(區間內事件發生的平均次數) || 線索詞 | 「20件物品中...」、「擲了15次硬幣...」、「50個樣本中...」 | 「每小時...」、「每平方米...」、「一分鐘內...」 || 例子 | 擲10次硬幣有3次是正面的機率。 | 一頁書上面有5個錯字的機率。 |簡單決策指南
當你閱讀一個問題時,問自己這些問題:
1. 我是不是給了一個固定次數的嘗試(例如 n=20),以及每次嘗試的成功機率(例如 p=0.1)?
如果是,那幾乎肯定是二項分佈。
2. 我是不是給了一個在一段時間或空間內發生的某樣東西的平均速率(例如每小時3個顧客)?
如果是,那幾乎肯定是泊松分佈。
就算一開始覺得有些難都不用擔心。多做一些練習,你就會越來越快地找到線索了!
3. 實例演練:將理論付諸實踐
例子1:籃球員 (二項分佈)
一位籃球員射入罰球的機率是70%。如果他在一場比賽中射8個罰球,他恰好射入其中6個的機率是多少?
逐步解答:
1. 判斷分佈:
• 有沒有固定次數的試驗?有,n = 8 個罰球。
• 有沒有兩種結果?有,射入(「成功」)或者射失(「失敗」)。
• 成功機率是常數?有,每個罰球的 p = 0.7。
• 試驗是不是獨立?有,一次射球不會影響下一次。
這完全符合 B.I.N.S. 的條件。所以,我們用二項分佈!我們有 $$X \sim B(8, 0.7)$$。
2. 確定變數:
• n = 8
• p = 0.7
• 1-p = 0.3
• k = 6(我們想得到恰好6次成功)
3. 套用公式:
$$ P(X=6) = C_6^8 (0.7)^6 (0.3)^{8-6} $$
$$ P(X=6) = 28 \times (0.7)^6 \times (0.3)^2 $$
$$ P(X=6) = 28 \times 0.117649 \times 0.09 $$
$$ P(X=6) \approx 0.2965 $$
4. 最終答案:
他恰好射入6個罰球的機率約為 0.2965 (或 29.65%)。
例子2:咖啡店 (泊松分佈)
一家小型咖啡店平均每10分鐘有4個顧客。在10分鐘內恰好有3個顧客到達的機率是多少?那麼在5分鐘內呢?
甲部:10分鐘內的機率
1. 判斷分佈:
我們計算著在固定區間(10分鐘)內的事件(顧客到來)次數,以及給了平均速率。這是一個經典的泊松分佈問題!
2. 確定變數:
• 區間是10分鐘。
• 這個區間的平均速率是 λ = 4。
• 我們想找恰好 k = 3 個事件發生的機率。
所以,$$X \sim Po(4)$$。
3. 套用公式:
$$ P(X=3) = \frac{e^{-4} 4^3}{3!} $$
$$ P(X=3) = \frac{e^{-4} \times 64}{6} $$
$$ P(X=3) \approx 0.018315 \times \frac{64}{6} \approx 0.1954 $$
4. 最終答案:
在10分鐘內恰好有3個顧客到達的機率約為 0.1954。
乙部:5分鐘內的機率
1. 調整 λ! (這是一個常見小技巧!)
題目現在是關於一個5分鐘的區間,而不是10分鐘。我們必須調整我們的平均速率 λ 來配合新的區間。
• 原始速率:每10分鐘有4個顧客。
• 新速率:區間是一半長,所以顧客的平均數量亦會減半。
• 新 λ = 4 × (5 / 10) = 每5分鐘2個顧客。
所以,這一部份我們用 $$Y \sim Po(2)$$。
2. 用新的 λ 套用公式:
我們仍然想找恰好3個顧客的機率,所以 k = 3。
$$ P(Y=3) = \frac{e^{-2} 2^3}{3!} $$
$$ P(Y=3) = \frac{e^{-2} \times 8}{6} $$
$$ P(Y=3) \approx 0.1353 \times \frac{8}{6} \approx 0.1804 $$
常見錯誤要避免
• 忘記調整 λ!永遠都要檢查題目中的時間區間,以及給出平均速率的區間是不是一樣。如果不是,你就必須按比例調整 λ。
4. 特別情況:泊松分佈近似二項分佈
有時,一個問題看起來是二項分佈,但數值計算上會非常困難。想像一下 $$X \sim B(2000, 0.001)$$。計算 $$C_{2}^{2000}$$ 簡直是惡夢!
好彩,有個捷徑。當 n 非常大而 p 非常小的時候,二項分佈就會好像泊松分佈。我們可以用泊松分佈來做一個簡單的近似!
何時可以用這個近似法?
當一個二項分佈符合以下條件時,就可以用:
• n 是大數(一般經驗法則是 n > 50)
• p 是小數(一般經驗法則是 p < 0.1)
如何做?
很簡單的!只是將泊松分佈的平均速率 λ 等於二項分佈的平均值 (np)。
神奇一步:計算 $$ \lambda = np $$
例子3:有缺陷的晶片 (泊松近似)
一家工廠生產電腦晶片,其中有0.2%是有缺陷的。在一個1000塊晶片的隨機樣本中,恰好有4塊是有缺陷的機率是多少?
逐步解答:
1. 判斷原始分佈:
這是一個二項分佈問題。我們有固定次數的試驗 (n=1000),以及恆定的成功機率(晶片有缺陷,p=0.002)。所以,$$X \sim B(1000, 0.002)$$。
2. 檢查近似法是否適用:
• n = 1000(非常大! ✓)
• p = 0.002(非常小! ✓)
條件完美。我們可以用泊松近似。這會比計算 $$C_4^{1000}$$ 容易得多!
3. 計算新的 λ:
$$ \lambda = np = 1000 \times 0.002 = 2 $$
4. 使用泊松公式:
我們現在當這是一個泊松分佈問題,其中 λ=2,我們想找 k=4 的機率。
所以我們用 $$X' \sim Po(2)$$。
$$ P(X'=4) = \frac{e^{-2} 2^4}{4!} $$
$$ P(X'=4) = \frac{e^{-2} \times 16}{24} $$
$$ P(X'=4) \approx 0.1353 \times \frac{16}{24} \approx 0.0902 $$
5. 最終答案:
找到恰好4塊有缺陷晶片的近似機率約為 0.0902。
重點提示
如果你看到一個二項分佈問題,當中 n 非常大,而 p 非常小,你的腦袋應該尖叫:「泊松近似!」只需計算 λ=np,然後將它當成一個簡單的泊松分佈問題來解決就可以了。