M1 統計學:二項分佈和泊松分佈嘅應用

大家好!歡迎來到M1統計學中最實用嘅課題之一。喺之前嘅章節中,你哋學習咗兩個強大嘅概率工具:二項分佈泊松分佈。而家,係時候將佢哋應用出嚟喇!

呢一章嘅重點就係要你哋成為一個概率偵探。你將會學識點樣分析一個現實世界嘅問題,並搞清楚應該用邊個工具去解決問題。就好似你識得幾時用鎚仔,幾時用螺絲批一樣。掌握咗呢一點,你就能夠解決林林總總嘅問題,從工廠嘅品質管制到預測商店嘅顧客流量。我哋開始啦!


1. 快速回顧:認識呢啲分佈

喺我哋應用佢哋之前,不如先快速回顧一下我哋嘅兩個主角。就算你生疏咗少少都唔使擔心,呢個回顧會幫你追返進度!

二項分佈:計算成功次數

當你遇到一個情況,當中包含固定次數嘅試驗,而每次試驗都只有兩種可能嘅結果(例如成功/失敗、是/否、有缺陷/無缺陷)時,就應該諗起二項分佈。

例子:想像你喺度估緊一份10題嘅多項選擇題測驗。每條問題都係一次「試驗」。你答啱(「成功」)或者答錯(「失敗」)。二項分佈可以幫我哋搵到恰好答啱例如3條問題嘅概率。

二項分佈嘅條件 (記住B.I.N.S.口訣!)

要一個情況可以用二項分佈嚟建模,佢必須符合以下四個條件:

Binary (二元):每次試驗只有兩種可能結果(成功或失敗)。

Independent (獨立):一次試驗嘅結果唔會影響另一次試驗嘅結果。

Number of trials (固定次數):試驗次數 n 係預先固定嘅。

Same probability (相同概率):每次試驗成功嘅概率 p 都係一樣嘅。

你需要用到嘅公式

如果隨機變數 X 服從二項分佈,我哋寫成 $$X \sim B(n, p)$$

概率公式:n 次試驗中獲得恰好 k 次成功嘅概率係:

$$ P(X=k) = C_k^n p^k (1-p)^{n-k} $$

平均值(期望值):平均成功次數。

$$ E(X) = np $$

變異數:衡量結果分散程度嘅指標。

$$ Var(X) = np(1-p) $$
重點提示

當你喺固定次數嘅嘗試 (n) 中計算「成功」嘅次數時,就用二項分佈


泊松分佈:計算喺某個區間內發生嘅事件次數

當你計算一個事件喺時間、面積或空間嘅固定區間內發生嘅次數時,就應該諗起泊松分佈。關鍵係呢啲事件係隨機發生並以恆定嘅平均速率發生嘅。

例子:想像你喺一間電話中心做嘢。你想知道喺下一個小時內恰好接到5個電話嘅概率。你知平均每小時接到8個電話。泊松分佈就係處理呢種情況嘅最佳工具。

泊松分佈嘅條件

• 事件以恆定平均速率(用 λ 表示)發生。

• 事件係隨機互相獨立嘅(一個電話嘅到來唔會令另一個電話更可能或更唔可能到來)。

你需要用到嘅公式

如果隨機變數 X 服從泊松分佈,我哋寫成 $$X \sim Po(\lambda)$$ 其中 λ (lambda) 係喺指定區間內事件發生嘅平均次數。

概率公式:喺該區間內恰好發生 k 次事件嘅概率係:

$$ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} $$

平均值(期望值):呢個就係平均速率!

$$ E(X) = \lambda $$

變異數:超容易記!

$$ Var(X) = \lambda $$
你知道嗎?

對於泊松分佈,平均值同變異數永遠都係一樣嘅!呢個係一個獨有嘅特性,有時會係考試題目嘅一個小提示。

重點提示

當你計算喺連續嘅區間(例如時間或空間)內發生嘅事件次數,同埋畀咗一個平均速率 (λ) 時,就用泊松分佈


2. 重頭戲:如何選擇合適嘅分佈

呢個係呢一章最重要嘅技巧。當你閱讀一個問題時,你需要尋找線索嚟決定佢係一個二項分佈問題定係泊松分佈問題。呢度有一個方便嘅比較表嚟幫你決定。

| 特徵 | 二項分佈 | 泊松分佈 | | ----------------------- | ----------------------------------------------------------- | --------------------------------------------------------- | | 我哋數緊啲乜? | 成功嘅次數 | 事件嘅次數 | | 設定係點? | 喺固定次數嘅試驗 (n) 中 | 喺固定區間(時間、空間等)內 | | 主要參數 | n(試驗次數)同 p(成功概率) | λ(區間內事件發生嘅平均次數) | | 線索詞 | 「20件物品中...」、「擲咗15次銀仔...」、「50個樣本中...」 | 「每小時...」、「每平方米...」、「一分鐘內...」 | | 例子 | 擲10次銀仔有3次係公嘅概率。 | 一頁書上面有5個錯字嘅概率。 |

簡單決策指南

當你閱讀一個問題時,問自己呢啲問題:

1. 我係咪畀咗一個固定次數嘅嘗試(例如 n=20),同埋每次嘗試嘅成功概率(例如 p=0.1)?
如果係,咁幾乎肯定係二項分佈

2. 我係咪畀咗一個喺一段時間或空間內發生嘅某樣嘢嘅平均速率(例如每小時3個顧客)?
如果係,咁幾乎肯定係泊松分佈

就算一開始覺得有啲難都唔使擔心。做多啲練習,你就會越來越快咁搵到線索㗎喇!


3. 實例演練:將理論付諸實踐

例子1:籃球員 (二項分佈)

一位籃球員射入罰球嘅概率係70%。如果佢喺一場比賽中射8個罰球,佢恰好射入其中6個嘅概率係幾多?

逐步解答:

1. 判斷分佈:
• 有冇固定次數嘅試驗?有,n = 8 個罰球。
• 有冇兩種結果?有,射入(「成功」)或者射失(「失敗」)。
• 成功概率係常數?有,每個罰球嘅 p = 0.7
• 試驗係咪獨立?有,一次射球唔會影響下一次。
呢個完全符合 B.I.N.S. 嘅條件。所以,我哋用二項分佈!我哋有 $$X \sim B(8, 0.7)$$。

2. 確定變數:
n = 8
p = 0.7
1-p = 0.3
k = 6(我哋想得到恰好6次成功)

3. 套用公式:
$$ P(X=6) = C_6^8 (0.7)^6 (0.3)^{8-6} $$ $$ P(X=6) = 28 \times (0.7)^6 \times (0.3)^2 $$ $$ P(X=6) = 28 \times 0.117649 \times 0.09 $$ $$ P(X=6) \approx 0.2965 $$

4. 最終答案:
佢恰好射入6個罰球嘅概率約為 0.2965 (或 29.65%)。


例子2:咖啡店 (泊松分佈)

一間小型咖啡店平均每10分鐘有4個顧客。喺10分鐘內恰好有3個顧客到達嘅概率係幾多?咁喺5分鐘內呢?

甲部:10分鐘內嘅概率

1. 判斷分佈:
我哋計算緊喺固定區間(10分鐘)內嘅事件(顧客到來)次數,同埋畀咗平均速率。呢個係一個經典嘅泊松分佈問題!

2. 確定變數:
• 區間係10分鐘。
• 呢個區間嘅平均速率係 λ = 4。
• 我哋想搵恰好 k = 3 個事件發生嘅概率。
所以,$$X \sim Po(4)$$。

3. 套用公式:
$$ P(X=3) = \frac{e^{-4} 4^3}{3!} $$ $$ P(X=3) = \frac{e^{-4} \times 64}{6} $$ $$ P(X=3) \approx 0.018315 \times \frac{64}{6} \approx 0.1954 $$

4. 最終答案:
喺10分鐘內恰好有3個顧客到達嘅概率約為 0.1954。

乙部:5分鐘內嘅概率

1. 調整 λ! (呢個係常見小技巧!)
題目而家係關於一個5分鐘嘅區間,而唔係10分鐘。我哋必須調整我哋嘅平均速率 λ 去配合新嘅區間。
• 原始速率:每10分鐘有4個顧客。
• 新速率:區間係一半長,所以顧客嘅平均數量亦會減半。
• 新 λ = 4 × (5 / 10) = 每5分鐘2個顧客。
所以,呢一部分我哋用 $$Y \sim Po(2)$$。

2. 用新嘅 λ 套用公式:
我哋仍然想搵恰好3個顧客嘅概率,所以 k = 3。
$$ P(Y=3) = \frac{e^{-2} 2^3}{3!} $$ $$ P(Y=3) = \frac{e^{-2} \times 8}{6} $$ $$ P(Y=3) \approx 0.1353 \times \frac{8}{6} \approx 0.1804 $$

常見錯誤要避免

忘記調整 λ!永遠都要檢查題目中嘅時間區間,同埋畀出平均速率嘅區間係咪一樣。如果唔係,你就必須按比例調整 λ。


4. 特別情況:泊松分佈近似二項分佈

有時,一個問題睇落係二項分佈,但數值計算上會非常困難。想像吓 $$X \sim B(2000, 0.001)$$。計算 $$C_{2}^{2000}$$ 簡直係惡夢!

好彩,有個捷徑。當 n 非常大p 非常小嘅時候,二項分佈就會好似泊松分佈。我哋可以用泊松分佈嚟做一個簡單嘅近似!

幾時可以用呢個近似法?

當一個二項分佈符合以下條件時,就可以用:

n 係大數(一般經驗法則係 n > 50)

p 係小數(一般經驗法則係 p < 0.1)

點樣做?

好簡單㗎!只係將泊松分佈嘅平均速率 λ 等於二項分佈嘅平均值 (np)。

神奇一步:計算 $$ \lambda = np $$

例子3:有缺陷嘅晶片 (泊松近似)

一間工廠生產電腦晶片,其中有0.2%係有缺陷嘅。喺一個1000塊晶片嘅隨機樣本中,恰好有4塊係有缺陷嘅概率係幾多?

逐步解答:

1. 判斷原始分佈:
呢個係一個二項分佈問題。我哋有固定次數嘅試驗 (n=1000),同埋恆定嘅成功概率(晶片有缺陷,p=0.002)。所以,$$X \sim B(1000, 0.002)$$。

2. 檢查近似法是否適用:
n = 1000(非常大! ✓)
p = 0.002(非常小! ✓)
條件完美。我哋可以用泊松近似。呢個會比計算 $$C_4^{1000}$$ 容易得多!

3. 計算新嘅 λ:
$$ \lambda = np = 1000 \times 0.002 = 2 $$

4. 使用泊松公式:
我哋而家當呢個係一個泊松分佈問題,其中 λ=2,我哋想搵 k=4 嘅概率。
所以我哋用 $$X' \sim Po(2)$$。
$$ P(X'=4) = \frac{e^{-2} 2^4}{4!} $$ $$ P(X'=4) = \frac{e^{-2} \times 16}{24} $$ $$ P(X'=4) \approx 0.1353 \times \frac{16}{24} \approx 0.0902 $$

5. 最終答案:
搵到恰好4塊有缺陷晶片嘅近似概率約為 0.0902。

重點提示

如果你見到一個二項分佈問題,當中 n 非常大,而 p 非常小,你嘅腦袋應該尖叫:「泊松近似!」只需計算 λ=np,然後將佢當成一個簡單嘅泊松分佈問題嚟解決就得㗎喇。