M1 學習筆記:抽樣分佈與點估計

各位同學大家好!歡迎來到統計學的新篇章。就算章節標題聽起來有點嚇人,也別擔心,我們會把它拆解開來,逐一擊破。在這個課題中,我們將會學習如何利用一個小群體(一個樣本)來聰明地推測一個大群體(一個總體)的特性。這在現實生活中超級實用,從預測選舉結果,到檢查一批 iPhone 的品質而毋須測試每一部,都用得上。讓我們開始吧!


1. 總體與樣本:大局觀

要理解統計學,我們首先需要知道「總體」和「樣本」之間的區別。

什麼是總體?

一個總體是你想研究或了解的「整個」群體。它包含所有人或所有事物。

例子:如果你想知道香港所有中六學生的平均身高,那麼總體就是香港「每一個」中六學生。

什麼是樣本?

一個樣本是總體中你實際收集數據的一小部分。由於研究總體中的每一個人通常是不可能或太昂貴的,所以我們取一個樣本來代替。

例子:你不可能測量所有50,000名中六學生。因此,你隨機選取200名來自不同學校的學生,測量他們的身高。這200人組成的群體就是你的樣本

類比:想像一下品嚐湯羹。整鍋湯就是總體。你嚐的一勺就是樣本。你利用樣本的味道來猜測整鍋湯的味道!

參數與統計量

現在,我們再增加兩個重要術語。我們對總體和樣本使用不同的符號。

總體參數:這些是描述整個總體的數值。它們通常是未知數,因為我們無法測量每一個人。我們通常用希臘字母來表示它們。

  • 總體平均值 (μ):整個總體的真實平均數。
  • 總體方差 (σ²):衡量整個總體數據分散程度的量度。

樣本統計量:這些是根據你的樣本數據計算出來的數值。你總是可以計算出這些值。我們用它們來估計總體參數。

  • 樣本平均值 (x̄):你的樣本的平均數。讀作「x-bar」。
  • 樣本方差 (s²):衡量你的樣本數據分散程度的量度。
快速複習:關鍵術語和符號

這張表格是你學習本章的新「好朋友」!務必熟記。

概念
總體 (整體群體)
樣本 (一小部分)

平均值
參數:$$ \mu $$ (mu)
統計量:$$ \bar{x} $$ (x-bar)

方差
參數:$$ \sigma^2 $$ (sigma-squared)
統計量:$$ s^2 $$

大小
參數:N
統計量:n


計算總體方差

課程要求你認識總體方差的公式。如果你能神奇地知道一個大小為 N 的總體中每一個個體的數據,那麼公式會是:

總體方差:

$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$

這意味著:對於每個人,找出他們的值 ($x_i$) 與總體平均值 ($\mu$) 之間的差異,將其平方,然後將所有這些平方值加起來,最後除以總體大小 ($N$)。

重點歸納:我們研究一個樣本(其統計量如 $$ \bar{x} $$ 和 $$ s^2 $$),以對整個總體(其參數如 $$ \mu $$ 和 $$ \sigma^2 $$)作出有根據的猜測。


2. 樣本平均值 (X̄) 的抽樣分佈

這聽起來很複雜,但其理念其實相當酷。如果一開始覺得有點難,別擔心,我們會用類比來解釋。

想像一下,我們想知道所有中六學生的真實平均身高 (μ)。我們知道我們無法測量所有學生。那麼,我們該怎麼辦呢?

1. 隨機抽取30名學生作為樣本,計算他們的平均身高,$$ \bar{x}_1 $$。也許我們得到168厘米。
2. 再來一次!抽取「不同」的隨機樣本30名學生,計算他們的平均值,$$ \bar{x}_2 $$。也許這次我們得到171厘米。
3. 不斷重複這個過程,或許數千次。我們將會得到一長串不同的樣本平均值:{168, 171, 169.5, 170, 167.8, ...}。

樣本平均值的抽樣分佈是所有這些可能的樣本平均值的概率分佈。如果我們將這些樣本平均值列成一個柱狀圖,我們就能看到這個分佈。

你「必須」知道的兩個神奇特性

從均值為 μ、方差為 σ² 的總體中抽取大小為 n 的隨機樣本,樣本平均值 ($$\bar{X}$$) 的分佈具有兩個非常重要的特性:

1. 樣本平均值的平均值
$$ E[\bar{X}] = \mu $$

簡單來說:你所有可能抽取到的樣本平均值的平均數,等於真實的總體平均值。這是個好消息!這意味著我們的樣本平均值,平均來說,能夠「命中目標」來估計總體平均值。

2. 樣本平均值的方差
$$ Var(\bar{X}) = \frac{\sigma^2}{n} $$

簡單來說:這個公式告訴我們樣本平均值的分佈有多分散。注意分母的「n」。這點超級重要!

  • 樣本大小 (n) 越大時,樣本平均值的方差就越小
  • 這意味著,樣本越大,你的樣本平均值 ($$\bar{x}$$) 更有可能非常接近真實的總體平均值 (μ)。這很合理,對吧?更大的樣本會給你一個更可靠的估計。

這個分佈的標準差稱為平均數的標準誤差:$$ \sigma_{\bar{X}} = \sqrt{Var(\bar{X})} = \frac{\sigma}{\sqrt{n}} $$

如果原始總體是正態分佈呢?

如果你抽樣的原始總體本身已呈正態分佈,即 $$ X \sim N(\mu, \sigma^2) $$,那麼樣本平均值的抽樣分佈也將「完美」呈正態分佈,無論樣本大小如何。

結果:如果 $$ X \sim N(\mu, \sigma^2) $$,那麼 $$ \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) $$

重點歸納:樣本平均值的抽樣分佈是我們通過抽取許多樣本並觀察其平均值而獲得的分佈。它的平均值是 $$ \mu $$,方差是 $$ \frac{\sigma^2}{n} $$。樣本越大,樣本平均值的結果分佈就越集中。


3. 中心極限定理 (CLT)

這是統計學中最重要和最令人驚嘆的定理之一!它就像一種超能力。

那麼,如果原始總體「不是」正態分佈呢?如果它是偏態的,或是雙峰的,或者只是奇形怪狀的呢?

中心極限定理 (CLT) 指出:

對於足夠大的樣本大小 (n),樣本平均值 ($$\bar{X}$$) 的抽樣分佈將會近似正態分佈,無論原始總體的分佈形狀如何。

這是不是很酷?!即使我們從一個形狀奇特的總體開始,如果我們的樣本足夠大,其樣本平均值的結果分佈也將看起來像一個漂亮、熟悉的鐘形曲線(正態分佈)。

「足夠大」究竟有多大?

統計學中常用的經驗法則指出:

n ≥ 30

如果你的樣本大小為30或更多,你通常可以假定中心極限定理適用。

綜合所有概念 (重要結果):

如果 n 足夠大(例如,n ≥ 30),那麼根據中心極限定理:

$$ \bar{X} \approx N(\mu, \frac{\sigma^2}{n}) $$

請注意「近似」符號 ($$\approx$$),因為這是一個近似值,而不是精確的分佈(除非原始總體本身就是正態分佈)。

你知道嗎?CLT 是正態分佈在現實世界中如此常見的原因。許多事物,比如一袋50個蘋果的總重量,都是許多小隨機效應的疊加結果。CLT 預測這些總和與平均值將趨於遵循正態分佈。

重點歸納:中心極限定理是我們的秘密武器。它讓我們能夠使用正態分佈來解決涉及樣本平均值的問題,只要我們的樣本大小足夠大 (n ≥ 30),即使我們對原始總體的樣子一無所知。


4. 點估計:我們最佳的猜測

我們已經談論了很多關於如何利用樣本來理解總體。點估計是做到這一點最簡單的方法。它是一個單一數值,我們用它作為對未知總體參數的「最佳猜測」。

類比:如果有人問你估計溫度,你會給出一個單一數值,例如「25度」。你不會說「在24到26度之間」。這個單一數值就是一個點估計。

估計總體平均值 (μ)

對於未知的總體平均值 μ,我們最佳的猜測是什麼?

樣本平均值 ($$\bar{x}$$) 是總體平均值 (μ) 的最佳點估計。

例子:如果你從200名學生樣本中測得的平均身高 ($$\bar{x}$$) 是170.5厘米,那麼你對香港所有中六學生真實平均身高 (μ) 的最佳點估計就是170.5厘米。

估計總體方差 (σ²)

對於未知的總體方差 σ²,我們最佳的猜測是什麼?

樣本方差 ($$s^2$$) 是總體方差 (σ²) 的最佳點估計。但要小心公式!

樣本方差 (s²) 的關鍵公式

當我們從「樣本」計算方差來估計總體方差時,我們會使用一個稍微不同的公式。我們是用 n-1 來除,而不是 n。

$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$
為什麼要除以 n-1?無偏估計量的概念

這是一個關鍵概念。除以 n-1 會使 $$s^2$$ 成為 $$σ^2$$ 的「無偏估計量」。

簡單解釋:樣本中的數據,通常會比整個總體的數據分散程度略低。如果我們除以「n」,我們對方差 ($$s^2$$) 的估計值平均來說會稍微偏小。通過除以一個較小的數 (n-1),我們讓答案稍微變大,從而修正了這種傾向。從長遠來看,這會給我們一個更準確的估計。

你不需要證明這一點,但你「確實需要記住」在計算樣本方差 $$s^2$$ 時要使用 n-1

常見錯誤,切勿混淆!

不要混淆總體方差和樣本方差的公式。

  • 總體方差 $$ \sigma^2 $$:除以 N。當你擁有「整個」總體的數據時使用這個公式。(現實中很少見)。
  • 樣本方差 $$ s^2 $$:除以 n-1。當你擁有樣本數據並想「估計」總體方差時使用這個公式。(非常常見)。

重點歸納:點估計是對參數的單一數值猜測。樣本平均值 ($$\bar{x}$$) 估計總體平均值 (μ)。樣本方差 ($$s^2$$,分母為 n-1) 是總體方差 ($$σ^2$$) 的無偏估計量。