M1 統計學:常態分佈 (第一部分)
基本定義和特性
大家好!歡迎來到統計學中其中一個最重要的課題:常態分佈。別被這個名字嚇倒。「常態」顧名思義,因為它能描述現實世界中很多現象,例如你校內學生的身高,或者測驗的分數。
在本章中,我們會學習常態分佈是甚麼、了解它的主要特徵,並看看為何它在統計學領域中如此舉足輕重。打好這些基礎,將來學習其他章節時就會輕鬆得多。事不宜遲,我們開始吧!
從數算到量度:連續隨機變數
首先,快速回顧一下...
還記得離散隨機變數嗎?這些是你可以數算的變數。
例如:擲硬幣5次中正面的次數(可以是0、1、2、3、4或5次,但不會是2.5次)。又或者是一頁上的錯字數量。
現在,讓我們認識連續隨機變數吧!
連續隨機變數是指在給定範圍內可以取任何數值的變數。想想那些你需要「量度」而非「數算」的事物。
- 例子1:學生的身高。它可以是165厘米、165.1厘米、165.11厘米,或其間的任何數值。
- 例子2:跑100米所需的時間。它可以是12.5秒、12.51秒等等。
- 例子3:一個蘋果的重量。
核心概念:機率就是面積
對於連續變數來說,它剛好是某個特定數值的機率實際上是零! (某人的身高剛好是170.00000...厘米的機會有多大?)
相反,我們會討論變數落在某個範圍內的機率。例如:「一名學生的身高在165厘米和170厘米之間的機率是多少?」
我們將這些機率表示為曲線下的面積。這條特殊的曲線稱為機率密度函數 (Probability Density Function, PDF)。而所有PDF中最有名的,就是常態分佈的鐘形曲線!
重點總結:離散與連續
離散:可數算的數值(例如:學生人數)。我們使用機率質量函數(如二項式分佈或普瓦松分佈)。
連續:可量度的範圍內數值(例如:學生身高)。我們使用機率密度函數(如常態分佈)。
萬眾矚目的主角:常態分佈
常態分佈是一種連續機率分佈,它左右對稱並呈現獨特的鐘形。這是一種能適用於無數現實情況的數學模型。
標記符號:學習它的「語言」
當一個連續隨機變數 X 遵循常態分佈時,我們會這樣寫:
$$X \sim N(\mu, \sigma^2)$$
讓我們拆解一下。別擔心,它比看起來簡單!
- X:這是我們的連續隨機變數(例如:智商分數)。
- ~:這個小波浪符號表示「依循分佈」或「符合...分佈」。
- N:這代表常態(Normal)。很簡單吧!
- ($$\mu$$, $$\sigma^2$$):這兩個是定義鐘形曲線特定形狀和位置的兩個極其重要的參數。
- $$\mu$$ (讀作 Mu) 是分佈的平均值。它告訴我們圖形的中心位置。
- $$\sigma^2$$ (讀作 Sigma 平方) 是分佈的變異數。它告訴我們數據的分佈有多「散」。
請記住,標準差 $$\sigma$$ 只是變異數的平方根 ($$\sigma = \sqrt{\sigma^2}$$)。標準差也用來衡量數據的分佈情況。
常見錯誤警示!
請務必留意括號內的第二個數字!符號標記是 $$N(\mu, \sigma^2)$$,它使用的是變異數。
如果你獲告知學生的身高遵循 $$N(168, 25)$$:
- 平均值 $$\mu$$ 是 168。
- 變異數 $$\sigma^2$$ 是 25。
- 標準差 $$\sigma$$ 是 $$\sqrt{25} = 5$$,而不是 25!這在考試中是非常常見的陷阱。
常態曲線的「性格特徵」
所有常態分佈曲線都擁有四個主要特性。理解這些特性會讓你對它們的運作方式有更深入的了解。
1. 鐘形且對稱
常態分佈的圖形最廣為人知的就是其「鐘形曲線」。
它圍繞其中心點,即平均值($$\mu$$),呈現完美的對稱。
比喻:想像一下,沿著平均值($$\mu$$)的垂直線對摺圖形。兩邊會完美地重疊!這種對稱性意味著低於平均值某個數量的機率,與高於平均值相同數量的機率是完全一樣的。
2. 「三合一」中心:平均值 = 中位數 = 眾數
因為曲線是完美對稱且在中心達到頂點:
- 平均值(平均數)位於中心。
- 中位數(將數據一分為二的數值)也位於中心。
- 眾數(最常出現的數值)位於曲線的最高點,而這個點就是...你猜對了,就是中心!
所以,對於任何常態分佈:平均值 = 中位數 = 眾數 = $$\mu$$。
3. 分佈的「闊窄」由標準差($$\sigma$$)決定
平均值($$\mu$$)告訴我們曲線的中心在哪裡,而標準差($$\sigma$$)則告訴我們它有多「分散」或「壓縮」。
- 小的標準差($$\sigma$$)意味著數據緊密地聚集在平均值附近。這會導致鐘形曲線變得又高又窄。
- 大的標準差($$\sigma$$)意味著數據分佈更廣。這會導致鐘形曲線變得又矮又闊。
比喻:想像兩班學生參加同一個測驗。如果甲班的$$\sigma$$較小,代表大部分學生的分數都非常接近平均分。如果乙班的$$\sigma$$較大,代表分數分佈得較廣——有些很高,有些很低。
4. 曲線下的總面積是1
這是所有機率分佈的基本規則。由於曲線代表所有可能的結果,總機率必須是100%,即1。
因此,整個常態分佈曲線下的總面積永遠等於1。
這也意味著每個對稱半邊的面積都是0.5。所以,結果高於平均值的機會是50%,低於平均值的機會也是50%。
你知道嗎?
常態分佈也稱為高斯分佈 (Gaussian distribution),以19世紀初對其進行大量研究的德國傑出數學家卡爾·弗里德里希·高斯 (Carl Friedrich Gauss) 命名。
讓我們快速回顧!
快速回顧
- 連續隨機變數可以在一個範圍內取任何數值(例如:身高、體重、時間)。
- 連續變數的機率是曲線下的面積。
- 標記 $$X \sim N(\mu, \sigma^2)$$ 意指變數 X 遵循常態分佈,其平均值為 $$\mu$$,變異數為 $$\sigma^2$$。
- 主要特性:
- 它是鐘形且關於平均值對稱的。
- 平均值 = 中位數 = 眾數。
- 標準差($$\sigma$$)控制著曲線的扁平度/分佈闊窄。
- 曲線下的總面積永遠是1。
- 注意!請記住要將第二個參數開平方,才能找到標準差 $$\sigma$$。
太棒了!你現在已經掌握了常態分佈的基本概念。這些概念是接下來所有學習的基石。請記住這些特性,因為我們將會繼續學習如何利用這個強大的工具來計算機率。