溫習筆記:離差量度

哈囉!歡迎來到關於離差量度的溫習筆記。別擔心這聽起來很複雜——它只不過是用一種更專業的方式來問:「數據的分佈有多廣?」

在本章中,我們將學習如何描述和量度一組數字的「分佈」或「一致性」。這在現實生活中非常實用,從比較學生成績到分析籃球運動員的表現,都能派上用場。讓我們開始深入探討吧!


究竟什麼是離差?

想像一下有兩位學生,Alex 和 Ben,他們參加了五次數學測驗。他們的成績如下:

Alex:70、72、75、73、70
Ben:50、95、60、100、55

如果你計算他們的平均分(平均值),你會發現兩者都是 72 分。但他們的表現真的相同嗎?完全不是!

Alex 的表現非常穩定。他的分數都集中在一起。而 Ben 的分數則很不穩定——有時很高,有時又不那麼好。它們非常分散

離差是用來量度一組數據分散或散佈程度的指標。低離差表示數據點彼此接近(像 Alex 的分數);高離差則表示它們相距很遠(像 Ben 的分數)。

重點摘要

離差告訴我們數據的一致性變異性。它讓我們比單純看平均值,更能對數據有一個全面的了解。


1. 簡單的離差量度方法:全距和四分位數間距

讓我們從兩種最簡單的離差量度方法開始。

全距

全距是最簡單的離差量度方法。它就是數據集中最高值與最低值之間的差。

公式:全距 = 最大值 - 最小值

逐步示例:

找出以下分數的全距:12、15、7、22、18、9

  1. 找出最大值:22
  2. 找出最小值:7
  3. 相減:全距 = 22 - 7 = 15

優點:計算非常簡單!
缺點:它可能會產生誤導,因為它只受兩個極端值(異常值)的影響。例如,在 Ben 的分數(50、95、60、100、55)中,全距是 100 - 50 = 50,非常大。

四分位數間距 (IQR)

四分位數間距 (IQR) 通常是衡量離差的更好方法,因為它不受極端異常值的影響。它告訴你數據中間 50% 的分佈範圍。

要找出 IQR,我們首先需要找到四分位數

快速回顧:中位數

中位數是數據集按順序排列後的中間值。它將數據分成兩等份。

四分位數的工作方式類似,但它們將數據分成等份。

  • 下四分位數 (Q1):下半部分數據的中位數。(25% 的數據低於它)
  • 中位數 (Q2):整個數據集的中位數。(50% 的數據低於它)
  • 上四分位數 (Q3):上半部分數據的中位數。(75% 的數據低於它)

公式:IQR = 上四分位數 (Q3) - 下四分位數 (Q1)

逐步示例(奇數個數據點):

找出以下數據的 IQR:3、6、7、10、12、15、16

  1. 排列數據:它已經是排列好的了!3、6、7、10、12、15、16
  2. 找出中位數 (Q2):中間的數字是 10
  3. 找出 Q1:查看數據的下半部分(中位數之前的數字):3、6、7。這裡的中間數字是 6。所以,Q1 = 6
  4. 找出 Q3:查看數據的上半部分(中位數之後的數字):12、15、16。這裡的中間數字是 15。所以,Q3 = 15
  5. 計算 IQR:IQR = Q3 - Q1 = 15 - 6 = 9
逐步示例(偶數個數據點):

找出以下數據的 IQR:2、5、6、8、11、14、16、19

  1. 排列數據:已經是排列好的了。2、5、6、8、11、14、16、19
  2. 找出中位數 (Q2):中間位於 8 和 11 之間。中位數 = (8 + 11) / 2 = 9.5
  3. 找出 Q1:查看下半部分:2、5、6、8。中間位於 5 和 6 之間。Q1 = (5 + 6) / 2 = 5.5
  4. 找出 Q3:查看上半部分:11、14、16、19。中間位於 14 和 16 之間。Q3 = (14 + 16) / 2 = 15
  5. 計算 IQR:IQR = Q3 - Q1 = 15 - 5.5 = 9.5
重點摘要

全距能讓你快速了解整體的分佈,但容易受到異常值的影響而扭曲。四分位數間距 (IQR) 則量度數據中間 50% 的分佈,在有極端值的情況下更為可靠。


2. 離差的可視化:盒鬚圖

盒鬚圖(或稱盒式圖)是一種一目了然地顯示數據離差的絕佳方式。它是五個關鍵數字的視覺化呈現:

五數總結」:

  1. 最小值
  2. 下四分位數 (Q1)
  3. 中位數 (Q2)
  4. 上四分位數 (Q3)
  5. 最大值
如何解讀盒鬚圖:
  • 「盒形部分」代表數據中間的 50%(即 IQR)。
  • 盒形內部的那條線是中位數 (Q2)。
  • 「鬚」從盒形部分延伸至最小值和最大值。
  • 盒形部分越寬,表示 IQR 越大,數據中間部分的離散程度越高。
  • 鬚越短,表示該四分區間的數據分佈越集中。
利用盒鬚圖比較分佈

這就是盒鬚圖真正大顯身手的地方!讓我們比較一下甲班和乙班的測驗成績。

想像有兩張盒鬚圖,一張代表甲班,一張代表乙班,並以相同的刻度繪製。

  • 比較中位數:如果乙班的中位數線比甲班的更靠右(數值更高),這意味著平均而言,乙班的表現更好。
  • 比較離差:如果甲班的盒形部分比乙班的窄得多,這表示甲班的成績更穩定(IQR 更小)。如果乙班的總鬚長度(全距)長得多,則意味著他們的成績整體分佈更廣。
重點摘要

盒鬚圖是一個強大的視覺工具。它將中位數、四分位數和全距都呈現在一張圖中,使你能夠輕鬆比較不同數據集的分佈。


3. 最強大的量度方法:標準差 (σ)

別被它的名字或公式嚇倒!這個概念其實很簡單。標準差 (SD) 告訴我們,平均而言,每個數據點與數據的平均值(均值)相距多遠。

小標準差意味著數據點緊密地聚集在平均值附近(高一致性)。
大標準差意味著數據點分佈在更廣的範圍內(低一致性)。

非分組數據的標準差

總體標準差的公式是:

$$ \sigma = \sqrt{\frac{\sum (x_i - \mu)^2}{N}} $$

讓我們來分解一下:

  • $$ \sigma $$ (sigma,西格瑪) 是標準差的符號。
  • $$ \mu $$ (mu,繆) 是總體平均值的符號。
  • $$ x_i $$ 代表每個單獨的數據值。
  • $$ N $$ 是數據值的總數。
  • $$ \sum $$ (同樣是 sigma!) 意思是「將所有後續部分加起來」。

還有一個術語:方差就是標準差的平方 ($$\sigma^2$$)。它是你在最後取平方根之前所得到的數值。

逐步計算(非分組數據):

找出以下數據的標準差:2、4、7、8、9

  1. 步驟 1:找出平均值 ($$\mu$$)。
    $$ \mu = \frac{2+4+7+8+9}{5} = \frac{30}{5} = 6 $$
  2. 步驟 2:對於每個數據點,減去平均值並將結果平方。
    $$(2 - 6)^2 = (-4)^2 = 16$$
    $$(4 - 6)^2 = (-2)^2 = 4$$
    $$(7 - 6)^2 = (1)^2 = 1$$
    $$(8 - 6)^2 = (2)^2 = 4$$
    $$(9 - 6)^2 = (3)^2 = 9$$
  3. 步驟 3:找出這些平方差的平均值(這就是方差,$$\sigma^2$$)。
    $$ \text{Variance} = \sigma^2 = \frac{16+4+1+4+9}{5} = \frac{34}{5} = 6.8 $$
  4. 步驟 4:取平方根以找出標準差 ($$\sigma$$)。
    $$ \sigma = \sqrt{6.8} \approx 2.61 $$
分組數據的標準差

當數據以頻數分佈表呈現時,我們使用稍微不同的公式。我們將每組的組中點作為我們的 'x' 值。

公式是: $$ \sigma = \sqrt{\frac{\sum f_i(x_i - \mu)^2}{\sum f_i}} $$ 其中 $$f_i$$ 是每組的頻數。

步驟相似,但你需要在適當的階段乘以頻數。通常,你可以使用計算機的統計模式來更快地找出這個數值!

重點摘要

標準差是最詳細的離差量度方法。它告訴你數據點與平均值的平均距離。如果你追求一致性,則低標準差是「好」的;高標準差則意味著更大的變異。


4. 進階課題 (非基礎部分)

這些概念是我們所學知識的延伸,對於在更複雜的情況下比較數據非常有用。

標準分數 (z分數)

你如何比較蘋果和橙?或者,更貼切地說,如何在簡單測驗中取得高分和在困難測驗中取得好分之間進行比較?答案就是使用標準分數

z分數能精確地告訴你一個數據點與平均值相差多少個標準差。

公式: $$ z = \frac{x - \mu}{\sigma} $$

例子:你在一個平均值($$\mu$$)為 75、標準差($$\sigma$$)為 5 的測驗中得了 85 分。你的 z分數是:
$$ z = \frac{85 - 75}{5} = \frac{10}{5} = 2 $$

這表示你的分數恰好比平均值高出 2 個標準差。正 z分數表示高於平均值,負 z分數表示低於平均值,而 z分數為 0 則表示恰好等於平均值。

正態分佈

現實世界中的許多事物,例如人的身高或考試成績,往往會遵循一種稱為正態分佈的模式。它看起來像一個對稱的鐘形,通常被稱為「鐘形曲線」。

在正態分佈中:

  • 平均值、中位數和眾數都位於中心。
  • 大部分數據都聚集在平均值附近。
  • 離平均值越遠,數據就越少。

標準差是理解這一點的關鍵。例如,非常大比例的數據落在平均值的一個、兩個或三個標準差範圍內。(你不需要記住確切的百分比!)

數據變化的影響

如果我們以相同的方式改變每個數據點,我們的離差量度會發生什麼變化?

情況 1:為每個數據值加上一個常數 'c'。

  • 例子:將數據集中的每個分數都加上 10。
  • 整個數據集只是向上平移。離差不會改變!
  • 影響:全距、四分位數間距 (IQR) 和標準差都不變

情況 2:將每個數據值乘以一個常數 'k'。

  • 例子:將數據集中的每個分數都加倍 (k=2)。
  • 數據不僅平移,而且還會被拉伸開來。離差增加。
  • 影響:原始的離差量度也會乘以 |k|。
    • 新全距 = |k| × 舊全距
    • 新四分位數間距 (IQR) = |k| × 舊四分位數間距 (IQR)
    • 新標準差 = |k| × 舊標準差
重點摘要

標準分數幫助我們在不同數據集之間進行公平的比較。數據轉換有可預測的影響:加上一個常數不會改變離差,而乘以一個常數會將離差按相同常數進行比例縮放。


你知道嗎?

在金融領域,標準差是衡量風險的關鍵指標。股票價格標準差高的,被認為波動性大、風險高;而標準差低的,則被視為更穩定。理解離差可以幫助你做出更明智的決定!