歡迎來到統計學的世界!

同學你好!準備好成為一個數據偵探了嗎?這就是統計學的精髓!它是數學一個很棒的分支,它幫助我們收集、整理和理解身邊的各種資訊(我們稱之為數據)。為什麼它很重要?因為它能幫助我們回答以下問題:

- 我們班上最受歡迎的電子遊戲是什麼?
- 我的身高在過去一年裡變化了多少?
- 我們學校的籃球隊表現是否越來越好?

在這個課題中,我們會學習如何從這些資訊中理出頭緒。不用擔心聽起來很複雜;我們會把它分解成簡單的步驟。現在就開始吧!


第一部分:整理數據

想像一下,你剛剛問了班上每個同學的鞋碼。現在你手上有一堆亂七八糟的數字!我們的首要任務就是整理這些數據,這樣我們才能真正理解它們。

數據的兩種類型:離散型數據 與 連續型數據

在整理數據之前,我們需要知道自己正在處理哪種類型的數據。主要有兩種類型:

1. 離散型數據
這類數據可以數算出來。它們具有特定、獨立的數值。想想那些你不能有「一半」的東西。
例子:

  • 課室裡學生的數量(你不能有25.5個學生)。
  • 你的鞋碼(是7碼或7.5碼,而不是7.23碼)。
  • 一場足球比賽的入球數。

2. 連續型數據
這類數據可以量度出來。它可以在某個範圍內取任何數值。
例子:

  • 一個人的身高(可以是150厘米、150.1厘米、150.11厘米...)。
  • 跑100米所需的時間。
  • 你的書包重量。
快速複習小貼士

離散型:如果可以數算出來,就是離散型。
連續型:如果可以量度出來,就是連續型。

整理數據:頻數分佈表

頻數分佈表是一種非常整齊的數據整理方式。「頻數」這個詞只是用來形容某件事發生的次數。

未分組數據(通常是數值範圍較小的離散型數據)

假設這是15名學生一次測驗的得分(滿分10分):
7, 8, 9, 6, 8, 7, 9, 10, 8, 7, 6, 8, 9, 8, 7

步驟一:在其中一欄列出所有可能的得分。
步驟二:逐一檢查數據,並為每個得分劃上正字記號 ( | )。
步驟三:數算正字記號,找出頻數。

範例表格:測驗得分

得分      正字記號      頻數
6            ||               2
7            ||||              4
8            |||||             5
9            |||              3
10           |                1
總計                         15

看到了嗎?這樣是不是更容易閱讀了!我們可以很快地看出,最常見的得分是8分。

已分組數據(通常是連續型數據或數值範圍較大的數據)

如果你有20名學生的身高數據呢?將每個身高都列出來會太長了。所以,我們會將它們分組到組區間中。

範例身高(厘米):155, 168, 172, 158, 163, 175, 151, 160, 165, 178, 153, 166, 170, 159, 161, 169, 174, 156, 162, 167

我們可以這樣將它們分組:

範例表格:學生身高

身高 (厘米) (組區間)      頻數
150 - 159                                                 6
160 - 169                                                 9
170 - 179                                                 5
總計                                                           20

第一部分重點回顧

- 數據就是資訊。
- 離散型數據可以數算出來(例如:寵物的數量)。
- 連續型數據可以量度出來(例如:身高)。
- 頻數表幫助我們整理數據,以便輕鬆找出模式。


第二部分:數據圖表

俗語說:「一圖勝千言」。在統計學中,一個圖表勝過千個數字!讓我們來學習如何繪製數據圖表。

幹葉圖

這是一種巧妙的方式,既能顯示數據集中每個精確數值,又能同時整理它們。想像一下樹的(第一位或頭幾位數字)和它的(最後一位數字)。

範例數據:測驗得分 - 78, 93, 85, 76, 81, 88, 95, 76

步驟一:「幹」將是十位數字(7、8、9)。
步驟二:「葉」將是個位數字。將它們寫在對應的幹旁邊。
步驟三:葉子必須按從小到大的順序排列,並加上圖例。

測驗得分幹葉圖

幹 | 葉
  7     | 6, 6, 8
  8     | 1, 5, 8
  9     | 3, 5

圖例:7 | 6 代表 76

這個圖表展示了分數的分佈情況,而且每個原始分數都一目瞭然!

直方圖:柱狀圖的近親

直方圖看起來像柱狀圖,但它用於已分組的連續型數據。它們有兩個主要區別:

  1. 長方形之間沒有空隙(緊密相連!)。
  2. 水平軸(x軸)是連續的刻度,並標示了組界

什麼是組界?對於像150-159這樣的組區間,下一個是160-169。組界是159和160之間的中間值,即159.5。所以組界就是149.5、159.5、169.5等等。這樣就能填補空隙了!

別搞混了!

柱狀圖:有空隙。用於離散型數據(例如:最喜歡的顏色)。
直方圖:沒有空隙。用於連續型、已分組數據(例如:身高、體重)。

頻數多邊形和頻數曲線

頻數多邊形是另一種顯示已分組數據的方式。它基本上就是折線圖。

如何繪製一個頻數多邊形:

  1. 找出每個組區間的中點。這就是組中點。(對於160-169,組中點是 $$ \frac{160+169}{2} = 164.5 $$)。
  2. 在每個組中點的頻數高度處標示一個點。
  3. 用直線連接這些點!

頻數曲線只是頻數多邊形的平滑版本,徒手繪製而成。

累積頻數多邊形和累積頻數曲線

這聽起來可能有點複雜,但「累積」這個詞的意思其實就是「不斷地加起來」。

步驟一:建立累積頻數表。只需不斷累加頻數即可。

範例表格:學生身高

身高 (厘米)      頻數      累積頻數
150 - 159                   6                                 6
160 - 169                   9                                 6 + 9 = 15
170 - 179                   5                                 15 + 5 = 20

步驟二:繪製圖表。你將累積頻數對應上限組界繪製。(例如:在(159.5, 6)處標示一個點,然後是(169.5, 15)等)。這會形成一個典型的「S」形曲線。

利用曲線找出寶藏!

這條曲線對於找出估計值非常有用:

  • 中位數 (Q2):中間的數值。在垂直軸上找到50%的位置(對於20名學生來說,就是第10名學生),畫一條橫線到曲線,然後再畫一條直線向下到水平軸,讀取中位身高。
  • 下四分位數 (Q1):25%的位置(對於20名學生來說,就是第5名學生)。
  • 上四分位數 (Q3):75%的位置(對於20名學生來說,就是第15名學生)。

化身數據偵探:圖表的運用與誤用

圖表功能強大,但它們也可能用來誤導你!務必留意以下幾點:

  • 斷軸:垂直軸是否從0開始?如果不是,它可能會讓差異看起來比實際大得多。
  • 不均勻的刻度:軸上的數字間隔是否均勻?
  • 誤導性圖片:使用圖片而非長方形作圖,如果圖片的面積而非高度發生變化,可能會造成誤導。
第二部分重點回顧

- 我們為不同類型的數據使用不同的圖表。
- 幹葉圖整齊地顯示所有數據值。
- 直方圖用於已分組的連續型數據,而且沒有空隙。
- 累積頻數曲線幫助我們估計中位數和四分位數。
- 務必仔細審視圖表,確保它們沒有誤導成分!


第三部分:找出數據的「中心」

我們常常希望用一個單一的、具代表性的數字來描述一整組數據。這稱為集中趨勢的量度。讓我們學習三個主要的量度。

平均數(平均值)

這個你可能已經知道了!它是最常見的「平均值」類型。

如何計算:將所有數值加起來,然後除以數值的個數。
範例:對於分數 6, 7, 8, 9, 10
$$ \text{Mean} = \frac{6+7+8+9+10}{5} = \frac{40}{5} = 8 $$

優點:運用了所有數據。
缺點:如果數據中存在極高或極低的值(即異常值),平均數可能會產生誤導。想像一下,計算一組學生的平均零用錢,其中一個人有1000港元!這會使平均值對其他人來說顯得非常高。

中位數(中間的數值)

中位數是將所有數據排序後,位於正中間的那個數值。

記憶小貼士:位數在道路中間。

如何找出中位數:

  1. 將數據按從小到大的順序排列。
  2. 找出中間的數字。

範例一(奇數個數值):6, 7, 8, 9, 10。中位數是8。

範例二(偶數個數值):6, 7, 8, 9, 10, 11。中間在8和9之間。所以我們找出這兩個數值的平均數:$$ \frac{8+9}{2} = 8.5 $$。中位數是8.5。

優點:不受異常值影響!這使得它非常適用於房價或薪金等數據。
缺點:在計算中沒有使用所有數據值。

眾數(最常見的數值)

眾數是出現多次的數值。

記憶小貼士:數 = 最多。

範例:在數據 7, 8, 9, 6, 8, 7, 9, 10, 8, 7, 6, 8, 9, 8, 7 中,數字8出現了5次,比任何其他數字都多。所以,眾數是8。

對於已分組數據,我們會找出眾數組,即頻數最高的組區間。

優點:容易找到,並可用於非數值數據(例如:最喜歡的顏色中的眾數可能是「藍色」)。
缺點:有時一組數據可能沒有眾數,或有多個眾數。

加權平均數:當某些數據更重要時

有時,並非所有數據都同等重要。想想你的學校成績:考試通常比測驗所佔比重更大。這就是加權平均數派上用場的時候了。

範例:你的最終分數是根據功課(佔20%)和期末考試(佔80%)計算的。你的功課得分是90分,考試得分是75分。
普通平均數: $$ \frac{90+75}{2} = 82.5 $$ (這是錯誤的!)
加權平均數: $$ (90 \times 0.20) + (75 \times 0.80) = 18 + 60 = 78 $$
你的最終分數是78分。這是更準確的反映,因為它考慮了每個部分的「權重」。

當我們改變所有數據時會怎樣?

這是一個很方便的捷徑!如果我們對每份數據都做同樣的操作,平均數、中位數和眾數會發生什麼變化?

  • 如果你加上一個常數:如果你給每個學生的測驗分數都加上5分,那麼平均數、中位數和眾數也會增加5
  • 如果你乘以一個常數:如果你將每個學生的分數都乘以兩倍,那麼平均數、中位數和眾數也會乘以兩倍
第三部分重點回顧

- 平均數是總和除以數量(對異常值敏感)。
- 中位數是數據排序後的中間值(對異常值不敏感)。
- 眾數是最常出現的數值。
- 根據你的數據選擇最合適的量度:如果存在明顯的異常值,請使用中位數!


你已掌握統計學的基本知識!

太棒了!你現在已經懂得如何收集、整理、繪製和解釋數據。你可以找出平均數、中位數和眾數來描述數據的典型特徵,也知道如何選擇合適的工具來處理數據。這是一項非常實用的技能,不僅在數學課上,在日常生活中也大有用處。繼續練習,你很快就會成為數據高手!