課題:統計學入門——讀懂數據話語!
各位同學好!歡迎來到刺激有趣的統計學世界!你可能會想:「統計學?不就是一堆沉悶的數字和圖表嗎?」才不是呢!統計學就像偵探工作一樣。它是一門收集、整理和理解資訊(我們稱之為數據)的學問,目的就是揭開隱藏的秘密、發現趨勢,並作出明智的決策。
在這個課題裡,我們會學習如何收集數據、如何整理數據讓它變得有意義,以及如何找出數據所要告訴我們的「典型」故事。這在現實生活中超級有用,無論是找出朋友之間最受歡迎的電子遊戲,還是理解體育比賽的分數和新聞報導,都能派上用場!準備好了嗎?我們開始吧!
第一部分:整理線索——數據的收集與分類
在偵探解開謎團之前,他們需要先收集線索。在統計學中,我們的線索就叫做數據。數據只是一堆事實、數字或測量結果的集合。
我們會接觸到哪些數據類型?
數據通常分為兩大類。了解它們之間的區別非常重要!
1. 離散數據
這類數據可以用整數來數算。你不能擁有它們的「一半」。想想看:你可以數班上有多少人,但不會有25.5個人吧?
- 例子:你擁有的寵物數量(你可以有2隻貓,但不能有2.5隻貓)。
- 例子:你的鞋碼(例如:7、7.5、8——它們是固定的數值,中間並沒有無限多的數值)。
- 例子:擲骰子時的點數(1、2、3、4、5或6)。
2. 連續數據
這類數據是可以用儀器量度出來的。它可以在某個範圍內取任何數值。想想你用尺或秒錶量度的東西。
- 例子:你的身高(你可以是150厘米、150.1厘米、150.11厘米……)。
- 例子:跑100米所需的時間(例如:15.2秒、15.25秒……)。
- 例子:房間的溫度。
快速溫習區
離散數據 = 可數算(就像籃子裡的蘋果)
連續數據 = 可量度(就像蘋果的重量)
整理數據:頻數分佈表
想像一下,你問了20位朋友他們有多少兄弟姊妹。你得到了這份清單:1, 2, 1, 0, 3, 1, 2, 4, 0, 1, 2, 2, 1, 1, 3, 0, 2, 1, 2, 1。這堆數據亂七八糟的!一個頻數分佈表可以幫助我們整齊地整理這些雜亂的數據。
頻數的意思就是「某件事發生了多少次」。
對於未分組數據(例如我們的兄弟姊妹例子):
我們列出每個可能的值,並數算它出現了多少次。
-----------------|-----------|--------------
0 | III | 3
1 | IIII III | 8
2 | IIII I | 6
3 | II | 2
4 | I | 1
-----------------|-----------|--------------
總計 | | 20
看吧?是不是容易閱讀得多!我們可以迅速發現,擁有1個兄弟姊妹是最普遍的情況。
對於已分組數據(當你的數值範圍很廣時):
如果我們量度20位學生的身高(厘米)呢?我們可能會得到很多不同的數值。最好將它們分組到組區間(又稱分組)。
例子數據(身高,單位:厘米):155, 161, 173, 158, 163, 168, 175, 159, 165, 164, 171, 178, 166, 169, 157, 160, 164, 170, 174, 167
-----------------|-----------|--------------
155 - 159 | IIII | 4
160 - 164 | IIII | 5
165 - 169 | IIII | 5
170 - 174 | IIII | 4
175 - 179 | II | 2
-----------------|-----------|--------------
總計 | | 20
這比雜亂無章的數字清單更能清楚地顯示身高的分佈!
第一部分重點總結
統計學始於數據收集。我們將數據分類為離散數據(可數算的)或連續數據(可量度的)類型。為了讓數據變得有意義,我們會將它們整理成頻數分佈表,可以是單個數值,也可以是分組的。
第二部分:繪製圖表——數據的視覺呈現
一圖勝千言……或者說,一圖勝千數!統計圖表能幫助我們即時看出數據中的模式和趨勢。你們在小學時已經學過一些,例如棒形圖(或稱柱形圖)、圓形圖和折線圖。接下來,我們來學習一些新的、更強大的圖表吧!
幹葉圖
這是一種巧妙的方法,可以整齊、有條理地展示所有數據值。它看起來有點像一棵樹!「幹」是數字的前半部分,而「葉」是最後一個數字。
如何繪製幹葉圖:
讓我們使用以下測驗分數:75, 81, 94, 62, 88, 79, 81, 95, 75, 67
步驟1:找出最低和最高分數,以確定你需要哪些「幹」(分數從60多到90多,所以我們的幹是6、7、8、9)。
步驟2:垂直寫下「幹」。
步驟3:逐一查看你的數據,將「葉」(最後一個數字)添加到正確的「幹」行。
步驟4:將「葉」按數值順序排列。別忘了加上圖例!
幹 | 葉
-----|----------
6 | 2 7
7 | 5 5 9
8 | 1 1 8
9 | 4 5
-----|----------
圖例:6 | 2 代表 62
現在我們可以輕鬆地看到分數的分佈,並且大部分學生都考獲70多分和80多分。
頻數直方圖
頻數直方圖看起來像棒形圖,但它是用來表示已分組的連續數據的。它們之間有兩大主要區別:
- 棒形圖的棒條是彼此相連的,因為數據是連續的(一個組的結束點就是下一個組的開始點)。
- 棒條的闊度代表組區間。
類比:想像棒形圖就像人們排隊時分開站立(獨立類別)。而頻數直方圖則像一群朋友緊密地站在一起(連續範圍)。
頻數多邊形和頻數曲線
頻數多邊形是另一種顯示分組數據的方式。它就像折線圖一樣。
如何繪製:
步驟1:從頻數直方圖(或分組數據的頻數表)開始。
步驟2:找出每個棒條頂部的中點(或每個組區間的中點)。
步驟3:用直線連接這些中點。
步驟4:將第一個點連接到其前一個組區間中點的水平軸上,並將最後一個點連接到其後一個組區間中點的水平軸上,以「固定」圖形。
頻數曲線只是頻數多邊形的平滑版本,徒手繪製而成。
累積頻數多邊形和累積頻數曲線
這聽起來好像很複雜,但其實就是把東西加起來而已!累積頻數的意思就是「到目前為止的總頻數」。
讓我們使用之前身高的數據:
-----------------|-----------|--------------------------
155 - 159 | 4 | 4
160 - 164 | 5 | 4 + 5 = 9
165 - 169 | 5 | 9 + 5 = 14
170 - 174 | 4 | 14 + 4 = 18
175 - 179 | 2 | 18 + 2 = 20
為了繪製圖表,我們將每個組的上限(或稱組界)與累積頻數作圖。這個圖表總是向上升或保持水平,而且對於找出數據的中位數和四分位數超級有用!
小心!圖表的應用與濫用
圖表有時會用來迷惑你!務必仔細觀察:
- 折斷的軸線:垂直軸是否從0開始?如果不是,它可能會讓差異看起來比實際大得多。
- 不均勻的刻度:軸線上的數字是否均勻分佈?
- 誤導性圖像:使用圖片代替棒形圖可能會扭曲你對數據的看法。一張圖片如果高出兩倍,它的寬度也會是兩倍,這會讓它看起來大4倍!
第二部分重點總結
我們利用圖表來視覺化數據。幹葉圖顯示個別數據點。頻數直方圖和頻數多邊形顯示分組的連續數據。累積頻數曲線幫助我們查看總計並找出關鍵數值。務必保持批判性思維,並提防具有誤導性的圖表!
第三部分:找出「典型」數值——集中趨勢的量度
當我們有一組數據時,通常會想找出一個單一的數字來代表其「中間」或「典型」的數值。這些數字稱為集中趨勢的量度。我們將學習三個主要的集中趨勢量度。
1. 平均數(平均值)
這個你可能已經知道了。你將所有數值加起來,然後除以數值的總數。
公式:
$$ \text{Mean} = \frac{\text{Sum of all data values}}{\text{Number of data values}} $$例子:找出以下分數的平均數:2, 3, 5, 6, 9。
總和 = 2 + 3 + 5 + 6 + 9 = 25
數值數量 = 5
平均數 = 25 / 5 = 5
注意:平均數可能會受到非常高或非常低的數值(稱為異常值或稱離群值)的影響。想像一下,如果我們在列表中加上一個50分。新的平均數將會是 (25 + 50) / 6 = 12.5,這對於原始數字來說並不是很「典型」。
2. 中位數(中間數值)
當你將所有數據按順序排列時,中位數就是剛好在中間的那個數值。
如何找出中位數:
步驟1:將數據從小到大排列。
步驟2:找出中間的數字。
- 如果數值的數量是單數,中位數就是正中間的那個數值。
例子:2, 3, 5, 6, 9。中位數是 5。 - 如果數值的數量是雙數,會有兩個中間數值。中位數就是這兩個數值的平均數。
例子:2, 3, 5, 6, 9, 11。中間數值是 5 和 6。中位數 = (5 + 6) / 2 = 5.5。
中位數的優點:它不受極端異常值的影響!
3. 眾數(最常出現的數值)
眾數是數據集中出現次數最多的數值。
例子:1, 2, 4, 4, 4, 6, 8。眾數是 4。
一組數據可以有一個眾數、多個眾數(例如雙眾數),或者如果每個數值都只出現一次,則可以沒有眾數。
記憶小提示:
- 平均數(Mean)最「惡」計算(又是加又是除,一大堆計算!)。
- 中位數(Median)聽起來像「中間(Medium)」,它就是中間的數值。
- 眾數(Mode)聽起來像「最多(Most)」。
已分組數據的計算
當數據已分組時,我們無法找出精確的平均數、中位數或眾數,但我們可以估計它們。
- 眾數組:這很容易!它就是頻數最高的那個組別或組區間。
- 已分組數據的平均數:這個比較複雜一點。我們假設一個組中的所有數值都等於該組的中點。然後我們從那裡計算平均數。
- 已分組數據的中位數:我們可以利用累積頻數曲線來估計中位數。在垂直軸上找到中點,橫向移到曲線上,然後向下移到水平軸上讀取數值。
一開始覺得有點難也不要緊!我們會大量練習的。關鍵思想是,對於已分組數據,我們的答案都是很好的估計值,而非精確的數字。
加權平均數
有時,並非所有數據都同樣重要。例如,你的期末考試可能比一份功課的得分更重要。加權平均數是一種平均值,其中一些數據值具有更大的「權重」或重要性。
例子:在一門課程中,你的功課佔30%的比重,期末考試佔70%。你的功課分數是90分,考試分數是80分。
普通平均數 = (90 + 80) / 2 = 85。
加權平均數 = (90 × 30%) + (80 × 70%) = (90 × 0.3) + (80 × 0.7) = 27 + 56 = 83。
你的最終分數是83分,因為考試的權重更大。
第三部分重點總結
集中趨勢的量度為我們的數據提供了一個「典型」數值。
- 平均數是平均值(加起來再除)。
- 中位數是中間數值(記得把它們排好順序!)。
- 眾數是最常見的數值。