集中趨勢的量度:找出數據的「中間」
各位同學好!歡迎來到「數據處理」的世界!
您有沒有想過,當人們說起「平均學生」或者某樣東西的「典型價格」時,他們究竟想表達些什麼?其實,他們正使用數學上一個叫做集中趨勢的概念。
在這一章,我們會學習如何找出一個數字堆(一個數據集)的「中心」或者「中間」。就好像找一個數字去代表整個組別一樣,這對於快速理解資訊超級有用,無論是您的測驗分數、天氣情況,還是您最愛的電子遊戲數據都一樣。
就算一開始覺得有點難,也不用擔心!我們會用一些簡單又貼近生活的例子,將其逐一拆解。準備好了嗎?一起開始吧!
認識三大主角:「3M」
當我們談論集中趨勢,通常會集中談論三個核心概念。您可以將它們視為一隊超級英雄,各自有它們獨特的方法去找出「中間」:
1. 平均數 (The Mean):「公平分享」的數值。
2. 中位數 (The Median):「正中間」的數值。
3. 眾數 (The Mode):「最受歡迎」的數值。
我們會逐一認識它們,看看何時使用它們的獨特「超能力」!
處理簡單的數據列表(未分組數據)
我們由一個簡單、未排序的數字列表開始,這種叫做未分組數據。
第一部分:平均數(或稱算術平均數)
這是什麼?
您可能以前聽過「平均」這個詞。在數學上,我們稱它為平均數。如果將所有東西平均分配,您就會得到這個數值。
如何找出平均數?
這是兩步完成的過程:
第一步:將您數據集裡面所有數字加起來。
第二步:將總數除以數字的總數量。
公式就是這樣:
$$ \text{Mean} = \frac{\text{Sum of all data values}}{\text{Number of data values}} $$試著做個例子!
想像一下,這些是您5次數學小測的分數:8、7、9、6、10。不如我們來找出您的平均分吧。
第一步(將它們全部加起來): $$8 + 7 + 9 + 6 + 10 = 40$$第二步(除): 總共有5個分數,所以我們除以5。 $$40 \div 5 = 8$$
所以,這批小測分數的平均數是8。做得好!
快速溫習:平均數
- 又稱算術平均數。
- 動作:先加後除。
- 代表「公平分享」的數值。
第二部分:中位數(個「中間仔」)
這是什麼?
中位數就是列表中間的數字,但是有一個「陷阱」!您必須首先將數字排序!
記憶小貼士:「Median」聽起來像「Medium(中等)」,而中等永遠在中間嘛。
如何找出中位數?
第一步:將所有數字由最小排到最大。
第二步:找出物理上在中間的數字。
情況一:數據點數量為單數
我們再用回小測分數做例子:8、7、9、6、10。
第一步(排序): 6, 7, 8, 9, 10
第二步(找出中間): 最中間的數字就是8。
所以,中位數是8。很簡單!
情況二:數據點數量為雙數
如果A同學再考一次小測,拿到9分呢?他的分數就是:8、7、9、6、10、9。
第一步(排序): 6, 7, 8, 9, 9, 10
第二步(找出中間): 哎呀!中間有兩個數字:8和9。那該怎麼辦?我們就找出這兩個數字的平均數!
$$ (8 + 9) \div 2 = 17 \div 2 = 8.5 $$
所以,這組數據的中位數是8.5。
常見錯誤警告!
最常見的錯誤就是找出中位數之前,忘記將數字排好次序。記住,永遠都要先排序!
第三部分:眾數(最受歡迎)
這是什麼?
眾數是最容易找到的一個!它就是數據集裡面出現最多次數的數字。
記憶小貼士:『Mode』的『Mo』字就好像『Most Often』的『Mo』字,就是指出現『最』多次數的數字。
如何找出眾數?
看看一個小班的鞋碼:5、6、7、8、6、8、9、8。
只要找出哪個數字出現得最多次。數字8出現了三次,比其他任何尺碼都多。
所以,眾數是8。
眾數的特殊情況:
- 沒有眾數:如果所有數字都只出現一次(例如:1、2、3、4、5),那就沒有眾數。
- 多於一個眾數:如果兩個(或更多)數字出現頻率相同,而且是最多,那就可以有多於一個眾數!例如,在數據集2、3、3、4、5、5中,眾數是3和5。
處理大量數據(分組數據)
有時我們有這麼多數據,將其放入頻數表會更方便。這種叫做分組數據。由於我們不再知道準確的數值,所以需要估計我們的集中趨勢量度。
第一部分:眾數組
當數據是分組的時候,我們找不到單一的眾數。取而代之,我們會找出眾數組,即是頻數最高的組別。
例子:做功課的時間
我們有一張表,顯示學生做功課的時間。
時間(分鐘):0-10 | 11-20 | 21-30 | 31-40
頻數(學生人數):3 | 12 | 8 | 2
只要找出最高的頻數。它是12。它屬於哪個組別?就是11-20分鐘這個組別。
所以,眾數組是11-20分鐘。
第二部分:從分組數據中估計平均數
我們找不到準確的平均數,因為我們不知道那12位學生在眾數組裡面每人做功課的準確時間。但是我們可以做出一個很好的估計!
以下是步驟:
1. 找出每個組的組中點。組中點就是該組的中點。(對於11-20,中點是 (11+20)/2 = 15.5)
2. 將每個組中點乘以它的頻數。
3. 將第二步所有的結果加起來。
4. 除以數據點的總數(即總頻數)。
我們用回做功課的例子:
第一組(0-10):組中點 = 5。 $$5 \times 3 = 15$$第二組(11-20):組中點 = 15.5。 $$15.5 \times 12 = 186$$第三組(21-30):組中點 = 25.5。 $$25.5 \times 8 = 204$$第四組(31-40):組中點 = 35.5。 $$35.5 \times 2 = 71$$
第三步(將它們全部加起來): $$15 + 186 + 204 + 71 = 476$$總頻數: $$3 + 12 + 8 + 2 = 25$$
第四步(除): $$ \text{Estimated Mean} = 476 \div 25 = 19.04 $$
我們的估計平均時間是19.04分鐘。
重要提示:記住,這只是一個估計,因為我們使用了組中點而不是實際的數據。
加權平均數(當部分數據更重要時)
這是什麼?
有時,並不是所有數字都是平等的。有些會更重要,或者有更多「權重」。一個最好的真實例子就是您的學校分數!期末考試通常比單次功課有更高的比重。
加權平均數就是一種平均數,其中某些數據點比其他數據點有更大的影響。
例子:計算最終成績
想像一下,您的數學期末成績是這樣計算的:
- 功課佔10%(權重 = 10)
- 小測佔30%(權重 = 30)
- 期末考試佔60%(權重 = 60)
您的得分是:功課95分,小測80分,期末考試75分。
第一步:將每個分數乘以它的權重。
功課: $$95 \times 10 = 950$$小測: $$80 \times 30 = 2400$$期末考試: $$75 \times 60 = 4500$$
第二步:將這些結果加起來: $$950 + 2400 + 4500 = 7850$$
第三步:將總權重加起來: $$10 + 30 + 60 = 100$$
第四步:將第二步的結果除以第三步的結果。
$$ \text{Weighted Mean} = 7850 \div 100 = 78.5 $$
您的最終成績是78.5分!您可以看到,期末考試的分數影響最大,因為它有最高的權重。
我應該使用哪個「M」?(用途和誤用)
選擇正確的量度方法很重要,因為有時一個「M」會比另一個更能真實反映情況。
當您使用平均數時... 數據分佈比較平均,而且沒有極端值(又稱異常值)。例子:班上同學的身高。
當您使用中位數時... 有極端值(異常值)。中位數不會受到超高或超低數字的影響。例子:想像一間公司的薪金。一個CEO賺幾百萬,但大部分員工賺少很多。平均薪金會很高而且容易誤導人。中位數薪金會更好反映一個普通員工的收入。
當您使用眾數時... 數據不是數字(例如「最喜歡的顏色」),或者您只想知道最常見的選擇。例子:鞋店老闆會使用眾數來知道哪種鞋碼要訂最多貨。
您又知道嗎?(統計如何誤導人)
人們可以「濫用」統計,選擇一個對他們最有利的量度方法。一間公司可能會說「我們的平均薪金是十萬元!」他們使用的可能是在老闆超高薪金拉高了的平均數。但大部分人實際拿到的中位數薪金可能只是四萬元!永遠都要問清楚他們正使用哪種「平均」。
實用捷徑:如果我們改變所有數據會怎樣?
如果我們對數據集裡面的每一個數字都做同樣的事情,那我們的「3M」會怎樣變化呢?好消息是:有一個很簡單的規則!
規則一:加或減一個數字
如果您將數據集裡面的每個數值加同一個數字(我們稱它為k),那平均數、中位數和眾數都會增加k。減法也是一樣!
例子:數據集 {2, 4, 4, 6}。平均數=4,中位數=4,眾數=4。
我們將每個數字都加10:{12, 14, 14, 16}。
新的平均數是14(4+10),新的中位數是14(4+10),新的眾數是14(4+10)。沒錯!
規則二:乘或除一個數字
如果您將數據集裡面的每個數值乘以同一個數字(k),那平均數、中位數和眾數都會乘以k。除法也是一樣!
例子:數據集 {2, 4, 4, 6}。平均數=4,中位數=4,眾數=4。
我們將每個數字都乘以5:{10, 20, 20, 30}。
新的平均數是20(4x5),新的中位數是20(4x5),新的眾數是20(4x5)。就好像變魔術一樣神奇!
重點提示
集中趨勢的量度(平均數、中位數、眾數)會以您改變數據集中每個數據的方式,受到完全相同的影響。這在解題的時候可以是一個很有用的捷徑!