集中趨勢的量度:找出數據的「中間」
各位同學好!歡迎來到「數據處理」的世界!
你有冇諗過,當人們講起「平均學生」或者某樣嘢嘅「典型價格」時,佢哋究竟想表達啲咩?其實,佢哋用緊數學上一個叫做集中趨勢嘅概念。
喺呢一章,我哋會學點樣搵出一堆數字(一個數據集)嘅「中心」或者「中間」。就好似搵一個數字去代表成個組別咁,呢個對於快速理解資訊超級有用,無論係你嘅測驗分數、天氣情況,定係你最愛嘅電子遊戲數據都一樣。
就算一開始覺得有點難,都唔使擔心!我哋會用一啲簡單又貼地嘅例子,將佢逐一拆解。準備好未?一齊開始啦!
認識三大主角:「3M」
當我哋講集中趨勢,通常會集中講三個核心概念。你可以當佢哋係一隊超級英雄,各自有佢哋獨特嘅方法去搵出「中間」:
1. 平均數 (The Mean):「公平分享」嘅數值。
2. 中位數 (The Median):「正中間」嘅數值。
3. 眾數 (The Mode):「最受歡迎」嘅數值。
我哋會逐一認識佢哋,睇下幾時用佢哋嘅獨特「超能力」!
處理簡單的數據列表(未分組數據)
我哋由一個簡單、未排序嘅數字列表開始,呢種叫做未分組數據。
第一部分:平均數(或稱算術平均數)
咩嚟㗎?
你可能以前聽過「平均」呢個詞。喺數學上,我哋叫佢做平均數。如果將所有嘢平均分配,你就會得到呢個數值。
點樣搵平均數?
呢個係兩步搞掂嘅過程:
第一步:將你數據集入面所有數字加晒佢哋。
第二步:將總數除以數字嘅總數量。
公式就係咁樣:
$$ \text{Mean} = \frac{\text{Sum of all data values}}{\text{Number of data values}} $$試下做個例子!
想像一下,呢啲係你5次數學小測嘅分數:8、7、9、6、10。不如我哋搵下你嘅平均分啦。
第一步(加晒佢哋): $$8 + 7 + 9 + 6 + 10 = 40$$
第二步(除): 總共有5個分數,所以我哋除以5。 $$40 \div 5 = 8$$
所以,呢批小測分數嘅平均數係8。做得好!
快速溫習:平均數
- 又稱算術平均數。
- 動作:先加後除。
- 代表「公平分享」嘅數值。
第二部分:中位數(個「中間仔」)
咩嚟㗎?
中位數就係列表中間嘅數字,但係有個「陷阱」!你必須首先將數字排序!
記憶小貼士:「Median」聽起來似「Medium(中等)」,而中等永遠喺中間㗎嘛。
點樣搵中位數?
第一步:將所有數字由最細排到最大。
第二步:搵出物理上喺中間嘅數字。
情況一:數據點數量為單數
我哋再用返小測分數做例子:8、7、9、6、10。
第一步(排序): 6, 7, 8, 9, 10
第二步(搵中間): 最中間嘅數字就係8。
所以,中位數係8。好簡單!
情況二:數據點數量為雙數
如果A同學再考一次小測,拎到9分呢?佢嘅分數就係:8、7、9、6、10、9。
第一步(排序): 6, 7, 8, 9, 9, 10
第二步(搵中間): 哎呀!中間有兩個數字:8同9。咁點算好?我哋就搵呢兩個數字嘅平均數!
$$ (8 + 9) \div 2 = 17 \div 2 = 8.5 $$
所以,呢組數據嘅中位數係8.5。
常見錯誤警告!
最常見嘅錯誤就係搵中位數之前,忘記將數字排好次序。記住,永遠都要先排序!
第三部分:眾數(最受歡迎)
咩嚟㗎?
眾數係最容易搵到嘅一個!佢就係數據集入面出現最多次數嘅數字。
記憶小貼士:『Mode』個『Mo』字就好似『Most Often』嘅『Mo』字,就係指出現『最』多次數嘅數字。
點樣搵眾數?
睇下一個細班嘅鞋碼:5、6、7、8、6、8、9、8。
只要搵出邊個數字出現得最多次。數字8出現咗三次,比其他任何尺碼都多。
所以,眾數係8。
眾數嘅特殊情況:
- 沒有眾數:如果所有數字都只出現一次(例如:1、2、3、4、5),咁就沒有眾數。
- 多於一個眾數:如果兩個(或更多)數字出現頻率相同,而且係最多,咁就可以有多於一個眾數!例如,喺數據集2、3、3、4、5、5中,眾數係3同5。
處理大量數據(分組數據)
有時我哋有咁多數據,將佢放入頻數表會更方便。呢種叫做分組數據。由於我哋唔再知道準確嘅數值,所以需要估計我哋嘅集中趨勢量度。
第一部分:眾數組
當數據係分組嘅時候,我哋搵唔到單一嘅眾數。取而代之,我哋會搵眾數組,即係頻數最高嘅組別。
例子:做功課嘅時間
我哋有一張表,顯示學生做功課嘅時間。
時間(分鐘):0-10 | 11-20 | 21-30 | 31-40
頻數(學生人數):3 | 12 | 8 | 2
只要搵最高嘅頻數。佢係12。佢屬於邊個組別?就係11-20分鐘呢個組別。
所以,眾數組係11-20分鐘。
第二部分:從分組數據中估計平均數
我哋搵唔到準確嘅平均數,因為我哋唔知嗰12位學生喺眾數組入面每人做功課嘅準確時間。但係我哋可以做出一個好好嘅估計!
以下係步驟:
1. 搵出每個組嘅組中點。組中點就係該組嘅中點。(對於11-20,中點係 (11+20)/2 = 15.5)
2. 將每個組中點乘以佢嘅頻數。
3. 將第二步所有嘅結果加埋。
4. 除以數據點嘅總數(即總頻數)。
我哋用返做功課嘅例子:
第一組(0-10):組中點 = 5。 $$5 \times 3 = 15$$
第二組(11-20):組中點 = 15.5。 $$15.5 \times 12 = 186$$
第三組(21-30):組中點 = 25.5。 $$25.5 \times 8 = 204$$
第四組(31-40):組中點 = 35.5。 $$35.5 \times 2 = 71$$
第三步(加晒佢哋): $$15 + 186 + 204 + 71 = 476$$
總頻數: $$3 + 12 + 8 + 2 = 25$$
第四步(除): $$ \text{Estimated Mean} = 476 \div 25 = 19.04 $$
我哋嘅估計平均時間係19.04分鐘。
重要提示:記住,呢個只係一個估計,因為我哋用咗組中點而唔係實際嘅數據。
加權平均數(當部分數據更重要時)
咩嚟㗎?
有時,並唔係所有數字都係平等嘅。某啲會更重要,或者有更多「權重」。一個最好嘅真實例子就係你嘅學校分數!期末考試通常比單次功課有更高嘅比重。
加權平均數就係一種平均數,其中某啲數據點比其他數據點有更大嘅影響。
例子:計算最終成績
想像一下,你嘅數學期末成績係咁樣計算嘅:
- 功課佔10%(權重 = 10)
- 小測佔30%(權重 = 30)
- 期末考試佔60%(權重 = 60)
你嘅得分係:功課95分,小測80分,期末考試75分。
第一步:將每個分數乘以佢嘅權重。
功課: $$95 \times 10 = 950$$
小測: $$80 \times 30 = 2400$$
期末考試: $$75 \times 60 = 4500$$
第二步:將呢啲結果加埋: $$950 + 2400 + 4500 = 7850$$
第三步:將總權重加埋: $$10 + 30 + 60 = 100$$
第四步:將第二步嘅結果除以第三步嘅結果。
$$ \text{Weighted Mean} = 7850 \div 100 = 78.5 $$
你嘅最終成績係78.5分!你睇到,期末考試嘅分數影響最大,因為佢有最高嘅權重。
我應該用邊個「M」?(用途同誤用)
選擇正確嘅量度方法好重要,因為有時一個「M」會比另一個更能真實反映情況。
當你用平均數時... 數據分佈比較平均,而且沒有極端值(又稱異常值)。例子:班上同學嘅身高。
當你用中位數時... 有極端值(異常值)。中位數唔會受到超高或超低數字嘅影響。例子:想像一間公司嘅薪金。一個CEO賺幾百萬,但大部分員工賺少好多。平均薪金會好高而且容易誤導人。中位數薪金會更好反映一個普通員工嘅收入。
當你用眾數時... 數據唔係數字(好似「最鍾意嘅顏色」),或者你只想知道最常見嘅選擇。例子:鞋店老闆會用眾數嚟知道邊種鞋碼要訂最多貨。
你又知唔知?(統計點樣誤導人)
人們可以「濫用」統計,選擇一個對佢哋最有利嘅量度方法。一間公司可能會話「我哋嘅平均薪金係十萬蚊!」佢哋用嘅可能係被老闆超高薪金拉高咗嘅平均數。但大部分人實際攞到嘅中位數薪金可能只係四萬蚊!永遠都要問清楚佢哋用緊邊種「平均」。
型仔捷徑:如果我哋改變所有數據會點?
如果我哋對數據集入面嘅每一個數字都做同樣嘅嘢,咁我哋嘅「3M」會點樣變呢?好消息係:有個好簡單嘅規則!
規則一:加或減一個數字
如果你將數據集入面嘅每個數值加同一個數字(我哋叫佢做k),咁平均數、中位數同眾數都會增加k。減數都係一樣!
例子:數據集 {2, 4, 4, 6}。平均數=4,中位數=4,眾數=4。
我哋將每個數字都加10:{12, 14, 14, 16}。
新嘅平均數係14(4+10),新嘅中位數係14(4+10),新嘅眾數係14(4+10)。掂呀!
規則二:乘或除一個數字
如果你將數據集入面嘅每個數值乘以同一個數字(k),咁平均數、中位數同眾數都會乘以k。除數都係一樣!
例子:數據集 {2, 4, 4, 6}。平均數=4,中位數=4,眾數=4。
我哋將每個數字都乘以5:{10, 20, 20, 30}。
新嘅平均數係20(4x5),新嘅中位數係20(4x5),新嘅眾數係20(4x5)。好似變魔術咁神奇!
重點提示
集中趨勢的量度(平均數、中位數、眾數)會以你改變數據集中每個數據嘅方式,受到完全相同嘅影響。呢個喺解題嘅時候可以係個好有用嘅捷徑!