第18章:統計學的應用與謬誤 — 您的數據偵探指南!

各位同學!您是否曾見過這些新聞標題:「90%用戶都喜歡我們的新App!」或者「吃這種食物可以延年益壽!」?統計數據無處不在—在新聞、廣告、社交媒體中都能見到。它們對了解世界有莫大幫助,但也可能被誤用來誤導您。無需擔心,這一章就是您的秘密武器!我們將學會如何解讀弦外之音、識別可疑的說法,以及了解統計學應該如何正確地運用。就像練成數學的超能力,可以看清真相!


第一部分:概覽 — 總體與樣本

在我們收集任何數據之前,首先要知道我們要討論的對象是誰。這裡就要介紹我們兩個超重要的詞語:「總體 (Population)」和「樣本 (Sample)」。

想像一下,您想知道全港高中學生最喜歡的科目是什麼。

  • 總體 (Population) 是您感興趣的「整個群體」。在這個例子中,就是「所有」香港的高中學生。想問遍每一個人根本是不可能的!

  • 樣本 (Sample) 是「總體的一小部分」,而您實際收集數據的就是這部分。您可能會調查來自不同學校的500名學生。這個就是您的樣本。

比喻時間:品嚐湯品!

總體想像成一大鍋湯。您不需要喝完整鍋湯才知它好不好喝。您只是一小匙—那個就是您的樣本。如果那一小匙有齊鍋湯裡面所有材料的精華,它就會給予您對整鍋湯的味道有一個良好的概念。我們的目標就是確保我們「一匙」的數據,能夠真實地代表整鍋「湯」。

快速溫習盒

總體 (Population): 我們想研究的「所有」個體組成的群體。
樣本 (Sample): 從總體中抽取的部分,我們將在此處收集數據。
為何要抽樣? 因為相比起研究整個總體,抽樣更便宜、更快、更實際。

第一部分重點

我們將研究一個細小的樣本,去對一個大型總體下結論。最重要的是,樣本必須能夠良好地代表總體,否則我們的結論就會出錯了!


第二部分:如何選擇您的樣本 — 抽樣方法

那麼,我們如何才能得到一個好的「一匙」總體呢?我們用來選擇樣本的方法是非常重要的。我們可以將這些方法分成兩大類。

概率抽樣 (The Fair Methods)

在概率抽樣中,總體中的每個成員都有一個已知的機會被選中。這是獲得一個無偏、具代表性樣本的最佳方法。

1. 簡單隨機抽樣

意指: 每個人被選中的機會都是均等的。就像將每個名字放入一個大抽籤箱,然後隨機抽取出來。
例子:想在1000名學生的學校中調查50名學生,您可以為每位學生編配一個號碼,然後用隨機數字生成器選出50個號碼。

2. 分層抽樣

意指: 首先,您將總體劃分成重要的子群組(稱為「分層」)。然後,您從每個子群組抽取簡單隨機樣本。這樣可以確保您能夠代表所有重要的群組。
例子:您想調查學生對新校規的意見。您知道男生和女生可能有不同意見。所以您將學生總體分成兩個分層:「男生」和「女生」。然後您從每個群組隨機抽樣,確保樣本中的比例能與學校的實際比例一致(例如,如果學校是60%女生,您的樣本也應有60%女生)。

3. 系統抽樣

意指: 您隨機選擇一個起點,然後每隔「第 k 個」成員就選取一個。
例子:想從一份1000人的名單中調查100人,您可以決定每隔第10個人就選取一個。您隨機選擇一個介於1到10之間的起始數字(例如7)。然後您選取第7、第17、第27、第37個人,以此類推。

非概率抽樣 (The Easy, but Biased, Methods)

這些方法更快更方便,但它們通常會導致有偏差的結果,因為不是每個人都有均等的機會被選中。見到研究用這些方法,就要非常小心了!

1. 方便抽樣

意指: 您只是調查那些容易接觸到的人。對研究人員而言是方便,但對於獲得具代表性的樣本而言是非常差的方法。
例子:一位研究人員在午餐時間在一個港鐵站外面,調查最先同意接受訪問的100人。這個樣本會過度代表辦公室工作人士,但就錯過了學生、老人家以及其他地區的人。

2. 配額抽樣

意指: 有點像分層抽樣,但不是隨機的。研究人員決定好子群組以及每個群組的配額(例如:「我需要50個男人和50個女人」)。然後,他們用方便抽樣的方法去填補這些配額。
例子:一位研究人員需要調查20名大學生。他去大學校園,調查他找到的最先20名學生。這也仍然是一種方便抽樣,即使它有「配額」要填補。

您是否知道?

一個著名的抽樣錯誤發生在1936年美國總統大選。一本叫做《文摘》(Literary Digest) 的雜誌調查了超過二百萬人,並預測某個候選人會大獲全勝。但他們完全錯誤!為什麼?因為他們的樣本來自電話簿和汽車登記名單。在1936年,只有比較富有的人才有電話和汽車,所以他們的樣本並不能代表整個投票人口。這就是抽樣偏差 (sampling bias) 的經典例子!

第二部分重點

您如何選擇樣本是至關重要的。概率抽樣 (Probability sampling) 方法(例如簡單隨機抽樣、分層抽樣、系統抽樣)是公平而且能提供最好結果的。對於來自非概率抽樣 (Non-probability sampling)(例如方便抽樣)的結果,您一定要非常批判性地看待,因為它們通常都是有偏差的。


第三部分:問對問題 — 問卷設計

好了,您已經有了樣本。現在您要向他們提問。但是,您如何措辭一條問題,是可以完全改變答案的!一份好的問卷會問清晰、中立的問題。一份差的問卷可以誘使人給出某個特定的答案。

問卷中要避免的常見陷阱:

1. 引導性問題 (Leading Questions): 這些問題暗示了一個「正確」答案。
差: 「您不是也同意新改良的學校午餐美味得多嗎?」
好: 「您會如何在1到5的評分標準上評價新學校午餐的品質?」

2. 含糊或模稜兩可的問題 (Vague or Ambiguous Questions): 用詞不清晰。
差: 「您定期做運動嗎?」(「定期」是什麼意思?每日一次?每星期一次?每月一次?)
好: 「上星期您做了至少30分鐘運動的日子有幾多天?」

3. 雙重提問 (Double-Barrelled Questions): 一條問題詢問兩件事。
差: 「您認為學校應該減少書本開支並增加體育設施開支嗎?」(如果只同意一部分,不同意另一部分該如何處理?)
好: 分成兩條問題:「您認為學校應該減少書本開支嗎?」和「您認為學校應該增加體育設施開支嗎?」

4. 不當的選項 (Inappropriate Options): 選項令人困惑,或者未能涵蓋所有可能性。
差: 「您幾歲?(a) 20歲以下 (b) 20-30歲 (c) 30歲以上」(如果您剛好20歲或30歲該如何處理?選項重疊,而且不是互斥的。)
好: 「您屬於哪個年齡組別?(a) 20歲以下 (b) 20-29歲 (c) 30歲或以上」

5. 問題次序 (Question Order): 問題的次序可以影響後續答案。
例子:如果您首先問「您對您的生活有多滿意?」,然後再問「您多久談一次戀愛?」,答案可能會與您反過來詢問的情況不同。

第三部分重點

問題的措辭很重要!當您見到一份調查結果,試著找出他們問了哪些確切的問題。小心旨在產生某個特定結果的引導性、含糊或有詭計的問題。


第四部分:辨識謊言 — 統計學的謬誤

這個時候,我們就要戴上我們的偵探帽了!人們可以在每個階段濫用統計數據:在他們如何收集數據、如何呈現數據,以及如何解讀數據。

濫用1:誤導性數據收集

這個又回到我們頭兩個部分。如果有人使用有偏差的抽樣方法(例如方便抽樣)或者設計得差的問卷,他們的數據從根本上就有缺陷。就像在一個不穩固的地基上蓋屋—無論它看起來多麼漂亮,都不可靠。

警示: 一個標題說「85%的人喜歡X牌咖啡!」,但這個「調查」是在一間X牌商店外面派發免費樣本時進行的。(這是偏頗的樣本!)

濫用2:誤導性圖表

一張圖勝過千言萬語,但也可以道出千個謊言。很容易操縱圖表,使差異看起來比實際更大或更小。

常見圖表詭計:
  • 截斷Y軸 (The Truncated Y-Axis): 這是最常見的詭計!垂直軸 (Y軸) 不是由零開始。這樣會使微小的差異看起來像巨大的變化。

  • 不一致的刻度 (Inconsistent Scale): 軸上的數字增長並不一致(例如:它是0、10、20、100、200這樣升),這樣會扭曲圖表。

  • 誤導性的象形圖 (Misleading Pictograms): 使用圖片時,高和寬都同時按比例放大。這樣會使圖片的面積呈指數級增長,誇大了差異。

  • 令人困惑的3D圖表 (Confusing 3D Charts): 3D效果可以使您難以讀取實際數值,而且可以使靠近觀察者的部分看起來比實際更大。

濫用3:誤導性解讀

即使有良好的數據和良好的圖表,得出的結論都可能是錯的。

常見解讀詭計:
  • 使用「錯誤」的平均數 (Using the "Wrong" Average): 還記得平均數、中位數和眾數嗎?一間公司可能會說它的「平均」工資很高,是因為使用了平均數 (mean),它被幾個百萬富翁級高層拉高了。而中位數 (median)(中間數值)會提供更真實的典型員工收入情況。

  • 相關性不等於因果關係 (Correlation is NOT Causation): 這是一個很大的誤區!僅僅因為兩件事同時發生,不代表一件事會導致另一件事。
    經典例子:冰淇淋銷量和鯊魚襲擊次數有關聯(它們在夏天都會上升)。那麼吃冰淇淋會導致鯊魚襲擊嗎?當然不會了!真正的原因是炎熱的天氣(『潛在變數』),它會使人們去游泳和吃冰淇淋。

  • 選擇性挑選數據 (Cherry-Picking Data): 只呈現支持自己論點的數據,而忽視不支持的數據。

  • 細小的樣本量 (Small Sample Size): 來自非常細小樣本(例如:「四個人中有三個人同意」)的結果並不可靠,很大機會只是隨機機會造成。

第四部分重點

做一個批判性的觀察者!總是質疑數據來源,檢查圖表的坐標軸,以及仔細思考這個結論是否真正得到證據支持。不要被花俏的數字或圖表騙到您!


第五部分:您的統計學偵探工具箱

恭喜您,您已經學會了所有秘密了!現在,無論您在現實世界遇到任何統計數據,您都可以用這份簡單的清單,像專家一樣評估它。

問自己這些問題:

1. 這項研究由誰出錢資助?又由誰進行?
(他們是否有理由想得到某個特定結果?)

2. 樣本量有多大?樣本是如何揀選出來的?
(夠不夠大?是隨機樣本還是有偏差的方便抽樣?)

3. 他們問了哪些確切的問題?
(是否有引導性、含糊或有詭計的問題?)

4. 數據是如何呈現出來的?
(圖表的Y軸是否由0開始?刻度是否一致的?)

5. 結論是否合乎邏輯?
(他們是否有混淆相關性和因果關係?他們是否有用最適合的「平均數」嗎?)


透過學習統計學的應用和謬誤,您不只是在學習數學,更是在學習如何在日常生活中成為一個更聰明、更具批判性的思考者。現在就出發,做個數據偵探吧!