第18章:統計學的應用與謬誤 — 你的數據偵探指南!

各位同學!你有冇見過呢啲新聞標題:「90%用戶都鍾意我哋個新App!」或者「食呢種食物可以延年益壽!」?統計數據無處不在—喺新聞、廣告、社交媒體都見到。佢哋對了解世界有莫大幫助,但亦可以被誤用嚟誤導你。唔使擔心,呢一章就係你嘅秘密武器!我哋會學識點樣解讀弦外之音、識別可疑嘅說法,同埋了解統計學應該點樣正確咁運用。就好似練成數學嘅超能力,可以看清真相!


第一部分:概覽 — 總體與樣本

喺我哋收集任何數據之前,首先要知道我哋要討論嘅對象係邊個。呢度就要介紹我哋兩個超重要嘅詞語:「總體 (Population)」同「樣本 (Sample)」。

想像一下,你想知道全港高中學生最鍾意嘅科目係咩。

  • 總體 (Population) 係你感興趣嘅「整個群體」。喺呢個例子入面,就係「所有」香港嘅高中學生。想問晒每一個人根本係無可能㗎!

  • 樣本 (Sample) 係「總體嘅一小部分」,而你實際收集數據嘅就係呢部分。你可能會調查嚟自唔同學校嘅500名學生。呢個就係你嘅樣本。

比喻時間:品嚐湯品!

總體想像成一大煲湯。你唔需要飲晒成煲湯先知佢好唔好飲。你只係舀一小匙羹—嗰個就係你嘅樣本。如果嗰小匙羹有齊煲湯裡面所有材料嘅精華,佢就會畀到你對成煲湯嘅味道有一個好好嘅概念。我哋嘅目標就係確保我哋「一匙羹」嘅數據,能夠真實咁代表到成煲「湯」。

快速溫習盒

總體 (Population): 我哋想研究嘅「所有」個體組成嘅群體。
樣本 (Sample): 喺總體入面抽取嘅「一部分」,我哋會喺呢度收集數據。
點解要抽樣? 因為相比起研究整個總體,抽樣更便宜、更快、更實際。

第一部分重點

我哋會研究一個細小嘅樣本,去對一個大型總體下結論。最重要嘅係,樣本必須能夠好好咁代表到總體,否則我哋嘅結論就會出錯㗎喇!


第二部分:點樣選擇你嘅樣本 — 抽樣方法

咁,我哋點樣先可以得到一個好嘅「一匙羹」總體呢?我哋用嚟選擇樣本嘅方法係超重要嘅。我哋可以將呢啲方法分成兩大類。

概率抽樣 (The Fair Methods)

喺概率抽樣入面,總體中嘅每個成員都有一個已知嘅機會被選中。呢個係獲得一個無偏、具代表性樣本嘅最佳方法。

1. 簡單隨機抽樣

係咩嚟㗎: 每個人被選中嘅機會都係均等嘅。就好似將每個名放入一個大抽籤箱,然後隨機抽番出嚟咁。
例子:想喺1000名學生嘅學校入面調查50名學生,你可以為每位學生編配一個號碼,然後用隨機數字生成器選出50個號碼。

2. 分層抽樣

係咩嚟㗎: 首先,你將總體劃分成重要嘅子群組(稱為「分層」)。然後,你從每個子群組抽取簡單隨機樣本。咁樣可以確保你能夠代表到所有重要嘅群組。
例子:你想調查學生對新校規嘅意見。你知道男生同女生可能有唔同意見。所以你將學生總體分成兩個分層:「男生」和「女生」。然後你從每個群組隨機抽樣,確保樣本中嘅比例能夠同學校嘅實際比例一致(例如,如果學校係60%女生,你嘅樣本都應該有60%女生)。

3. 系統抽樣

係咩嚟㗎: 你隨機選擇一個起點,然後每隔「第 k 個」成員就選取一個。
例子:想從一份1000人嘅名單中調查100人,你可以決定每隔第10個人就選取一個。你隨機選擇一個介乎1到10之間嘅起始數字(例如7)。然後你選取第7、第17、第27、第37個人,如此類推。

非概率抽樣 (The Easy, but Biased, Methods)

呢啲方法更快更方便,但佢哋通常會導致有偏差嘅結果,因為唔係每個人都有均等嘅機會被選中。見到研究用呢啲方法,就要非常小心喇!

1. 方便抽樣

係咩嚟㗎: 你只係調查嗰啲容易接觸到嘅人。對研究人員嚟講係方便,但對於獲得具代表性嘅樣本嚟講係非常差嘅方法。
例子:一位研究人員喺午餐時間喺一個港鐵站外面,調查最先同意接受訪問嘅100人。呢個樣本會過度代表到辦公室工作人士,但就錯過咗學生、老人家同埋其他地區嘅人。

2. 配額抽樣

係咩嚟㗎: 有啲似分層抽樣,但唔係隨機嘅。研究人員決定好子群組同埋每個群組嘅配額(例如:「我需要50個男人同50個女人」)。然後,佢哋用方便抽樣嘅方法去填補呢啲配額。
例子:一位研究人員需要調查20名大學生。佢去大學校園,調查佢搵到嘅最先20名學生。呢個都仍然係一種方便抽樣,即使佢有「配額」要填補。

你又知唔知?

一個著名嘅抽樣錯誤發生喺1936年美國總統大選。一本叫做《文摘》(Literary Digest) 嘅雜誌調查咗超過二百萬人,並預測某個候選人會大獲全勝。但佢哋完全錯誤!點解?因為佢哋嘅樣本嚟自電話簿同汽車登記名單。喺1936年,只有比較富有嘅人先有電話同汽車,所以佢哋嘅樣本並唔能夠代表到整個投票人口。呢個就係抽樣偏差 (sampling bias) 嘅經典例子!

第二部分重點

你點樣選擇樣本係至關重要嘅。概率抽樣 (Probability sampling) 方法(例如簡單隨機抽樣、分層抽樣、系統抽樣)係公平而且能提供最好結果嘅。對於嚟自非概率抽樣 (Non-probability sampling)(例如方便抽樣)嘅結果,你一定要非常批判性咁看待,因為佢哋通常都係有偏差嘅。


第三部分:問啱問題 — 問卷設計

好啦,你已經有咗樣本。而家你要向佢哋問問題。但係,你點樣措辭一條問題,係可以完全改變答案㗎!一份好嘅問卷會問清晰、中立嘅問題。一份差嘅問卷可以誘使人畀出某個特定嘅答案。

問卷中要避免嘅常見陷阱:

1. 引導性問題 (Leading Questions): 呢啲問題暗示咗一個「正確」答案。
差: 「你唔係都同意新改良嘅學校午餐美味得多咩?」
好: 「你會點樣喺1到5嘅評分標準上評價新學校午餐嘅質素?」

2. 含糊或模稜兩可嘅問題 (Vague or Ambiguous Questions): 用詞唔清晰。
差: 「你定期做運動嗎?」(「定期」係咩意思?每日一次?每星期一次?每月一次?)
好: 「上星期你做咗至少30分鐘運動嘅日子有幾多日?」

3. 雙重提問 (Double-Barrelled Questions): 一條問題問兩樣嘢。
差: 「你認為學校應該減少書本開支並增加體育設施開支嗎?」(如果只同意一部分,不同意另一部分點算好?)
好: 分成兩條問題:「你認為學校應該減少書本開支嗎?」同「你認為學校應該增加體育設施開支嗎?」

4. 不當嘅選項 (Inappropriate Options): 選項令人困惑,或者未能涵蓋所有可能性。
差: 「你幾多歲?(a) 20歲以下 (b) 20-30歲 (c) 30歲以上」(如果你剛好20歲或30歲點算?選項重疊,而且唔係互斥嘅。)
好: 「你屬於哪個年齡組別?(a) 20歲以下 (b) 20-29歲 (c) 30歲或以上」

5. 問題次序 (Question Order): 問題嘅次序可以影響後續答案。
例子:如果你首先問「你對你嘅生活有幾滿意?」,然後再問「你幾耐拍一次拖?」,答案可能會同你掉轉嚟問嘅情況唔同。

第三部分重點

問題嘅措辭好重要!當你見到一份調查結果,試吓搵出佢哋問咗啲咩確切嘅問題。小心旨在產生某個特定結果嘅引導性、含糊或有詭計嘅問題。


第四部分:辨識謊言 — 統計學嘅謬誤

呢個時候,我哋就要戴上我哋嘅偵探帽喇!人們可以喺每個階段濫用統計數據:喺佢哋點樣收集數據、點樣呈現數據,同埋點樣解讀數據。

濫用1:誤導性數據收集

呢個又回到我哋頭兩個部分。如果有人使用有偏差嘅抽樣方法(例如方便抽樣)或者設計得差嘅問卷,佢哋嘅數據從根本上就有缺陷。就好似喺一個不穩固嘅地基上起屋—無論佢睇落幾靚,都唔可靠。

警示: 一個標題話「85%嘅人鍾意X牌咖啡!」,但呢個「調查」係喺一間X牌商店外面派發免費樣本時進行嘅。(呢個係偏頗嘅樣本!)

濫用2:誤導性圖表

一張圖勝過千言萬語,但亦可以道出千個謊言。好容易操縱圖表,令差異睇起嚟比實際更大或更小。

常見圖表詭計:
  • 截斷Y軸 (The Truncated Y-Axis): 呢個係最常見嘅詭計!垂直軸 (Y軸) 唔係由零開始。咁樣會令微小嘅差異睇起嚟好似巨大嘅變化。

  • 不一致嘅刻度 (Inconsistent Scale): 軸上嘅數字增長並唔一致(例如:佢係0、10、20、100、200咁升),咁樣會扭曲圖表。

  • 誤導性嘅象形圖 (Misleading Pictograms): 使用圖片時,高同闊都同時按比例放大。咁樣會令圖片嘅面積呈指數級增長,誇大咗差異。

  • 令人困惑嘅3D圖表 (Confusing 3D Charts): 3D效果可以令你難以讀取實際數值,而且可以令靠近觀察者嘅部分睇起嚟比實際更大。

濫用3:誤導性解讀

即使有好好嘅數據同好好嘅圖表,得出嘅結論都可能係錯嘅。

常見解讀詭計:
  • 使用「錯誤」嘅平均數 (Using the "Wrong" Average): 仲記唔記得平均數、中位數同眾數?一間公司可能會話佢嘅「平均」工資好高,係因為使用咗平均數 (mean),佢被幾個百萬富翁級高層拉高咗。而中位數 (median)(中間數值)會提供更真實嘅典型員工收入情況。

  • 相關性不等於因果關係 (Correlation is NOT Causation): 呢個係一個好大嘅誤區!僅僅因為兩件事同時發生,唔代表一件事會導致另一件事。
    經典例子:雪糕銷量同鯊魚襲擊次數有關聯(佢哋喺夏天都會上升)。咁食雪糕會導致鯊魚襲擊咩?當然唔會啦!真正嘅原因係炎熱嘅天氣(『潛在變數』),佢會令人們去游水同埋食雪糕。

  • 選擇性挑選數據 (Cherry-Picking Data): 只呈現支持自己論點嘅數據,而忽視唔支持嘅數據。

  • 細小嘅樣本量 (Small Sample Size): 嚟自非常細小樣本(例如:「四個人中有三個人同意」)嘅結果並唔可靠,好大機會只係隨機機會造成。

第四部分重點

做一個批判性嘅觀察者!總係要質疑數據來源,檢查圖表嘅坐標軸,同埋仔細諗吓個結論係咪真正得到證據支持。唔好畀花俏嘅數字或圖表呃到你!


第五部分:你的統計學偵探工具箱

恭喜你,你已經學識晒啲秘密喇!而家,無論你喺現實世界遇到任何統計數據,你都可以用呢份簡單嘅清單,好似專家咁評估佢。

問自己呢啲問題:

1. 呢項研究由邊個出錢資助?又由邊個進行?
(佢哋有冇理由想得到某個特定結果?)

2. 樣本量有幾大?樣本係點樣揀選出嚟嘅?
(夠唔夠大?係隨機樣本定係有偏差嘅方便抽樣?)

3. 佢哋問咗啲咩確切嘅問題?
(有冇引導性、含糊或有詭計嘅問題?)

4. 數據係點樣呈現出嚟嘅?
(圖表嘅Y軸係咪由0開始?刻度係咪一致嘅?)

5. 結論合唔合邏輯?
(佢哋有冇混淆相關性同因果關係?佢哋有用最適合嘅「平均數」嗎?)


透過學習統計學嘅應用同謬誤,你唔只係學緊數學,更係學緊點樣喺日常生活中成為一個更聰明、更具批判性嘅思考者。而家就出發,做個數據偵探啦!