抽樣調查(6)美國選舉實例探討(Survey sampling-6.A Case study of US Presidential election)

Print Friendly

抽樣調查(6)美國選舉實例探討(Survey sampling-6.A Case study of US Presidential election)
國立高雄大學應用數學系黃文璋副教授責任編輯

連結:抽樣調查(5)如何抽樣

在做進一步之討論前,本節我們先看美國總統選舉史上,杜魯門(Harry Truman,1884-1972)對杜威(Thomas Dewey,1902-1971)那一有名的例子,這是取材白 Freedman et al.(1991)。

1948 年,杜魯門代表民主黨競選美國總統,對手是共和黨的候選人杜威。杜魯門是一很有效率且色彩鮮明的總統。在他桌上放有一個牌子“攻擊到此止步”(The buck stops here)。另一個他喜愛的警語為“怕熱便不要進廚房”(If you can’t stand the heat, stay out of the kitchen)。這句話不但在美國,在台灣也常被政治人物引用。不過在那次競選中,杜魯門並不被看好。那是第二次世界大戰才剛結束,冷戰(Cold War)才剛開始的時期。不但美國國內的氣氛令人感到不安,整個世局也顯得複雜多。

那時三家主要的民調公司克羅斯科(Crossley)、蓋洛普(Gallup),及羅波(Roper),在投票前均宣布杜威會贏杜魯門約 $$5$$ 個百分點。蓋洛普的預測是基於 $$50,000$$ 個受訪者,羅波則基於 $$15,000$$ 個受訪者。有一家報紙(Scranton Tribune)這用了底下的標題

DEWEY AS GOOD AS ELECTED,
STATISTICS CONVINCE ROPER
(統計說服羅波相信杜威已當選)

但選舉結果,杜魯門以接近 $$50\%$$ 的得票率擊敗杜威,杜威的得票率才略多於 $$45\%$$。表1給出預測及實際結果。

為何這次選舉讓三家民意調查機構都弄得灰頭土臉?他們究竟犯了什麼錯?難道不該被統計說服嗎?

原來三家公司皆採配額抽樣以產生樣本。每位面訪員被給定一定數量的受訪者,其中如住所、性別、年齡、教育程度、種族、兵役狀態、是否屬於工會等,各類都有一定配額。至於要訪問那些人,則完全由訪員決定,只要各類配額皆達到即可。例如,蓋洛普公司有一訪員在聖路易斯(St. Louis)城要訪問 $$13$$ 位選民,其中要包含:

  • $$6$$ 位住郊區,$$7$$ 位住城裡:$$7$$ 位男性,$$6$$ 位女性。
  • 這 $$7$$ 位男性中(對女性也有類似要求):
    $$3$$ 位在 $$40$$ 歲以下,$$4$$ 位超過 $$40$$ 歲;
    $$1$$ 位黑人,$$6$$ 位白人。
    $$6$$ 位白人每月房租要滿足:
    $$1$$ 位超過 $$44$$ 元,$$3$$ 位超過 $$18$$ 元未超過 $$44$$ 元,$$2$$ 位不超過 $$18$$ 元。

樣本有這麼多限制,當然不能再要求樣本要以隨機的方式產生了。

配額抽樣本來應是一不錯的取樣方法,可以保證樣本像是一個母體的縮影。但 1949 年那次總統選舉,顯然是一個失敗的經驗。底下我們來說明原因。

民調公司希望樣本能忠實代表全部投票者。所以他們才會顧慮那些會影響投票行為的特性。但是卻無法對共和黨員及民主黨員給出配額。要知在美國,只要選前登記黨籍即可,你要投那一黨就登記那一黨,每次可以不同,而登記那一黨就是支持該黨候選人。因此政黨黨員比例正是民調公司所不知道,而試圖藉由民調以獲知。精密給出各特性之配額,只是一間接的手段,使樣本能反應全國的政治傾向。影響投票的因素其很多,遠超過民調公司所能掌握的。

配額抽樣有一極嚴重的缺點。如前所述,就是只要能達到各類要求的配額,訪問誰則由訪員白由挑選。但人的選擇很難避免偏差。試想如果你在街頭發問卷,難道不是先找看起來較順眼的人嗎?那些看起來像角頭大哥型的,你避之惟恐不及,豈會發問卷給他們?

在 1948 年,訪員選了過多共和黨黨員。整體而言,共和黨員較富有,且教育程度較高,因此電話擁有率較高(注意那是 1948 年),較多有固定的地址,也較多住在比較好的區域。因此通常他們較容易被訪問到。在此情況下,大部分的訪員,都可能訪問過多的共和黨黨員。

事實上從 1936 至 1948 年的總統選舉,蓋洛普的訪員都有訪問過多共和黨的傾向。只是在 1948 年之前,民主黨都領先很多,因此樣本中共和黨黨員過多的偏差能被蓋過去,而使蓋洛普的預測誰當選仍正確。而 1948 年,兩位候選人的差距沒那麼大,因此樣本中的偏差便影響到預測的結果。

有了 1948 年的失敗經驗之後,美國差不多所有的民調機構,皆以機率抽樣產生樣本。只是美國幅員廣大,人口眾多,要從約兩億的選民中,做簡單隨機抽樣,難度極高。不要說不易拿到選民的底冊,就算有,抽出的選民,分散在全美各地,要去訪問他們是極困難且耗成本的。因此大部分的民調機構,皆採多階段叢聚抽樣(multistage cluster sampling)。此法有些複雜,我們簡述蓋洛普的作法如下:

將全美分成東北、南、中西及西等四個區域(region)。在每一區域中,按居民人口多少,將城鎮分群(group)。例如,某一群可能是東北地區所有人口介於 $$5$$ 萬至 $$25$$ 萬的城鎮。從這些城鎮中,隨機地選一組樣本,派遣訪員到這些選出的城鎮訪問。其他群也類似地處理。這便完成了第一階段(stage)。

為了選舉的目的,每一城鎮又分為幾個選區(ward),每一選區又分為幾個選舉分區(precinct)。第二階段,是從第一階段所挑出的城鎮中,隨機選出若干選區。第三階段,則從第二階段挑出的那些選區中,隨機選出若干選舉分區。第四階段,則是從第三階段挑出的那些選舉分區中,隨機選出若干家庭。最後一階段,則是從挑出的那些家庭,訪問其中某些成員。

受訪的成員並非由訪員所隨意挑選。譬如蓋洛普訪員所接到的指示,可能為“訪問該家庭中 $$18$$ 歲以上,最年輕的那位男子;若無男子在家,則訪問 $$18$$ 歲以上,年紀最大的那位女子”。

這樣設計,有配額抽樣的效果,但卻沒有其缺點。因為在各階段,都是以隨機的方式產生樣本,去除了配額抽樣可能產生的選擇偏差。

 如前所述, 1948 年後,大部分主要的民調機構,都是以機率抽樣產生樣本。表2(取白Freedman et al.(1991) p.314)給出蓋洛普公司 1952-1988 年間,歷屆美國總統選舉的預測及選舉結果。有幾點要特別一提。首先樣本數大為降低。1948 年蓋洛普尚用到 $$5$$ 萬個樣本, 1952 年起用到的樣本少的才 $$3$$ 千餘,多的也不過 $$8$$ 千餘。不要忘記美國約有兩億選民,而所抽的樣本數,約只有母體的 $$0.002\%$$,可說是很少。第二點是抽樣再無偏袒某一政黨的傾向。第三點是精確度顯著提高。1936-1948 年預測誤差約在  $$5\%$$ 上下,1952 年起誤差則小很多,而且沒有一次預測誰當選是錯的。這說明機率抽樣,配上良好的調查設計,是可以在民調中,達到很精準的效果。

表2. 1952-1988年間美國總統選舉蓋洛普的預測及選舉結果

連結:抽樣調查(7)調查誤差

參考文獻

  1. Freedman, D., Pisani, R., Purves, R. and Adhikari, A.(1991). Statis-tics, 2nd ed. W.W. Norton & Company, New York.

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


1 − 1 =