抽樣調查（6）美國選舉實例探討（Survey sampling-6.A Case study of US Presidential election）

Posted on 2010/11/05 in 數學, 機率統計 with 沒有迴響 7,772 views

抽樣調查（6）美國選舉實例探討（Survey sampling-6.A Case study of US Presidential election）
國立高雄大學應用數學系黃文璋副教授責任編輯

在做進一步之討論前，本節我們先看美國總統選舉史上，杜魯門(Harry Truman，1884-1972)對杜威(Thomas Dewey，1902-1971)那一有名的例子，這是取材白 Freedman et al.(1991)。

1948 年，杜魯門代表民主黨競選美國總統，對手是共和黨的候選人杜威。杜魯門是一很有效率且色彩鮮明的總統。在他桌上放有一個牌子“攻擊到此止步”(The buck stops here)。另一個他喜愛的警語為“怕熱便不要進廚房”(If you can’t stand the heat， stay out of the kitchen)。這句話不但在美國，在台灣也常被政治人物引用。不過在那次競選中，杜魯門並不被看好。那是第二次世界大戰才剛結束，冷戰(Cold War)才剛開始的時期。不但美國國內的氣氛令人感到不安，整個世局也顯得複雜多。

那時三家主要的民調公司克羅斯科(Crossley)、蓋洛普(Gallup)，及羅波(Roper)，在投票前均宣布杜威會贏杜魯門約 $$5$$ 個百分點。蓋洛普的預測是基於 $$50，000$$ 個受訪者，羅波則基於 $$15，000$$ 個受訪者。有一家報紙(Scranton Tribune)這用了底下的標題

DEWEY AS GOOD AS ELECTED，
STATISTICS CONVINCE ROPER
(統計說服羅波相信杜威已當選)

但選舉結果，杜魯門以接近 $$50\%$$ 的得票率擊敗杜威，杜威的得票率才略多於 $$45\%$$。表1給出預測及實際結果。

為何這次選舉讓三家民意調查機構都弄得灰頭土臉?他們究竟犯了什麼錯?難道不該被統計說服嗎?

原來三家公司皆採配額抽樣以產生樣本。每位面訪員被給定一定數量的受訪者，其中如住所、性別、年齡、教育程度、種族、兵役狀態、是否屬於工會等，各類都有一定配額。至於要訪問那些人，則完全由訪員決定，只要各類配額皆達到即可。例如，蓋洛普公司有一訪員在聖路易斯(St. Louis)城要訪問 $$13$$ 位選民，其中要包含：

$$6$$ 位住郊區，$$7$$ 位住城裡：$$7$$ 位男性，$$6$$ 位女性。
這 $$7$$ 位男性中(對女性也有類似要求)：
$$3$$ 位在 $$40$$ 歲以下，$$4$$ 位超過 $$40$$ 歲;
$$1$$ 位黑人，$$6$$ 位白人。
$$6$$ 位白人每月房租要滿足:
$$1$$ 位超過 $$44$$ 元，$$3$$ 位超過 $$18$$ 元未超過 $$44$$ 元，$$2$$ 位不超過 $$18$$ 元。

樣本有這麼多限制，當然不能再要求樣本要以隨機的方式產生了。

配額抽樣本來應是一不錯的取樣方法，可以保證樣本像是一個母體的縮影。但 1949 年那次總統選舉，顯然是一個失敗的經驗。底下我們來說明原因。

民調公司希望樣本能忠實代表全部投票者。所以他們才會顧慮那些會影響投票行為的特性。但是卻無法對共和黨員及民主黨員給出配額。要知在美國，只要選前登記黨籍即可，你要投那一黨就登記那一黨，每次可以不同，而登記那一黨就是支持該黨候選人。因此政黨黨員比例正是民調公司所不知道，而試圖藉由民調以獲知。精密給出各特性之配額，只是一間接的手段，使樣本能反應全國的政治傾向。影響投票的因素其很多，遠超過民調公司所能掌握的。

配額抽樣有一極嚴重的缺點。如前所述，就是只要能達到各類要求的配額，訪問誰則由訪員白由挑選。但人的選擇很難避免偏差。試想如果你在街頭發問卷，難道不是先找看起來較順眼的人嗎?那些看起來像角頭大哥型的，你避之惟恐不及，豈會發問卷給他們?

在 1948 年，訪員選了過多共和黨黨員。整體而言，共和黨員較富有，且教育程度較高，因此電話擁有率較高(注意那是 1948 年)，較多有固定的地址，也較多住在比較好的區域。因此通常他們較容易被訪問到。在此情況下，大部分的訪員，都可能訪問過多的共和黨黨員。

事實上從 1936 至 1948 年的總統選舉，蓋洛普的訪員都有訪問過多共和黨的傾向。只是在 1948 年之前，民主黨都領先很多，因此樣本中共和黨黨員過多的偏差能被蓋過去，而使蓋洛普的預測誰當選仍正確。而 1948 年，兩位候選人的差距沒那麼大，因此樣本中的偏差便影響到預測的結果。

有了 1948 年的失敗經驗之後，美國差不多所有的民調機構，皆以機率抽樣產生樣本。只是美國幅員廣大，人口眾多，要從約兩億的選民中，做簡單隨機抽樣，難度極高。不要說不易拿到選民的底冊，就算有，抽出的選民，分散在全美各地，要去訪問他們是極困難且耗成本的。因此大部分的民調機構，皆採多階段叢聚抽樣(multistage cluster sampling)。此法有些複雜，我們簡述蓋洛普的作法如下：

將全美分成東北、南、中西及西等四個區域(region)。在每一區域中，按居民人口多少，將城鎮分群(group)。例如，某一群可能是東北地區所有人口介於 $$5$$ 萬至 $$25$$ 萬的城鎮。從這些城鎮中，隨機地選一組樣本，派遣訪員到這些選出的城鎮訪問。其他群也類似地處理。這便完成了第一階段(stage)。

為了選舉的目的，每一城鎮又分為幾個選區(ward)，每一選區又分為幾個選舉分區(precinct)。第二階段，是從第一階段所挑出的城鎮中，隨機選出若干選區。第三階段，則從第二階段挑出的那些選區中，隨機選出若干選舉分區。第四階段，則是從第三階段挑出的那些選舉分區中，隨機選出若干家庭。最後一階段，則是從挑出的那些家庭，訪問其中某些成員。

受訪的成員並非由訪員所隨意挑選。譬如蓋洛普訪員所接到的指示，可能為“訪問該家庭中 $$18$$ 歲以上，最年輕的那位男子;若無男子在家，則訪問 $$18$$ 歲以上，年紀最大的那位女子”。

這樣設計，有配額抽樣的效果，但卻沒有其缺點。因為在各階段，都是以隨機的方式產生樣本，去除了配額抽樣可能產生的選擇偏差。

如前所述， 1948 年後，大部分主要的民調機構，都是以機率抽樣產生樣本。表2(取白Freedman et al.(1991) p.314)給出蓋洛普公司 1952-1988 年間，歷屆美國總統選舉的預測及選舉結果。有幾點要特別一提。首先樣本數大為降低。1948 年蓋洛普尚用到 $$5$$ 萬個樣本， 1952 年起用到的樣本少的才 $$3$$ 千餘，多的也不過 $$8$$ 千餘。不要忘記美國約有兩億選民，而所抽的樣本數，約只有母體的 $$0.002\%$$，可說是很少。第二點是抽樣再無偏袒某一政黨的傾向。第三點是精確度顯著提高。1936-1948 年預測誤差約在 $$5\%$$ 上下，1952 年起誤差則小很多，而且沒有一次預測誰當選是錯的。這說明機率抽樣，配上良好的調查設計，是可以在民調中，達到很精準的效果。

表2. 1952-1988年間美國總統選舉蓋洛普的預測及選舉結果

連結：抽樣調查（7）調查誤差