抽樣調查（5）如何抽樣（Survey sampling-5.How to take a sample）

Posted on 2010/10/15 in 數學, 機率統計 with 沒有迴響 34,993 views

抽樣調查（5）如何抽樣（Survey sampling-5.How to take a sample）
國立高雄大學應用數學系黃文璋教授責任編輯

本回我們介紹幾種常用的抽樣方法。

$$1.$$ 機率抽樣 (probability sampling)

樣本若其產生是以機率的方式，便稱為機率樣本(probability sample)，而其抽樣步驟稱為機率抽樣。底下為幾種主要的機率抽樣設計。

$$(1)$$ 簡單隨機抽樣 (simple random sampling)

欲取一組樣本數為 $${n}$$ 之樣本，若任一組可能的這種樣本皆有相同的機率被抽到，便稱此抽樣步驟為簡單隨機抽樣，而獲得的樣本稱為簡單隨機樣本 (simple random sample)。注意，是每一組樣本數為 $${n}$$ 之樣本，皆有相同的機率被抽到，
而不只是每一個單一的樣本皆有相同的機率被抽中。前者的條件較強。若母體內元素之同質性較高，譬如說母體為一群政治、經濟背景接近的人，被簡單隨機抽樣，通常較其他抽樣方法能獲得更多資訊。

$$(2)$$ 分層隨機抽樣(strati.ed random sampling)

假設母體可分成幾群，每群中的元素性質接近。譬如敘調查公務員對某議題之看法，依職務高、中、低，將全國公務員分成三群。不同群的意見可能有不小差別。在每群中以簡單隨機抽樣產生樣本，這種抽樣步驟稱為分層隨機抽樣，所得之樣本，便稱為分層隨機樣本(strati.ed random sample)。一般而言，分層隨機抽樣能成少估計量的變異，是一種不錯的抽樣方法。

$$(3)$$ 叢聚抽樣(cluster sampling)

有時將母體分成若干群，以簡單隨機抽樣選出幾群，再從挑選出的每一群中取出幾個樣本，這種方法便稱叢聚抽樣。雖然與分層隨機抽樣一般，都是將母體分成若干群(即叢聚)，不過其步驟並不一樣。在分層隨機抽樣中沒有分那麼多群，且是在每一群中取簡單隨機樣本。而在叢聚抽樣中，分的群數較多，且是對“群”取簡單隨機抽樣，然後再從每一選出的群中，挑選樣本。

假設要研究某種有關豬的寄生蟲之發病率。若要從全國的豬中抽取 $$100$$ 頭來研究，便不是一件容易的事。不要說沒有豬的“底冊”(即母體的名單)，很難實施隨機抽樣，就算真隨機地抽出 $$100$$ 頭豬，將散佈在各地，有些在山上，有些在海邊，由於必須去實地“面訪”，研究人員到處奔波，是一件很耗成本的工作。因此先從全國各養豬場(或村落)中，以簡單隨機抽樣，抽選一些養豬場，再從每一個選出的養豬場，各取幾頭豬來做樣本，便不失為一個簡單有效的抽樣步驟。在叢聚抽樣裡，如果每一叢聚中的成員同質性較高，則甚至可以只要從每一叢聚中挑一樣本即可。

$$(4)$$ 系統抽樣(systematic sampling)

有時底冊中的元素是依序排列，則有下述較經濟批選樣本的方法：先從底冊中批一靠近名單之首的第 $${a}$$ 位抽樣單位，再取一適當的正整數 $${b}$$，然後將之後的每隔 $${b}$$ 位抽樣單位批出，而形成一組樣本，稱為系統樣本(systematic sample)，而此法稱為系統抽樣。例如，想從電話簿中抽出 $$1\%$$ 作為樣本，且取 $${a}= 5,{b}= 100$$，則可以第 $$5$$ 戶，$$105$$ 戶，$$205$$ 戶，$$\cdots$$，為樣本。如果要從底冊抽出 $$100$$ 個樣本，且取 $${a}= 21,{b}= 10$$，則可以第 $$21$$ 位，$$31$$ 位，$$\cdots$$，$$1,011$$ 位為樣本。系統抽樣法可以快速地挑選出樣本。但若無恰當的底冊，或底冊中的元素有循環的性質，例如學校各班依入學成績高低編號，就不見得適合採用。

$$2.$$ 非機率抽樣

我們舉幾種常見的非機率抽樣。

$$(1)$$ 配額抽樣(quota sampling)

設欲對某校學生進行抽樣調查，如果學生中有 $$60\%$$ 為男生，$$40\%$$ 為女生，則以簡單隨機抽樣，是很難讓樣本中恰有 $$60\%$$ 為男生。因此有時會擇定幾個主要因素，如性別、年齡、教育程度、收入等，每位訪員被要求其訪問的對象中，有某固定比例是男生，某固定比例是 $$50$$ 歲以上，$$35\text{-}49$$ 歲，$$21\text{-}34$$ 歲，$$\cdots$$。這樣選出來的樣本，會符合母體中各因素該有之比例，稱為配額抽樣。

與機率抽樣不同，配額抽樣並未利用到機率的結構，因此也無法對抽樣的精準性，給出機率式的描述。機率抽樣樣本的產生較客觀，依一定的隨機方式給訪員受訪者名單。配額抽樣則通常由訪員主觀去挑選樣本：假設訪員要訪問 $$20$$ 位，他所接到的指示通常只是有如樣本中要有 $$11$$ 位男生，$$9$$ 位女生，$$8$$ 位 $$50$$ 歲以上，$$7$$ 位 $$35\text{-}49$$ 歲，$$5$$ 位 $$21\text{-}34$$ 歲等。至於訪問誰則未設限。因此有時訪員會傾向訪問較容易找到的受訪者，如此可能造成樣本的偏差。下兩節我們會討論樣本偏差的問題。

$$(2)$$ 方便抽樣(convenience sampling)

諸如街頭訪問、主動回信，或主動打電話(如扣應)者，皆為方便抽樣，又稱偶然抽樣。這種樣本雖方便取得(因此得名)，但卻不是那麼有代表性，只能代表那些願意表達的人之意見。當一般人都匆匆忙忙在趕路時，願意在街上停下來接受才訪者，可能是比較熱心、比較空間、比較不滿、或比較孤單的人？

$$(3)$$ 立意抽樣 (purposive sampling)

對於某些特定的議題，有時會從某一群特定的人中抽取樣本，稱為立意樣本。例如，想知道立法委員的表現，可能會從才訪立法院的記者中，抽取樣本。立意抽樣由於樣本同質性較高，有時不見得能從中獲得較客觀的資料。

2006 年 6 月 9 日至 7 月 9 日在德國舉行四年一度的世界盃足球大賽。4 月間日本和韓國各自對其國民對本國球隊做民意調查。結果日本方面，預測日本隊會打到 $$16$$ 強的佔最多數 $$(27\%)$$，認為在分組就遭淘汰的佔 $$20\%$$，預測可打到 $$8$$ 強的則有 $$18\%$$。至於韓國人則預測韓國隊可打進 $$8$$ 強的佔最多數 $$(42\%)$$，其次是 $$16$$ 強 $$(35\%)$$。實際的成績是兩國皆未能進入 $$16$$ 強。愛國心加上期盼勝利的心理，使兩國國民對其球隊的實力均高估。事實上，在開賽前的賭盤賠率排行榜，日本及韓國與巴拉圭並列 $$20$$ 名，不算太好。

連結：抽樣調查（6）美國選舉實例探討