抽樣調查(4)抽樣誤差(Survey sampling-4.Sampling biases)

Print Friendly

抽樣調查(4)抽樣誤差(Survey sampling-4.Sampling biases)
國立高雄大學應用數學系黃文璋教授責任編輯

連結:抽樣調查(3)以偏概全

民國 54 年,旅日圍棋好手林海峰,打敗板田榮男,登上名人賽寶座。那時有些人才開始留意圍棋究竟是怎麼下。等弄清楚不過只有黑白子,且下法筒單,有人遂戲稱“我亂下說不定都可贏林海峰”。對一隨機現象,到底有多大可能性會發生,乃依其發生機率之大小來衡量,而不是看少數幾次實驗的結果。事實上,只要機率為正的事件,任做一次實驗,都“可能”發生,只是“可能性”有大有小。

圍棋下法之變化極多,變化數並不易計算。我們以較筒單的投擲銅板來看。設有一公正的銅板,也就是出現正面及反面之機率皆為 $$\frac{1}{2}$$ 隨機地投擲 $$1$$ 次,容不容易得到正面?應該很容易,平均做 $$2$$ 次這種實驗,便有 $$1$$ 次出現正面。如果是隨機地投擲 $$10$$ 個銅板,會不會 $$10$$ 個皆出現正面呢?就有點難了,因此機率為 $$\frac{1}{1,024}$$,平均要做 $$1,024$$ 次實驗,才會有 $$1$$ 次得到 $$10$$ 個正面。

如果是投擲 $$100$$ 個銅板呢?$$100$$ 個皆出現正面之機率為 $${\frac{1}{{2}^{100}}}$$,此值很小,但究竟有多小?這樣說好了,假設有 $$1$$ 台機器,每秒可做此實驗(投擲一公正銅板$$100$$次)$$1$$億$$(={10}^{8})$$次。則平均約要 $$4.01969\cdot {10}^{14}$$ 年才會得到 $$1$$ 次 $$100$$ 個正面。這個時間究竟多長,你可能不易想像。不過只要想地球壽命據估計約“只有” $$50$$ 億$$(=5 \cdot{10}^{9})$$年,你就知道很長了。

一盤圍棋的變化,遠超過投擲銅板 $$100$$ 個的變化(每個僅有正反二可能),雖然圍棋亂下要贏林海峰的機率為正,但由上述投擲銅板的例子,你應可相信,在你有生之年,大約看不到有人亂下而贏林海峰。

註1.宋仁宗時,名將狄奇在征討濃智高前,“取百錢自持之,且與神約果大捷,則投此期盡錢面也”。在萬人注視下,“ 手倏一擲,則百錢盡面矣”。此故事出自宋朝蔡絛撰的”鐵圍山叢談”第二卷。

抽樣的目的是為了對母體做一些推估,譬如說估計母體中某個量的平均值。不論我們抽樣的方法多好,只要樣本不等於母體,抽樣後的推估就可能有誤差。我們只能藉好的抽樣調查設計 (design),以減小誤差。所謂抽樣調查設計,乃指如何選取樣本,也就是給出抽樣步驟。抽樣調查設計及樣本數,便決定了樣本對母體所包含資訊之品質。如何決定抽樣調查設計及樣本數,乃依我們對誤差要求的大小。

設 $$\theta$$ 是我們有興趣的參數,$$\theta$$ 可以代表某地選民對某候選人之支持率,或某批產品之不良率。
令 $$\hat{\theta}$$ 為 $$\theta$$ 之一估計量。又設 $${B}$$ 是我們對估計所給之一誤差上界,$${B}$$ 為一正數。我們希望

$$(1)~$$估計誤差$$ = | \theta – \hat{\theta} | < {B} $$

但對於隨機現象,如何保證 $$ | \theta – \hat{\theta} |$$ 一定小於 $${B} $$?除了一些特別的情況,如 $$\theta$$ 及 $$\hat{\theta}$$ 皆介於 $$0,1$$ 之間,而 $${B}$$ 大於 $$2$$,否則一般而言是做不到的。我們只能希望 $$| \theta – \hat{\theta} |$$ 小於 $${B}$$ 的機率要夠大,達到我們滿意的程度。譬如說 $$| \theta – \hat{\theta} | < {B}$$ 的機率達到 $$1- \alpha $$,其中 $$ 0 <\alpha <1$$。通常 $$\alpha$$ 要比較小,如接近 $$0$$ 才合理。因此有下述條件:

$$(2)~{P}{(| \theta – \hat{\theta}|< {B})} =1 – \alpha$$。

有時 $${P}{(| \theta – \hat{\theta}|< {B})}$$ 不見得能剛好等於 $$1 – \alpha$$,那就要求 $${P}{(| \theta – \hat{\theta}|< {B})} \geq {1 – \alpha}$$,且儘量接近 $$1 – \alpha$$。為什麼要儘量接近?$${P}{(| \theta – \hat{\theta}|< {B})}$$ 愈大不是愈好嗎?直觀上,$${P}{(| \theta – \hat{\theta}|< {B})}$$ 如果愈大,抽樣步驟便要愈嚴謹,樣本數可能也要愈大,成本將因而提高。通常當然少有人不顧成本,只想提高精確度。

我們來看底下一段典型的報章媒體上之報導 :

這次調查於8月14日晚間進行,成功訪問 $$912$$ 位成年人,另 $$385$$ 位拒訪;在百分之九十五的信心水準下,抽樣誤差在正負三點二個百分點以內。調查是以台灣地區住宅電話為母體做尾數兩位隨機抽樣。

與 $$(2)$$ 式比較,“百分之九十五”的信心,對應 $$\alpha = 0.05$$,即 $$1 – \alpha =0.95$$;抽樣誤差在正負“三點二個百分點”以內,對應 $${B} = 0.032$$。在大部分的民調中,$$\alpha$$ 取為 $$0.05$$,而 $${B}$$ 被先設定為 $$0.03$$,由此求此(可參見一般統計學的教科書)成功的樣本數須有 $$1,068$$ 個。實際調查後,成功的樣本數可能不是剛好等於 $$1,068$$。根據成功的樣本數,以求出實際的抽樣誤差。成功的樣本數若大於 $$1,068$$,被抽樣誤差小於 $$3\%$$,若小於 $$1,068$$,被抽樣誤差大於 $$3\%$$。

連結:抽樣調查(5)如何抽樣

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


+ 5 = 7