建構信賴區間時樣本數大小的決定

Print Friendly

建構信賴區間時樣本數大小的決定(How to Determine Sample Size through the Establishment of Confidence Interval)
國立臺灣大學農藝所生物統計組碩士班 賴薇云

一、前言

在進行試驗之前,有一個令人頭痛的問題:我要用多少樣本才夠?從《型I錯誤、型II錯誤與P值一文中,我們知道唯有提高樣本數才可以同時降低型 I 錯誤與型 II 錯誤發生的機率,也從《點估計及區間估計》一文中知道當提高樣本數時,信賴區間的寬度會變短,這一切似乎都說明樣本數越大越好。但是在提高樣本數的同時,需要耗費更多的人力與資源,因此決定適當的樣本數可以在最低成本耗費下控制型 I 錯誤與型 II 錯誤發生的機率在可接受的範圍內。樣本數的決定可以由兩個地方著手,一是信賴區間的估計、二是假設檢定,本篇將介紹如何決定建構信賴區間所需的樣本數大小。

二、建構信賴區間所需的樣本數大小

假設大小為 \(n\) 的樣品是抽取自平均值為 \(\mu\)、變方為 \(\sigma^2\) 的常態分布 \(N(\mu,\sigma^2)\),\(\mu\) 未知、但 \(\sigma^2\) 為已知。 則 \(\mu\) 的 \(100(1-\alpha)\%\) 雙尾信賴區間為 \(\overline{X}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\)。可簡寫為 \(\overline{X}\pm\varepsilon\),\(\varepsilon=Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\),\(\varepsilon\) 為在信心水準 \(100(1-\alpha)\%\) 下以 \(\overline{X}\) 估計 \(\mu\) 的最大誤差(如圖一)。

73654_p1

圖一、最大誤差示意圖。(本文作者賴薇云繪)

在決定樣本數之前,研究者要先自行決定 \(\varepsilon\)。將 \(Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}=\varepsilon\) 進行移項可得:

\(\displaystyle n=\frac{Z^2_{\alpha/2}\sigma^2}{\varepsilon^2}\)

假設今天 \(\sigma^2=15\),我們希望最大誤差 \(\varepsilon=2\),則建構一 \(\mu\) 的 \(95\%\) 的雙尾信賴區間所需的樣本數即為:

\(\displaystyle n=\frac{Z^2_{\alpha/2}\sigma^2}{\varepsilon^2}=\frac{1.96^2\times 15}{2^2}=14.406\)

將結果無條件進位,得所需最小樣本數為 \(15\)。

須注意的是,大部分時我們很難知道 \(\sigma^2\) 的值,當 \(\sigma^2\) 未知時,我們會以過去經驗或前導試驗取得的樣本變方 \(S^2\) 代替 \(\sigma^2\)。

接著我們來看建構比例 \(p\) 的信賴區間樣本數大小的決定。假設 \(Y\) 為執行 \(n\) 次伯努力試驗所成功的次數。當 \(np\ge 5\) 且 \(n (1-p)\ge 5\) 時,由中央極限定理,\(Y\) 會近似常態分布。我們可以 \(\hat{p}=\frac{y}{n}\) 估計 \(p\),\(p\) 的 \(100(1-\alpha)\%\) 信賴區間為 \(\hat{p}\pm Z_{\alpha/2}\times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)。經由上述的觀念,也可以推導當最大誤差為 \(\varepsilon\),建構一 \(p\) 的 \(100(1-\alpha)\%\) 的信賴區間所需樣本數為:

\(\displaystyle n=\frac{Z^2_{\alpha/2}\times\hat{p}(1-\hat{p})}{\varepsilon^2}\)

可以發現如果要估計樣本數,必須先知道 \(\hat{p}\) 為多少,若是在過去的經驗中可得知 \(p\),則可用之。若是沒有過去的經驗,我們知道 \(p\) 是介於 \(0\sim 1\) 之間的數值,故 \(p(1-p)\) 最大會發生在 \(p = 0.5\) 時(圖二),算出來的 \(n\) 也會最大。所以通常在不知道 \(p\) 為多少時,我們會以 \(p=0.5\) 來計算 \(n\),如此一來無論真實的 \(p\) 為多少,\(n\) 都不會有低估的情形。

73654_p2

圖二、\(p(1-p)\) 在不同 \(p\) 下的值,可以發現當 \(p = 0.5\) 時最高。(本文作者賴薇云繪)


參考文獻

  1. 郭寶錚、陳玉敏 (2011)。生物統計學。第11章 檢力及樣本數大小的決定。五南。
  2. Hogg, R. V., Tanis, E., & Zimmerman, D. (2015). Probability and statistical inference (9th edition). Pearson Higher Ed.

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


3 + 6 =