建構信賴區間時樣本數大小的決定

Posted on 2016/08/24 in 數學, 數據分析, 機率統計 with 沒有迴響 9,264 views

建構信賴區間時樣本數大小的決定(How to Determine Sample Size through the Establishment of Confidence Interval)
國立臺灣大學農藝所生物統計組碩士班賴薇云

一、前言

在進行試驗之前，有一個令人頭痛的問題：我要用多少樣本才夠？從《型I錯誤、型II錯誤與P值》一文中，我們知道唯有提高樣本數才可以同時降低型 I 錯誤與型 II 錯誤發生的機率，也從《點估計及區間估計》一文中知道當提高樣本數時，信賴區間的寬度會變短，這一切似乎都說明樣本數越大越好。但是在提高樣本數的同時，需要耗費更多的人力與資源，因此決定適當的樣本數可以在最低成本耗費下控制型 I 錯誤與型 II 錯誤發生的機率在可接受的範圍內。樣本數的決定可以由兩個地方著手，一是信賴區間的估計、二是假設檢定，本篇將介紹如何決定建構信賴區間所需的樣本數大小。

二、建構信賴區間所需的樣本數大小

假設大小為 \(n\) 的樣品是抽取自平均值為 \(\mu\)、變方為 \(\sigma^2\) 的常態分布 \(N(\mu,\sigma^2)\)，\(\mu\) 未知、但 \(\sigma^2\) 為已知。則 \(\mu\) 的 \(100(1-\alpha)\%\) 雙尾信賴區間為 \(\overline{X}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\)。可簡寫為 \(\overline{X}\pm\varepsilon\)，\(\varepsilon=Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)，\(\varepsilon\) 為在信心水準 \(100(1-\alpha)\%\) 下以 \(\overline{X}\) 估計 \(\mu\) 的最大誤差（如圖一）。

圖一、最大誤差示意圖。（本文作者賴薇云繪）

在決定樣本數之前，研究者要先自行決定 \(\varepsilon\)。將 \(Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}=\varepsilon\) 進行移項可得：

\(\displaystyle n=\frac{Z^2_{\alpha/2}\sigma^2}{\varepsilon^2}\)

假設今天 \(\sigma^2=15\)，我們希望最大誤差 \(\varepsilon=2\)，則建構一 \(\mu\) 的 \(95\%\) 的雙尾信賴區間所需的樣本數即為：

\(\displaystyle n=\frac{Z^2_{\alpha/2}\sigma^2}{\varepsilon^2}=\frac{1.96^2\times 15}{2^2}=14.406\)

將結果無條件進位，得所需最小樣本數為 \(15\)。

須注意的是，大部分時我們很難知道 \(\sigma^2\) 的值，當 \(\sigma^2\) 未知時，我們會以過去經驗或前導試驗取得的樣本變方 \(S^2\) 代替 \(\sigma^2\)。

接著我們來看建構比例 \(p\) 的信賴區間樣本數大小的決定。假設 \(Y\) 為執行 \(n\) 次伯努力試驗所成功的次數。當 \(np\ge 5\) 且 \(n (1-p)\ge 5\) 時，由中央極限定理，\(Y\) 會近似常態分布。我們可以 \(\hat{p}=\frac{y}{n}\) 估計 \(p\)，\(p\) 的 \(100(1-\alpha)\%\) 信賴區間為 \(\hat{p}\pm Z_{\alpha/2}\times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)。經由上述的觀念，也可以推導當最大誤差為 \(\varepsilon\)，建構一 \(p\) 的 \(100(1-\alpha)\%\) 的信賴區間所需樣本數為：

\(\displaystyle n=\frac{Z^2_{\alpha/2}\times\hat{p}(1-\hat{p})}{\varepsilon^2}\)

可以發現如果要估計樣本數，必須先知道 \(\hat{p}\) 為多少，若是在過去的經驗中可得知 \(p\)，則可用之。若是沒有過去的經驗，我們知道 \(p\) 是介於 \(0\sim 1\) 之間的數值，故 \(p(1-p)\) 最大會發生在 \(p = 0.5\) 時（圖二），算出來的 \(n\) 也會最大。所以通常在不知道 \(p\) 為多少時，我們會以 \(p=0.5\) 來計算 \(n\)，如此一來無論真實的 \(p\) 為多少，\(n\) 都不會有低估的情形。

圖二、\(p(1-p)\) 在不同 \(p\) 下的值，可以發現當 \(p = 0.5\) 時最高。（本文作者賴薇云繪）

參考文獻

郭寶錚、陳玉敏 (2011)。生物統計學。第11章檢力及樣本數大小的決定。五南。
Hogg, R. V., Tanis, E., & Zimmerman, D. (2015). Probability and statistical inference (9^th edition). Pearson Higher Ed.