類別資料分析—費雪精確性檢定
類別資料分析—費雪精確性檢定 (Analysis on Categorical Data — Fisher’s Exact Test)
國立臺灣大學農藝所生物統計組碩士班 賴薇云
一、費雪精確性檢定
在卡方檢定中,通常我們都會希望細格的期望次數不能小於 \(5\),否則在 \(H_0\) 下的檢定統計量,其近似卡方分布的效果不佳。若是以上情況發生,通常我們會透過將欄或列合併的方式,或是採用費雪精確性檢定 (Fisher’s exact test)。該檢定應用於 \(2\times 2\) 列聯表(列聯表的定義詳見《類別資料分析-列聯表與獨立性檢定》一文所述),且觀測總數 \(n\) 很小時(通常為小於 \(20\)),例如調查兩種陷阱捕獲兩種不同野兔的數量如下(表一):
表一、兩種陷阱捕獲兩種不同野兔的數量。(本文作者賴薇云製)
陷阱 1 | 陷阱 2 | 總數 | |
野兔 A | 4(a) | 1(b) | 5(a+b) |
野兔 B | 3(c) | 4(d) | 7(c+d) |
總數 | 7(a+c) | 5(b+d) | 12 |
我們想要知道兩種陷阱捕獲不同野兔的比例是否相同:
\(H_0\):兩種陷阱捕獲不同野兔的比例相同
\(H_a\):兩種陷阱捕獲不同野兔的比例不同
費雪精確性檢定兩步驟分述如下:
步驟一: 在行與列的邊際值(總數,表一中標示為紅色的欄位)固定的情況下,找出所有能構成該邊際欄位的 \(2\times 2\) 列聯表,並計算該列聯表出現的真實機率值。由於邊際欄位為固定,所以決定其中一個細格的值時,全部都決定了。以上述例子為例(表一),若 (a) 欄(陷阱 1 捕獲的野兔 A 隻數)為 \(4\),由於 \((a+b)\) 固定為 \(5\),(b) 欄隻數必須為 \(1\);由於 \((a+c)\) 固定為 \(7\),(c) 欄隻數必須為 \(3\);最後,由於 \((b+d)\) 固定為 \(5\),(d) 欄隻數必須為 \(4\)。因此,我們只需討論 (a) 所有可能填入的結果,就能列出行列邊際值固定下、所有可能的列聯表。本例中 (a) 欄能填入的數字為 \(0\) 至 \(5 = min\{a+b, a+c\}\),各列聯表的發生機率計算方式為:
\(\displaystyle P(a)=\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}\)
例如表一列聯表結果發生的機率為
\(\displaystyle P(4)=\frac{5!7!7!5!}{4!1!3!4!12!}=0.2209596\)
將所有可能列聯表發生的機率整理如表二。
表二、兩種陷阱捕獲兩種不同野兔數量固定邊際值之所有列聯表發生機率值。(本文作者賴薇云製)
a | 0 | 1 | 2 | 3 | 4 | 5 |
P(a) | 0.0013 | 0.0442 | 0.2652 | 0.4420 | 0.2210 | 0.0265 |
步驟二:在所有可能列聯表中,找出與觀測到的結果「相同或更偏向 \(H_a\)」的結果,所有機率的和就是費雪精確性檢定的精確 \(P\) 值,若精確 \(P\) 值小於指定的顯著水準 \(\alpha\),則拒絕虛無假設。
在表一的例題中,實際觀測到的不同陷阱野兔比為
野兔 A : \(4:1\)
野兔 B : \(3:4\)
比觀測到的結果更偏向 \(H_a\) 的結果指陷阱 1 和 2 的野兔比例越不同的情況,列於表三:
表三、比觀測到的結果更偏向 \(H_a\) 的列聯表。(本文作者賴薇云製)
(a = 5) | (a = 1) | (a = 0) | |
野兔 A 陷阱比 | 5:0 | 1:4 | 0:5 |
野兔 B 陷阱比 | 2:5 | 6:1 | 7:0 |
該題精確 \(P\) 值為 \(P(5) + P(4) + P(1) + P(0) = 0.281\),在 \(\alpha= 0.05\) 下,\(P\) 值並未小於 \(0.05\),所以無法拒絕虛無假設,故兩種陷阱捕獲不同野兔的比例相同。
二、介紹如何利用 Excel 進行費雪精確性檢定
以上述例題為例介紹如何利用 Excel 進行檢定,首先先計算行列邊際值固定下、所有可能的聯表發生的機率,Excel 中的函數 FACT 可計算階乘,我們點選插入函數(圖中紅色框框)→選擇 FACT 函數→選擇欲計算階乘的格子(如 D4,D5,…),將計算列聯表機率值的公式呈現出來,即可獲得該列聯表的 p 值(如圖一)。
接著將計算好的 p 值複製,以「值」的型式貼在其他儲存格並標示該 P 值是在 a (B4) 為何值的時候所得(如圖二紅色框框)。
依序以 a 所有可能出現的值 (0~5) 更改列聯表的四個欄位,圖二中綠色框框的值就會自己更動。在重複上述步驟求出所有可能列聯表的機率值(圖三綠色框框)。找出與觀測到的結果「相同或更偏向 \(H_a\)」的結果,將其機率用 SUM 函數加總即為精確 P 值。
參考文獻
- 沈明來 (2014)。生物統計學入門。九州。
- 郭寶錚、陳玉敏 (2011)。生物統計學。五南。
- Hogg, R. V., Tanis, E., & Zimmerman, D. (2015). Probability and statistical inference (9th edition). Section 9.1 Chi-square Goodness-of-Fit Tests. Pearson Higher Ed.