計數型資料分析—卡方適合度檢定

Print Friendly

計數型資料分析—卡方適合度檢定 (Categorical Data Analysis — Chi-Square Test of Goodness of Fit)
國立臺灣大學農藝所生物統計組碩士生 賴薇云

一、前言

一般經由試驗所獲得的資料型態可分為數種,其中較常見的為連續型資料及計數型資料。連續型資料代表資料的量是可被測量的,數值也不受整數的限制。像是病患的身高、土壤中的重金屬含量……等,均可用連續型資料來呈現。

計數型資料則多以次數的多寡來呈現,例如在淹水處理下,所觀測到的種子發芽次數。連續型資料分析的方包括 T-test、回歸分析等。而卡方檢定則是處理計數型資料的統計方法中較為常見的,常見的檢定依據不同的用途分為 4 種,包括適合度檢定 (test of goodness of fit)、獨立性檢定 (test of independent)、同質性檢定 (test of homogeneity)、McNemar 檢定 (McNemar’s test) 等,本篇主要介紹卡方適合度檢定,其餘檢定將在其他章節介紹。

卡方適合度檢定

在統計的應用裡,我們可以藉由卡方適合度檢定來檢定某組樣本是否服從某個理論分布。適合度意即觀測到的次數和服從某個理論分布下所期望發生的次數之間的配適程度。該檢定所得的檢定統計量大小會反映觀測次數和期望次數之間的差距,若兩者差距不大,則統計量小;若兩者差距很大,則統計量大。我們便可以用檢定統計量來判斷觀測值的資料是否符合某個我們期望他符合的理論分布。

以下用例子來做介紹:

某 M 品牌的巧克力外層的顏色分布 \(30\%\) 為棕色、\(20\%\) 為粉紅色、\(10\%\) 為黃色、\(10\%\) 為橘色、\(20\%\) 為綠色、\(10\%\) 為咖啡色。今有 \(600\) 顆巧克力(即樣本數為 \(600\)),其外層顏色分布的數量依序為 \(95, 105, 100, 102, 96, 102\)。欲檢定該樣本的巧克力外層顏色分布是否服從 M 品牌的巧克力外層顏色分布 (理論分布)。首先,我們先假設巧克力外層顏色分布一致,假設檢定如下:

\(\mathrm{H_0}:\) 該樣本巧克力外層顏色分布與 M 品牌一致

\(\mathrm{H_a}:\) 該樣本巧克力外層顏色分布與 M 品牌不一致

那麼在 \(\mathrm{H_0}\) 假設成立下,巧克力各顏色分布的期望次數如表一:

觀測次數 期望次數
棕色 \(O_1=95\) \(E_1=600\times 0.3=180\)
粉紅色 \(O_2=105\) \(E_2=600\times 0.2=120\)
黃色 \(O_3=100\) \(E_3=600\times 0.1=60\)
橘色 \(O_4=102\) \(E_4=600\times 0.1=60\)
綠色 \(O_5=96\) \(E_5=600\times 0.2=120\)
咖啡色 \(O_6=102\) \(E_6=600\times 0.1=60\)
總和 \(N = 600\) \(N = 600\)

表一、樣本巧克力外層顏色分布的觀測次數與期望次數

假設今有 \(k\) 組資料(以上述例子來說, \(k = 6\)),假設第 \(i\) 組資料的實測次數為 \(O_i\),期望次數為 \(E_i\),Pearson 提出每組以實測次數減去期望次數的平方除以期望次數相加後得到檢定統計量如下:

\(\displaystyle \chi^2=\sum^k_{i=1}\frac{(O_i-E_i)^2}{E_i}\)

該檢定統計量可經由證明服從一自由度為 \(k-1\) 的卡方分布註一。自由度減 \(1\) 是因為在計算檢定統計量時有一個限制條件:觀察值的個數總和是固定的,所以能自由變動的項數只有 \(k-1\) 個。

上述之例子檢定統計量計算如下:

\(\begin{array}{cl}
\chi^2 &=\displaystyle\sum^6_{i=1}\frac{(O_i-E_i)^2}{E_i}\\
&=\displaystyle\frac{(95-180)^2}{180}+\frac{(105-120)^2}{120}+\frac{(100-60)^2}{60}+\frac{(102-60)^2}{60}+\frac{(96-120)^2}{120}+\frac{(102-60)^2}{60}\\
&=132.28056\end{array}\)

該檢定統計量的自由度為:\(k-1 = 6 -1 = 5\),在 \(\alpha = 0.05\) 的情況下,臨界值為 \(\chi^2_{0.95(6)}= 12.59159\) 註一

該檢定的棄卻區為:\(\mathrm{R.R.} :\{ \chi^2:\chi^2 \ge\chi^2_{0.95(6)}= 12.59 \}\)

以圖表示為:

73047_p1

圖一、自由度 \(= 5\) 的卡方分布在 \(\alpha = 0.05\) 下的棄卻區與非棄卻區。(繪圖者:賴薇云)

該檢定統計量經計算為 \(132.28056\),大於臨界值 \(12.59159\) 落入棄卻區,該樣本巧克力外層顏色分布與 M 品牌不一致。

此外,也可以運用該檢定來檢定子代的表現型是否服從高中課本中提到的孟德爾遺傳分離率。例如有一生物學實驗室想要檢定一玉米雜交子代 F2 的種子的 \(4\) 種表型「平滑且為黃色」、「皺褶且為黃色」、「平滑且為紫色」與「皺褶且為紫色」的分離比是否為 \(9:3:3:1\)。而實驗室觀測到的結果玉米子代種子表型的次數依序為 \(124\)、\(30\)、\(43\)、\(11\)。其假說檢定如下:

\(\mathrm{H_0}:\) 實測個體分離比符合假設比例

\(\mathrm{H_a}:\) 實測個體分離比不符合假設比例

由理論分離比 \(9:3:3:1\) 求得 \(4\) 種表型的期望值如表二:

觀測次數 期望次數
平滑且為黃色 \(O_1=124\) \(E_1=208\times\frac{9}{16}=117\)
皺折且為黃色 \(O_2=30\) \(E_2=208\times\frac{3}{16}=39\)
平滑且為紫色 \(O_3=43\) \(E_3=208\times\frac{3}{16}=39\)
皺折且為紫色 \(O_4=11\) \(E_4=208\times\frac{1}{16}=13\)
總和 \(N = 208\) \(N = 208\)

表二、子代種子性狀的觀測次數與期望次數

卡方值計算如下:

\(\displaystyle \chi^2=\sum^6_{i=1}\frac{(O_i-E_i)^2}{E_i}=\frac{(124-117)^2}{117}+\frac{(30-39)^2}{39}+\frac{(43-39)^2}{39}+\frac{(11-13)^2}{13}=3.213\)

該檢定統計量的自由度為:\(k-1 = 4 -1 = 3\),在 \(\alpha = 0.05\) 的情況下,臨界值為 \(\chi^2_{0.95(3)}= 7.81\),

該檢定的棄卻域為:\(\mathrm{R.R.} :\{ \chi^2:\chi^2 \ge\chi^2_{0.95(3)}= 3.213\}\)

實測卡方值 \(3.213\) 較臨界值小,故可接受 \(\mathrm{H_0}\) 的假設。

此外,當自由度為 \(1\) 或各組的期望細格小於 \(5\) 時,須做葉式連續性校正得修正後的檢定統計量如下:

\(\displaystyle \chi^2=\sum^k_{i=1}\frac{(|O_i-E_i|-0.5)^2}{E_i}\)

此外,有時當資料內有一組的期望細格小於 \(5\) 時,最好可以利用合併資料的方式再進行分析。

註一、卡方分布、卡方次數分布表與查表方法請詳見《卡方分布以及單一族群變方相等性檢定》


參考文獻

  1. 沈明來 (2014)。生物統計學入門。第九章—卡方分布及其應用。九州。
  2. 郭寶錚、陳玉敏 (2011)。生物統計學。第十二章—卡方檢定。五南。
  3. Hogg, R. V., Tanis, E., & Zimmerman, D. (2015). Probability and statistical inference (9th edition). Section 9.1 Chi-square Goodness-of-Fit Tests. Pearson Higher Ed.

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


9 − 3 =