類別資料分析—同質性檢定
類別資料分析—同質性檢定(Categorical Data Analysis – Test of Homogeneity)
國立臺灣大學農藝所生物統計組碩士班 賴薇云
一、前言
同質性檢定與獨立性檢定同為應用卡方分布的檢定法,兩者檢定可用來檢驗記數型的資料,其資料通常表示為 \(r \times c\) 列聯表的型態。列聯表的格式與採用卡方分布進行獨立性檢定的方法將另文介紹(參閱「列聯表與獨立性檢定」),本篇將介紹卡方分布進行同質性檢定的方法。同質性檢定目的是比較數組記數型資料的結果是否一致,如採用兩種教學方法對學生進行教學,探討不同教學法下學生測驗成績的等第分布是否相同。
二、卡方同質性檢定
卡方同質性檢定是用來檢定數個母體樣本在同一變項下的分布是否相同。假設今天進行了 \(r\) 種試驗,每種試驗的可能結果均可被分為 \(c\) 組,表示為 \(r \times c\) 的列聯表如下(列聯表的介紹可參考前文《類別資料分析—列聯表與獨立性檢定》):
表一、同質性檢定的 \(r\times c\) 列聯表 。(本文作者製)
可能結果 | |||||||
A1 | A2 | A3 | … | Ac | 總和 | ||
試驗別 | 試驗 1 | n11 | n12 | n13 | … | n1c | n1. |
試驗 2 | n21 | n22 | n23 | … | n2c | n2. | |
… | … | … | … | … | … | … | |
試驗 r | nr1 | nr2 | nr3 | … | nrc | nr. | |
總和 | n.1 | n.2 | n.3 | … | n.c |
n |
\(n_{ij}\) 為第 \(i\) 試驗下 \(A_j\) 發生次數,\(n_{i.}\) 代表第 \(i\) 試驗的總發生次數,\(n_{.j}\) 代表結果 \(A_j\) 總發生次數。假設第 \(i\) 種試驗下 \(A_j\) 發生的機率可被表示為 \(\pi_{ij}\),卡方同質性檢定就是想檢定:
\(H_0\):\(r\) 種試驗結果是同質的
\(H_a\):\(r\) 種試驗結果為不同質
以機率的形式表示,即為檢定:
\(H_0:\pi_{1j}=\pi_{2j}=…=\pi_{rj},~~~j=1,2,…,c\)
\(H_a:H_0\)不成立
假設今天第 \(i\) 種試驗總共做了 \(n_{i.}\) 次,在 \(H_0\) 成立的情況下,各種試驗下 \(A_j\) 發生的機率均為相同,都可表示為 \(P(A_j)\),\(P(A_j)\) 為未知,可用 \(\hat{P}(A_j)=\frac{n_{.j}}{n}\) 來表示。那麼第 \(i\) 種試驗下 \(A_j\) 發生的期望次數為
\(\displaystyle E_{ij}=n_{i.}\times P(A_j)=\frac{n_{i.}n_{.j}}{n}\)
接下來,我們可根據在卡方適合度檢定中所提到的檢定統計量,來檢定每個細格的期望次數與觀測次數是否相同,在 \(H_0\) 成立之下:
\(\displaystyle\chi^2_0=\sum\limits^c_{j=1}\sum\limits^r_{i=1}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\)
其會近似一自由度為 \((r-1)(c-1)\) 的卡方分布。在 \(\alpha=0.05\) 下,若檢定統計量值大於自由度為 \((r-1)(c-1)\) 的卡方分布的 \(95\%\) 百分位數時,應拒絕虛無假說,亦即認定 \(r\) 種試驗結果不同質(圖一藍色區域)。
例題:
某間餐廳想要了解不同烹煮方式對於顧客的滿意度是否相同,他總共對 \(100\) 個顧客進行調查,其中 \(53\) 位食用 A 烹煮方式的食物,\(47\) 位食用 B 烹煮方式的食物,並以好吃、普通、難吃作為評價。將資料整理成列聯表後如下表:
表二、\(100\) 位顧客對 A、B 兩料理方法的評價。(本文作者製)
好吃 | 普通 | 難吃 | 總和 | |
A | 11 | 23 | 19 | 53 |
B | 5 | 32 | 10 | 47 |
總和 | 16 | 55 | 29 | 100 |
\(H_0\):兩種烹煮方式對於顧客滿意度相同
\(H_a\):兩種烹煮方式對於顧客滿意度不同
統計檢定量值計算如下:
\(\chi^2_0=\frac{(11-8.48)^2}{8.48}+\frac{(23-29.15)^2}{29.15}+\frac{(19-15.37)^2}{15.37}+\frac{(5-7.52)^2}{7.52}+\frac{(32-25.85)^2}{25.85}+\frac{(10-13.63)^2}{13.63}=6.1781\)
在 \(\alpha= 0.05\) 下,檢定統計量值服從自由度為 \((2-1)(3-1) = 2\) 的卡方分布,自由度為 \(2\) 之卡方分布的 \(95\%\) 百分位數可查表或由 Excel 函式求得(讀者可參考《卡方分布在 Excel 的應用(上)、(下)》兩篇文章)為 \(5.99\)。因為檢定統計量 \(= 6.1781 > 5.99\),故在 \(\alpha= 0.05\) 下,A 和 B 烹煮方式對於顧客滿意度並不相同。
參考文獻
- 沈明來 (2014)。生物統計學入門。九州。
- 郭寶錚、陳玉敏 (2011)。生物統計學。五南。
- Hogg, R. V., Tanis, E., & Zimmerman, D. (2015). Probability and statistical inference (9th edition). Pearson Higher Ed.