類別資料分析—列聯表與獨立性檢定
類別資料分析—列聯表與獨立性檢定
國立臺灣大學農藝所生物統計組碩士班 賴薇云
一、前言
卡方檢定的兩種主要的應用為獨立性及同質性檢定。兩者檢定可用來檢驗記數型的資料,資料都可以寫成 \(r \times c\) 列聯表的型態,本篇介紹列聯表與獨立性檢定。獨立性檢定適用於檢定兩個隨機變數之間是否獨立,例如抽菸與否變數和得不得肺癌變數之間是否獨立。
二、\(r \times c\) 列聯表的介紹
進行 \(n\) 次試驗後,我們可將兩變數的所有可能結果的組合所發生的次數,表示成列聯表。假設變數 \(X\) 有 \(r\) 種可能結果,變數 \(Y\) 有 \(c\) 種可能結果,我們就可將資料表示為 \(r \times c\) 列聯表的形式(如表一),其中 \(n_{ij}\) 為進行試驗後實際觀測到變數 \(X\) 為第 \(i\) 種結果、變數 \(Y\) 為第 \(j\) 種結果的發生次數,\(n_{i.}\) 代表變數 \(X\) 第 \(i\) 種結果的總發生次數,\(n_{.j}\) 代表變數 \(Y\) 第 \(j\) 種結果的總發生次數。
行變數 \(Y\) | |||||||
\(Y_1\) | \(Y_2\) | \(Y_3\) | … | \(Y_c\) | 總和 | ||
列變數 \(X\) | \(X_1\) | \(n_{11}\) | \(n_{12}\) | \(n_{13}\) | … | \(n_{1c}\) | \(n_{1.}\) |
\(X_2\) | \(n_{21}\) | \(n_{22}\) | \(n_{23}\) | … | \(n_{2c}\) | \(n_{2.}\) | |
… | … | … | … | … | … | … | |
\(X_r\) | \(n_{r1}\) | \(n_{r2}\) | \(n_{r3}\) | … | \(n_{rc}\) | \(n_{r.}\) | |
總和 | \(n_{.1}\) | \(n_{.2}\) | \(n_{.3}\) | … | \(n_{.c}\) | \(n\) |
三、卡方獨立性檢定
假設 \(r \times c\) 列聯表中的 \(X\) 變數可被分為 \(r\) 組(\(r\) 種可能發生的結果),第 \(i\) 組發生的機率以 \(P(X_i)\) 表示,\(Y\) 變數可被分為 \(c\) 組,第 \(j\) 組發生的機率以 \(P(Y_j)\) 表示,並以 \(P(X_i\cap Y_j)\) 表示第 \(i\) 列第 \(j\) 行細格發生的機率。今天我們想檢定:
\(\mathrm{H_0}\):\(X\) 變數與 \(Y\) 變數互相獨立
\(\mathrm{H_a}\):\(X\) 變數與 \(Y\) 變數不獨立
以機率的形式表示,就是想檢定:
\(\mathrm{H_0}\) : \(P(X_i\cap Y_j)= P(X_i) P(Y_j)\)
\(\mathrm{H_a}\):至少有一組 \(P(X_i\cap Y_j)\ne{P(X_i) P(Y_j)}\)
在 \(\mathrm{H_0}\) 成立之下,進行 \(n\) 次試驗之後,第 \(i\) 列第 \(j\) 行細格所期望發生的次數為:
\(n\times P(X_i)\times P(Y_j)\)
由於 \(P(X_i)\) 和 \(P(Y_j)\) 均未知,所以在計算期望次數之前必須先估計:
\(\displaystyle \hat{P}(X_i)=\frac{n_{i.}}{n},~~~i=1,2,…,r\)
\(\displaystyle \hat{P}(Y_j)=\frac{n_{.j}}{n},~~~j=1,2,…,c\)
\(\displaystyle \hat{P}(X_i\cap Y_j)=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\)
故期望次數記為 \(\displaystyle E_{ij}=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\times n=\frac{n_{i.}\times n_{.j}}{n}\)
接下來,我們可根據在卡方適合度檢定中所提到的檢定統計量,來檢定每個細格的期望次數與觀測次數是否相同,在 \(\mathrm{H_0}\) 成立之下,檢定統計量值為:
\(\displaystyle \chi^2_0=\sum^{c}_{j=1}\sum^r_{i=1}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\)
會近似一自由度為 的卡方分布。在 \(\alpha= 0.05\) 下,若檢定統計量值大於自由度為 \((r-1)(c-1)\) 的卡方分布的 \(95\%\) 百分位數時,應拒絕虛無假說,亦即認定 \(X\) 與 \(Y\) 兩變數不獨立(圖一)。
例題:
某育種家進行了一項有關花生株型對銹病之抗性的遺傳研究,她在其雜交第二代中調查 984 個植株,獲得下列數據(表一):
今欲檢定銹病抗性的遺傳與株型的遺傳是否獨立:(引用自中興大學 102 學年度農藝所乙組碩士班招生生物統計學考題)
\(\mathrm{H_0}\):銹病的抗性與株型的遺傳獨立
\(\mathrm{H_a}\):銹病的抗性與株型的遺傳不為獨立
首先,先計算 \(\mathrm{H_0}\) 成立之下,各細格的期望次數(表三):
在 \(\alpha= 0.05\) 下,檢定統計量值服從自由度為 \((3-1)(2-1) = 2\) 的卡方分布,自由度為 \(2\) 之卡方分布的 \(95\%\) 百分位數可查表或由 Excel 函式求得 (讀者可參考《卡方分布在 Excel 的應用(上)、(下)》兩篇文章) 為 \(5.99\)。因為檢定統計量 \(= 11.459 > 5.99\),因此推斷抗銹病與株型的遺傳不為獨立。
參考文獻
- 沈明來 (2014)。生物統計學入門。九州。
- 郭寶錚、陳玉敏 (2011)。生物統計學。五南。
- Hogg, R. V., Tanis, E., & Zimmerman, D. (2014). Probability and statistical inference. 9th Ed.