類別資料分析—列聯表與獨立性檢定

Posted on 2016/07/20 in 數學, 數據分析, 機率統計 with 沒有迴響 8,778 views

類別資料分析—列聯表與獨立性檢定
國立臺灣大學農藝所生物統計組碩士班賴薇云

一、前言

卡方檢定的兩種主要的應用為獨立性及同質性檢定。兩者檢定可用來檢驗記數型的資料，資料都可以寫成 \(r \times c\) 列聯表的型態，本篇介紹列聯表與獨立性檢定。獨立性檢定適用於檢定兩個隨機變數之間是否獨立，例如抽菸與否變數和得不得肺癌變數之間是否獨立。

二、\(r \times c\) 列聯表的介紹

進行 \(n\) 次試驗後，我們可將兩變數的所有可能結果的組合所發生的次數，表示成列聯表。假設變數 \(X\) 有 \(r\) 種可能結果，變數 \(Y\) 有 \(c\) 種可能結果，我們就可將資料表示為 \(r \times c\) 列聯表的形式（如表一），其中 \(n_{ij}\) 為進行試驗後實際觀測到變數 \(X\) 為第 \(i\) 種結果、變數 \(Y\) 為第 \(j\) 種結果的發生次數，\(n_{i.}\) 代表變數 \(X\) 第 \(i\) 種結果的總發生次數，\(n_{.j}\) 代表變數 \(Y\) 第 \(j\) 種結果的總發生次數。

		行變數 \(Y\)
		\(Y_1\)	\(Y_2\)	\(Y_3\)	…	\(Y_c\)	總和
列變數 \(X\)	\(X_1\)	\(n_{11}\)	\(n_{12}\)	\(n_{13}\)	…	\(n_{1c}\)	\(n_{1.}\)
	\(X_2\)	\(n_{21}\)	\(n_{22}\)	\(n_{23}\)	…	\(n_{2c}\)	\(n_{2.}\)
	…	…	…	…	…	…	…
	\(X_r\)	\(n_{r1}\)	\(n_{r2}\)	\(n_{r3}\)	…	\(n_{rc}\)	\(n_{r.}\)
	總和	\(n_{.1}\)	\(n_{.2}\)	\(n_{.3}\)	…	\(n_{.c}\)	\(n\)

三、卡方獨立性檢定

假設 \(r \times c\) 列聯表中的 \(X\) 變數可被分為 \(r\) 組（\(r\) 種可能發生的結果），第 \(i\) 組發生的機率以 \(P(X_i)\) 表示，\(Y\) 變數可被分為 \(c\) 組，第 \(j\) 組發生的機率以 \(P(Y_j)\) 表示，並以 \(P(X_i\cap Y_j)\) 表示第 \(i\) 列第 \(j\) 行細格發生的機率。今天我們想檢定：

\(\mathrm{H_0}\)：\(X\) 變數與 \(Y\) 變數互相獨立

\(\mathrm{H_a}\)：\(X\) 變數與 \(Y\) 變數不獨立

以機率的形式表示，就是想檢定：

\(\mathrm{H_0}\) : \(P(X_i\cap Y_j)= P(X_i) P(Y_j)\)

\(\mathrm{H_a}\)：至少有一組 \(P(X_i\cap Y_j)\ne{P(X_i) P(Y_j)}\)

在 \(\mathrm{H_0}\) 成立之下，進行 \(n\) 次試驗之後，第 \(i\) 列第 \(j\) 行細格所期望發生的次數為：

\(n\times P(X_i)\times P(Y_j)\)

由於 \(P(X_i)\) 和 \(P(Y_j)\) 均未知，所以在計算期望次數之前必須先估計：

\(\displaystyle \hat{P}(X_i)=\frac{n_{i.}}{n},~~~i=1,2,…,r\)

\(\displaystyle \hat{P}(Y_j)=\frac{n_{.j}}{n},~~~j=1,2,…,c\)

\(\displaystyle \hat{P}(X_i\cap Y_j)=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\)

故期望次數記為 \(\displaystyle E_{ij}=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\times n=\frac{n_{i.}\times n_{.j}}{n}\)

接下來，我們可根據在卡方適合度檢定中所提到的檢定統計量，來檢定每個細格的期望次數與觀測次數是否相同，在 \(\mathrm{H_0}\) 成立之下，檢定統計量值為：

\(\displaystyle \chi^2_0=\sum^{c}_{j=1}\sum^r_{i=1}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\)

會近似一自由度為的卡方分布。在 \(\alpha= 0.05\) 下，若檢定統計量值大於自由度為 \((r-1)(c-1)\) 的卡方分布的 \(95\%\) 百分位數時，應拒絕虛無假說，亦即認定 \(X\) 與 \(Y\) 兩變數不獨立（圖一）。

圖一、檢定統計量棄卻區示意圖。（本圖作者賴薇云繪）

例題：

某育種家進行了一項有關花生株型對銹病之抗性的遺傳研究，她在其雜交第二代中調查 984 個植株，獲得下列數據（表一）：

表二、984 個植株花生株型及銹病之抗性的遺傳研究。（本文作者製）

今欲檢定銹病抗性的遺傳與株型的遺傳是否獨立：（引用自中興大學 102 學年度農藝所乙組碩士班招生生物統計學考題）

\(\mathrm{H_0}\)：銹病的抗性與株型的遺傳獨立

\(\mathrm{H_a}\)：銹病的抗性與株型的遺傳不為獨立

首先，先計算 \(\mathrm{H_0}\) 成立之下，各細格的期望次數（表三）：

表三、984 個植株花生株型及銹病之抗性的期望次數。（本文作者製）

在 \(\alpha= 0.05\) 下，檢定統計量值服從自由度為 \((3-1)(2-1) = 2\) 的卡方分布，自由度為 \(2\) 之卡方分布的 \(95\%\) 百分位數可查表或由 Excel 函式求得 (讀者可參考《卡方分布在 Excel 的應用（上）、（下）》兩篇文章) 為 \(5.99\)。因為檢定統計量 \(= 11.459 > 5.99\)，因此推斷抗銹病與株型的遺傳不為獨立。

參考文獻