類別資料分析—列聯表與獨立性檢定

Print Friendly

類別資料分析—列聯表與獨立性檢定
國立臺灣大學農藝所生物統計組碩士班 賴薇云

一、前言

卡方檢定的兩種主要的應用為獨立性及同質性檢定。兩者檢定可用來檢驗記數型的資料,資料都可以寫成 \(r \times c\) 列聯表的型態,本篇介紹列聯表與獨立性檢定。獨立性檢定適用於檢定兩個隨機變數之間是否獨立,例如抽菸與否變數和得不得肺癌變數之間是否獨立。

二、\(r \times c\) 列聯表的介紹

進行 \(n\) 次試驗後,我們可將兩變數的所有可能結果的組合所發生的次數,表示成列聯表。假設變數 \(X\) 有 \(r\) 種可能結果,變數 \(Y\) 有 \(c\) 種可能結果,我們就可將資料表示為 \(r \times c\) 列聯表的形式(如表一),其中 \(n_{ij}\) 為進行試驗後實際觀測到變數 \(X\) 為第 \(i\) 種結果、變數 \(Y\) 為第 \(j\) 種結果的發生次數,\(n_{i.}\) 代表變數 \(X\) 第 \(i\) 種結果的總發生次數,\(n_{.j}\) 代表變數 \(Y\) 第 \(j\) 種結果的總發生次數。

行變數 \(Y\)
\(Y_1\) \(Y_2\) \(Y_3\) \(Y_c\) 總和
列變數 \(X\) \(X_1\) \(n_{11}\) \(n_{12}\) \(n_{13}\) \(n_{1c}\) \(n_{1.}\)
\(X_2\) \(n_{21}\) \(n_{22}\) \(n_{23}\) \(n_{2c}\) \(n_{2.}\)
\(X_r\) \(n_{r1}\) \(n_{r2}\) \(n_{r3}\) \(n_{rc}\) \(n_{r.}\)
總和 \(n_{.1}\) \(n_{.2}\) \(n_{.3}\) \(n_{.c}\) \(n\)

三、卡方獨立性檢定

假設 \(r \times c\) 列聯表中的 \(X\) 變數可被分為 \(r\) 組(\(r\) 種可能發生的結果),第 \(i\) 組發生的機率以 \(P(X_i)\) 表示,\(Y\) 變數可被分為 \(c\) 組,第 \(j\) 組發生的機率以 \(P(Y_j)\) 表示,並以 \(P(X_i\cap Y_j)\) 表示第 \(i\) 列第 \(j\) 行細格發生的機率。今天我們想檢定:

\(\mathrm{H_0}\):\(X\) 變數與 \(Y\) 變數互相獨立

\(\mathrm{H_a}\):\(X\) 變數與 \(Y\) 變數不獨立

以機率的形式表示,就是想檢定:

\(\mathrm{H_0}\) : \(P(X_i\cap Y_j)= P(X_i) P(Y_j)\)

\(\mathrm{H_a}\):至少有一組 \(P(X_i\cap Y_j)\ne{P(X_i) P(Y_j)}\)

在 \(\mathrm{H_0}\) 成立之下,進行 \(n\) 次試驗之後,第 \(i\) 列第 \(j\) 行細格所期望發生的次數為:

\(n\times P(X_i)\times P(Y_j)\)

由於 \(P(X_i)\) 和 \(P(Y_j)\) 均未知,所以在計算期望次數之前必須先估計:

\(\displaystyle \hat{P}(X_i)=\frac{n_{i.}}{n},~~~i=1,2,…,r\)

\(\displaystyle \hat{P}(Y_j)=\frac{n_{.j}}{n},~~~j=1,2,…,c\)

\(\displaystyle \hat{P}(X_i\cap Y_j)=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\)

故期望次數記為 \(\displaystyle E_{ij}=\frac{n_{i.}}{n}\times\frac{n_{.j}}{n}\times n=\frac{n_{i.}\times n_{.j}}{n}\)

接下來,我們可根據在卡方適合度檢定中所提到的檢定統計量,來檢定每個細格的期望次數與觀測次數是否相同,在 \(\mathrm{H_0}\) 成立之下,檢定統計量值為:

\(\displaystyle \chi^2_0=\sum^{c}_{j=1}\sum^r_{i=1}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\)

會近似一自由度為 的卡方分布。在 \(\alpha= 0.05\) 下,若檢定統計量值大於自由度為 \((r-1)(c-1)\) 的卡方分布的 \(95\%\) 百分位數時,應拒絕虛無假說,亦即認定 \(X\) 與 \(Y\) 兩變數不獨立(圖一)。

73237_p1

圖一、檢定統計量棄卻區示意圖。(本圖作者賴薇云繪)

例題:

某育種家進行了一項有關花生株型對銹病之抗性的遺傳研究,她在其雜交第二代中調查 984 個植株,獲得下列數據(表一):

73237_c2

表二、984 個植株花生株型及銹病之抗性的遺傳研究。(本文作者製)

今欲檢定銹病抗性的遺傳與株型的遺傳是否獨立:(引用自中興大學 102 學年度農藝所乙組碩士班招生生物統計學考題)

\(\mathrm{H_0}\):銹病的抗性與株型的遺傳獨立

\(\mathrm{H_a}\):銹病的抗性與株型的遺傳不為獨立

首先,先計算 \(\mathrm{H_0}\) 成立之下,各細格的期望次數(表三):

73237_c3

表三、984 個植株花生株型及銹病之抗性的期望次數。(本文作者製)

在 \(\alpha= 0.05\) 下,檢定統計量值服從自由度為 \((3-1)(2-1) = 2\) 的卡方分布,自由度為 \(2\) 之卡方分布的 \(95\%\) 百分位數可查表或由 Excel 函式求得 (讀者可參考《卡方分布在 Excel 的應用(上)(下)》兩篇文章) 為 \(5.99\)。因為檢定統計量 \(= 11.459 > 5.99\),因此推斷抗銹病與株型的遺傳不為獨立。


參考文獻

  1. 沈明來 (2014)。生物統計學入門。九州。
  2. 郭寶錚、陳玉敏 (2011)。生物統計學。五南。
  3. Hogg, R. V., Tanis, E., & Zimmerman, D. (2014). Probability and statistical inference. 9th Ed.

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


4 − = 0