假設檢定

Posted on 2016/04/29 in 數學, 數據分析, 機率統計 with 沒有迴響 2,759 views

假設檢定(Test of Hypothesis)
國立臺灣大學農藝學系副教授劉力瑜

某公司想了解在雞飼料中加入魚骨粉後，雞每月平均產蛋量是否高於原本餵食一般飼料的每月平均產蛋量 \(20\) 個，因此，以加入魚骨粉的飼料餵食 \(100\) 隻雞一段時間後，發現把魚骨粉加入飼料中餵食後，每隻雞每月平均產蛋量為 \(23\) 個。單純從數據來看，\(23 > 20\)，代表加入魚骨粉可提昇雞蛋產量嗎？其實不一定。

獲得「每隻雞每月平均產蛋量 \(23\) 個」的原因可能有兩種，一種就是如飼料公司預期的，因為在飼料中加入魚骨粉使得產量提高；另一種可能性，是因為與飼料無關的因素造成的結果：例如當時環境較適合雞生蛋、或者單純運氣好選出的 \(100\) 隻雞剛好產量較高等，這些因素在統計學上統稱為「隨機誤差」(random errors)。負責試驗的公司職員要如何得知獲得「每隻雞每月平均產蛋量 \(23\) 個」的原因究竟為何？最直觀的作法是比較前面兩種可能性的機率高低。

「推論統計學」即是基於機率論, 利用樣本進行假說檢定 (hypothesis testing)。上例中造成產蛋量提昇的原因在統計上稱為「假說」或「假設」，與施加特定因素造成之效應（飼料中加入魚骨粉使得產量提高）有關的假說稱為「對立假說」(alternative hypothesis)，意指對立於由隨機誤差造成之效應有關的假說。由於由隨機誤差造成之效應與欲探討特定因素無關，表示該特定因素「什麼也沒做」，因此統計上稱由隨機誤差造成之效應的假說為「虛無假說」(null hypothesis)。

為了計算與比較虛無假說和對立假說的可能性，必須指定兩種假說的對應的機率分布。上例中虛無假說對應的機率分布，可以從「原本餵食一般飼料的每月平均產蛋量 \(20\) 個」的經驗中，設定產蛋量服從平均值為 \(20\) 的常態分布 (normal distribution)，標記為 \(N (20, \sigma^2)\)，其中 \(\sigma^2\) 為產蛋量的族群變異數。因此，隨機抽取 100 隻蛋雞作為樣本，計算每隻雞的平均產蛋量 \(\bar{X}\)，根據統計理論的推導，\(\bar{X}\) 的機率分布為 \(N(20,\sigma^2/100)\)；此時 \(\bar{X}\) 的機率分布是依據虛無假說的情境所設置，因此此機率分布又稱為 \(\bar{X}\) 的「虛無分布」(null distribution)。

對立假說對應的機率分布較難設定。上例中得知在對立假說成立下，餵食添加魚骨粉飼料的產蛋量高於餵食一般飼料的產蛋量，假設此時的產蛋量亦服從常態分布、且其變異數同樣為 \(\sigma^2\)，若以 \(\mu\) 代表餵食添加魚骨粉飼料的平均產蛋量，我們只能設定餵食添加魚骨粉飼料的產蛋量的機率分布為 \(N (\mu, \sigma^2)\)，且 \(\mu>20\)。此時 \(\bar{X}\) 的機率分布應為 \(N(\mu,\sigma^2/100)\)，是依據對立假說的情境所設置，但由於 \(\mu\) 值未定，也就無法依據該機率分布計算任何機率值。

因此，我們就回到可以用以計算機率值的虛無分布。同樣根據經驗，我們知道產蛋量的變異數為 \(\sigma^2=9^2=81\)，因此，\(\bar{X}\) 的虛無分布為 \(N (20, 9^2)\)（圖一；以黑色實線表示）。雖然對立假說下 \(\bar{X}\) 的機率分布未定，但可以得知一定是平均值高於虛無分布的常態分布，在圖一中以紅色虛線表示其中一種可能性。由於此假說檢定中，對立假說的機率分布在虛無假說的右側，因此歸類為「右尾檢定」。

圖一本文範例中雞蛋樣本平均產量在虛無假說下的機率分布 (黑色實線) 與在對立假說下的機率分布（紅色虛線）（本文作者劉力瑜繪）

由圖一看來，即使在虛無分布的情境下，得到樣本平均值為 \(23\) 個蛋是有可能的，但是在對立假說成立的情境下，得到樣本平均值為 \(23\) 的可能性似乎高一些。實際計算在虛無分布的情境下獲得樣本平均值大於或等於 \(23\) 的機率（虛無分布曲線下由 \(23\) 到無限大積分所得結果）為 \(0.0004\)，顯示在虛無假說的情境下，得到與 \(23\) 相同或超過 \(23\) 的機率微乎其微，因此，可以合理的推測虛無假說應不正確，藉以反證對立假說成立。

參考文獻