假設檢定
假設檢定(Test of Hypothesis)
國立臺灣大學農藝學系副教授 劉力瑜
某公司想了解在雞飼料中加入魚骨粉後,雞每月平均產蛋量是否高於原本餵食一般飼料的每月平均產蛋量 \(20\) 個,因此,以加入魚骨粉的飼料餵食 \(100\) 隻雞一段時間後,發現把魚骨粉加入飼料中餵食後,每隻雞每月平均產蛋量為 \(23\) 個。單純從數據來看,\(23 > 20\),代表加入魚骨粉可提昇雞蛋產量嗎?其實不一定。
獲得「每隻雞每月平均產蛋量 \(23\) 個」的原因可能有兩種,一種就是如飼料公司預期的,因為在飼料中加入魚骨粉使得產量提高;另一種可能性,是因為與飼料無關的因素造成的結果:例如當時環境較適合雞生蛋、或者單純運氣好選出的 \(100\) 隻雞剛好產量較高等,這些因素在統計學上統稱為「隨機誤差」(random errors)。負責試驗的公司職員要如何得知獲得「每隻雞每月平均產蛋量 \(23\) 個」的原因究竟為何?最直觀的作法是比較前面兩種可能性的機率高低。
「推論統計學」即是基於機率論, 利用樣本進行假說檢定 (hypothesis testing)。上例中造成產蛋量提昇的原因在統計上稱為「假說」或「假設」,與施加特定因素造成之效應(飼料中加入魚骨粉使得產量提高)有關的假說稱為「對立假說」(alternative hypothesis),意指對立於由隨機誤差造成之效應有關的假說。由於由隨機誤差造成之效應與欲探討特定因素無關,表示該特定因素「什麼也沒做」,因此統計上稱由隨機誤差造成之效應的假說為「虛無假說」(null hypothesis)。
為了計算與比較虛無假說和對立假說的可能性,必須指定兩種假說的對應的機率分布。上例中虛無假說對應的機率分布,可以從「原本餵食一般飼料的每月平均產蛋量 \(20\) 個」的經驗中,設定產蛋量服從平均值為 \(20\) 的常態分布 (normal distribution),標記為 \(N (20, \sigma^2)\),其中 \(\sigma^2\) 為產蛋量的族群變異數。因此,隨機抽取 100 隻蛋雞作為樣本,計算每隻雞的平均產蛋量 \(\bar{X}\),根據統計理論的推導,\(\bar{X}\) 的機率分布為 \(N(20,\sigma^2/100)\);此時 \(\bar{X}\) 的機率分布是依據虛無假說的情境所設置,因此此機率分布又稱為 \(\bar{X}\) 的「虛無分布」(null distribution)。
對立假說對應的機率分布較難設定。上例中得知在對立假說成立下,餵食添加魚骨粉飼料的產蛋量高於餵食一般飼料的產蛋量,假設此時的產蛋量亦服從常態分布、且其變異數同樣為 \(\sigma^2\),若以 \(\mu\) 代表餵食添加魚骨粉飼料的平均產蛋量,我們只能設定餵食添加魚骨粉飼料的產蛋量的機率分布為 \(N (\mu, \sigma^2)\),且 \(\mu>20\)。此時 \(\bar{X}\) 的機率分布應為 \(N(\mu,\sigma^2/100)\),是依據對立假說的情境所設置,但由於 \(\mu\) 值未定,也就無法依據該機率分布計算任何機率值。
因此,我們就回到可以用以計算機率值的虛無分布。同樣根據經驗,我們知道產蛋量的變異數為 \(\sigma^2=9^2=81\),因此,\(\bar{X}\) 的虛無分布為 \(N (20, 9^2)\)(圖一;以黑色實線表示)。雖然對立假說下 \(\bar{X}\) 的機率分布未定,但可以得知一定是平均值高於虛無分布的常態分布,在圖一中以紅色虛線表示其中一種可能性。由於此假說檢定中,對立假說的機率分布在虛無假說的右側,因此歸類為「右尾檢定」。
由圖一看來,即使在虛無分布的情境下,得到樣本平均值為 \(23\) 個蛋是有可能的,但是在對立假說成立的情境下,得到樣本平均值為 \(23\) 的可能性似乎高一些。實際計算在虛無分布的情境下獲得樣本平均值大於或等於 \(23\) 的機率(虛無分布曲線下由 \(23\) 到無限大積分所得結果)為 \(0.0004\),顯示在虛無假說的情境下,得到與 \(23\) 相同或超過 \(23\) 的機率微乎其微,因此,可以合理的推測虛無假說應不正確,藉以反證對立假說成立。
參考文獻
- 沈明來 (2014)。生物統計學入門 (第六版)。臺灣。九州出版社。
- Glover, T. and Mitchell, K. (2004). An Introduction to Biostatistics. New York, NY. McGraw-Hill.