離群值的檢測

Print Friendly

離群值的檢測(Detection of Outliers)
國立臺灣大學農藝所生物統計組碩士班 陳丘原

一、前言

一般我們在收集資料的過程中,可能會因為測量方法的變異、人為的疏失或是實驗誤差,導致我們所收集到的資料中會有極度異於其它資料的值產生,我們稱之為離群值 (outlier);由於離群值的存在,可能會導致我們所分析的結果產生難以解釋的情況,因此適時的找出這些離群值,再與專業領域的人討論造成這些離群值的原因,能有助於統計分析的解釋。

二、離群值的判斷

(一)盒鬚圖判別法

盒鬚圖(圖一)又稱盒形圖或箱型圖,為顯示數據分佈情況的統計圖,它的組成有最大值、最小值、中位數、第一四分位數 \((Q1)\) 以及第三四分位數 \((Q3)\),其中,第一四分位數與第三四分位數之差值稱四分位距 (Interquartile range, \(IQR\));繪製盒鬚圖時,需決定籬笆 (fence),籬笆為第一四分位數 \(-1.5\times IQR\) 與第三四分位數 \(+ 1.5 \times IQR\)。

繪製盒鬚圖前,會找出最大值、最小值、中位數、第一四分位數以及第三四分位數,其中,在計算第一四分位數時,會將 \(n\) 個觀測值由小到大進行排序,計算 \(i = (25/100) \times n\),若 \(i\) 為整數,第一四分位數為第 \(i\) 大及第 \(i+1\) 大的觀測值之平均;若 \(i\) 不為整數,則取下一個大於 \(i\) 之整數為第一四分位數之觀測值位置。盒鬚圖以第一及第三四分位數劃出盒子,再沿著盒子左右劃出肖線 (Whiskers),肖線兩端為籬笆內的資料最大值及最小值。若有觀測值落在盒鬚圖的籬笆外,則會將之視為離群值。

73655_p1

圖一、盒鬚圖示意圖。(本文作者陳丘原繪)

(二)Z 分數法

根據常態分布的經驗法則,有 \(99.7\%\) 的觀測值落在母體平均值正負 \(3\) 個母體標準差的範圍內。因此,假設收集到的資料符合常態分佈的假設,若觀測值落在樣本平均值正負 \(3\) 個樣本標準差以外的數值,可判定該觀測值屬於離群值。

三、例題:

某牧場調查該牧場內 \(20\) 隻乳牛的產乳量(公斤),如下:

\(20, 22, 21, 19, 5, 18, 20, 22, 17, 19,\)
\(23, 23, 22, 17, 19, 20, 19, 22, 18, 23\)

畫出此筆資料之盒鬚圖,從中判斷是否有牛隻之產乳量異於其他乳牛。計算此筆資料之第一四分位數 \((Q1)\) 及第三四分位數 \((Q3)\):

首先將 \(20\) 筆資料依照小到大之順序排列:

\(5, 17, 17, 18, 18, 19, 19, 19, 19, 20,\)
\(20, 20, 21, 22, 22, 22, 22, 23, 23, 23\)

第一四分位數 \((Q1)\) 的計算: \(i=\frac{25}{100}\times 20=5\),\(Q1=\frac{x_5+x_6}{2}=\frac{18+19}{2}=18.5\)

第三四分位數 \((Q3)\) 的計算: \(i=\frac{75}{100}\times 20=15\),\(Q3=\frac{x_{15}+x_{16}}{2}=\frac{22+22}{2}=22\)

中位數 \((Q2)\) 的計算: \(i=\frac{50}{100}\times 20=10\),\(Q2=\frac{x_{10}+x_{11}}{2}=\frac{20+20}{2}=20\)

四分位距 (Interquartile range, IQR):

\(IQR = Q3 – Q1 = 22 – 18.5 = 3.5\)

籬笆 (Fence):

\(Q1 – 1.5 \times IQR : 18.5 – 5.25 = 12.75\)
\(Q3 + 1.5 \times IQR : 22 + 5.25 = 27.25\)

介於 \([12.75, 27.25]\) 的最大值為:\(23\),最小值為:\(17\)

盒鬚圖(圖二)以第一四分位數 \(18.5\) 和第三四分位數 \(22\) 畫出盒子,標出位於盒子內之中位數的位置,最大值 \(23\) 及最小值 \(17\) 畫出肖線,落在籬笆(\(1.5\) 倍 \(IQR\))外的觀測值則另外標示。

圖中可以觀測到,在這筆資料中 \(5\) 為離群值,顯示該頭乳牛之產乳情形異於其他牛隻,可以洽詢獸醫檢查該頭乳牛之健康情況找出原因。

73655_p2

圖二、牛之產乳量之盒鬚圖。(本文作者陳丘原繪)


參考文獻

  1. 沈明來 (2014)。生物統計學入門(第六版)。九州。
  2. 郭寶錚、陳玉敏 (2011)。生物統計學。五南。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


+ 9 = 13