單變數線性迴歸模式

Print Friendly

單變數線性迴歸模式 (Simple Linear Regression Model)
國立臺灣大學農藝所生物統計組碩士班 顏芷筠

一、前言

簡單迴歸分析 (simple regression analysis) 是建構一適當的數學方程式來表示兩個變數(分別稱為自變數與應變數)之間的關係,此數學方程式即稱為迴歸方程式。其中自變數與應變數或稱為其他別名(表一)。

若應變數和自變數之間有線性的函數關係存在,則此迴歸模式為單變數線性模式 (simple linear regression);若應變數和自變數之間存在有非線性的函數關係,則為單變數非線性迴歸 (simple nonlinear regression)。

71809_c1

表一、自變數與應變數之別名。(表格來源:本文作者顏芷筠製)

迴歸分析主要應用有二,一為用來解釋資料過去的現象,二為利用自變數 \(X\) 來預測應變數 \(Y\) 未來可能產生的數值。以某產品銷售量和某產品廣告費用為例,若我們想知道花在某產品廣告上的費用與某產品銷售量的關係,則可藉由所建立的迴歸方程式來作解釋費用提升 \(1\) 萬元預期可增加的銷售量為何;或者我們可以預測投入 \(100\) 萬的廣告費用之後,某產品的銷售量會有多少。

但在此需特別注意,當我們在進行某應變數的預測時,自變數的值不可以超過迴歸模式的範圍 — 假設前述產品銷售量和廣告費用的範例中,若建立迴歸模式的自變數(廣告費用)範圍於 \(10\) 萬元至 \(150\) 萬元時,該模式將無法預測自變數(廣告費用)為 \(200\) 萬元所對應的應變數(產品銷售量)為多少,因為我們無法得知是否超出此範圍之外的地方也是符合此線性關係。

本篇介紹如何利用簡單線性迴歸分析建立應變數和自變數的迴歸方程式,再依此迴歸方程式來作系統分析與預測。

二、簡單線性迴歸模式之建立

71809_p1

圖一、所有資料點皆落在迴歸線上。(本文作者顏芷筠繪)

單變數線性迴歸模式是由自變數 \(X\) 與應變數 \(Y\) 所建構而成,由於此兩變數之間是線性關係,因此可以用一直線方程式來表示(圖一),其關係式為

\(Y=\beta_0+\beta_1X\)

式中的 \(\beta_0\)、\(\beta_1\) 為此迴歸等式之迴歸係數,\(\beta_0\) 為此直線的截距 (intercept),而 \(\beta_1\) 為此直線的斜率 (slope),其意義為當 \(X\) 變動一個單位時,\(Y\) 的變動量為 \(\beta_1\) 單位。

71809_p2

圖二、資料點與迴歸線之正迴歸關係。(本文作者顏芷筠繪)

71809_p3

圖三、資料點與迴歸線之負迴歸關係。(本文作者顏芷筠繪)

由於抽樣誤差的緣故,當我們從樣本調查 \(X\) 與 \(Y\) 之間的關係時,第 \(i\) 組觀測值 \(x_i\) 與 \(y_i\) 的關係通常不會恰好落在線上(圖二、圖三),故以下式表示

\(y_i=\beta_0+\beta_1x_i+\varepsilon_i,~~i=1,2,…,n\)

\(\varepsilon_i\) 為第 \(i\) 個樣本的隨機誤差項,即為實際的 \(y\) 值與迴歸線之間的距離。

用以描述 \(X\) 與 \(Y\) 之間關係的最佳 \(\beta_0\)、\(\beta_1\) 可利用樣本資料進行估計,最小平方法 (method of least squares) 為常用的估計法之一,其原理是調整 \(\beta_0\)、\(\beta_1\) 使得所有應變數觀測值 \(y_i\) 的誤差平方和最小,其所得 \(\beta_0\)、\(\beta_1\) 之估計值分別為

\(\hat{\beta_0}=\overline{y}-\hat{\beta_1}\overline{x}\)

\(\displaystyle\hat{\beta_1}=\frac{\sum\limits^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sum\limits^n_{i=1}(x_i-\overline{x})^2}\)

因此我們可以利用樣本資料所計算出來的 \(\hat{\beta_0}\)、\(\hat{\beta_1}\) 得一最適當的迴歸線 \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\),即可對於其他的 \(x\) 進行預測。

三、例子

71809_c2

表二、年齡與血壓的對應資料。(表格來源:本文作者顏芷筠製)

某醫院提供了一份健保門診病患年齡和血壓的資料,如表二所示,

我們想建立此筆資料的迴歸模式,則可利用最小平方法,

將此樣本資料所計算出來的 \(\hat{\beta_0}\)、\(\hat{\beta_1}\) 得一最適當的迴歸線 \(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\),

而計算後的 \(\hat{\beta_0}=88.9612\)、\(\hat{\beta_1}=0.9344\),

因此迴歸線為 \(\hat{y}=88.9612+0.9344x\)(圖四),

則當年齡 \(X\) 介於 \(43\) 至 \(80\) 之間,皆可代入此迴歸線中,得一預測血壓值 \(Y\),

例如當年齡 \(X=50\),可得血壓值 \(Y=135.6812\)。

71809_p4

圖四、年齡與血壓之迴歸模式。(本文作者顏芷筠繪)


參考文獻

  1. 沈明來 (2014)。生物統計學入門。第十一章、簡單直線迴歸與簡單相關。九州。
  2. 楊惠齡、林明德 (2011)。生物統計學。第十章、迴歸分析。新文京開發出版股份有限公司。
  3. 李明昌。CH13 簡單線性迴歸。95學年度第1學期統計學課程資料|育達科技大學。http://web.ydu.edu.tw/~alan9956/docu1/0951_stat/stat_13.pdf

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


6 + 2 =