從數學建模觀點看最「適配」直線(一)

Print Friendly

從數學建模觀點看最「適配」直線(一)
(The best-fit straight line in the view of mathematical modeling)

國立臺灣師範大學數學所博士班黃俊瑋

二千年前,天文學家托勒密 (Ptolemy, c.90-c.168) 的地心說,以地球為中心建立了太陽依圓形軌道繞地球運轉的天體運動模型,更一般性地,他在《天文學大成》(Almagest)一書中闡述了天體的運動軌跡為大圓的數學模型。

到了十六世紀天文學家哥白尼 (Copernicus, 1473-1543) 則改成以太陽為中心,地以圓形軌道繞日運行,大大簡化了模型的複雜度(將托勒密理論中的均輪和周轉圓,從原本的77個化減化34個)。

再到十七世紀克卜勒 (Kepler, 1571-1630) 除了接受哥白尼的日心說之外,依據其老師弟谷 (Tycho Brahe, 1546-1601) 的大量觀測數據,進一步建立了地球以橢圓形軌道繞太陽運行的天體運動定律,而這樣的數學模型更為「簡潔」而且「漂亮」。上述大家耳熟能詳的例子,都是現實生活與天文學研究中的數學建模實例。

另一方面,在高中課程裡,我們常會碰到下述問題:
坐標平面上給定兩點,求通過此兩點之直線方程式(一次函數圖形);給定三點求通過此三點之拋物線方程式(二次函數圖形)或圓之方程式等。一般而言,已知坐標平面上 \(n+1\) 個點 \(P_1\)、\(P_2\)、\(\cdots\)、\(P_n\)、\(P_{n+1}\),恰可造一個次數不高於 \(n\) 次的多項式函數 \(f(x)\),使其通過這 \(n+1\) 個點。

這樣的問題與數學建模息息相關,例如當我們在 \(t_1\)、\(t_2\)、\(\cdots\)、\(t_{n+1}\) 等 \(n+1\) 個時間點,觀測、收集了 \((t_1,x_1)\)、\((t_2,x_2)\)、\(\cdots(t_{n+1},x_{n+1})\) 等 \(n+1\) 筆數據時,可利用這些數據造一個 \(n\) 次函數,使其圖形通過這 \(n+1\) 個點,此時當我們可據此函數推估、預測當 \(t=t_{n+1}\) 時 \(x_{n+1}\) 的值。上述 \(n\) 次多項式函數,可透過多種方式求得,例如待定係數法或者牛頓插值多項式又或者拉格朗日插值多項式等。再利用多項式相等的判別定理,便可確保此 \(n\) 次多項式函數的存在唯一性。

雖然,上述 \(n\) 次多項式函數的數學模型可完美地通過 \(n+1\) 筆數據資料,但統計家偏好較簡單的模型,希望以較簡單卻又負載足夠資訊量與解釋量的模型來描述這些數據。

圖一中所示,為 \(20\) 筆數據所形現之散佈圖,雖然我們可造一個 \(19\) 次多項函數,使其圖形通過這 \(20\) 點,作為一個「完美」的數學模型,然而,\(19\) 次多項函數的圖形過於「複雜」,因此,統計學家試圖透過其它方式為這筆數據建立一個適當的模型。

56040_p1

圖一 某20筆觀察數據之散佈圖

從上述散佈圖可看出這 \(20\) 筆二維數據具有高度的直線相關性,當橫坐標上的變數 \(x\) 增大時,縱坐標上的變數 \(y\) 也有線性增大的趨勢,又或者可進一步計算這些數據的(直線)相關係數 \(r\),發現其介於 \(0.7\sim 1\)之間,具有高度的直線相關性。

在此條件下,不難想像我們可以為這筆數建立一個較簡單的「直線」模型。換句話說,從建模的角度來看,統計學家希望找到一條理論上的直線,最能「適配」(fit)這 \(20\) 筆數據。若以台語裡的「速配」來看,這裡統計上的譯名相當貼切、別具味道。建立此直線模型後,可利用此模型進一步進行預測與解釋。例如在給定自變數 \(x\) 值的條件下預測應變數 \(y\) 的值,或者說明某中某一變數解釋另一變數的程度。

當然,此直線並不會通過上述所有的 \(20\) 筆資料,甚至此直線有可能完全不 通過散佈圖中的任一個點(參見圖二中的20筆觀察數據與其適配直線)。因此,統計學家勢必透過某些方式或限制來探求這條理想中的直線。至於求此直線的想法,留待〈從數學建模觀點看最「適配」直線(二)」介紹。

56040_p2

圖二 前述20筆觀察數據之散佈圖與適配直線

連結:從數學建模觀點看最「適配」直線(二) 

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


7 + 2 =