統計:從政治算術到一門科學(Statistics: from political arithmetic to a science)

Print Friendly

統計:從政治算術到一門科學(Statistics: from political arithmetic to a science)
國立臺灣師範大學數學系洪萬生教授/ 國立臺灣師範大學數學系洪萬生教授責任編輯

「統計」是一個多義的名詞,而且,常常在面對質疑的意見時,被用來保證其可信度。我們有時使用它來談論資料,特別是指數值資料 - 例如,「$$93\%$$ 的統計數值是編造的」。當在這些意義下使用時,統計(statistics)是個複數名詞:數據的每一小部分都是一個統計量(statistic)。當統計(statistics)作為單數名詞使用時,它所指涉的,是一門產生及分析這些數據的科學。這門科學有著悠久的歷史根源,但卻是在二十世紀初期才發展興盛起來。 

統計學與機率論息息相關,這可以解釋何以有些大學數學系將「機率與統計」合開為一門課程。不過,統計和機率卻是直到十八世紀初期,才共同發展成對「不確定性」之數學研究的兩個緊密相關領域。事實上,它們是對相同的基本情況進行相反兩邊的考察。機率論探討吾人已知群體的未知樣本可以說些什麼?

例如,知道了投擲一對骰子一次可能得到的所有數值組合,那麼,下次投擲得到點數和為 $$7$$ 的可能性是多少?統計學則是從調查一個小型的樣本,探究吾人對未知的群體可以說些什麼?例如,知道在十六世紀一百位倫敦居民的壽命,我們是否可以推論出一般倫敦人(或是歐洲人,或是一般的人類)也可以活一樣久?

譬如說吧,第一本對機率論與統計學作廣泛充分討論的著作,是1713年由伯努利(Jacob Bernoulli)出版的《猜度術》(Ars Conjectandi)。這本書分成四個部分,前三個部分討論排列、組合和流行的賭博遊戲之機率理論。在第四個部分,伯努利陳述了這些數學概念在例如政治、經濟或死亡率等領域有更嚴肅及更有價值的應用。

然則我們必須收集多少數據,才能合理地相信從數據所做出結論是正確的?(例如,為了要正確預測選舉的結果,我們需對多少公民進行民意調查)?伯努利證明了:樣本愈大,結論正確的可能性愈高。而這,正是現在稱之為「大數法則」的著名定理。

樣本當然關係到數值資料的蒐集。在歷史上,譬如羊群的大小,穀物的供應量,軍隊的人數等等紀錄,都有著相當古老的傳統。這些種類的資料所繪成的表格,可以在古代文明中最早遺留下的史料裡尋得。他們被政治或軍事的領導人用來預測或防範可能發生的飢荒、戰爭、政治上的結盟或是國家其它的事務上。事實上,統計這個字的來源就是 state(國家):它在十八世紀時被敲定,原指國家事務的科學性探究,但很快地重點被轉移至政府有興趣的政治或人口統計資料。

這種資料的收集,在人類有政府時就存在了。事實上,有些學者認為對這些資料的需求,就是數目本身被發明的原因之一。不過,一直到過去幾個世紀,人們才開始去思考如何去分析及瞭解這些數據的意義。

1662年,格朗特 (John Graunt) 出版了《關於死亡清單的自然與政治觀察》(Natural and Political Observations Made upon the Bills of Mortality)。這些死亡清單是倫敦每週及每年葬禮的紀錄,而早在16世紀中葉開始,就由政府來收集歸檔。格朗特將1604-1661年間的記錄整理成數值的表格,然後,他敘述了所觀察到的模式:男嬰出生人數比女嬰多,女性活得比男性長,每年的死亡率(除非是有傳染病流行)大致上是一個常數等等。對一組同時出生的100位倫敦人所組成的「典型」團體,他也估計了每十年的死亡人數。他這些被稱為倫敦壽命表(London Life Table)的表格化結論,代表了對平均壽命數值化估計的開始。

格朗特和伯提(William Petty, 1623-1687)一起建立了「政治算術」(Political Arithmetic)這門學問,也就是嘗試藉由如死亡清單這類資料的分析,而獲得國家人口資訊。接著,很快就有其他人利用較好的數學方法來處理。例如,英國天文學家哈雷(哈雷彗星就是以他的名字命名)就編輯的一套1693年死亡率表格,作為他研究保險年金的基礎。他因此成為精算科學(actuarial science)的創立者,這門學問針對平均壽命或其他人口統計趨勢,進行數學特性的研究。這類研究很快就成為保險業的科學基礎,依賴的是對各種不同保單所冒風險的精算。

數據的可靠性對十八世紀歐洲的科學或商業而言,都是重要的議題。天文學被認為是決定經度的鑰匙,而經度測量的可靠性,則是遠洋航海安全的關鍵。天文學家為了決定行星軌道,也作了大量的觀測,但是,這些測量容易產生誤差,因此,如何從「混亂」的數據中,抽取出正確的結論,就變成是一件相當重要的事。同時,保險公司開始收集各種數據,但是,那些數據都包含著偶然性所導致的變異,所以,吾人也必須按某種方式去區別什麼是真地會持續發生,而什麼又只是因為誤差或機遇變異所導致的波動?

針對這些問題,1733年,棣美弗(Abraham de Moivre)描述了我們現在所說的常態曲線(或正規曲線),作為二項分佈的近似。他使用這個想法(後來被高斯及拉普拉斯重新發現),去改善伯努利為了得到精確結論所需觀測次數之估計。不過,棣美弗和他同時代的人並不總是能給出合適的答案,來回答對於真實世界的情況所提出的基本問題:觀測所得數據中的某些特徵,到底在多少程度上,可以反應出吾人所研究的群體(或現象)的狀況?

法國數學家勒讓德(Adrien-Marie Legendre)發明了「最小平方法」,帶動了十九世紀統計理論的走向,而且從那時起,這個方法就是統計學家的標準工具。他利用這個方法,來從觀測所得的數據中提取出可靠的資訊。不久後,高斯和拉普拉斯獨立地使用機率論來證明勒讓德的方法,也重新對它加以陳述使其更便於使用。於是,這個極有威力的工具便逐漸在歐洲的科學家社群中傳播開來,這是因為它在進行大量數據依賴的研究,尤其有關天文學及測地學時,表現得十分有效。

在十九世紀,統計方法也隨著比利時人克威特列特(Lambert Quetelet)的開創性工作,而開始滲透到社會科學。1835年,克威特列特出版了一本書討論他所謂的「社會物理學」(social physics)的著作,在該書中,他嘗試運用機率的定律去研究人類的特徵。他那新穎的「平均人」(the average man)概念,即在一個給定的情境下,對人類特徵的一個以數據為基礎的統計性構念,成為後來研究中吸引人的焦點。但是,它也被批評為過度延拓數學方法,將其使用到多數人認為不可量化的人類行為(如道德)之上。事實上,在19世紀時,除了心理學之外,大部分的社會科學領域都對統計方法的滲入表示出相當抗拒的態度。

統計由於在十九世紀獲得了許多進展,它便開始從機率論的陰影之中走出來,而成為數學的一個獨立學門。它的成年禮,是達爾文最年長的一個表兄弟嘉爾頓 (Francis Galton)爵士在1860年代為遺傳學所做的研究。嘉爾頓是當時優生學運動的一份子,希望藉由選擇性的生育來改良人類的種族。因此,對於理解某些特徵在母群體中是如何的分佈及如何(或者是否)遺傳,他有著很濃厚的興趣。為了彌補無法控制影響遺傳無數變因的缺點,嘉爾頓發展了兩個創新的概念:迴歸與相關。

在1890年代,高頓的洞察力被愛格伍斯(Francis Edgeworth)以及皮爾遜(Karl Person)和他的學生優爾(G. Udny Yule)所精練及延拓。優爾最後將嘉爾頓及皮爾遜的想法,發展成為迴歸分析中一個有效的方法論,其中,他使用了勒讓德最小平方法的一種微妙的變形。在二十世紀,這個進展大大有利於生物及社會科學中廣泛使用的統計方法。

當統計理論成熟時,它的應用變得愈來愈明顯。二十世紀中許多大公司均聘僱有統計學家。保險公司聘請精算師來估算在平均壽命及個人不可預期事件的考量下,應收取的保險金額。其他公司則雇用統計學家來監控品質管制。因此,愈來愈多的統計理論上的進展,是藉由非學院人士之研究所取得。譬如,筆名「學生」(Student)的哥薩(William S. Gosset),原在愛爾蘭金氏 (Guinness) 黑啤酒釀造廠工作。他最精彩的論文是處理抽樣方法,即從小樣本中提取出可信賴之資訊的特別方法。

不過,20世紀初期最重要的統計學家,費雪(R. A. Fisher, 1890-1962)莫屬。由於同時具有理論上及實務上的洞察力,費雪得以將統計奠基在嚴密的數學理論上,使之成為一個強而有力的科學工具。他的《研究者的統計方法》(Statistical Methods For Research Workers),對很多世代的科學家而言,是一本劃時代的著作。還有,他的《實驗設計法》(The Design of Experiments))則強調:為了獲得良好的數據,吾人應該要從為了提供那些數據所設計的實驗開始下手。費雪的研究將統計工具穩固地建立,而成為任何科學家所必備的工具。

今日,我們看到統計技術應用到廣泛且大量的人類事務上。民意調查、品質控制方法,以及教育上的標準化測驗等等,都已經成為每天生活中司空見慣的部分。尤其,電腦幫助統計學家處理大量數據的工作,也開始影響統計的理論與實務。因此,統計已不再被認為是數學的一個分支,即使它的理論基礎仍然充滿了數學特性。統計史家史蒂格勒(Stephen Stigler)認為現代統計學既是一種邏輯也是一個方法論。在短短的幾個世紀中,對數據所提出的數學問題所播下的種子,已經成長茁壯為一個有自我目的及標準的獨立學門,它對科學與社會兩方面,有著越來越重要的影響。

參考書目:

  1. Porter, Theodore M. (1986). The Rise of Statistical Thinking 1820-1900. Princeton, NJ: Princeton University Press.
  2. 比爾‧柏林霍夫 / 弗南度‧辜維亞 (2008).《溫柔數學史》,台北:博雅書屋。
  3. 齊斯‧德福林 (2011).《數學的語言》,台北:商周出版社。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


− 6 = 1