初等的機率論(10)推理統計學簡介(Brief Introduction to Statistical Inference)

Print Friendly

初等的機率論(10)推理統計學簡介
(Elementary Probability Theory-10. BriefIntroduction to Statistical Inference)
國立臺灣大學數學系蔡聰明副教授/國立臺灣大學數學系蔡聰明副教授責任編輯

連結:初等的機率論(9)什麼是機率與機率法則?

摘要:這是一系列「初等的機率論」文章中的最後一篇,在對機率有了充足的概念後,這裡舉例說明機率法則的實際應用,強調「推理統計學」是以「機率論」為基礎。

機率論最早的應用是賭局,而賭局也是機率論的發源地。隨著機率論的發展,它的應用也越來越寬廣,最先是數理統計學,再來是統計力學、量子力學,以及社會科學、醫學、經濟學。只要是涉及重複的、大量的觀測數據,都會受到機率論與統計學的管轄。

統計學就是要在不確定性不全資訊的情況下,作決策與判斷的學問,這是一種「猜測的藝術」(the art of conjecture),也是一種歸納式的思考法。母群體的統計變量是個隨機變數,它的機率分佈含有未知參數,於是抽出一小部分的樣本(抽樣),然後運用各種統計方法以推估這些未知參數。要談論推估的好壞就要用到機率論。

統計學的領域太寬廣,我們只舉幾個例子,來看看機率論如何使用。

【例21】(池中魚的估計,捉放捉)如何估計台大醉月湖中的魚數?

這當然有各種方法,採用蠻力法,將湖水抽乾,抓魚來點算,但這樣太不經濟且耗時,又不符合生態環保。有經驗的漁人可能觀察一下醉月湖,就可以估算湖中的魚數,但難以說明估算值的好壞。

統計學的方法是高竿的藝術:假設湖池中有 $$N$$ 條魚,我們第一度先任意抓出 $$N_0$$ 條魚上來(通常 $$N_0$$ 是相對的小數目),作上記號,再放回湖中。過些時,再第二度任意抓 $$n$$ 條魚,每次抓出一條來觀看後再放回湖中,發現其中有 $$n_0$$ 條魚有記號。

問:由這些抽樣數據,如何估算 $$N$$?

能夠估算,並且估算之後還要能夠說明好壞,這就是推理統計學的內容,背後要用到一些機率論。

【解法1】

利用大數法則或比例的想法,可知 $$N:N_0\simeq n:n_0$$,所以我們估計 $$\displaystyle N\simeq \frac{n}{n_0}N_0$$

這個估計的好壞如何評估呢?我們施展一點兒機率論。假設第二度抓魚,抓出一條魚來觀察有無記號,這是一個隨機變數 $$\xi$$,定義如下:

當魚有記號時,我們就說觀察到 $$\xi=1$$,機率為 $$\frac{N_{0}}{N}$$
當魚沒有記號時,我們就說觀察到 $$\xi=0$$,機率為 $$1-\frac{N_{0}}{N}$$

今對 $$\xi$$ 在相同狀況下獨立觀測 $$n$$ 次,得到一列隨機變數 $$\xi_1,\xi_2,…,\xi_n$$。因為抓出再放回,所以 $$\xi_1,\xi_2,…,\xi_n$$ 是獨立且同佈(i.i.d.)。

令 $$S_n\equiv\xi_1+\xi_2+…+\xi_n$$,則 $$S_n$$ 表示第二度任意抓 $$n$$ 條魚中有記號的尾數。

這是一個隨機變數,具有二項分佈:

$$\displaystyle P(S_n=k)=C^{n}_{k}\left(\frac{N_0}{N}\right)^k\left(1-\frac{N_0}{N}\right)^{n-k},~~~k=0,1,2,\cdots,n$$

其期望值為 $$E(S_n)=\displaystyle n\cdot\frac{N_0}{N}$$。今 $$S_n$$ 的值落在 $$\Big|S_n-\frac{nN_0}{N}\Big|\le\varepsilon$$ 的範圍之機率為

$$\displaystyle\sum_{|k-(nN_0)/N|\le\varepsilon}p_k\equiv c,~~~0<c<1$$

那麼除了要冒 $$1-c\equiv\alpha$$ 的風險之外,我們可以確定 $$|n_{0}-\frac{nN_0}{N}|\leq\varepsilon$$;亦即 $$N$$ 落在閉區間 $$[\frac{nN_0}{n_0+\varepsilon},\frac{nN_0}{n_0-\varepsilon}]$$ 之可靠度為 $$c$$,風險度為 $$\alpha$$。通常我們可以用中央極限定理來估算 $$c$$ 的值。切記:統計學告訴我們的結論,都是有風險的!

【解法2】用同樣這個例子,我們順便介紹一下,統計學家R. A. Fisher(捕漁人)所提出的「最像樣推估法」(method of maximum likelihood estimation):由上述知

$$\displaystyle P(S_n=n_0)=C^{n}_{n_0}\left(\frac{N_0}{N}\right)^{n_0}\left(1-\frac{N_0}{N}\right)^{n-n_0}$$,其中 $$N$$ 為未知參數

表示第二度任意抓 $$n$$ 條魚中,$$n_0$$ 條魚有記號,我們把他看作是 $$N$$ 的函數:

$$\displaystyle f(N)=P(S_n=n_0)=C^{n}_{n_0}\left(\frac{N_0}{N}\right)^{n_0}\left(1-\frac{N_0}{N}\right)^{n-n_0}$$

現在這個事件既然已經發生了,我們理應找 $$N$$ 使得 $$f(N)$$ 取最大值,這就是Fisher的最像樣推估的想法。今對 $$f(N)$$ 作微分,令 $$f'(N)=0$$,解方程式得到

$$\displaystyle N=\frac{n}{n_0}N_0$$

這是一種漂亮的猜測術,所得的結果跟解法1一致。

【例22】今假設有一個古老池塘,第一度從中抓出 $$100$$ 條魚,作上記號,放回。第二度從中抓出 $$50$$ 條魚,發現其中有 $$10$$ 條魚有記號,試估計池塘裡的魚數。

【解答】估計池塘裡的魚數為 $$N=\frac{50}{10}\times{100}=500$$

【註】欣賞日本松尾芭蕉(1644-1694) 的一首俳句:

【例23】假設某城市的市民所得 $$X$$,從學理上知道具有正規分佈 $$N(\mu,\sigma^2)$$,其中假設 $$\sigma^2$$ 為已知,只有 $$\mu$$ 為未知參數。今對 $$X$$ 作 $$n$$ 次獨立的觀測,得到一列 $$\mathrm{i.i.d.}$$ 的隨機變數 $$X_1,X_2,\cdots,X_n$$,令 $$\overline{X}=\frac{1}{n}\sum\limits^{n}_{k=1}X_k$$,試求隨機區間 $$\displaystyle\left[\overline{X}-\frac{2\sigma}{\sqrt{n}},\overline{X}+\frac{2\sigma}{\sqrt{n}}\right]$$ 包含 $$\mu$$ 的機率。

【解答】

因為 $$\displaystyle \overline{X}-\frac{2\sigma}{\sqrt{n}}\le\mu\le\overline{X}+\frac{2\sigma}{\sqrt{n}}$$ 與 $$\displaystyle -2\le\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\le 2$$

是同一個事件,所以機率相等。由中央極限定理知,當 $$n$$ 很大時 $$\displaystyle\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}$$ 的機率分佈大約就是 $$N(0,1)$$。因此

$$\begin{array}{ll}\displaystyle P\left(\overline{X}-\frac{2\sigma}{\sqrt{n}}\le\mu\le\overline{X}+\frac{2\sigma}{\sqrt{n}}\right)&\displaystyle=P\left(-2\le\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma}\le 2\right)\\&\approx 2\Phi(2)-1=1.954-1=0.954\end{array}$$(查表)

【例24】繼續考慮上例。

假設 $$X\sim N(\mu,10000)$$,我們獨立抽樣出 $$100$$ 位市民,得到所得的數據為

$$X_1=x_1, X_2=x_2,…,X_{100}=x_{100}$$

很自然,我們就用 $$\displaystyle\overline{x}=\frac{1}{100}\sum\limits_{k=1}^{100}x_k$$ 來推估 $$\mu$$。

例如已知 $$x=50000$$,我們就猜測 $$\mu$$ 大約為 $$5$$ 萬元。

又根據上例的理論計算區間 $$\displaystyle\left[\overline{X}-\frac{2\sigma}{\sqrt{n}},\overline{X}+\frac{2\sigma}{\sqrt{n}}\right]$$ 的實現值為

$$\displaystyle\left[50000-\frac{2\times 100}{\sqrt{100}},50000+\frac{2\times 100}{\sqrt{100}}\right]$$,亦即 $$[50000-20,50000+20]$$

因此,我們就說,猜測 $$\mu=50000\pm 20$$ 的可靠度為 $$0.954$$,風險為 $$0.046$$

研究自然科學和社會科學的人一定得研讀統計學!為什麼我們會這麼肯定呢?各位讀者只要上網查詢,凡是歸類為自然或社會科學的學系,十之八九一定會有一堂必修課為「統計學」,這就稍稍能感受到統計學的重要性了。

統計學研究如何蒐集可靠的資料、如何整理與分析資料、如何根據資料計算出一些有意義的代表值、統計量,並且利用這些數據去推估與了解母群體或機率模型裡的未知。這個過程都需要機率論的幫忙。

總結:機率論是在「三合一又三合一」的枝上開出了三朵花

要言之,機率論的理論架構,就是「三合一又三合一」。前一個三合一是指樣本空間 $$\Omega$$、事件全體  $$\mathfrak{A}$$ 與機率測度 $$P$$;後一個三合一是指機率空間 $$(\Omega,\mathfrak{A},P)$$、隨機變數機率分佈

在「三合一又三合一」的理論架構上開出三朵花:大數法則(弱型與強型)、Poisson小數法則以及中央極限定理。機率論除了本身美麗之外,又有極其廣大的應用。

當樣本空間 $$\Omega$$ 是無窮集(甚至連續統,continuum)時,要談機率論就要用到微積分(Calculus),甚至用到測度論(measure theory),在這裡有很豐富且深奧的機率論內容,畢竟「機運」(chance)是那麼詭譎、虛玄,難以捉摸,機運女神泰姬(Tyche)是那麼神秘莫測。人類一直想要馴服「機率」,只要看看賭局的熱絡、樂透的瘋狂,就可思過半一矣。數學家Mark Kac (1914-1984) 研究機率論,想要證明「機率不存在」,但是一生又受到泰姬的照顧,他說:

義大利機率學家、統計家與精算師Bruno de Finetti (1906-1985) 乾脆就直言道:

$$Probability~does~not~exist.$$

愛因斯坦也說:

$$God~does~not~play~dice~with~the~world.$$
(上帝不是用丟骰子來決定這個世界。)

但是Max Born卻說:

$$God~does~play~dice~with~the~world.$$
(上帝確實是用丟骰子來決定這個世界。)

君以為然否?

泰姬(Tyche):盲眼的機運女神

參考書目:

  1. William Feller: An Introduction to Probability Theory and its Applications. Vol.1 John-Wiley & Sons, INC. Third Edition, 1967.
  2. Sheldon M. Ross: A First Course in Probability. 8th Edition, Prentice Hall, 2009.
    (這兩本是公認的機率論入門絕佳的書。第一本是經典;第二本是比較晚近寫成的書,經常被拿來當作大學部「初等機率論」這門課的教科書。)
  3. Kai Lai Chung: Elementary Probability Theory. Springer, 2004.
  4. Hugh Gordon: Discrete Probability. Springer, 1997.
  5. Eugene Lukacs: Probability and Mathematical Statistics. Academic Press, 1972.
  6. David Stirzaker: Elementary Probability. Cambridge University Press, 1994.
  7. Jim Pitman: Probability. Springer-Verlag, 1993.
  8. Janos Galambos: Introductory Probability Theory. Marcel Dekker, INC. 1984.

註:通常要講述機率論必須用到「測度積分論」的數學工具,或至少要用到微積分。因此要為一般讀者介紹機率論的讀物誠屬不容易。上述八本書盡量壓低要用到的數學工具,大部分只需排列與組合,只有少部份要用到一點兒微積分。

從科學方法論的觀點來看,機率論與統計學是一體的兩面,機率論是「演繹法」,統計學是「歸納法」。因此,本文的主題雖然是機率論,但是也順便介紹一點點統計學的概念。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


5 − 1 =