初等的機率論(4)機率論的甕模型(Urn Model for Probability Theory)

Print Friendly

初等的機率論(4)機率論的甕模型
(Elementary Probability Theory-4. Urn Model for Probability Theory)
國立臺灣大學數學系蔡聰明副教授/國立臺灣大學數學系蔡聰明副教授責任編輯

連結:初等的機率論(3)兩個重要的不等式

摘要:本文從「機率論是虛,記述統計是實」的論點出發,以實例引導我們從「記述統計」進入「機率論」的世界。

現在我們先把主題點出來:機率論和記述統計,幾乎完全一樣!只是一虛一實而已。機率論是虛,記述統計是實。

為了說明這一點,我們就想像這種情形:我把去年學生的成績做了完整的記錄,將每一位學生都想像為一個球 $$\omega_k$$,並且寫上該生的分數 $$x_k$$,全部裝到一個甕(urn)$$\Omega$$ 之中,於是有 $$\Omega=\{\omega_1,\omega_2,\dots,\omega_N\}$$,這叫做樣本空間(sample space)。

到了今年度,我決心做個不負責任的老師:若你是個學生,我請你從甕中抽出一個球 $$\omega_k$$,然後觀看球上面所寫的分數 $$x_k$$ 就當做你的分數,亦即 $$X(\omega_k)=x_k$$。這種抽一個球觀看你的分數之動作就是一個函數:

$$X:\Omega\rightarrow \mathbb{R}$$

叫做隨機變數(random variable),觀看的結果就是你的分數。我們假設抽到每一個球的機會均等。這樣整個合起來就叫做甕的模型(urn model),很方便於講述機率論。

如此這般,「實的記述統計」就成了「虛的機率論」了!你從$$\Omega$$中抽出一個球,得到你的成績就受到機運(chance)的掌控。事前你無法說得準,只能談論各個事件(event)的機率(probability),例如談「你及格」這個事件的機率。等到你抽出一個球之後,你的命運就確定了,對你而言,機率就消失了。

因此,在「未然的世界」才有機率可言,在「已然的世界」就無機率可言。買樂透的人,在未開獎時,雖然你明知中獎的機率很小很小,但是你仍然懷抱著期待與希望;等到開獎後,命運知曉,一番兩瞪眼,談機率已失去意義。機率使人充滿著期待,事件一經確定後,只剩下快樂或失望。

為方便討論起見,我們進一步假設去年全班$$144$$人的成績如下表的情況:

這樣的假設不但無礙一般機率概念的討論,反而有幫助。在機會均等的條件下,由此表,我們得到機率密度函數(或機率分佈函數)$$p(x)$$,定義如下:

我們將機率密度函數 $$p(x)$$ 列成下表:

再將機率密度函數 $$p(x)$$ 圖解如下:

今年這班學生的成績,採用從甕中任意抽出一球來決定。現在我們就可以來談論各種事件的機率了。

舉例來說,你的分數不到 $$50$$ 分的機率為

$$\begin{array}{ll}P\{X<50\}&=p(10)+p(20)+p(30)+p(40)\\&=\displaystyle\frac{4}{144}+\frac{12}{144}+\frac{8}{144}+\frac{16}{144}=\frac{5}{18}\end{array}$$

你的分數不及格,即不到 $$60$$ 分的機率為

$$\displaystyle P\{X<60\}=p(10)+p(20)+p(30)+p(40)+p(50)=\frac{13}{36}$$

你的分數及格,即大於等於 $$60$$ 分的機率為

$$\displaystyle P\{X\ge 60\}=p(60)+p(70)+p(80)+p(90)+p(100)=\frac{23}{36}$$

你的分數是 $$90$$ 分的機率為 $$\displaystyle P\{X=90\}\equiv p(90)=\frac{16}{144}=\frac{1}{9}$$

先前的統計變量 $$X$$ 之算術平均:$$\displaystyle \overline{X}=\frac{1}{N}\sum^N_{k=1}x_k=63\frac{1}{3}\approx 63.3$$
其實就是此地隨機變數 $$X$$ 的期望值(expectation):

$$\displaystyle E(X)=\sum_k x_kp(x_k)=63\frac{1}{3}\approx 63.3$$

兩者的值相等,只是後者是更有效率的Lebesgue式的求和算法

關於變異數與標準偏差,記述統計學與機率論兩個領域的術語完全相同,但是在記號上稍有差異,兩者分別為:

記述統計學 機率論
$$\displaystyle\sigma^2=\frac{1}{N}\sum^N_{k=1}(x_k-\mu)^2$$ $$\sigma^2=E(X-E(X))^2$$
$$\displaystyle\sigma=\sqrt{\frac{1}{N}\sum^N_{k=1}(x_k-\mu)^2}$$ $$\sigma=\sqrt{E(X-E(X))^2}$$

換句話說,我們有個簡單的小字典來對照這兩種語言:

記述統計學 機率論
相對頻率 機率
統計變量 $$X$$ 隨機變數 $$X$$
算術平均 $$\overline{X}=\frac{1}{N}\sum\limits_{k=1}^{N}x_k$$  期望值 $$E(X)=\sum\limits_k x_kp(x_k)$$
 變異數 $$\sigma^2=\frac{1}{N}\sum\limits^N_{k=1}(x_k-\mu)^2$$ 變異數 $$E(X-E(X))^2$$
 標準差 $$\sigma=\sqrt{\frac{1}{N}\sum\limits_{k=1}^N(x_k-\mu)^2}$$ 標準差 $$\sqrt{E(X-E(X))^2}$$

為什麼說記述統計與機率是一實一虛呢?我造了 $$144$$ 個球,當這是記述資料時,是很真實的東西(這是我教學的成果),$$X$$ 代表從甕中抽出一個球所觀察到的球上所寫的分數,每個球都是實實在在的。這是記述統計的工作。

反過來,「你要抽一張來決定你的成績」,我可以讓你先看底牌,有 $$20$$ 個球是 $$100$$ 分,$$16$$ 個球是 $$90$$分,…,有 $$52$$ 個球是不及格。在此甕的機率模型之下:

你的期望值為 $$E(X)=63.3$$,你不及格的機率為 $$P(X<60)=\frac{52}{144}\approx 0.36$$

你及格的機率為 $$P(X\ge 60)=\frac{92}{144}\approx 0.64$$

然而,只有你抽到的那一個球對你才是真實的,能夠決定你的命運。

可是,我們已經強調過了,這機率是虛的。萬一你抽到是不及格的球,你的運氣不好,那麼這些期望值,或是機率,都幫不了你的忙!說「我及格的機率是 $$0.64$$」,或者「我分數之期望值為 $$63.3$$分」都喪失意義了。在你抽球之前有意義,但抽了球,觀察到的 $$X$$ 是多少,就是多少。明天你要去登山,今天你看氣象預測說明天下雨的機率是 $$0.1$$,很小,但是明天一到,卻在下雨,你只能滴咕說「天空不做美」。

連結:初等的機率論(5)有限機率空間

參考書目:

  1. William Feller: An Introduction to Probability Theory and its Applications. Vol.1 John-Wiley & Sons, INC. Third Edition, 1967.
  2. Sheldon M. Ross: A First Course in Probability. 8th Edition, Prentice Hall, 2009.
    (這兩本是公認的機率論入門絕佳的書。第一本是經典;第二本是比較晚近寫成的書,經常被拿來當作大學部「初等機率論」這門課的教科書。)
  3. Kai Lai Chung: Elementary Probability Theory. Springer, 2004.
  4. Hugh Gordon: Discrete Probability. Springer, 1997.
  5. Eugene Lukacs: Probability and Mathematical Statistics. Academic Press, 1972.
  6. David Stirzaker: Elementary Probability. Cambridge University Press, 1994.
  7. Jim Pitman: Probability. Springer-Verlag, 1993.
  8. Janos Galambos: Introductory Probability Theory. Marcel Dekker, INC. 1984.

註:通常要講述機率論必須用到「測度積分論」的數學工具,或至少要用到微積分。因此要為一般讀者介紹機率論的讀物誠屬不容易。上述八本書盡量壓低要用到的數學工具,大部分只需排列與組合,只有少部份要用到一點兒微積分。

從科學方法論的觀點來看,機率論與統計學是一體的兩面,機率論是「演繹法」,統計學是「歸納法」。因此,本文的主題雖然是機率論,但是也順便介紹一點點統計學的概念。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


6 − = 2