機率空間(2)機率的意義(Probability space-2. The meanings of probability)

Print Friendly

機率空間(2)機率的意義(Probability space-2. The meanings of probability)
國立高雄大學應用數學系黃文璋教授/國立高雄大學應用數學系黃文璋教授責任編輯

連結:機率空間(1)機率論的誕生

摘要:本篇從一個生雙胞胎的機率問題出發,說明機率一詞的三種不同解釋:古典機率、頻度機率、主觀機率,並提出許多例子,來釐清這些觀點。

著名的法國數學家及天文學家,有法國牛頓之稱的拉普拉斯(Pierre Simon, Marquis de Laplace, 1749-1827)曾說『大部分生活中最重要的疑問,都只是機率的問題』。的確,處在此一隨機世界,隨機現象(random phenomenon)處處可見。很多觀測事先並不能預知結果,因此事件的成立與否(或說發生與否,正確與否),往往並非只有是、否兩種選擇。還可以是“有可能是”(當然也就“有可能否”)。

而隨著科技日漸發達,對精確度的要求也隨之提高,不能只含混地說“有可能”,而要更明確地表示其可能性之大小。今日機率一詞可說到處出現,人們常想知道某事件發生的機率。雖人人對機率朗朗上口,但一般人是否真了解機率的意思呢?

機率雖不像諸如美、道德那麼難定義,且大部分的人在中學時代,就學過機率,但要真掌握機率之涵義,卻也非易事。有人認為機率論是比微積分更難學的。微積分裡的微分及積分皆可藉圖形來說明,也可用物理中的由距離函數得到速度函數來說明微分,及速度函數經由積分得到距離函數。但這些方式卻無法用來解釋機率。

在奇摩的網頁上有人提出下述問題:

我想請問一下:我先生的爺爺本身是雙胞胎,我外婆也生過雙胞胎,但公婆及我父母都沒有生下雙胞胎,請問我們會不會生下雙胞胎?如果會,那機率會是多少??

有一熱心人士給如下的答覆
———

你的問題讓我一看就很想回答,因為很像教授考試的題目,有一熱心人士給如下的答覆:大部分教授考的題目, 在臨床上都沒什麼用途。

一般而言,孕婦生雙胞胎機率是 $$\frac{1}{89}$$。如果家族中有雙胞胎,機率比 $$\frac{1}{89}$$ 一定還要大。
你問我;你會不會生下雙胞胎?答案是會,但是不保證,只是機率比較大,就好像你問我;走在路上會不會被廣告看板砸下來,打到頭?我的答案也是會,但是機率比較小。結論是:有問好像沒問。

機率是統計學上騙人的東西,許多事情要重複做 $$100$$ 次才有機率可言,懷孕不可能 $$100$$ 次,每次懷孕生雙胞胎機率是 $$\frac{1}{89}$$,但單次懷孕生雙胞胎機率若不是 $$0\%$$,就是 $$100\%$$,就好像問我,$$50$$ 元銅幣丟到地上一次,是蘭花機率有多少?事實上,$$50$$ 元銅幣丟到地上,不是總統府,就是蘭花,如果丟到地上 $$100$$ 次,那麼機率就會接近 $$50\%$$。如果丟到地上一次,蘭花的機率若不是 $$0\%$$,就是 $$100\%$$

———

回答者可能是個醫學院的學生,他對機率的解釋,雖然不正確,但可能是不少人的看法。附帶一提,不少報導指出,生三胞胎之機率約為 $$\frac{1}{6,400}$$,而同卵雙胞胎發生的機率約為 $$\frac{1}{250}$$。95年11月26日聯合報A14版,還有一則美國一對雙胞胎姐妹,又各自生下一對雙胞胎的新聞。

在“正統”的機率論裡,對機率一詞,有下述三種常見的解釋。

  1. 以相同的可能性(equally likely或equal possibility) 來定義機率,此為古典的定義。
  2. 在多次重複實驗後,以一事件出現的相對頻率(relative frequency),來定義其機率,此為統計的定義,或說客觀的解釋 (objective interpretation),頻率對機率的解釋。
  3. 以觀察者對一事件的相信程度(degree of  belief ),來定義機率,此即主觀的觀點(subjective point of view),或說對機率的主觀解釋。

我們依序來說明此三種定義。 首先是古典的定義。

先看一些常有的經驗。兩支球隊比賽,常以投擲銅板決定那一隊先發球。因銅板有兩個面,所以認為兩面出現的機率各為 $$\frac{1}{2}$$。玩撲克牌時,要多洗幾次牌。最後相信排洗得很均勻了,每一種組合出現的機率皆相同。在新約聖經約翰福音第19章記載耶穌被釘在十字架死後,兵丁以拈鬮來分他的裏衣,也是認為每一鬮被抽中的機會相同。

對一隨機現象之觀測,令 $$\Omega$$ 表所有可能的結果之集合,$$\Omega$$ 稱為樣本空間(sample space),假設為一有限集合。$$\Omega$$ 之任一子集合(subset,又稱子集) 稱為一事件。

我們說一事件發生,即表觀測的結果為 $$A$$ 中一元素。投擲一骰子一次,觀測所得點數,則 $$\Omega=\{1,2,3,4,5,6\}$$。$$A=\{1,3,5\}$$為一事件,表奇數出現的事件。若出現的點數為 $$1,3$$ 或 $$5$$,則稱 $$A$$ 發生。

在古典的模式中,一事件的機率,為此事件中之元素個數除以 $$\Omega$$ 中之元素個數。 對一有限集合 $$B$$,我們常以 $$|B|$$ 表 $$B$$ 中元素之個數。又對一事件 $$A$$,以 $$P(A)$$ 表 $$A$$ 發生之機率。

則對每一事件$$A$$,定義

$$(1)~~~P(A)=\displaystyle\frac{|A|}{|\Omega|}$$

當然對 $$\forall \omega\in \Omega$$

$$(2)~~~P({\omega})=\displaystyle\frac{1}{|\Omega|}$$

即所觀測到之任一可能的結果,其發生之機率皆相同。

$$(1)$$ 式定義出一以 $$\Omega$$ 之所有子集之集合為定義域之函數,$$P$$ 稱為機率函數(probability function)。由 $$(1)$$ 式又得下述機率函數之性質:對 $$\forall A,B\subset \Omega$$

$$(3)~~~0\le P(A)\le P(\Omega)=1$$

$$(4)~~~P(A\cup B)=P(A)+P(B)$$,其中 $$A\cap B=\varnothing$$

$$(5)~~~P(A^c)=1-P(A)$$

在此 $$A\cup B$$ 表 $$A$$ 與 $$B$$ 之聯集,$$A\cap B$$ 表 $$A$$ 與 $$B$$ 之交集,$$A^c$$ 表 $$A$$ 之餘集,即事件 $$A$$ 不發生,又 $$\varnothing$$ 表空集合。$$(3)\mathrm{-}(5)$$ 式,直觀上都是對的,並無太深的道理。

人們由平常的經驗,應也都能觀察到此三性質。譬如說,因不是 $$A$$ 發生就是 $$A$$ 不發生(即 $$A^c$$ 發生),故此二者的機率和須為 $$1$$,即 $$(5)$$ 式要成立。我們再介紹符號

$$(6)~~~\displaystyle\binom{n}{k}=\frac{n!}{k!(n-k)!}$$

其中 $$k\ge 0,~n\ge 1$$,為兩整數,且 $$n\ge k$$。又對每一正整數 $$n$$,令

$$(7)~~~n{!}=n(n-1)\cdots 2\cdot 1$$

至於 $$0{!}$$ 則定義為 $$1$$

雖古典的模式已能普遍地用於日常生活及賭場等不少地方,但仍不夠一般。例如,它無法描述一個有無限多個可能結果之實驗。從區間 $$[0,1]$$ 中任取一點,想求取中的點落在 $$[0,0.5]$$ 間之機率,古典的定義在此便不靈了。又如果觀測的各個結果,出現的可能性不同,此定義也用不上。例如,投擲一個非均勻的骰子 $$3$$ 次,求點數和會是 $$10$$ 的機率,就無法利用古典的定義來求了。

其次我們來介紹頻率對機率的解釋。

先看幾個新聞的標題:

  1. 樂透彩 $$1$$ 號球開出的機率為 $$0.15$$,高於其他號球。
  2. 午後雷陣雨機率 $$40\%$$。
  3. 同卵雙胞胎發生的機率約為 $$\frac{1}{250}$$。

有些觀測是可以重複的。對於上述第 $$1$$ 則新聞,應就是反覆的開獎,譬如說開 $$n$$ 次,並計算 $$1$$ 號球出現的次數 $$k$$ ($$k$$ 與 $$n$$ 有關)。人們往往便以 $$1$$ 號球出現的相對頻率 $$k/n$$,當作 $$1$$ 號球出現的機率。至於第 $$2$$ 則新聞,有可能是氣象局依據該日之氣象資料,過去相同的天氣狀況下,下雨日數之百分比。第 $$3$$ 則新聞則可能是依據醫院新生兒的記錄,算出來的同卵雙胞胎的大約比率。

以頻率來解釋機率,必須針對的是可以重複觀測的事件。 譬如說一事件 $$A$$,重複觀測 $$n$$ 次後,以下式來表示 $$A$$ 之機率:

$$(8)~~~f_n(A)=\frac{n(A)}{n}$$

其中 $$n(A)$$ 為 $$n$$ 次觀測中,$$A$$ 發生的次數。由於可合理地假設與觀測者是誰無關,因此才也稱為客觀的解釋。這其中的假設是,每次觀測的條件要相同,且各次觀測間彼此不受影響。若每次梭哈賽局後,牌沒有洗均勻,則欲藉玩多次後,以獲知“一對”出現之機率,就不會太準確了。

以頻率來解釋機率,是許多人常採用的一種方式。例如,若你相信前述第 $$3$$ 則新聞的報導,而且夫妻雙方的家族也未顯現特別會或特別不會生雙胞胎的跡象,則可合理地假設會生下同卵雙胞胎之機率約為 $$\frac{1}{250}$$。

又如,95年8月20日聯合報D8版報導,「老虎伍茲在PGA錦標賽中,雖沒有取得領先的地位,卻也發出了強烈奪冠信號。」奪冠信號是如何產生呢?因「伍茲職業生涯參加 $$40$$ 場大滿貫賽,有過 $$7$$ 次在前兩輪皆打出低於 $$70$$ 桿,其中 $$6$$ 次贏得冠軍。」由於在類似的狀況下,$$7$$ 次贏得 $$6$$ 次,高達 $$\frac{6}{7}$$ 的相對頻率,遂「讓總是相信數據的美國人,深信伍茲奪魁的希望較大」。

不知是否數據會說話,伍茲由第 $$1$$ 回合不太理想的第 $$10$$ 名,第 $$2$$ 回合結束上升至第 $$5$$ 名。等第 $$3$$ 回合結束,伍茲就與英國新秀唐納德並列領先。而 $$4$$ 回合比賽結束,伍茲果然以 $$5$$ 桿的差距,贏得他個人第 $$3$$ 座PGA錦標賽冠軍。

很多人直觀上相信,$$n$$ 很大時,相對頻率 $$f_n(A)$$ 會很接近事件 $$A$$ 之機率。只是 $$\{f_n(A), n\geq1\}$$ 為一隨機數列,微積分中對數列收斂的定義在此並不適用,不能就認定此數列一定收斂。靈巧的讀者可能也已想到了,即使收斂,會不會每次觀測,收斂到不同的值?

例如,投擲一銅板,以 $$A$$ 表出現正面的事件。

若沒有一次得到正面,則 $$f_n(A)=0,\forall n\geq1$$ 若每次皆得到正面,則 $$f_n(A)=1,\forall n\geq1$$。

如此 $$n\rightarrow\infty$$ 時,前者 $$f_n(A)\rightarrow 0$$,後者 $$f_n(A)\rightarrow 1$$。

事實上,不但 $$\{f_n(A), n\geq1\}$$ 不一定收斂,讀者也不難舉出無限多個 $$n\rightarrow\infty$$ 時,

$$f_n(A)$$ 既不趨近至 $$0$$,亦不趨近至 $$1$$ 之數列。

那這樣一來,以頻率來解釋機率,不就出問題了?總不能對同一事件,其發生的機率,不同的人觀測,得到相異的機率值,甚至得不到機率值。

例1: 持續投擲一銅板,以$$A$$表出現正面的事件。假設依序得到正反反正正正正反反反反反反反反$$\cdots$$。即第 $$1$$ 次得到正面,接著 $$2^1$$ 次反面,再來 $$2^2$$ 次正面,再來 $$2^3$$ 次反面,餘類推。

試問 $$n\rightarrow\infty$$ 時,$$f_n(A)$$ 之極限是否存在。

對 $$n\ge 1$$,可得下二式(留給讀者自行驗證):

$$f_2^{2n-1}-1(A)=\displaystyle\frac{1+2^2+\cdots+2^{2n-2}}{2^{2n-1}-1}=\frac{2^{2n}-1}{3(2^{2n-1}-1)}$$

$$f_2^{2n}-1(A)=\displaystyle\frac{1+2^2+\cdots+2^{2n-2}}{2^{2n1}-1}=\frac{2^{2n}-1}{3(2^{2n-1}-1)}=\frac{1}{3}$$

即 $$f_1(A)=1$$、$$f_7=\frac{5}{7}$$、$$f_{31}=\frac{21}{31}$$、$$f_{127}=\frac{85}{127}$$、$$\cdots$$;

$$f_{3}=\frac{1}{3}$$、$$f_{15}=\frac{1}{3}$$、$$f_{63}=\frac{1}{3}$$、$$\cdots$$。

因 $$n\to\infty$$ 時,$$f_{2^{2n-1}-1}(A)\to \frac{2}{3}$$,且 $$f_{2^{2n}-1}(A)\to \frac{1}{3}$$

故 $$n\to\infty$$ 時,$$f_n(A)$$ 之極限不存在。

大數法則(law of large numbers)的產生是必然的。

大數法則指出,在某種意義下,$$n\rightarrow\infty$$ 時,$$f_n(A)$$ 會趨近至事件 $$A$$ 之機率 $$P(A)$$。原來一般人習以為常的以機率來解釋機率,並非只有方便的功能,而背後是真有理論來支持。 但只憑目前的架構,當然無法證明。要有更深一層的理論基礎才行。

我們再看對機率的主觀解釋。

有些經驗是無法重複觀測的,底下為一些常見的敘述。

  1. 我覺得我今年落榜的機率很大。
  2. 本次世界盃足球賽,巴西封王的機率為 $$0.3$$。
  3. 英學者嚇人:世界末日機率升高為五成。

上述這類事件,顯然都無法重來。那其中的機率如何產生?或說如何讓人相信你真認為某事件之機率為 $$p$$? 這可以公正賽局(fair game),即期望淨所得為 $$0$$ 來解釋。

令 $$A$$ 表某一事件,考慮下述賭局:每賭一次要先付 $$p$$ 元,其中 $$0\leq p\leq 1$$。若 $$A$$ 發生,則得 $$1$$ 元,否則什麼都得不到。如果你接受這個賭法,且認為此賭局公正,則你便確實認為 $$P(A)=p$$。因有 $$p$$ 的機率淨得 $$(1-p)$$ 元,有 $$(1-p)$$ 的機率淨失 $$p$$ 元,故期望淨所得為 $$0$$:

$$p(1-p)+(1-p)p=0$$

主觀的解釋機率,有時也會根據過去客觀的事實來決定。只是即使依據相同的的資料,不同的人對同一事件,有時也會給出不同的主觀機率。

不論是以頻率或主觀對機率解釋,如同古典的模式裡,都要弄清楚樣本空間為何,那些是有興趣的事件,並決定機率函數。機率函數不見得要滿足 $$(1)$$ 式,但 $$(3)$$、$$(4)$$、$$(5)$$ 三式,不論以那種方式解釋機率,依照一般對機率的認知,或處理機率的經驗,都是該滿足的。

以上我們介紹對機率的幾種不同解釋方式,我們也不排除仍有其他解釋。古典的定義雖然以古典名之,今日仍常採用。尤其樂透彩風行的今日,於求其中各種事件之機率,都是以相同的可能性來定義機率。甚至如果沒有其他資訊,往往也是採此定義。如有三家廠商同時競爭某案,若三家條件都各有優劣,難分軒輊,則各家會雀屏中選之機率,就不妨假設皆為 $$\frac{1}{3}$$。

又這三種對機率的解釋,有時會交錯著使用,或彼此相驗證。如對於樂透彩,雖一開始假設每種號碼之組合,出現之機率皆相同,但若長期觀測後,發現某些組合,出現之相對頻率過高或過低,可能會對樂透彩開獎之公正性產生懷疑。另外,若有人認為 $$12$$ 是他的幸運號碼,簽 $$12$$ 號中的機率較大。雖以主觀來解釋機率,但若歷經多次開獎,簽 $$12$$ 號並未有較易中的跡象(頻率的觀點),這時大約無法再堅信 $$12$$ 號較易出現了。

可以這麼說,頻率對機率的解釋,可用來「驗證」各種對機率的解釋之「正確性」。 至於怎樣才是通過檢驗?這就是統計裡假設檢定(hypothesis testing)的問題了。無論如何,機率絕非「統計學上騙人的東西」。就算事先對懷孕生雙胞胎的機率可以認為是 $$\frac{1}{89}$$,一旦生出後,當然只有是雙胞胎,或不是雙胞胎,此時「機率」一詞已無意義。但單次懷孕生雙胞胎之機率, 「若不是 $$0\%$$ 就是 $$100\%$$」的講法,百分之百是錯的,絕對沒有絲毫正確的可能性。

至於「(銅板)如果丟到地上 $$100$$ 次,那麼機率就會接近 $$50\%$$」,也是錯誤的講法。 是「相對頻率」很可能會接近 $$50\%$$。至於「事情要重覆作 $$100$$ 次才有機率可言」,「如果丟到地上 $$100$$ 次,蘭花的機率若不是 $$0\%$$,就是 $$100\%$$」,也都是錯誤的講法。

連結:機率空間(3)機率空間

參考資料:

  1. 黃文璋 (2003). 數理統計。華泰文化事業股份有限公司,台北。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


+ 6 = 10