統計之旅:標準差公式 (II)

Print Friendly

統計之旅:標準差公式 (II)
(Statistical Journey through the Formulas of Standard Deviation (II))

國立蘭陽女中教師 陳敏晧

連結:統計之旅:標準差公式 (I)

在上一篇﹤統計之旅:標準差公式(Ⅰ) ﹥的文章中,我們已經討論過標準差公式 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} }\) 的由來,本文將進一步討論標準差的應用及另一個標準差公式,在101學年度全國公私立高級中學數學學科能力測驗第二次聯合模擬考試多選題第12題,該題的解法充分表現出標準差的意涵:即資料越分散,標準差越大;資料越集中,標準差越小。

題目:設有一組 \(10\) 筆的資料,所有的數值皆為整數,且當中最小的數值是 \(4\),資料全距為 \(10\)。設此資料的標準差最大可能值為 \(a\) 與最小可能值為 \(b\),試問下列選項哪些正確?

  1. \(a=5\)。
  2. \(b=\sqrt{3}\)。
  3. \(a+b\) 是無理數。
  4. 若此組資料改為 \(12\) 筆資料,其餘條件都不變,則 \(a\) 值不變。
  5. 若此組資料改為 \(12\) 筆資料,其餘條件都不變,則 \(b\) 值不變。

解法:

  1. 因為最小的數值是 \(4\),且資料全距為 \(10\),
    所以,最大的數值是 \(14\),剩下的八個整數數值未知,即 \(4\),□,□,□,□,□,□,□,□,\(14\),
    根據標準差公式 \({\sigma _x} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} }\) 可知資料越分散,標準差越大,
    因此,\({x_i} = 4,4,4,4,4,14,14,14,14,14\) 此即為雙峰資料,
    而 \({\mu _x} = \displaystyle\frac{{4 + 4 + 4 + 4 + 4 + 14 + 14 + 14 + 14 + 14}}{{10}} = 9\),
    得 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{{10}}\left[ {{{\left( {4 – 9} \right)}^2} \cdot 5 + {{\left( {14 – 9} \right)}^2} \cdot 5} \right]}= 5\),選項 \((1)\) 正確。
  2. 因為資料越集中,標準差越小,又 \(\displaystyle\frac{{4 + 14}}{2} = 9\)
    因此 \({x_i} = 4,9,9,9,9,9,9,9,9,14\),
    即 \({\mu _x} =\displaystyle \frac{{4 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 14}}{{10}} = 9\),
    得 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{{10}}\left[ {{{\left( {4 – 9} \right)}^2} + {{\left( {14 – 9} \right)}^2}} \right]}= \sqrt {\frac{{50}}{{10}}}= \sqrt 5\),選項 \((2)\) 錯誤。
  3. \(a+b=5+\sqrt{5}\in \mathbb{Q’}\),選項 \((3)\) 正確。很多學生知道「若為有理數、為無理數,則必為無理數。」這個命題,但是,會證明這個命題恐怕寥寥無幾,原因當然是因為現行高中數學教育不重視證明的結果,其實這個證明只要透過反證法即可。已知:\(a\) 為有理數、\(b\) 為無理數。
    求證:\(a+b\) 為無理數。證明:令 \(a+b=c\) 為有理數,移項得 \(b=c-a\) 矛盾,因為 \(a,c\) 皆為有理數,根據有理數的四則運算後必為有理數的性質(即封閉性)可知 \(c-a\) 為有理數,而 \(b\) 卻是無理數,因此,結論錯誤可反推假設錯誤,所以,\(a+b\) 為無理數。
  4. 若此組資料改為 \(12\) 筆資料,其餘條件都不變,
    剩下的十個整數數值未知,即 \(4\),□,□,□,□,□,□,□,□,□,□,\(14\),
    根據標準差公式 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} }\) 可知資料越分散,標準差越大,
    因此,\({x_i} = 4,,4,4,4,4,4,14,14,14,14,14,14\),
    而 \({\mu _x} =\displaystyle \frac{{4 + 4 + 4 + 4 + 4 + 4 + 14 + 14 + 14 + 14 + 14 + 14}}{{12}} = 9\),
    得 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{{12}}\left[ {{{\left( {4 – 9} \right)}^2} \cdot 6 + {{\left( {14 – 9} \right)}^2} \cdot 6} \right]}= 5\),選項 \((4)\) 正確。
  5. 因為資料越集中,標準差越小,又 \(\displaystyle\frac{{4 + 14}}{2} = 9\)
    因此 \({x_i} = 4,9,9,9,9,9,9,9,9,9,9,14\),
    即 \({\mu _x} =\displaystyle \frac{{4 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 9 + 14}}{{12}} = 9\),
    得 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{{12}}\left[ {{{\left( {4 – 9} \right)}^2} + {{\left( {14 – 9} \right)}^2}} \right]}= \sqrt {\displaystyle\frac{{50}}{{12}}}\ne\sqrt 5\),選項 \((5)\) 錯誤。

因此,正確的選項為 \((1) (3) (4)\)

這個題目完全透過標準差公式的應用來解題,看似條件不夠最後卻能迎刃而解,這種思索過程會更加強化學生對於標準差定義的了解。接下來我們再來看一個標準差的計算問題:有五位學生個別擲硬幣十次,如下圖一所示,經統計正面的次數分別為 \(3,4,5,6,8\) 次,試求硬幣出現正面次數的標準差為_______次。

65481_p1

圖一 作者陳敏晧拍攝

解法:先計算 \({\mu _x} =\displaystyle\frac{{3 + 4 + 5 + 6 + 8}}{5} = \frac{{26}}{5} = 5.2\) 次,

根據標準差公式

\(\begin{array}{ll} \sigma _x &= \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} }\\&= \sqrt {\frac{1}{5}\left[ {{{\left( {3 – 5.2} \right)}^2} + {{\left( {4 – 5.2} \right)}^2} + {{(5 – 5.2)}^2} + {{\left( {6 – 5.2} \right)}^2} + {{(8 – 5.2)}^2}} \right]}\\&= \sqrt {\frac{1}{5}(4.84 + 1.44 + 0.04 + 0.64 + 7.84)}=\sqrt {2.96}\approx 1.72\end{array}\)

次。運算過程有些學生可能會覺得很煩瑣,

這時數學老師可以藉此引用另一個標準差公式 \({\sigma _x} = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{x_i}^2}- {\mu _x}^2} \),

證明如下:

\(\begin{array}{ll}{\sigma _x} &= \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} } = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {\left( {{x_i}^2 – 2{x_i}{\mu _x} + {\mu _x}^2} \right)} } \\&= \sqrt {\displaystyle\frac{1}{n}(\sum\limits_{i = 1}^n {{x_i}^2} – 2{\mu _x}\sum\limits_{i = 1}^n {{x_i}} + {\mu _x}^2\sum\limits_{i = 1}^n 1 } )= \sqrt {\displaystyle\frac{1}{n}(\sum\limits_{i = 1}^n {{x_i}^2} – 2{\mu _x} \cdot n{\mu _x} + {\mu _x}^2 \cdot n} ) \\&= \sqrt {\displaystyle\frac{1}{n}(\sum\limits_{i = 1}^n {{x_i}^2} – n \cdot {\mu _x}^2} ) = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{x_i}^2} – {\mu _x}^2}\end{array}\)

\(\therefore {\sigma _x} = \sqrt {\displaystyle\frac{1}{n}\sum\limits_{i = 1}^n {{x_i}^2}- {\mu _x}^2}= \sqrt {\frac{1}{5}({3^2} + {4^2} + {5^2} + {6^2} + {8^2}) – {{5.2}^2}} \)
\(~~~~~~~= \sqrt {30 – 27.04}\approx 1.72\) 次。

總之,
離散型的資料中 \({\sigma _x} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} – {\mu _x}} \right)}^2}} }- \left( 1 \right)\) 及 \({\sigma _x} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{x_i}^2}- {\mu _x}^2}- \left( 2 \right)\)
都是常用的標準差公式,在實際的計算中,學生都會先處理算術平均數 \(\mu_x\),如果 \(\mu_x\) 的結果是整數,都是很好處理標準差的方式;不過,如果 \(\mu\) 的結果不是整數,\((2)\) 的運算方式可能會比 \((1)\) 精簡一些。


參考文獻

  1. 101學年度全國公私立高級中學學科能力測驗第二次聯合模擬考試數學試題(2013)。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


1 + 1 =