資料散佈圖與相關係數

Print Friendly

資料散佈圖與相關係數 (Scatter Diagram and Correlation Coefficient)
國立臺灣大學農藝所生物統計組碩士班 顏芷筠

一、前言

許多人會將因果性與相關性混淆,因果有必然性,如果說 A 和 B 有因果性,則當 A 發生時,B 一定會發生,但如果說 A 和 B 有相關性,我們只能說當 A 發生時,B 有較高的發生機會,它們的發生率有著相同的趨勢,如酒測酒精濃度高與交通事故相關性高,人們因酒駕造成交通事故發生的機會較高,但卻不能說二者是因果,畢竟交通事故的原因還可能包括其他如道路狀況、駕駛員技術等。

通常研究者在進行研究時,會對每一個研究對象,進行多項變數的量測。例如,醫院在做健康檢查時,會對所要調查的個體,詢問其年齡、是否罹患某種疾病、是否對藥物過敏,進而測量其身高、體重、血壓、視力等方面的發展情形。有了這些資料後,我們會想知道各資料之間是否有存在關係,在統計學上,此關係即稱為相關 (Correlation)。是否身高越高,體重就越重呢?是否年齡越大,罹患某種疾病的可能性就越高呢?相關的程度有多少呢?欲了解兩個變數之間是否有關係,如智商與學業成績的關係,學歷與工作績效的關係等,都屬於統計學上的相關問題。

一般而言,當我們想了解兩連續變數 \(X\) 與 \(Y\) 之間的關係,最直接的方法就是將兩種資料的數據,在座標平面上以點標示出,此種圖示即為資料 \(X\) 與 \(Y\) 之散佈圖 (scatter diagram),由散佈圖可約略看出它們之間的相關形式。

二、資料散佈圖

\((1)\) 資料散佈圖呈直線走向:

例如,某醫院提供了一份健保門診病患年齡和血壓的資料,我們將年齡視為自變數放在 \(X\) 軸,血壓視為應變數放在 \(Y\) 軸,則年齡與血壓所形成的散佈圖,如圖一所示。由圖中可看出,年齡和血壓的關係大略是呈由左下逐漸往右上的直線趨勢。

72593_p01

圖一、血壓對年齡的散佈圖。(本文作者顏芷筠繪)

\((2)\) 資料散佈圖呈非直線走向:

例如,某醫院提供一份以不同劑量的新藥(單位:mg)治療疾病 A,對於疾病 A 解除症狀所需時間(單位:分)的資料,我們將不同劑量視為自變數放在 \(X\) 軸,所需時間視為應變數放在 \(Y\) 軸,則不同劑量與所需時間所形成的散佈圖,如圖二所示。由圖中可看出,不同劑量和所需時間的關係呈非直線走向。

72593_p2

圖二、所需時間對不同劑量的散佈圖。(本文作者顏芷筠繪)

\((3)\) 資料散佈圖呈無相關:

例如,某醫院提供一份年齡與疾病 A 所需治癒時間(單位:日)的資料,我們將年齡視為自變數放在 \(X\) 軸,所需治癒時間視為應變數放在 \(Y\) 軸,則年齡與治癒時間所形成的散佈圖,如圖三所示。由圖中可看出,年齡和治癒時間的幾乎呈一水平線,表示年齡和治癒時間的關係微弱或不存在。

72593_p3

圖三、治癒所需時間對年齡的散佈圖。(本文作者顏芷筠繪)

三、相關係數

若兩個變數間存在直線關係,可由相關係數 \(r\) 來描述其直線關係的強弱程度

\[ r=\frac{\sum\limits^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits^n_{i=1}(x_i-\overline{x})^2}\sqrt{\sum\limits^n_{i=1}(y_i-\overline{y})^2}} \]

\(r\) 值介於 \(-1\) 與 \(-1\) 之間。如圖一兩變數的散佈圖呈左下往右上的直線趨勢時,則兩變數之間存在正相關,其相關係數 \(r > 0\);若散佈圖呈左上往右下的直線趨勢時,則兩變數之間存在負相關,其相關係數 \(r < 0\);若散佈圖呈現非線性 (如圖二)或不規則(如圖三)的情況,則其相關係數 \(r\) 接近於 \(0\)。

72593_p4

圖四、正相關、負相關及零相關圖像。(本文作者顏芷筠繪)

正、負相關又可以分為完全正、負相關與不完全正、負相關(圖四),一般而言,\(r\) 值為 \(\pm 1\) 時為完全正、負相關,\(r\) 值介於 \(0\sim 0.25\) 時,兩變數缺乏線性相關,\(r\) 值介於 \(0.25\sim 0.50\) 時,兩變數線性相關程度微弱,\(r\) 值介於 \(0.50\sim 0.75\) 時,兩變數有中度線性相關,\(r\) 值介於 \(0.75\sim 1\) 時,兩變數有高度線性相關。

需注意的是,由於相關係數通常只可看出兩變數的直線關係,因此相關係數等於零 (zero correlation) 並不代表兩變數無關係 (no relation),例如圖四 \(r = 0\) 的兩張圖,怎麼能說兩變數無關係呢?直觀而言,兩變數具有週期變化關係,只是這樣的關係強度無法以相關係數來描述。


參考文獻

  1. 沈明來 (2014)。生物統計學入門。第十一章-簡單直線迴歸與簡單相關。九州。
  2. 郭寶錚、陳玉敏 (2011)。生物統計學。第十章-迴歸分析。五南。
  3. 陳加忠。相關係數之介紹|中興大學生物系統工程研究室。 http://amebse.nchu.edu.tw/new_page_517.htm
  4. 閒談相關係數|Quod Erat Demonstrandum. https://johnmayhk.wordpress.com/2008/08/07/correlation/
There are 2 comments for this article
  1. ruan at 14:15:23

    您好,您的網站上的相關係數公式應有誤。分母應少了一個sigma符號。
    請參閱https://www.itread01.com/content/1542005067.html

  2. 敬堂 at 14:41:59

    已修正,謝謝。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


+ 3 = 10