資料散佈圖與相關係數
資料散佈圖與相關係數 (Scatter Diagram and Correlation Coefficient)
國立臺灣大學農藝所生物統計組碩士班 顏芷筠
一、前言
許多人會將因果性與相關性混淆,因果有必然性,如果說 A 和 B 有因果性,則當 A 發生時,B 一定會發生,但如果說 A 和 B 有相關性,我們只能說當 A 發生時,B 有較高的發生機會,它們的發生率有著相同的趨勢,如酒測酒精濃度高與交通事故相關性高,人們因酒駕造成交通事故發生的機會較高,但卻不能說二者是因果,畢竟交通事故的原因還可能包括其他如道路狀況、駕駛員技術等。
通常研究者在進行研究時,會對每一個研究對象,進行多項變數的量測。例如,醫院在做健康檢查時,會對所要調查的個體,詢問其年齡、是否罹患某種疾病、是否對藥物過敏,進而測量其身高、體重、血壓、視力等方面的發展情形。有了這些資料後,我們會想知道各資料之間是否有存在關係,在統計學上,此關係即稱為相關 (Correlation)。是否身高越高,體重就越重呢?是否年齡越大,罹患某種疾病的可能性就越高呢?相關的程度有多少呢?欲了解兩個變數之間是否有關係,如智商與學業成績的關係,學歷與工作績效的關係等,都屬於統計學上的相關問題。
一般而言,當我們想了解兩連續變數 \(X\) 與 \(Y\) 之間的關係,最直接的方法就是將兩種資料的數據,在座標平面上以點標示出,此種圖示即為資料 \(X\) 與 \(Y\) 之散佈圖 (scatter diagram),由散佈圖可約略看出它們之間的相關形式。
二、資料散佈圖
\((1)\) 資料散佈圖呈直線走向:
例如,某醫院提供了一份健保門診病患年齡和血壓的資料,我們將年齡視為自變數放在 \(X\) 軸,血壓視為應變數放在 \(Y\) 軸,則年齡與血壓所形成的散佈圖,如圖一所示。由圖中可看出,年齡和血壓的關係大略是呈由左下逐漸往右上的直線趨勢。
\((2)\) 資料散佈圖呈非直線走向:
例如,某醫院提供一份以不同劑量的新藥(單位:mg)治療疾病 A,對於疾病 A 解除症狀所需時間(單位:分)的資料,我們將不同劑量視為自變數放在 \(X\) 軸,所需時間視為應變數放在 \(Y\) 軸,則不同劑量與所需時間所形成的散佈圖,如圖二所示。由圖中可看出,不同劑量和所需時間的關係呈非直線走向。
\((3)\) 資料散佈圖呈無相關:
例如,某醫院提供一份年齡與疾病 A 所需治癒時間(單位:日)的資料,我們將年齡視為自變數放在 \(X\) 軸,所需治癒時間視為應變數放在 \(Y\) 軸,則年齡與治癒時間所形成的散佈圖,如圖三所示。由圖中可看出,年齡和治癒時間的幾乎呈一水平線,表示年齡和治癒時間的關係微弱或不存在。
三、相關係數
若兩個變數間存在直線關係,可由相關係數 \(r\) 來描述其直線關係的強弱程度
\[ r=\frac{\sum\limits^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits^n_{i=1}(x_i-\overline{x})^2}\sqrt{\sum\limits^n_{i=1}(y_i-\overline{y})^2}} \]
\(r\) 值介於 \(-1\) 與 \(-1\) 之間。如圖一兩變數的散佈圖呈左下往右上的直線趨勢時,則兩變數之間存在正相關,其相關係數 \(r > 0\);若散佈圖呈左上往右下的直線趨勢時,則兩變數之間存在負相關,其相關係數 \(r < 0\);若散佈圖呈現非線性 (如圖二)或不規則(如圖三)的情況,則其相關係數 \(r\) 接近於 \(0\)。
正、負相關又可以分為完全正、負相關與不完全正、負相關(圖四),一般而言,\(r\) 值為 \(\pm 1\) 時為完全正、負相關,\(r\) 值介於 \(0\sim 0.25\) 時,兩變數缺乏線性相關,\(r\) 值介於 \(0.25\sim 0.50\) 時,兩變數線性相關程度微弱,\(r\) 值介於 \(0.50\sim 0.75\) 時,兩變數有中度線性相關,\(r\) 值介於 \(0.75\sim 1\) 時,兩變數有高度線性相關。
需注意的是,由於相關係數通常只可看出兩變數的直線關係,因此相關係數等於零 (zero correlation) 並不代表兩變數無關係 (no relation),例如圖四 \(r = 0\) 的兩張圖,怎麼能說兩變數無關係呢?直觀而言,兩變數具有週期變化關係,只是這樣的關係強度無法以相關係數來描述。
參考文獻
- 沈明來 (2014)。生物統計學入門。第十一章-簡單直線迴歸與簡單相關。九州。
- 郭寶錚、陳玉敏 (2011)。生物統計學。第十章-迴歸分析。五南。
- 陳加忠。相關係數之介紹|中興大學生物系統工程研究室。 http://amebse.nchu.edu.tw/new_page_517.htm
- 閒談相關係數|Quod Erat Demonstrandum. https://johnmayhk.wordpress.com/2008/08/07/correlation/
您好,您的網站上的相關係數公式應有誤。分母應少了一個sigma符號。
請參閱https://www.itread01.com/content/1542005067.html
已修正,謝謝。