pearson相關系數_pearson相關系數與典型相關性分析(CCA)

? 本文主要介紹相關系數的概念,以及簡單相關系數中的pearson相關系數及其局限性。隨后介紹pearson相關系數無法解決的問題(兩個變量組之間的相關性問題)的解決方案。

1、pearson相關系數

在日常中,我們經常會遇到一些關于相關性的分析,例如,一個人每日的運動量與他體重之間的相關性,一支股票的價格與該公司的盈利狀況的相關性等等。在上述兩種情況下,我們給出的結論一般是,一個人每日的運動量越大,他的體重就越輕;公司的盈利狀況越好股票的價格越高。那么相關性到底是個什么東西呢?根據維基百科的定義:

相關(Correlation,或稱相關系數或關聯系數),顯示兩個隨機變量之間線性關系的強度和方向。在統計學中,相關的意義是用來衡量兩個變量相對于其相互獨立的距離。

實際上,早在19世紀80年代相關性在統計學上有明確的定義,由卡爾·皮爾遜提出的pearson相關系數就是最常用的相關系數,是一種簡單相關系數。我們平時談論的相關,基本上指的都是線性相關,在線性相關中最常用的就是pearson相關系數。除了此之外,還有其他的一些相關系數如:Spearman相關系數,稱為“秩相關系數”是反映等級相關程度的統計分析指標,描述的是變量間等級、序數之間的關系。而與pearson相關系數同為簡單相關系數的是夾角的余弦值,也就是余弦相似度。本文將主要介紹pearson相關系數。

pearson相關系數的取值在-1到+1之間,其中取值為-1時表示完全負相關,+1時表示完全正相關,0為不相關。具體的計算公式如下:

3f1b8c9ab75a9f08b0e326bf7a32a5b0.png

其中,b64fe5cf3f4b44f54ebcdd8813b55dd1.png是X與Y的協方差,a0dd2bc0328ea3703d25757e95605f01.png,630fc423773b268d5888d68cfc1df34e.png分別為X與Y的標準差。

下圖是《數據挖掘導論》中關于pearson相關系數的圖,能夠比較直觀的展示pearson相關系數值得大小與相關性的關系。

081a3f9cb67e3723d017f76a0431cd9f.png

《數據挖掘導論》:pearson相關系數

正如之前說的,pearson相關系數是一種簡單相關系數,反映的是兩個變量之間的線性關系,因此對于非線性的關系,pearson相關系數會接近于0,無法描述,如下圖:

b6427d813733426885856946777f16dd.png

f50eb2f6d1c98302dd32573afb648076.png

0452819a258893c2ede8a2f89a8a73a1.png

維基百科相關系數(x,y)點集圖

2、典型相關性分析(CCA)

pearson相關系數描述的是一個變量與另外一個變量之間的相關性。但是現實中,多個變量與多個變量之間的關系往往會更常見。例如,我們想知道一個人的日常情況(每日運動量X1、日常飲食X2)與他的健康狀況(血壓Y1、血糖Y2)之間的相關性;一支股票的價格(開盤價X1、收盤價X2、最高價X3)與它公司(盈利情況Y1,所處行業整體趨勢Y2,負面消息量Y3)的相關性。

如果我們直接使用pearson相關系數來解決上述例子的話,就需要考慮所有變量,兩兩之間的相關性。但是這種做法只能孤立的考慮單個變量Xi與Yj間的關系,沒有考慮變量所在的變量組本身各個子變量的相關性。

了解多元回歸分析的人可能知道,以股票為例,如果我們只想知道它的每日最高價與公司之間(盈利情況,所處行業整體趨勢,負面消息量)的相關性,就可以將股票最高價最為Y,公司情況分別為X1,X2,X3,通過數據進行擬合,來找到Y與X之間的最佳線性組合。但是如果考慮多個Y,那么多元回歸分析就顯得有些無從下手。

實際上,典型相關性分析就是利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法,是簡單相關的推廣,是多元回歸分析的延伸。它的應用場景主要是多視圖分析與兩組變量之間的相關性分析,且每組變量包含多個子變量,且子變量相互有一定的相關性。

典型相關性分析(CCA)算法的基本思想是在兩組變量上分別找到一種線性組合

ff9860dacc25b92dedbd63edc5b50306.png

a51fcec221268c6c9e3d7ab3946e8f77.png

使得X與Y之間的pearson相關系數最大。所以CCA就轉化為如何去求解這兩組線性組合的系數,使得線性表示后的變量能夠取到最大的相關系數,因此CCA也可以理解為一種降維的方法。具體地,可以將其轉化為一個最優化問題:

e027b53c17f73a59e259e862cb2cd6bd.png

具體求解的方法則采用奇異值分解(SVD)的方法進行求解。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/538458.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/538458.shtml
英文地址,請注明出處:http://en.pswp.cn/news/538458.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

快學Scala習題解答—第三章 數組相關操作

原文鏈接:http://blog.csdn.net/ivan_pig/article/details/8257365 -------------------------------------------------- 4 數組相關操作 4.1 編寫一段代碼,將a設置為一個n個隨機整數的數組,要求隨機數介于0(包含)和n(不包含)之間 random和…

seo自動工具_愛站SEO工具包詳細介紹

愛站SEO工具-seoer的瑞士軍刀!這個工具主要是為了方便SEOer查詢一些網站的問題,監控關鍵詞排名收錄等等,新手老手都可以用的工具,更快的讓SEOer上手。相信有很多SEOer都使用過愛站SEO工具包,也有很多新入行的小伙伴可能…

人物三(依芙蒂法)

轉載于:https://www.cnblogs.com/song1900/p/9189921.html

常用Oracle分析函數詳解

原文鏈接:http://www.cnblogs.com/benio/archive/2011/06/01/2066106.html --------------------------------------------------------------------------- 學習步驟: 1. 擁有Oracle EBS demo 環境 或者 PROD 環境 2. copy以下代碼進 PL/SQL 3. 配合解…

XML文件結構和基本語法

XML文件的結構性內容,包括節點關系以及屬性內容等等。元素是組成XML的最基本的單位,它由開始標記,屬性和結束標記組成。就是一個元素的例子,每個元素必須有一個元素名,元素可以若干個屬性以及屬性值。 xml文件和html文…

python表格數據分類聚合_3-python數據分析-pandas高級操作之替換、映射、隨機抽樣、分組、高級數據聚合、數據加載、透視表、交叉表...

3-python數據分析-pandas高級操作之替換、映射、隨機抽樣、分組、高級數據聚合、數據加載、透視表、交叉表替換操作 replace替換操作可以同步作用于Series和DataFrame中單值替換普通替換: 替換所有符合要求的元素:to_replace15,value’e’按列指定單值替換&#xff…

oracle-SQL-case when 改用 DECODE

SELECT CASE FLOOR_LINE_ID WHEN 1 THEN 高鐵 WHEN 2 THEN 高速 WHEN 3 THEN 公路 WHEN 5 THEN 地鐵 ELSE 其他 END AS LINE_NAME, FLOOR_LINE_ID FROM ( SELECT FLOOR(LINE_ID/100) AS FLOOR_LINE_ID FROM DT4_LINE_NAME ) 改…

lcp mysql cluster_Mysql Cluster 非root用戶啟動ndbd節點報錯

該樓層疑似違規已被系統折疊 隱藏此樓查看此樓1.配置文件,如下:[rootcent178 ~]# ls -lart /etc/my.cnf-rw-rw-r-- 1 mysql mysql 3055 Oct 31 17:29 /etc/my.cnf2.集群數據存儲文件夾,如下:[rootcent178 ~]# ls -lart /var/lib/m…

fatal: Could not read from remote repository.的解決辦法

原文地址:http://blog.csdn.net/huahua78/article/details/52330792 --------------------------------------------------------------------------------- 查看遠端地址 git remote –v 查看配置 git config --list git status git add . // 暫存所有的更改git…

python中mako中loop_python中Mako庫實例用法

Mako是一個模板庫。一種嵌入式的語言,能夠實現簡化組件布局以及繼承,主要的用途也是和作用域有關,但是效果是最直接切靈活的,這些都是mako的基本功能,掌握了基礎內容,接下來就是詳細的了解講述,…

springmvc是什么_SpringBoot與SpringMVC的區別是什么?

簡單的來說:SpringMVC和SpringBoot都是Spring家族的重要成員。Spring家族的使命就是為了簡化而生。SpringMVC簡化我們日常Web開發的,后來隨著自身的發展,SpringMVC變得臃腫復雜,而SpringBoot則進一步簡化了SpringMVC開發。SpringM…

git 上傳代碼到碼云

與碼云建立連接教程:http://blog.csdn.net/zengmingen/article/details/76045076 如果完成了上面步驟的,且有了git。上傳項目步驟: 代碼提交 代碼提交一般有五個步驟: 1.查看目前代碼的修改狀態 2.查看代碼修改內容 3.暫存需要提交…

你不知道的js中關于this綁定機制的解析[看完還不懂算我輸]

前言 最近正在看《你不知道的JavaScript》,里面關于this綁定機制的部分講的特別好,很清晰,這部分對我們js的使用也是相當關鍵的,并且這也是一個面試的高頻考點,所以整理一篇文章分享一下這部分的內容,相信看…

visual studio過期登錄不了賬戶_具有最高管理權限賬戶,Windows 7設置Administrator密碼永不過期...

今天介紹操作系統具有最高管理權限的賬戶,Windows 7如何設置Administrator賬戶密碼永不過期。小伙伴們可能不知道,和Windows Vista操作系統一樣,在Windows 7操作系統中是不能預先使用Administrator這個具有最高管理權限的賬戶的。同時也可能不…

Tomcat安裝與環境變量的配置-Linux+windows

原文鏈接:http://jingyan.baidu.com/article/8065f87fcc0f182330249841.html ------------------------------------------------------------ 1,新建變量名:JAVA_HOME,變量值:C:\Program Files\Java\jdk1.7.0 2&…

python如何讀取配置文件獲取url以及hhead_讀取INI配置文件內容(頭文件head)

/************************************************************FileName: getini.h // 文件名稱Author: yuanfen127 // 作者Date: 2005-03-31 // 日期Description: // 描述本文件的內容,功能,內部各部分之間的關系// 以及文本文件與…

cad隱藏圖層命令快捷鍵_cad快捷鍵f是什么命令?cad中f快捷鍵都有哪些?

1. F1 該功能鍵打開AutoCAD幫助窗口。如果用戶遇到此軟件中的任何功能問題,它可以使用戶在線獲得幫助。如果用戶離線工作,而不是按此鍵,則該軟件的所有功能都將以PDF格式打開。 2. F2 該鍵將打開一個彈出屏幕,在底部顯示命令行。該命令對于在屏幕底部看不到命令窗口的用戶很…

angular2或4部署到tomcat中,讓他跑起來

原文地址:http://blog.csdn.net/rotating_windmill/article/details/76768793 ------------------------------------------------------------------------- 首先使用構建命令(npm run build或ng build)打包,打包完成后項目中會出現一個dist的目錄&…

java 高級編程進階_JAVA高級編程之hibernate進階學習

二級緩存hibernate的session緩存在事務級別進行持久化數據的緩存操作。 當然,也有可能分別為每個類(或集合),配置集群、或 JVM 級別(SessionFactory 級別)的緩存。你甚至可以為之插入一個集群的緩存。注意,緩存永遠不知道其他應用程序對持久化…

SpringMvc+Tomcat+Angular4 部署運行

這次的團隊開發是,前端開發人員和后臺開發人員完全分開開發的。 前端開發采用了Angular4,webstorm 后端開發采用了:springspringmvcmybatis,eclipse --------------------------------------- 最后要整合了。 1、angular項目編…