【Pandas】pandas DataFrame corr

Pandas2.2 DataFrame

Computations descriptive stats

方法描述
DataFrame.abs()用于返回 DataFrame 中每個元素的絕對值
DataFrame.all([axis, bool_only, skipna])用于判斷 DataFrame 中是否所有元素在指定軸上都為 True
DataFrame.any(*[, axis, bool_only, skipna])用于判斷 DataFrame 中是否至少有一個元素在指定軸上為 True
DataFrame.clip([lower, upper, axis, inplace])用于截斷(限制)DataFrame 中的數值
DataFrame.corr([method, min_periods, …])用于計算 DataFrame 中各列之間的相關系數矩陣(Correlation Matrix)

pandas.DataFrame.corr()

pandas.DataFrame.corr() 方法用于計算 DataFrame 中各列之間的相關系數矩陣(Correlation Matrix),常用于探索變量之間的線性關系強度。默認使用皮爾遜相關系數(Pearson),也支持 Kendall 和 Spearman 等非參數方法。


一、方法簽名
DataFrame.corr(method='pearson', min_periods=1, numeric_only=False)
參數說明:
參數類型描述
method{‘pearson’, ‘kendall’, ‘spearman’} 或 callable,默認 'pearson'相關系數的計算方法:
  • 'pearson': 線性相關系數(適用于連續變量)
  • 'kendall': Kendall Tau 秩相關系數
  • 'spearman': Spearman 秩相關系數
  • 也可以傳入自定義函數(兩個 Series 輸入,返回 float) |
    | min_periods | int, 默認 1 | 每對列之間至少需要多少個有效觀測值才能計算相關系數。若不足則返回 NaN。 |
    | numeric_only | bool, 默認 False | 是否只考慮數值類型列(如 int、float)。若為 True,忽略布爾、字符串等非數值列。 |

二、返回值
  • 返回一個 DataFrame,表示每對列之間的相關系數,范圍在 [-1, 1] 之間:
    • 1 表示完全正相關
    • 0 表示無線性關系
    • -1 表示完全負相關

三、相關系數方法說明
方法描述
'pearson'衡量兩變量之間的線性相關性(適合連續數據)
'kendall'基于秩次的相關性檢驗(適合小樣本或有序數據)
'spearman'基于秩次的非參數相關性(適合非正態分布數據)

四、使用示例及結果
示例1:默認方法(Pearson)
import pandas as pddf = pd.DataFrame({'A': [1, 2, 3, 4, 5],'B': [2, 4, 6, 8, 10],'C': [5, 4, 3, 2, 1]
})
計算 Pearson 相關系數:
result = df.corr()
print(result)

輸出:

          A         B         C
A  1.000000  1.000000 -1.000000
B  1.000000  1.000000 -1.000000
C -1.000000 -1.000000  1.000000

解釋:

  • 列 A 與 B 完全正相關(+1)
  • 列 A 與 C 完全負相關(-1)

示例2:使用 Spearman 方法
result = df.corr(method='spearman')
print(result)

輸出:

     A    B    C
A  1.0  1.0 -1.0
B  1.0  1.0 -1.0
C -1.0 -1.0  1.0

解釋:

  • 由于數據是單調遞增/遞減,Spearman 與 Pearson 結果一致。

示例3:包含 NaN 值時設置 min_periods
import numpy as npdf_with_nan = pd.DataFrame({'X': [1, 2, np.nan, 4, 5],'Y': [np.nan, 2, 3, 4, 5],'Z': [5, 4, 3, 2, 1]
})# 設置 min_periods=3
result = df_with_nan.corr(min_periods=3)
print(result)

輸出:

          X         Y         Z
X  1.000000  1.000000 -1.000000
Y  1.000000  1.000000 -1.000000
Z -1.000000 -1.000000  1.000000

解釋:

  • 雖然有缺失值,但每對列間仍有足夠的有效觀測值(≥3),因此仍能計算出相關系數。

示例4:使用自定義相關函數(如互信息)
from scipy.stats import pearsonrdef custom_corr(x, y):return pearsonr(x, y)[0]result = df.corr(method=custom_corr)
print(result)

輸出:

          A         B         C
A  1.000000  1.000000 -1.000000
B  1.000000  1.000000 -1.000000
C -1.000000 -1.000000  1.000000

解釋:

  • 使用 scipy.stats.pearsonr 自定義相關函數,效果與默認相同。

示例5:僅保留數值列(numeric_only=True
df_mixed = pd.DataFrame({'A': [1, 2, 3],'B': ['low', 'medium', 'high'],'C': [4.0, 5.0, 6.0]
})result = df_mixed.corr(numeric_only=True)
print(result)

輸出:

     A    C
A  1.0  1.0
C  1.0  1.0

解釋:

  • 列 B 是字符串類型,被自動忽略。
  • 只對數值列 A 和 C 進行相關分析。

五、適用場景
場景描述
特征選擇分析特征之間的共線性,避免多重共線性問題
數據探索快速了解變量之間的線性關系強弱
可視化輔助配合熱力圖(heatmap)展示變量相關性
模型診斷檢查輸入變量是否具有預測能力或冗余性

六、注意事項
  • 只適用于數值型列(int、float),非數值列默認參與運算時會報錯(除非設置 numeric_only=True
  • NaN 值會被自動跳過,不影響計算
  • method 支持傳入任意兩個 Series 的函數進行自定義相關性計算
  • 對異常值敏感(尤其 Pearson),建議先做標準化或去極值處理

七、總結
特性描述
功能計算 DataFrame 各列之間的相關系數矩陣
默認方法Pearson 線性相關系數
支持方法Pearson、Kendall、Spearman、自定義函數
NaN 處理自動跳過,可通過 min_periods 控制最小樣本數
是否修改原數據否,返回新 DataFrame
適用類型數值型列(int、float)

corr() 是數據分析中非常關鍵的方法之一,廣泛應用于變量關系探索、特征工程、模型優化等多個環節。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/79294.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/79294.shtml
英文地址,請注明出處:http://en.pswp.cn/web/79294.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

青藏高原七大河流源區徑流深、蒸散發數據集(TPRED)

時間分辨率 月空間分辨率 1km - 10km共享方式 開放獲取數據大小 83.27 MB數據時間范圍 1998-07-01 — 2017-12-31元數據更新時間 2024-07-22 數據集摘要 通過構建耦合積雪、凍土、冰川等冰凍圈水文物理過程的WEB-DHM模型(Water and Energy Budget-based Distribute…

window環境下,如何通過USB接口控制打印機

雖然說大多數情況下,我們可以非常便利的通過打印機驅動來控制打印機,但還是有一些特殊情況,導致無法通過打印機驅動來完成我們預想的任務,比如,打印機只是一個系統設備中的一部分,需要協調其它設備一起工作…

CDGP數據治理主觀題評分標準與得分策略

1.數據模型題目評分標準 1)準確理解題目中所描述的業務邏輯和需求得[1分] 2)正確使用模型設計方法,使用信息工程、信息建模集成定義、巴克符號、陳氏符號等其中一種得[1分] 3)正確設計實體和屬性,題目中涉及的實體數量為25-30個,10個以內得[2分],10-20個得[3分],25個…

工業設計破局密碼:3D 可視化技術點燃產業升級引擎

3D可視化是一種將數據、信息或抽象概念以三維圖形、模型和動畫的形式呈現出來的技術。3D可視化技術通過構建三維數字孿生體,將設計思維轉化為可交互的虛擬原型,不僅打破了傳統二維設計的空間局限,更在效率、精度與用戶體驗層面開創了全新維度…

Qt中在子線程中刷新UI的方法

Qt中在子線程中刷新UI的方法 在Qt中UI界面并不是線程安全的,意味著在子線程中不能隨意操作UI界面組件(比如按鈕、標簽)等,如果強行操作這些組件有可能會導致程序崩潰。那么在Qt中如何在子線程中刷新UI控件呢? 兩種方…

為了摸魚和吃瓜,我開發了一個網站

平時上班真的比較累,摸魚和吃瓜還要跳轉多個平臺的話,就累上加累了。 所以做了一個聚合了全網主流平臺熱搜的網站。 目前市面上確實有很多這種網站了,所以目前最主要有兩點和他們不同: 給熱搜列表增加了配圖,刷的時候…

操作系統學習筆記第2章 (竟成)

第 2 章 進程管理 【考綱內容】 1.進程與線程: (1) 進程 / 線程的基本概念; (2) 進程 / 線程的狀態與轉換; (3) 線程的實現:內核支持的線程;線程庫支持的線程; (4) 進程與線程的組織與控制; (5)…

77.評論日記

房間要經常搞衛生,不然會很多灰,很多頭發,很多垃圾。 當然,即使一直搞衛生,在一些看不到的角落也是會慢慢囤積垃圾。 想要把那些角落也打掃干凈,沒別的辦法,只有把那個角落上所有的東西都移開&a…

語音合成之十二 TTS聲學編解碼器的演進

TTS聲學編解碼器的演進 1 引言:聲碼器/聲學編解碼器在現代TTS中的關鍵作用2 奠定基石:從早期聲碼器到神經合成的曙光3. HiFi-GAN: 革新高效高保真波形生成4. 新的疆域:面向富語義TTS的先進聲學編解碼器5. XCodec2.0: 統一聲學與語義信息6.BiC…

大學之大:悉尼科技大學2025.5.10

悉尼科技大學:從技術先驅到全球創新樞紐的百年征程 一、歷史沿革:從技工培訓到世界百強名校的蛻變 1. 工業革命的技術火種(1843-1945) 悉尼科技大學的歷史可追溯至1843年成立的悉尼機械學院(Sydney Mechanics’ Scho…

安裝阿里云的yum源并且下載軟件(CentOS7版本)

目錄 1. 進入root模式: 2. 進入yum.repos.d文件下 3.備份 4. 安裝阿里云的yum源 5. 安裝dnf 6. 安裝epel-release 7. 清除緩存,并新建緩存 8. 安裝智能拼音軟件包 8.1安裝 8.2 進入應用程序 -- 系統工具 -- 設置 8.3重啟后就可以打中文啦~ (需要重新啟動才能)…

Discriminative and domain invariant subspace alignment for visual tasks

用于視覺任務的判別性和域不變子空間對齊 作者:Samaneh Rezaei,Jafar Tahmoresnezhad 文章于2018年12月4日收到,2019年5月24日被接受,2019年6月3日在線發表于Iran Journal of Computer Science期刊,DOI: 10.1007/s42…

用jsp簡單實現C語言標準化測試系統

C語言標準化測試系統 在Web編程技術的學習過程中,我們小組為了深入理解相關技術原理,提升實踐能力,開發了一個基于動態Web工程框架的C語言標準化考試系統。現在,就來和大家分享一下我們的項目經歷。 一、實驗目的剖析 這個項目…

QMK鍵盤固件自定義指南 - 打造你的專屬鍵盤體驗

QMK鍵盤固件自定義指南 - 打造你的專屬鍵盤體驗 🚀 前言 在機械鍵盤的世界里,QMK固件讓你的鍵盤不再只是簡單的輸入設備,而是可以按照你的意愿定制的強大工具。本文將深入淺出地介紹如何自定義QMK鍵盤的行為,從基礎概念到高級應…

5.9培訓

文件上傳 先找文件上傳的地方,打開代理鏈接BP,它需要一個xls文件 我們創建一個sqzr.xls bp攔截了之后,我們修改請求,把后綴改成php,發送請求 找到我們的靜態資源所在的位置 訪問http://192.168.1.100:81/static/upload…

【FAQ】HarmonyOS SDK 閉源開放能力 — PDF Kit

1.問題描述: 預覽PDF文件,文檔上所描述的loadDocument接口,可以返回文件的狀態,并無法實現PDF的預覽,是否有能預覽PDF相關接口? 解決方案: 1、執行loadDocument進行加載PDF文件后&#xff0c…

AutoDL實現端口映射與遠程連接AutoDL與Pycharm上傳文件到遠程服務器(李沐老師的環境)

文章目錄 以上配置的作用前提AutoDL實現端口映射遠程連接AutoDLPycharm上傳文件到遠程服務器以上配置的作用 使用AutoDL的實例:因本地沒有足夠強的算力,所以需要使用AutoDL AutoDL端口映射:當在實例上安裝深度學習的環境,但因為實例的linux系統問題,無法圖形化顯示d2l中的文件…

【Linux系列】跨平臺安裝與配置 Vim 文本編輯器

💝💝💝歡迎來到我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 推薦:kwan 的首頁,持續學…

CountDownLatch 并發編程中的同步利器

CountDownLatch 并發編程中的同步利器 文章目錄 CountDownLatch 并發編程中的同步利器一、CountDownLatch 基礎概念1.1 什么是 CountDownLatch?1.2 CountDownLatch 的核心方法1.3 基本使用示例 二、CountDownLatch 實戰應用2.1 應用場景一:并行任務協調2…

Linux 內核鏈表宏的詳細解釋

&#x1f527; Linux 內核鏈表結構概覽 Linux 內核中的鏈表結構定義在頭文件 <linux/list.h> 中。核心結構是&#xff1a; struct list_head {struct list_head *next, *prev; }; 它表示一個雙向循環鏈表的節點。鏈表的所有操作都圍繞這個結構體展開。 &#x1f9e9; …