Python中NumPy的統計運算

在數據分析和科學計算領域,Python憑借其豐富的庫生態系統成為首選工具之一,而NumPy作為Python數值計算的核心庫,憑借其高效的數組操作和強大的統計運算功能,廣泛應用于機器學習、信號處理、統計分析等場景。本文將系統介紹NumPy在統計運算中的核心功能,涵蓋基礎統計量計算、多維數組操作、高級統計方法及實際應用案例,幫助讀者全面掌握NumPy的統計運算能力。

一、NumPy統計運算基礎

NumPy提供了豐富的統計函數,可對數組元素進行快速計算。以下是常用統計函數的分類與示例:

1. 基礎統計量

  • 求和與均值sum()mean()
    示例:arr = np.array([1, 2, 3, 4, 5])
    print(arr.sum()) 輸出 15print(arr.mean()) 輸出 3.0
  • 最大值與最小值max()min()
    示例:print(arr.max()) 輸出 5print(arr.min()) 輸出 1
  • 標準差與方差std()var()
    示例:print(arr.std()) 輸出標準差,print(arr.var()) 輸出方差。

2. 累計運算

  • 累計和與累計積cumsum()cumprod()
    示例:print(arr.cumsum()) 輸出 [1, 3, 6, 10, 15]

3. 索引定位

  • 最大/最小值索引argmax()argmin()
    示例:print(arr.argmax()) 輸出 4(最大值5的索引)。

4. 高級統計量

  • 中位數median()
    示例:print(np.median(arr)) 輸出 3.0
  • 四分位數與極差percentile()ptp()
    示例:print(np.percentile(arr, 75)) 輸出 4.0(75%分位數)。

二、多維數組的統計運算

NumPy支持對多維數組按指定軸(axis)進行統計運算,這是其核心優勢之一。

1. 示例數據

import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

2. 按軸計算

  • 按列計算axis=0
    示例:print(data.mean(axis=0)) 輸出 [4. 5. 6.](每列均值)。
  • 按行計算axis=1
    示例:print(data.sum(axis=1)) 輸出 [ 6 15 24](每行和)。

3. 廣播機制

NumPy的廣播機制允許對不同形狀的數組進行運算。例如:

a = np.array([1, 2, 3])
b = 2
print(a + b)  # 輸出 `[3 4 5]`

三、高級統計方法

1. 協方差與相關系數

  • 協方差矩陣np.cov()
    示例:print(np.cov(data.T)) 輸出變量間的協方差矩陣。
  • 相關系數矩陣np.corrcoef()
    示例:print(np.corrcoef(data.T)) 輸出變量間的相關系數矩陣。

2. 偏度與峰度

需借助scipy.stats模塊:

from scipy.stats import skew, kurtosis
data = np.random.normal(0, 1, 1000)
print(skew(data))  # 偏度
print(kurtosis(data))  # 峰度

3. 離群值檢測

通過四分位距(IQR)檢測離群值:

Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))
print(outliers.sum())  # 輸出離群值數量

4. 幾何平均數與調和平均數

  • 幾何平均數
    geom_mean = np.exp(np.mean(np.log(data[data > 0])))
    
  • 調和平均數
    harm_mean = len(data) / np.sum(1.0 / data[data > 0])
    

四、實際應用案例

1. 數據標準化

將數據轉換為均值為0、標準差為1的分布:

normalized_data = (data - np.mean(data, axis=0)) / np.std(data, axis=0)

2. 累積分布與插值

  • 累積分布
    sorted_data = np.sort(data.flatten())
    cdf = np.arange(1, len(sorted_data)+1) / len(sorted_data)
    
  • 插值
    x = np.array([0, 1, 2, 3])
    y = np.array([0, 1, 4, 9])
    x_new = np.linspace(0, 3, 5)
    y_new = np.interp(x_new, x, y)
    

3. 隨機數生成與統計

生成正態分布隨機數并計算其統計量:

random_data = np.random.normal(0, 1, 1000)
print(random_data.mean(), random_data.std())

五、性能優化技巧

1. 使用向量化操作

避免顯式循環,充分利用NumPy的底層優化。例如:

# 低效
result = []
for i in range(len(data)):result.append(data[i] * 2)# 高效
result = data * 2

2. 利用NumPy的內置函數

NumPy的內置函數通常經過高度優化,例如使用np.sum()替代sum()

3. 內存管理

對于大規模數據,可使用np.memmap()創建內存映射數組,避免內存溢出。

六、總結

NumPy的統計運算功能覆蓋了從基礎統計量到高級數據分析的完整需求,其核心優勢包括:

  • 高效的多維數組操作:支持按軸計算,滿足復雜數據分析需求。
  • 豐富的統計函數:提供從基礎到高級的統計量計算方法。
  • 與科學計算生態的深度集成:與scipypandas等庫無縫協作。

通過掌握NumPy的統計運算功能,開發者能夠顯著提升數據處理與分析的效率,為后續的機器學習、數據可視化等任務奠定堅實基礎。


參考文獻

  • NumPy官方文檔
  • 《Python數據科學手冊》
  • 相關技術博客與開源項目示例

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901319.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901319.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901319.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C語言程序環境和預處理詳解

本章重點&#xff1a; 程序的翻譯環境 程序的執行環境 詳解&#xff1a;C語言程序的編譯鏈接 預定義符號介紹 預處理指令 #define 宏和函數的對比 預處理操作符#和##的介紹 命令定義 預處理指令 #include 預處理指令 #undef 條件編譯 程序的翻譯環境和執行環…

智能工廠調度系統設計方案研究報告

一、系統架構設計 1.1 物理部署架構 設備層&#xff1a;部署大量搭載多傳感器陣列的 AGV 智能循跡車&#xff0c;這些傳感器包括激光雷達、視覺相機、超聲波傳感器等&#xff0c;用于感知周圍環境信息&#xff0c;實現自主導航與避障功能&#xff1b;在每個工序節點處設置 RF…

全新突破 | 更全面 · 更安全 · 更靈活

xFile 高可用存儲網關 2.0 重磅推出&#xff0c;新增多空間隔離功能從根源上防止數據沖突&#xff0c;保障各業務數據的安全性與獨立性。同時支持 NFS、CIFS、FTP 等多種主流文件協議&#xff0c;無需繁瑣的數據拷貝轉換&#xff0c;即可與現有系統無縫對接&#xff0c;降低集成…

C# js 判斷table中tr否存在相同的值

html 中如&#xff1a; 實現&#xff1a;table數據表格中&#xff0c;點擊刪除按鈕時&#xff0c;驗證相同子訂單號條數是否大于1&#xff0c;大于允許刪除。保證數據表格中只有唯一的一條子訂單號數據。 <table style"width: 100%; background-color: #fff;" ce…

操作系統基礎:07 我們的任務

課程回顧與后續規劃 上節課我們探討了操作系統的歷史。了解歷史能讓我們明智&#xff0c;從操作系統的發展歷程中&#xff0c;我們總結出兩個核心的里程碑式圖像&#xff1a;多進程&#xff08;多任務切換&#xff09;圖像和文件操作圖像 。Unix和Windows等系統的成功&#xf…

16.【.NET 8 實戰--孢子記賬--從單體到微服務--轉向微服務】--單體轉微服務--微服務的部署與運維

部署與運維是微服務架構成功實施的關鍵環節。一個良好的部署與運維體系能夠保障微服務的高可用性、可擴展性和可靠性。在這一階段&#xff0c;重點包括微服務的容器化與編排、API 網關的實現以及日志與監控體系的建設。 一、容器化與編排 1.1 使用 Docker 容器化微服務 容器…

MCP基礎學習計劃詳細總結

MCP基礎學習計劃詳細總結 1.MCP概述與基礎 ? MCP&#xff08;Model Context Protocol&#xff09;&#xff1a;由Anthropic公司于2024年11月推出&#xff0c;旨在實現大型語言模型&#xff08;LLM&#xff09;與外部數據源和工具的無縫集成。 ? 核心功能&#xff1a; ? 資…

NoSQL入門指南:Redis與MongoDB的Java實戰

一、為什么需要NoSQL&#xff1f; 在傳統SQL數據庫中&#xff0c;數據必須嚴格遵循預定義的表結構&#xff0c;就像把所有物品整齊擺放在固定尺寸的貨架上。而NoSQL&#xff08;Not Only SQL&#xff09;數據庫則像一個靈活的儲物間&#xff0c;允許存儲各種類型的數據&#x…

Java 列表初始化全解析:7種方式詳解與最佳實踐

文章目錄 **引言****1. 傳統逐個添加元素****特點****注意事項** **2. Arrays.asList() 構造函數****特點****注意事項** **3. 雙括號初始化&#xff08;匿名內部類&#xff09;****特點****注意事項** **4. Java 9 List.of()&#xff08;不可變列表&#xff09;****特點****注…

最大公約數和最小倍數 java

在Java中&#xff0c;計算兩個數的最大公約數&#xff08;Greatest Common Divisor, GCD&#xff09;和最小公倍數&#xff08;Least Common Multiple, LCM&#xff09;是常見的編程問題。以下是具體的實現方法和代碼示例。 --- ### **1. 最大公約數 (GCD)** 最大公約數是指…

數據庫——視圖

一、視圖的定義與核心特性 1.基本概念 (1)視圖(View)是基于一個或多個底層表(或視圖)的虛擬表,其本身不存儲數據,僅保存查詢語句的定義。當用戶查詢視圖時,數據庫會動態執行其封裝的SQL語句,生成結果集。 (2)本質:視圖是底層表的邏輯映射,結構與表相同(由行和列…

【Proteus仿真】【32單片機-A008】MPX4115壓力檢測系統設計

目錄 一、主要功能 二、使用步驟 三、硬件資源 四、軟件設計 五、實驗現象 聯系作者 一、主要功能 1、壓力檢測與LCD顯示 2、超過上限&#xff0c;降壓模塊啟動 3、壓力檢測范圍15kpa-115kpa 4、壓力閾值設置 5、超限報警 二、使用步驟 系統運行后&#xff0c;LCD160…

java和c#的相似及區別基礎對比

用過十幾種語言&#xff0c;但是java和c#是最為重要的兩門。c#發明人曾主導開發了pascal和delphi&#xff0c;加入微軟后&#xff0c;參考了c和java完成了c#和net。大家用過java或c#任意一種的&#xff0c;可以通過本篇文章快速掌握另外一門語言。 基礎語法 變量聲明&#xf…

OpenBayes 一周速覽|1分鐘生成完整音樂,DiffRhythm人聲伴奏一鍵搞定; Stable Virtual Camera重塑3D視頻創作

公共資源速遞 5 個數據集&#xff1a; * 302 例罕見病病例數據集 * DRfold2 RNA 結構測試數據集 * NaturalReasoning 自然推理數據集 * VenusMutHub 蛋白質突變小樣本數據集 * Bird Vs Drone 鳥類與無人機圖像分類數據集 2 個模型&#xff1a; * Qwen2.5-0mni * Llama…

PostgreSQL 實例運行狀態全面檢查

PostgreSQL 實例運行狀態全面檢查 PostgreSQL 實例的健康檢查是數據庫運維的核心工作&#xff0c;以下是系統化的狀態檢查方法和關鍵指標解讀。 一 基礎健康檢查 1.1 實例可用性檢查 # 快速連接測試 pg_isready -h localhost -p 5432 -U postgres -d postgres# 返回狀態說明…

利用 Python 進行股票數據可視化分析

在金融市場中&#xff0c;股票數據的可視化分析對于投資者和分析師來說至關重要。通過可視化&#xff0c;我們可以更直觀地觀察股票價格的走勢、交易量的變化以及不同股票之間的相關性等。 Python 作為一種功能強大的編程語言&#xff0c;擁有豐富的數據處理和可視化庫&#xf…

時序約束高級進階使用詳解二:Set_Min_Delay

目錄 一、前言 二、設計示例 2.1 示例代碼 2.2 時序約束 三、Set_min_delay 3.1 start points 3.1.1 對象有效性 3.1.2 邊沿有效性 3.1.3 start point非有效起點 3.2 Through points 3.2.1 約束對象為Cells 3.2.2 約束對象為Cell pin/Net 3.3 to points 3.4 rise…

2025-4-12-C++ 學習 XOR 三元組 異或 急轉彎問題

C的學習必須更加精進一些&#xff0c;對于好多的函數和庫的了解必須深入一些。 文章目錄 3513. 不同 XOR 三元組的數目 I題解代碼 3514. 不同 XOR 三元組的數目 II題解代碼 晚上&#xff0c;10點半&#xff0c;參加了LC的競賽&#xff0c;ok了一道&#xff0c;哈哈~ ??第二道…

圖像形態學操作對比(Opencv)

形態學基于圖像的形狀進行操作&#xff0c;用于處理二值化圖像&#xff0c;主要包括腐蝕和膨脹兩種基本操作。這些操作通常用于去除噪聲、分隔或連接相鄰的元素以及尋找圖像中顯著的最大點和最小點。 1. 形態學操作 import cv2 import numpy as np import matplotlib.pyplot …

sql 向Java的映射

優化建議&#xff0c;可以在SQL中控制它的類型 在 MyBatis 中&#xff0c;如果返回值類型設置為 java.util.Map&#xff0c;默認情況下可以返回 多行多列的數據