CUDA計時函數:精確測量GPU代碼執行時間

在GPU編程中,精確測量代碼執行時間是性能優化的關鍵步驟。CUDA提供了專門的計時工具來幫助開發者準確獲取核函數(Kernel)、內存拷貝等操作的耗時。本文將詳細介紹CUDA計時函數的使用方法,并通過實例代碼演示如何高效測量GPU代碼的執行時間。


為什么需要CUDA計時函數?

在CPU和GPU異構計算中,CPU和GPU的工作是異步的。若使用傳統的CPU計時方法(如clock()std::chrono),可能無法準確測量GPU代碼的執行時間。CUDA的事件(Event)機制能夠直接在GPU硬件層面記錄時間戳,避免了CPU-GPU同步帶來的誤差。


一、CUDA事件(Event)計時原理

CUDA事件是基于GPU內部時鐘的輕量級計時工具,原理如下:

  1. 事件記錄:在代碼中插入事件標記,記錄GPU執行到該點的時間戳。

  2. 時間差計算:通過兩個事件的時間戳差值計算代碼段的執行時間。


二、CUDA計時函數的使用步驟

1. 創建事件對象

使用cudaEventCreate創建事件對象:

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);

2. 記錄事件時間戳

在需要計時的代碼段前后插入事件記錄:

cudaEventRecord(start);  // 記錄起始時間戳
// 執行需要計時的代碼(例如核函數)
myKernel<<<grid, block>>>(...);
cudaEventRecord(stop);   // 記錄結束時間戳

3. 同步事件

由于GPU執行是異步的,需等待事件完成:

cudaEventSynchronize(stop);  // 等待stop事件完成

4. 計算時間差(毫秒)

使用cudaEventElapsedTime計算時間差:

float milliseconds = 0;
cudaEventElapsedTime(&milliseconds, start, stop);
printf("執行時間: %.3f ms\n", milliseconds);

5. 銷毀事件對象

釋放事件資源:

cudaEventDestroy(start);
cudaEventDestroy(stop);


三、完整示例代碼

以下代碼演示了如何測量一個核函數的執行時間:

#include <stdio.h>
#include <cuda_runtime.h>// 簡單的核函數:向量加法
__global__ void vectorAdd(int *a, int *b, int *c, int n) {int i = blockIdx.x * blockDim.x + threadIdx.x;if (i < n) {c[i] = a[i] + b[i];}
}int main() {const int N = 1 << 20;  // 1M元素int *a, *b, *c;int *d_a, *d_b, *d_c;// 分配主機內存a = (int*)malloc(N * sizeof(int));b = (int*)malloc(N * sizeof(int));c = (int*)malloc(N * sizeof(int));// 分配設備內存cudaMalloc(&d_a, N * sizeof(int));cudaMalloc(&d_b, N * sizeof(int));cudaMalloc(&d_c, N * sizeof(int));// 初始化數據for (int i = 0; i < N; i++) {a[i] = i;b[i] = i * 2;}// 拷貝數據到設備cudaMemcpy(d_a, a, N * sizeof(int), cudaMemcpyHostToDevice);cudaMemcpy(d_b, b, N * sizeof(int), cudaMemcpyHostToDevice);// 創建CUDA事件cudaEvent_t start, stop;cudaEventCreate(&start);cudaEventCreate(&stop);// 定義線程塊和網格大小int blockSize = 256;int gridSize = (N + blockSize - 1) / blockSize;// 記錄起始事件cudaEventRecord(start);// 啟動核函數vectorAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, N);// 記錄結束事件cudaEventRecord(stop);cudaEventSynchronize(stop);  // 等待核函數執行完成// 計算時間差float milliseconds = 0;cudaEventElapsedTime(&milliseconds, start, stop);printf("核函數執行時間: %.3f ms\n", milliseconds);// 拷貝結果回主機cudaMemcpy(c, d_c, N * sizeof(int), cudaMemcpyDeviceToHost);// 驗證結果(可選)bool success = true;for (int i = 0; i < N; i++) {if (c[i] != a[i] + b[i]) {success = false;break;}}if (success) {printf("結果驗證成功!\n");} else {printf("結果驗證失敗!\n");}// 釋放資源cudaEventDestroy(start);cudaEventDestroy(stop);cudaFree(d_a);cudaFree(d_b);cudaFree(d_c);free(a);free(b);free(c);return 0;
}

四、注意事項

  1. 同步的必要性

    如果未調用cudaEventSynchronize,時間差的計算可能不準確。
    核函數啟動后,CPU會繼續執行后續代碼,必須同步等待GPU完成。
  2. 事件的開銷

    CUDA事件的創建和銷毀有一定開銷,避免在頻繁調用的代碼段中使用。
  3. 多流(Stream)環境

    若使用多流并行,需為每個流單獨創建事件,并通過cudaEventRecord指定流。
  4. 時間單位

    cudaEventElapsedTime返回的時間單位為毫秒(ms),分辨率約為0.5微秒。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71667.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71667.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71667.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go語言集成DeepSeek API和GoFly框架文本編輯器實現流式輸出和對話(GoFly快速開發框架)

說明 本文是GoFly快速開發框架集成Go語言調用 DeepSeek API 插件&#xff0c;實現流式輸出和對話功能。為了方便實現更多業務功能我們在Go服務端調用AI即DeepSeek接口&#xff0c;處理好業務后再用Gin框架實現流失流式輸出到前端&#xff0c;前端使用fetch請求接收到流式的mar…

SAP服務器進程預警通知

在財務月結&#xff0c;HR薪資核算等系統用戶集中使用高峰時期。通過判斷判斷當前系統可用的并行對話框進程數&#xff0c;用戶使用過多給出提示&#xff0c;服務器進程預警通知。 1. 根據配置的進程最大可使用率80%&#xff0c;根據進程數判斷&#xff1a;當進程可用數少于20%…

【Java代碼審計 | 第四篇】SQL 注入防范

文章目錄 Java SQL 注入防御方法類型轉換預編譯查詢&#xff08;PreparedStatement&#xff09;使用 ORM 框架&#xff08;如 MyBatis、Hibernate&#xff09;白名單限制ORDER BY 語句LIKE 語句 限制數據庫權限過濾和轉義特殊字符監控與日志審計使用 Web 應用防火墻&#xff08…

軟考中級-數據庫-3.3 數據結構-樹

定義:樹是n(n>=0)個結點的有限集合。當n=0時稱為空樹。在任一非空樹中,有且僅有一個稱為根的結點:其余結點可分為m(m>=0)個互不相交的有限集T1,T2,T3...,Tm…,其中每個集合又都是一棵樹,并且稱為根結點的子樹。 樹的相關概念 1、雙親、孩子和兄弟: 2、結點的度:一個結…

選擇排序算法的SIMD優化

一、優化原理 將查找數組最小值索引的SIMD優化的函數嵌入選擇排序主循環,優化最耗時的最小值查找環節,同時保留選擇排序的交換邏輯。 二、關鍵改造步驟 1)最小值查找模塊化 復用SIMD優化的 find_min_index_simd函數。 2)動態子數組處理 每次循環處理 arr[i..n-1] 子數…

考網絡安全工程師證要什么條件才能考?

在當今數字化時代&#xff0c;網絡安全問題日益凸顯&#xff0c;網絡安全工程師成為了一個備受矚目的職業。許多有志于投身這一行業的學子或職場人士&#xff0c;都希望通過考取網絡安全工程師證書來提升自己的專業素養和競爭力。那么&#xff0c;考網絡安全工程師證需要具備哪…

uniapp項目運行失敗Error: getaddrinfo *.bspapp.com 文件查找失敗uview-ui及推薦MarkDown軟件 Typora

一、uniapp項目運行失敗Error: getaddrinfo *.bspapp.com 文件查找失敗uview-ui 在運行一個uniapp項目時&#xff0c;出現報錯 文件查找失敗&#xff1a;uview-ui&#xff0c;Error: getaddrinfo ENOTFOUND 960c0a.bspapp.com。hostname異常&#xff0c;報錯的詳細信息如下&…

使用阿里云 API 進行聲音身份識別的方案

使用阿里云 API 進行聲音身份識別的方案 阿里云提供 智能語音交互&#xff08;智能語音識別 ASR&#xff09; 和 聲紋識別&#xff08;說話人識別&#xff09; 服務&#xff0c;你可以利用 阿里云智能語音 API 進行 說話人識別&#xff0c;實現客戶身份驗證。 方案概述 準備工…

【Pandas】pandas Series unstack

Pandas2.2 Series Computations descriptive stats 方法描述Series.argsort([axis, kind, order, stable])用于返回 Series 中元素排序后的索引位置的方法Series.argmin([axis, skipna])用于返回 Series 中最小值索引位置的方法Series.argmax([axis, skipna])用于返回 Series…

大模型發展歷程

大模型的發展歷程 大語言模型的發展歷程一、語言模型是個啥&#xff1f;二、語言模型的 “進化史”&#xff08;一&#xff09;統計語言模型&#xff08;SLM&#xff09;&#xff08;二&#xff09;神經語言模型&#xff08;NLM&#xff09;&#xff08;三&#xff09;預訓練語…

springboot項目使用中創InforSuiteAS替換tomcat

springboot項目使用中創InforSuiteAS替換tomcat 學習地址一、部署InforSuiteAS1、部署2、運行 二、springboot項目打包成war包 特殊處理1、pom文件處理1、排除內嵌的tomcat包2、新增tomcat、javax.servlet-api3、打包格式設置為war4、打包后的項目名稱5、啟動類修改1、原來的不…

Seata

Seata是一款開源的分布式事務解決方案&#xff0c;由阿里巴巴發起并維護&#xff0c;旨在幫助應用程序管理和協調分布式事務。以下是對Seata的詳細介紹&#xff1a; 一、概述 Seata致力于提供高性能和簡單易用的分布式事務服務&#xff0c;它為用戶提供了AT、TCC、SAGA和XA等…

Pytest自動化框架

Pytest簡單介紹 下載pytest pip install pytest 第一章&#xff1a;Pytest console命令 默認需要test開頭的py模塊,test_開頭的方法 1.pytest 執行pytest命令會自動匹配到test開頭或者結尾的文件 將其作為測試用例文件執行&#xff0c;在測試用例文件中自動匹配到test開…

【spring】注解版

1.管理bean 之前我們要想管理bean都是在xml文件中將想要添加的bean手動添加進ioc容器中&#xff0c;這樣太過麻煩了&#xff0c;在 Java 開發里&#xff0c;針對一些較為繁瑣的操作&#xff0c;通常會有相應的簡化方式&#xff0c;這個也不例外&#xff0c;就是spring提供的注…

RV1126+FFMPEG多路碼流監控項目

一.項目介紹&#xff1a; 本項目采用的是易百納RV1126開發板和CMOS攝像頭&#xff0c;使用的推流框架是FFMPEG開源項目。這個項目的工作流程如下(如上圖)&#xff1a;通過采集攝像頭的VI模塊&#xff0c;再通過硬件編碼VENC模塊進行H264/H265的編碼壓縮&#xff0c;并把壓縮后的…

13.IIC-EEPROM(AT24C02)

1.為什么需要EEPROM? 在單片機開發中&#xff0c;斷電數據保存是常見的需求。例如&#xff0c;智能家居設備的用戶設置、電子秤的校準參數等都需要在斷電后仍能保留。AT24C02作為一款IIC接口的EEPROM芯片&#xff0c;具備以下優勢&#xff1a; 非易失性存儲&#xff1a;斷電后…

ubuntu22.04安裝P104-100一些經驗(非教程)

一、版本&#xff1a; 系統&#xff1a;ubuntu-22.04.5-desktop-amd64.iso Nvidia 驅動&#xff1a;NVIDIA-Linux-x86_64-570.124.04.run。官網下載即可 二、經驗 1、通用教程? 直接關鍵詞搜“ubuntu p104”會有一些教程&#xff0c;比如禁用nouveau等 安裝參考&#xff1a…

TCP7680端口是什么服務

WAF上看到有好多tcp7680端口的訪問信息 于是上網搜索了一下&#xff0c;確認TCP7680端口是Windows系統更新“傳遞優化”功能的服務端口&#xff0c;個人理解應該是Windows利用這個TCP7680端口&#xff0c;直接從內網已經具備更新包的主機上共享下載該升級包&#xff0c;無需從微…

OSI七大模型 --- 發送郵件

我想通過電子郵件發送一張照片給我的朋友。從我開始寫郵件到發送成功&#xff0c;按照這個順序講一下我都經歷了OSI模型的哪一層&#xff0c;對應的層使用了什么樣的協議&#xff1f; 完整流程示例&#xff08;補充物理層細節&#xff09; 假設你通過Wi-Fi發送郵件&#xff1a…

LINUX網絡基礎 [一] - 初識網絡,理解網絡協議

目錄 前言 一. 計算機網絡背景 1.1 發展歷程 1.1.1 獨立模式 1.1.2 網絡互聯 1.1.3 局域網LAN 1.1.4 廣域網WAN 1.2 總結 二. "協議" 2.1 什么是協議 2.2 網絡協議的理解 2.3 網絡協議的分層結構 三. OSI七層模型&#xff08;理論標準&#xff09; …