AMD 5XXX 系列顯卡的 peak bandwidth計算

AMD 5XXX 系列顯卡的 peak bandwidth計算

news/2025/7/19 0:50:16/文章來源:https://blog.csdn.net/szu030606/article/details/22991955

在ATI Stream Computing Programming Guide中，例舉了AMD 5系列顯卡的參數信息。

我比較關注其中Peak bandwidths的計算，以便在opencl程序測試bandwidth利用率。

下面，我以5870為例，探討一下如何計算得到這些結果：

??? L1 cache的 peak bandwidth(L1<=>ALU) = compute units* Wavefront Size/compute Unit *Engine clock = cu數量*每個cu的wave大小*顯卡系統時鐘頻率

= 20 * 64 * 0.85 = 1088 GB/s

注：在AMD GPU中，每個wave包含64個thread.

L2 cache peak bandwidth(L1<=>L2) = Number of Channels * wavefrontSize * Engine clock = 內存通道數量*wave大小*顯卡系統時鐘頻率

= 8 * 64 * 0.85 = 435.2 GB/s

注：在AMD 8XXX顯卡中，每個mc通道對應一個64K的L2 cache。

Global memeory peak rate(L2<=>Memory) = Number of Channels * memory pin rate * bits per chanel/8 = 內存通道數量*memory pin rate*每個channel位寬/8

= 8 * 4.800 * 32/8 = 153.6 GB/s

注：在cypress中，用的GDDR5，mclk是1200MHZ, GDDR5的date rate 是4，所以memory pin rate = 1200 * 4 = 4800Mb/pin

除以8是轉化為字節。

?

Const cache read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每個pe 的讀帶寬*pe數量*系統時鐘頻率

= 16 * 320 * 0.85 = 4352 GB/s

注：5870中的hardware參數

另外需要注意的對于consant buffer,只有直接地址訪問時候，才能達到4352GB/s的峰值,如果通過索引方式，參考上表，用4或這0.6代替16.

LDS Read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每個pe 的讀帶寬*pe數量*系統時鐘頻率

= 8 * 320 * 0.85 = 2176 Gb/s

注：LDS(對應cl中local memory)帶寬計算方式和const buffer一樣。

GPR read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每個pe 的讀帶寬*pe數量*系統時鐘頻率

= 48 * 320 * 0.85 = 13056 GB/s

注：GPR(通用寄存器，對應cl中worktime 使用的private變量，對于kernel中局部變量，shade compiler一般都為其分配GPR）帶寬計算方式和const buffer一樣

下圖為58xx的性能參數：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/448816.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/448816.shtml
英文地址，請注明出處：http://en.pswp.cn/news/448816.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Docker ： Dockerfile 定制鏡像

Docker ： Dockerfile 定制鏡像

使用 Dockerfile 定制鏡像前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。鏡像的定制實際上就是定制每一層所添加的配置、文件。如果我們可以把每一層修改、安裝、構建、操作的命令都寫…

閱讀更多...

動態規劃最長上升子序列

動態規劃最長上升子序列

題意：給出一個序列，求它的最長上升子序列的長度題目鏈接：https://ac.nowcoder.com/acm/problem/26156 輸入:n代表長度，然后是一個字符串分析：用dp[i]表示長度為i1的上升子序列末尾元素的最小值（一開始初始…

閱讀更多...

解說redis中如何實現高可用

解說redis中如何實現高可用

redis中為了實現高可用（High Availability，簡稱HA），采用了如下兩個方式：主從復制數據。采用哨兵監控數據節點的運行情況，一旦主節點出現問題由從節點頂上繼續進行服務。主從復制redis中主從節點復制數據有全…

閱讀更多...

OpenCL memory object 之 Global memory (1)

OpenCL memory object 之 Global memory (1)

這篇日志是學習AMD OpenCL文檔時候的總結。 OpenCL用memory object在host和device之間傳輸數據，memory object由runtime（運行庫，driver的一部分）來管理。 OpenCL中的內存對象包括buffer以及image，buffer是一維數據元素…

閱讀更多...

Docker： dockerfile 使用介紹

Docker： dockerfile 使用介紹

Docker簡介前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。 Docker項目提供了構建在Linux內核功能之上，協同在一起的的高級工具。其目標是幫助開發和運維人員更容易地跨系統跨…

閱讀更多...

【Hello CSS】第六章-文檔流與排版

【Hello CSS】第六章-文檔流與排版

作者：陳大魚頭github： KRISACHAN正常流什么是“正常流”？ 其實就是我們日常所說的“文檔流”。在W3C官方文檔里對應的是“normal flow”。正常流的盒子屬于格式化上下文(FC)，在CSS2.2中可以是表格、塊或內聯。在CSS3中引入了f…

閱讀更多...

創建型模式---工廠模式

創建型模式---工廠模式

工廠模式在工廠設計模式中，客戶端可以請求一個對象，而無需要知道這個對象來自哪里，也就是使用哪個類來生成這個對象。工廠背后的思想是簡化對象的創建。與客戶端自己基于類實例化直接創建對象相比，基于一個中心化函數來實現&…

閱讀更多...

OpenCL memory object 之 Global memory (2)

OpenCL memory object 之 Global memory (2)

當我們用clCreateBuffer, clCreateImage創建OpenCL memory object時候，我們需要輸入一個flag參數，這個參數決定memory object的位置。 cl_mem clCreateBuffer (cl_context context, cl_mem_flags flags, size_t size, void *host_ptr, cl_int *errc…

閱讀更多...

數據結構進階篇-跳表

數據結構進階篇-跳表

大家想必都知道，數組和鏈表的搜索操作的時間復雜度都是O(N)的，在數據量大的時候是非常耗時的。對于數組來說，我們可以先排序，然后使用二分搜索，就能夠將時間復雜度降低到O(logN)，但是有序數組的插入是一個O…

閱讀更多...

查看本機ssh公鑰，生成公鑰

查看本機ssh公鑰，生成公鑰

前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。查看ssh公鑰方法： 1.通過命令窗口：打開你的git bash 窗口，進入.ssh目錄：cd ~/.ssh&…

閱讀更多...

如何實現動態水球圖 --》 echars結合echarts-liquidfill實現

如何實現動態水球圖 --》 echars結合echarts-liquidfill實現

1）項目中作為項目依賴，安裝到項目當中(注意必須要結合echars) npm install echarts vue-echarts --save npm install echarts-liquidfill --save 2）在需要使用水晶球的組件里引入liquidFill.js import echarts-liquidfill/src/liquidFill.js;…

閱讀更多...

OpenCL memory object 之選擇傳輸path

OpenCL memory object 之選擇傳輸path

對應用程序來說，選擇合適的memory object傳輸path可以有效提高程序性能。下面先看一寫buffer bandwidth的例子： 1. clEnqueueWriteBuffer()以及clEnqueueReadBuffer() 如果應用程序已經通過malloc 或者mmap分配內存，CL_MEM_USE_HOST_PTR是個…

閱讀更多...

struts入門超詳細

struts入門超詳細

https://blog.csdn.net/yerenyuan_pku/article/details/52652262轉載于:https://www.cnblogs.com/liuna369-4369/p/10870873.html

閱讀更多...

RabbitMQ 從入門到精通（一）

RabbitMQ 從入門到精通（一）

目錄 1. 初識RabbitMQ2. AMQP3.RabbitMQ的極速入門4. Exchange(交換機)詳解4.1 Direct Exchange4.2 Topic Exchange4.3 Fanout Exchange5. Message 消息1. 初識RabbitMQ RabbitMQ 是一個開源的消息代理和隊列服務器，用來通過普通協議在完全不同的應用之間共享數據&a…

閱讀更多...

接收并解析消息體傳參、解析 json 參數

接收并解析消息體傳參、解析 json 參數

前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。 1.場景：postman 發送了一個 post 請求，如下： 2. 解析方式為用一個 vo 對象來接收 json。把 json 中的…

閱讀更多...

OpenCL memory object 之傳輸優化

OpenCL memory object 之傳輸優化

首先我們了解一些優化時候的術語及其定義： 1、deferred allocation（延遲分配）， 在第一次使用memory object傳輸數據時，runtime才對memory object真正分配空間。這樣減少了資源浪費，但第一次使用時要慢一些…

閱讀更多...

VBS使文本框的光標位于所有字符后

VBS使文本框的光標位于所有字符后

有時候在文本框里會顯示一部分提示信息，用戶在這些提示信息后面輸入文本，但是將焦點設置于文本框后，光標總是在文本框的最前面， 用戶輸入的時候需要按"-->"鍵將光標移到最后才能輸入，這樣的操作很不爽。我…

閱讀更多...

記錄ionic 最小化應用時所遇的問題

記錄ionic 最小化應用時所遇的問題

ionic3與ionic4最小化插件安裝不一樣： ionic3安裝方法： $ ionic cordova plugin add cordova-plugin-appminimize $ npm install --save ionic-native/app-minimize4 并在app.module.ts中注入依賴： import { AppMinimize } from ionic-nativ…

閱讀更多...

解決 --- Docker 啟動時報錯：iptables:No chain/target/match by the name

解決 --- Docker 啟動時報錯：iptables:No chain/target/match by the name

問題：jenkins的docker containner啟動失敗，報錯：failed programming external connectivity … iptables: No chain/target/match by that name” docker 服務啟動的時候，docker服務會向iptables注冊一個鏈，以便讓dock…

閱讀更多...

AMD OpenCL 大學課程

AMD OpenCL 大學課程

AMD OpenCL大學課程是非常好的入門級OpenCL教程，通過看教程中的PPT，我們能夠很快的了解OpenCL機制以及編程方法。下載地址：http://developer.amd.com/zones/OpenCLZone/universities/Pages/default.aspx 教程中的英文很簡單，我相信…

閱讀更多...

最新文章