NPU、CPU、GPU算力及算力計算方式

NVIDIA在9月20日發布的NVIDIA DRIVE Thor 新一代集中式車載計算平臺,可在單個安全、可靠的系統上運行高級駕駛員輔助應用和車載信息娛樂應用。提供 2000 萬億次浮點運算性能(2000 萬億次8位浮點運算)。NVIDIA當代產品是Orin,算力是256 TOPS。再后面是已發布的Altan,算力是1000TFLOPS,這次的Thor算力是2000 TOPS強大的著實讓人震驚(但是芯片2025才出來,是時間好像有些遠的PPT產品)。

產生一個疑問,這個算力是什么算力?如何計算/標定?

先看三個名詞解釋:

TFLOPS(teraFLOPS)等于每秒一萬億(=10^12)次的浮點運算。FLOPS(Floating-point operations per second的縮寫),即每秒浮點運算次數。
TOPS(Tera Operations Per Second的縮寫),1TOPS代表處理器每秒鐘可進行一萬億次(10^12)操作。
DMIPS:Dhrystone Million Instructions executed Per Second,每秒執行百萬條指令,用來計算同一秒內系統的處理能力,即每秒執行了多少百萬條指令。

鑒于NVIDIA的Thor還是個PPT,還沒有確切產品資料情況下,我們先看下現有芯片的此種算力。特斯拉FSD(自動駕駛的芯片/區別于智能座艙SOC)。

===============================================

NPU算力

NPU算力。TOPS僅指處理器每秒萬億次操作,需要結合具體數據類型精度才可以于FLOPS轉換。8位精度下的MAC(乘積累加運算,MAC/ Multiply Accumulate)數量在FP16(半浮點數/16位浮點數)精度下等于減少了一半。 PS:NVIDIA、Intel和Arm攜手合作,共同撰寫FP8 Formats for Deep Learning白皮書。目前業界已由32位元降至16位元,如今甚至已轉向8位元(FP8精度: 8 位元浮點運算規格),這也是NVIDIA使用FP8來表征算力的原因。NVIDIA上面Thor 2000TOPS也說的是這個東東。

在NPU中,芯片都用MAC陣列(乘積累加運算,MAC/ Multiply Accumulate)作為NPU給神經網絡加速,許多運算(如卷積運算、點積運算、矩陣運算、數字濾波器運算、乃至多項式的求值運算)都可以分解為數個MAC指令,因此可以提高上述運算的效率。MAC矩陣是AI芯片的核心,是很成熟的架構。英偉達也在示例中使用3維的立方體計算單元完成矩陣乘加運算。TOPS是MAC在1秒內操作的數,計算公式為:

TOPS = MAC矩陣行 * MAC矩陣列 * 2 * 主頻;

PS:公式中的 2 可理解為一個MACC(乘加運算)為一次乘法和一次加法為2次運算操作。下面以特斯拉自動駕駛FSD芯片為例。

特斯拉資料中,該芯片的目標是自主4級和5級。FSD芯片采用三星(德克薩斯州奧斯汀的工廠)的14納米工藝技術制造,集成了3個四核Cortex-A72集群,共有12個CPU,工作頻率為2.2GHz,1個(ARM的)Mali G71 MP12 GPU,2個NPU工作頻率為2GHz,還有其他各種硬件加速器。FSD最多支持128位LPDDR4-4266內存。

上圖右側第三行清楚的描述到:96*96 MACs(單核)(36.8 TOPS/NNA),我們根據最上面計算公式:

TOPS = MAC矩陣行 * MAC矩陣列 * 2 * 主頻 = 96 * 96 * 2 * 2G = 36.864 TOPS(單核)

上面結果和如上圖片中算力數字匹配,是NPU單核算力。特斯拉FSD(Full Self-Driving) IC 中有2個NPU:每個周期,從SRAM讀取256byte字節的激活數據和另外128byte的權重數據到MAC陣列中。每個NPU擁有96x96 MAC,另外在精度方面,乘法為8x8bit,加法為32bit,兩種數據類型的選擇很大程度上取決于他們降功耗的努力(例如32bitFP加法器的功耗大約是32bit整數加法器的9倍)。如上圖,在2GHz的工作頻率下,每個NPU的算力為36.86TOPS,FSD芯片峰值算力為73.7TOPS(兩個單核NPU算力的累加)。

=====================================================

CPU的算力(ARM內核)

移遠通信推出SA8155P平臺的SIP模塊AG855G,移遠官網介紹中描述“AG855G的 AI 綜合算力能夠達到 8 TOPS”。那CPU算力呢?

高通官網及產品摘要中沒有找到對其產品CPU算力的直接數字描述,但是在移遠通信描述SA8155P “八核 64 位處理器,1+3+4三叢集架構,算力高達100K DMIPS”(有其他新聞媒體描述其算力為 95 KDMIPS)。加之之前找到的SA8155P 數據如下

高通2019年發布的智能座艙芯片SA8155P,7nm工藝。CPU架構是Kryo 435(高通自己的命名)8個64位核心,3個叢集(Gold代表大核心,Silver代表小核心)

第1叢集:1×Kryo 435 Gold@2.419GHz

第2叢集:3×Kryo 435 Gold@2.131GHz

第3叢集:4×Kryo 435 Silver@1.785GHz

PS:前兩個叢集是基于ARM Cortex-A76架構定制的,第三個叢集是Cortex-A55核心定制。

Graphics: Adreno 640 700MHz

Memory:4x16,2092.8MHz,LPDDR4X with ECC

NPU:NPU130 with ECC 908 MHz

Compute DSP:Q6 V66G (4 threads/2 clusters, 1024KB L2, 4x HVX) with ECC 1.4592 GHz

……

算力數據描述:

GPU計算性能:1.1 TFLOPS

AI(NPU)算力:8 TOPS(每秒運算8萬億次)

CPU算力:100K DMIPS (也有說95K DMIPS的)

這個CPU算力是怎么來的,如下正題:CPU算力計算方式描述(DMIPS:主要測整數計算能力)

以ARM核為主查詢,ARM官網中描述,在“The Cortex-M3 RTL is delivered to licensees together with an "example" system testbench for simulation of a simple Cortex-M3 system, and a number of test programs including a Dhrystone test called "dhry". ”描述了DMIPS/MHz的計算方式:

DMIPS/MHz = 10^6 / (1757 * Number of processor clock cycles per Dhrystone loop)

ARM官網中有Cortex-M3和M4的數據(如下截圖)

ARM官網網頁資料截圖

我們可以計算Cortex-M3在Wait-states 0中的DMIPS/MHz是:

DMIPS/MHz = 10^6 / (1757 * 460.2)= 1.2367 ≈ 1.24 DMIPS/MHz

上面計算結果和圖片數據對應。在ARM官網未查到有Cortex-A76的DMIPS/MHz數值描述,但查詢到在發布Cortex-A76時,ARM首席架構師Filippo強調Cortex-A76架構較上一代(A75)性能至少提升35%,在一些數學運行任務上,新架構處理器可以有 50%—70% 的提升。

網上資料基本都是到Cortex-A75就完了,查詢到如下架構的DMIPS/MHz如下:

Arm Cortex-A75 5.2 DMIPS/MHz

Arm Cortex-A73 4.8 DMIPS/MHz

Arm Cortex-A72 4.7 DMIPS/MHz

Arm Cortex-A57 4.1 DMIPS/MHz

Arm Cortex-A55 2.7 DMIPS/MHz

Arm Cortex-A53 2.3 DMIPS/MHz

雖然高通官網及產品摘要中沒有找到對其產品CPU算力的直接數字描述,但是結合如上各網絡資料,我們視圖計算下高通這個SA8155P的真實CPU算力。

SA8155P的CPU算力計算如下(按照A75性能提升50%來計算,即 5.2 * 1.5 = 7.8 DMIPS/MHz )

SA8155P算力 = 2.419GHz * 1核 * 7.8 DMIPS/MHz + 2.131GHz * 3核 * 7.8 DMIPS/MHz + 1.785GHz * 4核 * 2.7 DMIPS/MHz = 18868.2 + 49865.4 + 19278 = 88011.6 DMIPS ≈ 88 KDMIPS

此數值和移遠通信公布的100 KDMIPS算力有約12%的誤差,但這其實是用ARM的方法計算了下三星的處理器。三星將ARM Cortex-A76內核優化后叫Kryo內核,還有硬件加速器等,猜想是三星對A76的性能優化已超50%性能提升,已到達ARM架構師Filippo(上面說的)所描述的50%-70%性能提升的中位數。另外,存儲器讀寫速度、硬件加速引擎等也都可能直接影響CPU算力表現。

當然,也有可能是如上某些數據、信息或計算還不確切。大家有資料或深入研究的也請指出。

=================================================

GPU算力

…………..后面再寫了,下面把NVIDIA的Thor發布的芯片構成信息整理:

在自動駕駛領域,提高駕駛安全性,傳感器在數量和分辨率上都面臨同步增長。同時也引入了更復雜的AI模型(NVIDIA大致每2年的產品都會有一個質的提升)。安全性是機器人開發的首要準則,要求傳感器和算法具備多樣性和冗余性。這些都需要更高的數據處理能力。

NVIDIA為實現這個應用了Grace、Hopper和Ada Lovelace。

1. Hopper有令人驚嘆的Transformer引擎以及Vision Transformer的快速變革。

2. 在Ada中多實例GPU的發明有助于車載計算資源的集中化,同時也降低了成本。

3. Grace是NVIDIA數據中心處理器。通常所有的并行處理算法都是由GPU卸載和加速的,因此其余的工作負載往往收到單線程的限制,而Grace正好擁有出色的單線程性能。

Thor內部Arm Poseidon AE內核(汽車增強版本)。Thor支持通過NVLink-C2C芯片互聯技術連接兩個芯片運行單個操作系統(現有很多興能源汽車廠家將2~4顆Orin處理器集合起來應用來滿足算力需求)。

Thor可以配置為多種模式,Thor可以將其 2000 TOPS和 2000 TFLOPs全部用于自動駕駛工作流中,也可以將其配置為一部分用于駕駛艙AI和信息娛樂,一部分用于輔助駕駛。Thor有多計算域隔離,允許并發、對時間敏感的多進程無中斷運行。可以在一臺計算機上同時運行Linux、QNX和Android。Thor集中了眾多計算資源,不僅降低了成本和功耗,同時功能也實現了質的飛躍。

NVIDIA Thor PCBA板卡

提前3年發布,也真是難為NVIDIA了,給一眾跟隨的 IC 廠商指明了前進的方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/166882.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/166882.shtml
英文地址,請注明出處:http://en.pswp.cn/news/166882.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java基礎(問題+答案)——第4期

其他的幾期見這個專欄 Java中的多態性(Polymorphism): 多態性是指一個對象可以用來引用多個類型的特性。在Java中,多態性通過方法的重寫和接口實現來實現。 Java中的final關鍵字的用途: final可以用于變量、方法和類。…

堪比數據恢復大師軟件推薦,恢復數據很簡單!

“作為一個經常丟失數據的電腦用戶來說,我覺得我非常需要一些簡單有效的數據恢復方法。大家有什么比較靠譜的軟件推薦嗎?非常感謝!” 在數字化時代,數據的存儲是比較重要的。很多用戶都會選擇將重要的文件保存在電腦上。如果數據丟…

第二證券:北證50指數一枝獨秀 短劇游戲概念股持續活躍

周三,滬深兩市三大指數顫動調整,北證50指數“鶴立雞群”,大漲超8%。到收盤,上證綜指報3043.61點,跌0.79%;深證成指報9855.66點,跌1.41%;創業板指報1950.01點,跌1.73%。滬…

ITSS項目概述及評估流程!

ITSS項目概述 ITSS (Information Technology Service Standards,信息技術服務標準,簡稱ITSS)是一套成體系和綜合配套的信息技術服務標準庫,全面規范了IT服務產品及其組成要素,用于指導實施標準化和可信賴的IT服務,是套…

CSV用EXCEL打開后為科學計數法(后幾位丟失)解決方法

當在Excel中打開含有長數字(如訂單號)的CSV文件時,Excel可能會默認將這些長數字格式化為科學計數法。 而當您嘗試將它們轉換為文本格式時,如果數字非常長,Excel可能無法正確處理其精度,導致數字的后幾位變…

uni-app,nvue中text標簽文本超出寬度不換行問題解決

復現:思路: 將text標簽換為rich-text,并給rich-text增加換行的樣式class類名解決:

GPT寫SQL的模版

表:profit_loss_sum_m_snapshot 計算字段:成本cost_whole求和,收入income_whole求和,收入求和-成本求和,成本目標cost_target求和,收入求和-成本目標求和 條件:日期statis_date在2023-11-01&…

【Vue】瀏覽器安裝vue插件

首先看一下安裝之后的效果&#xff0c;再考慮一下要不要安裝 安裝完之后&#xff0c;打開瀏覽器控制臺&#xff08;ctrl shift j) <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</t…

HOOPS Web平臺助力開發3D應用,實現超大規模3D web輕量化渲染與數據格式轉換!

一、包含的軟件開發工具包 HOOPS Web平臺幫助開發人員構建基于Web的工程應用程序&#xff0c;提供高級3D Web可視化、準確快速的CAD數據訪問和3D數據發布。 HOOPS Web平臺包括三個集成軟件開發工具包 (SDK)&#xff1a; &#xff08;1&#xff09;Web端3D可視化引擎 HOOPSCom…

mysql查詢表的字段,字段名以及注釋sql語句

sql語句如下&#xff1a; selecta.ordinal_position 序號,a.COLUMN_name 字段名,a.COLUMN_type 字段類型,(case a.is_nullable when NO then 是 else 否 end) 是否非空,(case a.column_key when PRI then 是 else 否 end) 是否主鍵,a.COLumn_comment 注釋 frominformation_sch…

【C/C++】素數專題

素數專題 1.判斷素數模板2.求范圍內的素數&#xff08;101-200&#xff09;3.判斷素數與分解 1.判斷素數模板 #include<stdio.h> #include<math.h>int prism(int n){if(n1) return 0;for(int i2;i<sqrt(n);i){if(n%i0) return 0;}return 1; }int main() {int n…

Doris中的物化視圖(十八)

物化視圖就是包含了查詢結果的數據庫對象&#xff0c;可能是對遠程數據的本地 copy&#xff0c;也可能是一個表或多表 join 后結果的行或列的子集&#xff0c;也可能是聚合后的結果。說白了&#xff0c;就是預先存儲查詢結果的一種數據庫對象。 在 Doris 中的物化視圖&#xf…

【深度學習】P1 數據缺失值預處理

數據缺失值預處理 創建數據集展示數據集缺失值處理 創建數據集 首先創建一個人工數據集&#xff0c;作為下文對數據缺失值預處理的案例&#xff0c; import osos.makedirs(os.path.join(.., data), exist_okTrue) data_file os.path.join(.., data, house_tiny.csv) with op…

SIP協議在語音通信的應用方式

在企業語音通信的過程中&#xff0c;SIP協議支持的網絡通信技術通過網絡為用戶提供了無數的通信便利&#xff0c;已成為企業不可或缺的重要通信技術。由于SIP協議是語音通信幫助企業實現這些優勢的原因&#xff0c;因此了解支持這些呼叫的SIP協議的上下文至關重要。 什么是SIP?…

Duplicate 模型中的 ROLLUP(十六)

因為 Duplicate 模型沒有聚合的語意。所以該模型中的 ROLLUP&#xff0c;已經失去了“上卷”這一層含義。而僅僅是作為調整列順序&#xff0c;以命中前綴索引的作用。下面詳細介紹前綴索引&#xff0c;以及如何使用 ROLLUP 改變前綴索引&#xff0c;以獲得更好的查詢效率。 前…

微服務保護 Sentinel

1.初識Sentinel 文章目錄 1.初識Sentinel1.1.雪崩問題及解決方案1.1.1.雪崩問題1.1.2.超時處理1.1.3.倉壁模式1.1.4.斷路器1.1.5.限流1.1.6.總結 1.2.服務保護技術對比1.3.Sentinel介紹和安裝1.3.1.初識Sentinel1.3.2.安裝Sentinel 1.4.微服務整合Sentinel 2.流量控制2.1.簇點鏈…

C語言—指針初始化

指針初始化&#xff1a;指針初始情況下指向哪個地址。兩種指針初始化方式 1、聲明指針時就進行指針初始化&#xff0c;告訴指針指向哪個地址 #include <stdio.h> int main () {int i5;int *p&i;return 0; }2、聲明指針時未進行初始化&#xff0c;在后期把指向的地…

MacM1(ARM)安裝Protocol Buffers

MacM1(ARM)安裝Protocol Buffers 本文目錄 MacM1(ARM)安裝Protocol Buffers3.21之前版本安裝使用configure3.22之后版本安裝使用cmake使用編譯后的版本 protobuf下載地址&#xff1a;https://github.com/protocolbuffers/protobuf/releases 在運行./autogen.sh或./configure命…

大表查詢如何優化?

大表查詢的優化方法有以下幾種&#xff1a; 索引優化&#xff1a;通過建立合理高效的索引&#xff0c;提高查詢的速度。SQL優化&#xff1a;組織優化SQL語句&#xff0c;使查詢效率達到最優&#xff0c;在很多情況下要考慮索引的作用。水平拆表&#xff1a;如果表中的數據呈現…

curl添加https服務

CURL支持的通信協議有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAPS、IMAP、POP3、SMTP和RTSP。 首選刪除系統自帶的openssl&#xff0c;因為他只有可執行程序和庫&#xff0c;沒有頭文件。 sudo apt-get remove openssl openssl官網&am…