Nvidia Blackwell架構深度剖析:深入了解RTX 50系列GPU的升級

在CES 2025上,英偉達推出了基于Blackwell架構的GeForce RTX 50系列顯卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段時間以來,我們已經知曉了該架構的各種細節,其中許多此前還只是傳聞。不過,英偉達近日在2025年國際消費電子展(CES)期間的媒體編輯日活動上,披露了更多關于核心功能的信息與細節。本文主要聚焦于Blackwell RTX 50系列GPU的架構變革。
在這里插入圖片描述
英偉達并未對新架構的某些方面提供大量細節,但從宏觀層面來看,與RTX 40系列Ada Lovelace架構相比,很多方面似乎變化不大。大多數升級和改進主要圍繞AI和各種神經渲染技術——我們會在另一篇文章中對這些內容進行更深入的探討。

下面這張PPT展示了Blackwell架構的目標:針對新的神經計算工作負載進行優化、減少內存占用、新增服務質量功能以及提升能源效率。這些聽起來都很不錯。不過,除了RTX 5090擁有顯著更大的GPU核心(面積達744平方毫米,而RTX 4090為608平方毫米)之外,很多升級更像是漸進式的。
在這里插入圖片描述
這并非意味著毫無變化。第四代光線追蹤(RT)核心的光線與三角形相交速率是Ada架構的兩倍,也是為Mega Geometry構建的。這有助于未來基于虛幻引擎5開發的游戲運行得更流暢。GPU著色器也針對神經著色器進行了增強,此外還有一些其他新特性。

Blackwell架構使英偉達GPU首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它們還將支持PCIe 5.0,成為首批實現這一轉變的消費級GPU,不過我們還需觀察這一支持是否覆蓋所有Blackwell GPU,還是僅適用于RTX 5090。視頻編碼和解碼功能也得到了增強,現在支持4:2:2視頻流。

性能數據方面,若以“最高可達4000 AI TOPS(每秒數萬億次運算)”來計算,RTX 5090的實際運算能力為3400 TOPS(準確來說是3352)。進一步探究會發現,性能提升的很大一部分得益于原生FP4支持。因此,在同等條件下對比,RTX 5090的FP8運算能力為1676 TFLOPS,而RTX 4090為1321 TFLOPS FP8。這僅有27%的提升——增幅可觀,但算不上巨大飛躍。
在這里插入圖片描述
類似的性能提升比例在其他方面也有體現,比如FP32著色器計算。RTX 5090的FP32運算能力最高可達104.8 TFLOPS,而RTX 4090為82.6 TFLOPS。同樣,這也是27%的性能提升。而RTX 4090相較于RTX 3090,GPU TFLOPS提升了驚人的132%。那才是令人興奮的升級!

毫無疑問,RTX 5090會比RTX 4090更快、更出色,但它并不會完全超越上一代產品——至少在不考慮多幀生成(Multi Frame Generation)技術的情況下是這樣。另外,RTX 5090的核心面積也大了22%,晶體管數量多了21%,它們都基于臺積電4N工藝節點。

在架構方面,還有其他一些值得關注的變化。隨著人工智能應用的增多以及此類工作負載對整數運算的需求,英偉達讓Blackwell架構中的所有著色器核心都完全兼容FP32/INT32運算。在安培(Ampere,RTX 30系列)架構中,英偉達將FP32 CUDA核心數量翻倍,但其中一半僅支持FP32運算,另一半則可同時進行FP32和INT32運算——INT32常用于內存指針計算。Ada架構延續了這一設計,而現在Blackwell架構再次讓所有CUDA核心保持一致,數量是圖靈(Turing)架構的兩倍。
在這里插入圖片描述
英偉達還對著色器渲染管線進行了一些調整,以便更好地混合著色器和張量核心運算。英偉達將其歸類為神經著色器,雖然其他RTX系列似乎仍能運行這些工作負載,但與Blackwell架構的GPU相比,速度會相對較慢。這部分得益于著色器執行重排序(SER,Shader Execution Reordering)技術的改進,在Blackwell架構上的運行速度是Ada架構的兩倍。

Blackwell架構還帶來了內存升級,從Ada架構的GDDR6和GDDR6X全面轉向GDDR7。我們尚不清楚這是否適用于所有RTX 50系列GPU,但考慮到RTX 5070筆記本電腦GPU都配備了8GB GDDR7,我們推測這可能是全系列的配置。這是自2018年RTX 20系列首次引入GDDR6(時鐘頻率僅為14Gbps)以來,我們首次看到的圖形內存全面升級。
在這里插入圖片描述
大多數基于Blackwell架構的RTX 50系列GPU的GDDR7運行頻率為28Gbps,是最初GDDR6芯片速度的兩倍,但相比許多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速度僅提升了33%。RTX 5080的GDDR7頻率提升至30Gbps,幾乎是RTX 2080 Super 15.5Gbps內存速度的兩倍。

除了RTX 5090,其他型號的顯存位寬沒有變化。RTX 5090配備了512位的超大顯存位寬和32GB GDDR7內存。未來的3GB GDDR6芯片為產品周期后期可能推出的48GB版本,或面向專業/數據中心、采用翻蓋式設計且容量高達96GB的GPU留下了可能性,但英偉達短期內不會對此進行官方評論或發布相關消息。

RTX 5080仍然保持256位顯存位寬和16GB顯存容量,因此,盡管其帶寬比RTX 4080 Super提升了30%,但顯存容量保持不變。RTX 5070 Ti(與RTX 5070 Ti Super相比)和RTX 5070(與RTX 4070相比)也是如此,只是它們的帶寬提升了33%——從21Gbps提升至28Gbps。

Blackwell架構的另一個新特性是AI管理處理器。(順便提一下,英偉達完全沒有提及光流加速器,即OFA,這是Ada架構引入的新特性,但現在可能已被停用,取而代之的是更強大的張量運算。)
在這里插入圖片描述
隨著人工智能工作負載日益復雜,以及更多人工智能模型可能同時運行的情況——想象一下,一款游戲同時進行圖像放大、神經紋理處理、幀生成和AI非玩家角色運算——英偉達希望能更好地調度資源。AI管理處理器旨在實現這一目標,并且據說可以根據正在運行的工作負載類型以及需要優先完成的任務來進行調度。例如,為了先完成多幀生成(MFG,Multi Frame Generation),文本生成的大語言模型(LLM)運算可以稍微延遲。

Blackwell架構還改進了電源門控和能源管理,能夠比前幾代產品更快地進入和退出深度睡眠模式。

綜上所述,英偉達的Blackwell架構雖沒有帶來翻天覆地的變革,但在諸多關鍵領域實現了穩步升級與創新。從硬件性能提升到功能特性優化,再到內存和架構設計的改進,Blackwell架構的RTX 50系列GPU為未來的圖形處理和人工智能應用描繪了一幅充滿潛力的藍圖。
在這里插入圖片描述
值得關注的是,英偉達 RTX 5090 Founders Edition和 RTX 5080 Founders Edition將于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也將于 2 月閃亮登場。各位小伙伴們,是不是已經迫不及待準備好錢包,坐等 RTX 50 系列顯卡到手,開啟全新的極致體驗了呢?

想了解更多有關RTX 50系產品以及RTX 5090整機相關的信息,不管是技術問題還是應用規劃,歡迎隨時聯系我們,期待能為您提供有價值的見解與支持。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/66206.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/66206.shtml
英文地址,請注明出處:http://en.pswp.cn/web/66206.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機網絡 (45)動態主機配置協議DHCP

前言 計算機網絡中的動態主機配置協議(DHCP,Dynamic Host Configuration Protocol)是一種網絡管理協議,主要用于自動分配IP地址和其他網絡配置參數給連接到網絡的設備。 一、基本概念 定義:DHCP是一種網絡協議&#xf…

“扣子”開發之四:與千帆AppBuilder比較

上一個專題——“扣子”開發——未能落地,開始抱著極大的熱情進入,但迅速被稚嫩的架構模型折磨打擊,硬著頭皮堅持了兩周,終究還是感覺不實用不趁手放棄了。今天詢問了下豆包,看看還有哪些比較好的AI開發平臺&#xff0…

RV1126+FFMPEG推流項目(7)AI音頻模塊編碼流程

一、AI 模塊和外設麥克風的關系 AI 模塊是 RV1126 芯片的一個重要組成部分。它的主要功能是將外部接入的麥克風采集到的模擬信號通過內置的驅動程序轉換為數字信號。這意味著麥克風作為外設,提供音頻輸入信號,AI 模塊通過其硬件和軟件的結合&#xff0c…

遺傳算法 (Genetic Algorithm) 算法詳解及案例分析

遺傳算法 (Genetic Algorithm) 算法詳解及案例分析 目錄 遺傳算法 (Genetic Algorithm) 算法詳解及案例分析1. 引言2. 遺傳算法的基本概念2.1 遺傳算法的定義2.2 遺傳算法的核心思想2.3 遺傳算法的應用領域3. 遺傳算法的主要步驟3.1 初始化種群3.2 選擇3.3 交叉3.4 變異3.5 更新…

Rust 強制類型轉換和動態指針類型的轉換

在 Rust 中的強制類型轉換(Coercion)語義,與 Java 或 C 中的子類到父類的轉換有某些相似之處,但兩者的實現機制和使用場景有很大的區別。 我們將從 Java/C 的子類到父類轉換 和 Rust 的強制類型轉換 的角度進行比較,幫…

第十二章:算法與程序設計

文章目錄: 一:基本概念 1.算法與程序 1.1 算法 1.2 程序 2.編譯預處理 3.面向對象技術 4.程序設計方法 5.SOP標志作業流程 6.工具 6.1 自然語言 6.2 流程圖 6.3 N/S圖 6.4 偽代碼 6.5 計算機語言 二:程序設計 基礎 1.常數 …

【后端面試總結】tls中.crt和.key的關系

tls中.crt和.key的關系 引言 在現代網絡通信中,特別是基于SSL/TLS協議的加密通信中,.crt和.key文件扮演著至關重要的角色。這兩個文件分別代表了數字證書和私鑰,是確保通信雙方身份認證和數據傳輸安全性的基石。本文旨在深入探討TLS中.crt和…

【k8s面試題2025】2、練氣初期

在練氣初期,靈氣還比較稀薄,只能勉強在體內運轉幾個周天。 文章目錄 簡述k8s靜態pod為 Kubernetes 集群移除新節點:為 K8s 集群添加新節點Kubernetes 中 Pod 的調度流程 簡述k8s靜態pod 定義 靜態Pod是一種特殊類型的Pod,它是由ku…

初學stm32 --- CAN

目錄 CAN介紹 CAN總線拓撲圖 CAN總線特點 CAN應用場景 CAN物理層 CAN收發器芯片介紹 CAN協議層 數據幀介紹 CAN位時序介紹 數據同步過程 硬件同步 再同步 CAN總線仲裁 STM32 CAN控制器介紹 CAN控制器模式 CAN控制器模式 CAN控制器框圖 發送處理 接收處理 接收過…

運輸層安全協議SSL

安全套接字層 SSL (Secure Socket Layer) SSL 作用在端系統應用層的 HTTP 和運輸層之間,在 TCP 之上建立起一個安全通道,為通過 TCP 傳輸的應用層數據提供安全保障。 應用層使用 SSL 最多的就是 HTTP,但 SSL 并非僅用于 HTTP,而是…

ZooKeeper 常見問題與核心機制解析

Zookeeper集群本身不直接支持動態添加機器。在Zookeeper中,集群的配置是在啟動時靜態定義的,并且集群中的每個成員都需要知道其他所有成員。當你想要增加一個新的Zookeeper服務器到現有的集群中時,你需要更新所有現有服務器的配置文件&#x…

【Sql遞歸查詢】Mysql、Oracle、SQL Server、PostgreSQL 實現遞歸查詢的區別與案例(詳解)

文章目錄 Mysql 5.7 遞歸查詢Mysql 8 實現遞歸查詢Oracle遞歸示例SQL Server 遞歸查詢示例PostgreSQL 遞歸查詢示例 更多相關內容可查看 Mysql 5.7 遞歸查詢 MySQL 5.7 本身不直接支持標準 SQL 中的遞歸查詢語法(如 WITH RECURSIVE 這種常見的遞歸查詢方式&#xf…

【Rust自學】13.2. 閉包 Pt.2:閉包的類型推斷和標注

13.2.0. 寫在正文之前 Rust語言在設計過程中收到了很多語言的啟發,而函數式編程對Rust產生了非常顯著的影響。函數式編程通常包括通過將函數作為值傳遞給參數、從其他函數返回它們、將它們分配給變量以供以后執行等等。 在本章中,我們會討論 Rust 的一…

【JavaScript】比較運算符的運用、定義函數、if(){}...esle{} 語句

比較運算符 !><> < 自定義函數&#xff1a; function 函數名&#xff08;&#xff09;{ } 判斷語句&#xff1a; if(判斷){ }else if(判斷){ 。。。。。。 }else{ } 代碼示例&#xff1a; <!DOCTYPE html> <html> <head><meta charset&quo…

WOA-Transformer鯨魚算法優化編碼器時間序列預測(Matlab實現)

WOA-Transformer鯨魚算法優化編碼器時間序列預測&#xff08;Matlab實現&#xff09; 目錄 WOA-Transformer鯨魚算法優化編碼器時間序列預測&#xff08;Matlab實現&#xff09;預測效果基本介紹程序設計參考資料 預測效果 基本介紹 1.Matlab實現WOA-Transformer鯨魚算法優化編…

25/1/15 嵌入式筆記 初學STM32F108

GPIO初始化函數 GPIO_Ini&#xff1a;初始化GPIO引腳的模式&#xff0c;速度和引腳號 GPIO_Init(GPIOA, &GPIO_InitStruct); // 初始化GPIOA的引腳0 GPIO輸出控制函數 GPIO_SetBits&#xff1a;將指定的GPIO引腳設置為高電平 GPIO_SetBits(GPIOA, GPIO_Pin_0); // 將GPIO…

mac m4 安裝 node

brew install node // 安裝 node //安裝的路徑在&#xff1a; /opt/homebrew/bin/node brew install node14 // brew install node22 // 安裝指定版本 如果需要設置環境變量&#xff1a;通過&#xff1a; which node 查找路徑 export PATH"/usr/local/opt/…

haproxy+nginx網站架構,實現負載均衡實驗筆記

前提準備&#xff1a; 兩臺nginx&#xff0c;一臺haproxynginx1&#xff1a;192.168.180.120nginx2&#xff1a;192.168.180.130&#xff0c;NFShaproxy&#xff1a;192.168.180.110 nginx&#xff08;兩臺nginx的操作是一樣的&#xff09;&#xff1a; 1. 安裝nginx #先安…

【C++篇】紅黑樹的實現

目錄 前言&#xff1a; 一&#xff0c;紅黑樹的概念 1.1&#xff0c;紅黑樹的規則 1.2&#xff0c;紅黑樹的最長路徑 1.3&#xff0c;紅黑樹的效率分析 二&#xff0c;紅黑樹的實現 2.1&#xff0c;紅黑樹的結構 2.2&#xff0c;紅黑樹的插入 2.2.1&#xff0c;大致過程…

如何在谷歌瀏覽器中設置自定義安全警告

隨著網絡環境的日益復雜&#xff0c;瀏覽器的安全問題也愈發引人關注。谷歌瀏覽器作為一款廣泛使用的瀏覽器&#xff0c;其自定義安全警告功能為用戶提供了更加個性化和安全的瀏覽體驗。本文將詳細介紹如何在谷歌瀏覽器中設置自定義安全警告&#xff0c;幫助用戶更好地保護自己…