在CES 2025上,英偉達推出了基于Blackwell架構的GeForce RTX 50系列顯卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段時間以來,我們已經知曉了該架構的各種細節,其中許多此前還只是傳聞。不過,英偉達近日在2025年國際消費電子展(CES)期間的媒體編輯日活動上,披露了更多關于核心功能的信息與細節。本文主要聚焦于Blackwell RTX 50系列GPU的架構變革。
英偉達并未對新架構的某些方面提供大量細節,但從宏觀層面來看,與RTX 40系列Ada Lovelace架構相比,很多方面似乎變化不大。大多數升級和改進主要圍繞AI和各種神經渲染技術——我們會在另一篇文章中對這些內容進行更深入的探討。
下面這張PPT展示了Blackwell架構的目標:針對新的神經計算工作負載進行優化、減少內存占用、新增服務質量功能以及提升能源效率。這些聽起來都很不錯。不過,除了RTX 5090擁有顯著更大的GPU核心(面積達744平方毫米,而RTX 4090為608平方毫米)之外,很多升級更像是漸進式的。
這并非意味著毫無變化。第四代光線追蹤(RT)核心的光線與三角形相交速率是Ada架構的兩倍,也是為Mega Geometry構建的。這有助于未來基于虛幻引擎5開發的游戲運行得更流暢。GPU著色器也針對神經著色器進行了增強,此外還有一些其他新特性。
Blackwell架構使英偉達GPU首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它們還將支持PCIe 5.0,成為首批實現這一轉變的消費級GPU,不過我們還需觀察這一支持是否覆蓋所有Blackwell GPU,還是僅適用于RTX 5090。視頻編碼和解碼功能也得到了增強,現在支持4:2:2視頻流。
性能數據方面,若以“最高可達4000 AI TOPS(每秒數萬億次運算)”來計算,RTX 5090的實際運算能力為3400 TOPS(準確來說是3352)。進一步探究會發現,性能提升的很大一部分得益于原生FP4支持。因此,在同等條件下對比,RTX 5090的FP8運算能力為1676 TFLOPS,而RTX 4090為1321 TFLOPS FP8。這僅有27%的提升——增幅可觀,但算不上巨大飛躍。
類似的性能提升比例在其他方面也有體現,比如FP32著色器計算。RTX 5090的FP32運算能力最高可達104.8 TFLOPS,而RTX 4090為82.6 TFLOPS。同樣,這也是27%的性能提升。而RTX 4090相較于RTX 3090,GPU TFLOPS提升了驚人的132%。那才是令人興奮的升級!
毫無疑問,RTX 5090會比RTX 4090更快、更出色,但它并不會完全超越上一代產品——至少在不考慮多幀生成(Multi Frame Generation)技術的情況下是這樣。另外,RTX 5090的核心面積也大了22%,晶體管數量多了21%,它們都基于臺積電4N工藝節點。
在架構方面,還有其他一些值得關注的變化。隨著人工智能應用的增多以及此類工作負載對整數運算的需求,英偉達讓Blackwell架構中的所有著色器核心都完全兼容FP32/INT32運算。在安培(Ampere,RTX 30系列)架構中,英偉達將FP32 CUDA核心數量翻倍,但其中一半僅支持FP32運算,另一半則可同時進行FP32和INT32運算——INT32常用于內存指針計算。Ada架構延續了這一設計,而現在Blackwell架構再次讓所有CUDA核心保持一致,數量是圖靈(Turing)架構的兩倍。
英偉達還對著色器渲染管線進行了一些調整,以便更好地混合著色器和張量核心運算。英偉達將其歸類為神經著色器,雖然其他RTX系列似乎仍能運行這些工作負載,但與Blackwell架構的GPU相比,速度會相對較慢。這部分得益于著色器執行重排序(SER,Shader Execution Reordering)技術的改進,在Blackwell架構上的運行速度是Ada架構的兩倍。
Blackwell架構還帶來了內存升級,從Ada架構的GDDR6和GDDR6X全面轉向GDDR7。我們尚不清楚這是否適用于所有RTX 50系列GPU,但考慮到RTX 5070筆記本電腦GPU都配備了8GB GDDR7,我們推測這可能是全系列的配置。這是自2018年RTX 20系列首次引入GDDR6(時鐘頻率僅為14Gbps)以來,我們首次看到的圖形內存全面升級。
大多數基于Blackwell架構的RTX 50系列GPU的GDDR7運行頻率為28Gbps,是最初GDDR6芯片速度的兩倍,但相比許多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速度僅提升了33%。RTX 5080的GDDR7頻率提升至30Gbps,幾乎是RTX 2080 Super 15.5Gbps內存速度的兩倍。
除了RTX 5090,其他型號的顯存位寬沒有變化。RTX 5090配備了512位的超大顯存位寬和32GB GDDR7內存。未來的3GB GDDR6芯片為產品周期后期可能推出的48GB版本,或面向專業/數據中心、采用翻蓋式設計且容量高達96GB的GPU留下了可能性,但英偉達短期內不會對此進行官方評論或發布相關消息。
RTX 5080仍然保持256位顯存位寬和16GB顯存容量,因此,盡管其帶寬比RTX 4080 Super提升了30%,但顯存容量保持不變。RTX 5070 Ti(與RTX 5070 Ti Super相比)和RTX 5070(與RTX 4070相比)也是如此,只是它們的帶寬提升了33%——從21Gbps提升至28Gbps。
Blackwell架構的另一個新特性是AI管理處理器。(順便提一下,英偉達完全沒有提及光流加速器,即OFA,這是Ada架構引入的新特性,但現在可能已被停用,取而代之的是更強大的張量運算。)
隨著人工智能工作負載日益復雜,以及更多人工智能模型可能同時運行的情況——想象一下,一款游戲同時進行圖像放大、神經紋理處理、幀生成和AI非玩家角色運算——英偉達希望能更好地調度資源。AI管理處理器旨在實現這一目標,并且據說可以根據正在運行的工作負載類型以及需要優先完成的任務來進行調度。例如,為了先完成多幀生成(MFG,Multi Frame Generation),文本生成的大語言模型(LLM)運算可以稍微延遲。
Blackwell架構還改進了電源門控和能源管理,能夠比前幾代產品更快地進入和退出深度睡眠模式。
綜上所述,英偉達的Blackwell架構雖沒有帶來翻天覆地的變革,但在諸多關鍵領域實現了穩步升級與創新。從硬件性能提升到功能特性優化,再到內存和架構設計的改進,Blackwell架構的RTX 50系列GPU為未來的圖形處理和人工智能應用描繪了一幅充滿潛力的藍圖。
值得關注的是,英偉達 RTX 5090 Founders Edition和 RTX 5080 Founders Edition將于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也將于 2 月閃亮登場。各位小伙伴們,是不是已經迫不及待準備好錢包,坐等 RTX 50 系列顯卡到手,開啟全新的極致體驗了呢?
想了解更多有關RTX 50系產品以及RTX 5090整機相關的信息,不管是技術問題還是應用規劃,歡迎隨時聯系我們,期待能為您提供有價值的見解與支持。