漫談英偉達GPU架構進化史:從Celsius到Blackwell

在英偉達官網,我們可以清晰地看到其從1999年Celsius到2024年Blackwell的20+代架構演進。這一歷程猶如一部波瀾壯闊的科技史詩,見證了英偉達在GPU領域的卓越創新與持續引領。

圖片

NVIDIA GPU架構變遷路線:

年份

NV GPU架構變遷

2025

Blackwell 2.0

2024

Blackwell

2023-2024

Hopper

2022-2024

Ada Lovelace

2020-2024

Ampere

2018-2022

Turing

2017-2020

Volta

2016-2021

Pascal

2014-2019

Maxwell 2.0

2014-2017

Maxwell

2013-2015

Kepler 2.0

2012-2018

Kepler

2010-2016

Fermi 2.0

2010-2013

VLIW Vec4

2010-2016

Fermi

2007-2013

Tesla 2.0

2006-2010

Tesla

2003-2013

Curie

2003-2005

Rankine

2001-2003

Kelvin

1999-2005

Celsius

1999年:Celsius(NV1x)——開啟GPU時代

Celsius架構的代表產品GeForce 256橫空出世,它首次提出了“GPU(圖形處理器)”的概念,堪稱具有劃時代意義的創舉。以往,圖形處理任務主要由CPU承擔,效率較低。而GeForce 256具備硬件T&L(變換和光照)功能,能夠將圖形處理從CPU中解放出來,實現了圖形加速,大大提升了運算效率,其運算能力達到當時CPU的5倍之多,就此開啟了GPU作為獨立計算核心的嶄新時代。

圖片

圖片

Database參考:https://www.techpowerup.com/gpu-specs/nvidia-nv10.g165

2000年:Kelvin(NV2x)——多顯示器支持的先驅

Kelvin 架構(NV20 核心)是英偉達在 2000 年代初推出的關鍵圖形架構。它最初應用于搭載NV2A GPU的XBOX游戲主機,之后GeForce 2系列GPU也基于此架構發布。GeForce 2成為首個支持多顯示器的GPU產品。其代表產品GeForce3于 2001 年 2 月 27 日發布,基于 150nm 工藝制造,核心面積 128mm2,集成 5700 萬個晶體管。作為首款支持DirectX 8.1的消費級 GPU,GeForce3 標志著圖形計算從固定管線向可編程渲染的重大躍遷,徹底改變了游戲開發的技術范式。

圖片

Database參考:https://www.techpowerup.com/gpu-specs/geforce3.c738

2001年:Rankine(NV3x)——圖形功能增強的探索

Rankine架構作為Kelvin微架構的后續版本,主要應用于NVIDIA GPU的GeForce 5系列產品。在這一系列中,Rankine微架構引入了對頂點和片段程序的支持,豐富了圖形處理的功能。同時,將顯存(VRAM)大小擴展至256MB,為GPU性能提升和圖形處理能力增強提供了有力支撐,進一步提升了圖形渲染的質量與效率。

Rankine 架構(NV34 核心)是英偉達在 2003 年推出的入門級圖形架構,其代表產品GeForce FX 5100于 2003 年 3 月 6 日發布,基于 150nm 工藝制造,核心面積 124mm2,集成 4500 萬個晶體管。作為 GeForce FX 系列的低端型號,該架構主打 DirectX 9.0a 支持,試圖在入門級市場延續可編程渲染的技術紅利,但受限于硬件規格,成為英偉達架構迭代中的過渡性產品。

圖片

Database參考:https://www.techpowerup.com/gpu-specs/geforce-fx-5100.c1834

2004年:Curie(NV4x)——顯存與視頻解碼的革新

Curie 架構(NV40 核心)是英偉達在 2004 年推出的旗艦級圖形架構,其代表產品GeForce 6800 XT于 2005 年 9 月 30 日發布,基于 130nm 工藝制造,核心面積 287mm2,集成 2.22 億個晶體管。作為首款支持DirectX 9.0c的消費級 GPU,該架構標志著英偉達在獨立 Shader 架構時代的性能巔峰,同時為后續統一渲染架構的轉型埋下伏筆。

圖片

Database參考:https://www.techpowerup.com/gpu-specs/geforce-6800-xt.c176

2006年:Tesla(G80、G92)——通用計算的開拓者

2006 年推出的Tesla 架構(G80 核心)是英偉達發展史上的分水嶺 —— 它首次引入統一渲染架構(Unified Shader Architecture),將頂點著色器、像素著色器和幾何著色器合并為通用的CUDA 核心(Compute Unified Device Architecture),徹底解決了獨立管線時代的資源分配難題。這一架構不僅重塑了圖形計算范式,更開啟了 GPU 通用計算(GPGPU)的新紀元。

圖片

Database參考:https://www.techpowerup.com/gpu-specs/geforce-8400-se.c3779

2009年:Fermi(GF100)——制程與功能的雙重升級

Fermi架構是第一款采用40nm制程的GPU。它帶來了諸多重大改進,引入L1/L2快速緩存,加速了數據的讀取與存儲;具備錯誤修復功能,提高了系統的穩定性;采用GPUDirect技術,允許GPU在無需訪問CPU的情況下相互通信,無論是在同一臺計算機內部還是通過網絡進行通信,大大提升了數據傳輸效率。Fermi GTX 480擁有480個流處理器,帶寬達到177.4GB/s,計算能力相比Tesla架構大幅提升。

圖片

Database參考:https://www.techpowerup.com/gpu-specs/geforce-gtx-480.c268

2009 年推出的Fermi 架構(GF100 核心)是英偉達首次專為通用計算(GPGPU)設計的架構,其核心目標是在保持圖形性能的同時,構建可擴展的計算平臺。關鍵創新包括:

  • 統一計算架構:
    引入流式多處理器(SM,Streaming Multiprocessor),每個 SM 包含 32 個 CUDA 核心、16 個紋理單元和 4 個 ROP 單元,支持動態分配圖形計算與通用計算任務。

  • 計算可靠性:
    首次支持ECC 內存糾錯,滿足醫療、金融等工業場景對數據準確性的需求;引入動態并行(Dynamic Parallelism),允許 GPU 直接生成子任務,減少 CPU 介入。

  • 雙精度計算:
    GF100 核心雙精度浮點性能達 1 TFLOPS,是同期 ATI Radeon HD 5870 的 2 倍,成為超級計算機的核心組件(如美國橡樹嶺國家實驗室的 “美洲豹” 超算)。

2012年:Kepler(GK104、GK110)——高性能計算的新起點

Kepler架構采用28nm制程,是首個支持超級計算和雙精度計算的GPU架構。其擁有全新的流式多處理器架構SMX,帶來了多方面的提升,完整支持TXAA(一種抗鋸齒方法),CUDA核心數顯著增加,如GK110B具有2880個流處理器,帶寬高達288GB/s,計算能力比Fermi架構提高3 - 4倍。Kepler架構的出現,使GPU在高性能計算領域受到廣泛關注,為科學研究、大數據分析等領域提供了強大的計算支持。

圖片

2012 年推出的Kepler 架構(GK104/GK110 核心)是英偉達在統一計算架構下的集大成之作,其設計目標是 “讓 GPU 成為并行計算的超級計算機”。核心創新包括:

  • 第三代 CUDA 核心
    每個 SMX 單元包含 192 個 CUDA 核心(較 Fermi 架構的 SM 增加 50%),支持動態指令調度分支預測,計算效率提升 40%。
  • 異構計算支持
    引入Hyper-Q技術,支持同時處理 32 個 CPU 線程請求,多任務并行效率提升 2 倍;集成Dynamic Parallelism 2.0,允許 GPU 自主生成子任務樹,減少 CPU 介入延遲。
  • 圖形渲染強化
    首次支持自適應細分曲面(Adaptive Tessellation),配合FXAA 抗鋸齒,在《孤島危機 3》中實現曲面細節提升 50% 的同時,性能損耗控制在 15% 以內。

GeForce GTX 660 和 780 TI是 Kepler 架構的縮影 —— 前者以主流性能定義性價比標桿,后者以旗艦規格探索硬件極限。它們不僅鞏固了英偉達在圖形市場的統治力,更將 GPU 從 “游戲硬件” 升級為 “通用計算平臺”。Kepler 架構的成功,本質是英偉達對 “摩爾定律 +

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907449.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907449.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907449.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

車載通信網絡 --- CAN FD與CAN XL

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

DM達夢數據庫開啟SQL日志記錄功能

DM達夢數據庫開啟SQL日志記錄功能 配置SQL日志(非必須的配置步驟,與主備集群配置無關,如果沒有需求可以跳過配置SQL日志) sqllog.ini 配置文件用于SQL日志的配置,當且僅當 INI(dm.ini) 參數 SV…

【HW系列】—C2遠控服務器(webshell鏈接工具, metasploit、cobaltstrike)的漏洞特征流量特征

文章目錄 蟻劍、冰蝎、哥斯拉一、蟻劍(AntSword)流量特征二、冰蝎(Behinder)流量特征三、哥斯拉(Godzilla)流量特征 metasploit、cobaltstrike一、Metasploit流量特征二、CobaltStrike流量特征三、檢測與防…

手機平板等設備租賃行業MDM方案解析

目錄 引言:MDM 在租賃行業的重要性日益凸顯 用戶場景:租賃公司面臨的主要挑戰 1. 設備丟失、逾期未還 2. 手動配置和恢復效率低 3. 非授權使用頻繁 4. 時區設置混亂影響運維 5. 缺乏實時監管能力 EasyControl MDM:租賃設備的遠程管控…

前端面試核心考點全解析

前端面試常見問題及解析大綱 核心技術篇 HTML相關問題 1. HTML5新特性解析 語義化標簽&#xff08;<header>、<section>等&#xff09;的作用與示例本地存儲&#xff08;localStorage與sessionStorage&#xff09;的差異 localStorage.setItem(key, value); c…

Selenium 測試框架 - Kotlin

??Selenium Kotlin 實踐指南:以百度搜索為例的完整測試示例 隨著測試自動化的普及,Selenium 已成為 Web 自動化測試的事實標準,而 Kotlin 憑借其簡潔語法和高安全性,越來越受到開發者歡迎。本指南將通過一個完整的實戰案例——在百度中執行搜索操作,來展示如何使用 Sele…

vscode調試stm32,Cortex Debug的配置文件lanuch.json如何寫,日志

https://blog.csdn.net/jiladahe1997/article/details/122046665 https://discuss.em-ide.com/blog/67-cortex-debug 第一版 {// 使用 IntelliSense 了解相關屬性。 // 懸停以查看現有屬性的描述。// 欲了解更多信息&#xff0c;請訪問: https://go.microsoft.com/fwlink/?li…

反范式設計應用場景解析

反范式設計應用場景解析 1. 反范式設計核心概念 反范式設計是指為了特定性能優化目標,在數據庫設計中故意違反關系數據庫的范式規則(通常是第三范式或BC范式),通過引入冗余數據或合并表結構來提升查詢效率的設計方法。 關鍵結論:反范式不是對范式理論的否定,而是在特定…

算法-js-子集

題&#xff1a;給你一個整數數組 nums &#xff0c;數組中的元素 互不相同 。返回該數組所有可能的子集&#xff08;冪集&#xff09;。解集 不能 包含重復的子集。你可以按 任意順序 返回解集。 方法一&#xff1a;迭代法 核心邏輯&#xff1a;動態擴展子集&#xff0c; 小規…

python里的NumPy算法

NumPy&#xff08;Numerical Python&#xff09;是 Python 中用于科學計算的基礎庫&#xff0c;提供了高性能的多維數組對象、矩陣運算以及大量數學函數庫。其核心優勢在于通過向量化操作替代傳統循環&#xff0c;大幅提升計算效率&#xff0c;尤其適合處理大規模數據的算法實現…

HarmonyOS優化應用文件上傳下載慢問題性能優化

一、概述 在開發應用時&#xff0c;客戶端與服務器之間數據交換的效率取決于文件傳輸的性能。一個數據交換性能較低的應用會導致其在加載過程中耗費較長時間&#xff0c;在很多的場景造成頁面卡頓&#xff0c;極大的影響了用戶體驗。相反&#xff0c;一個數據交換高效的應用&a…

64、【OS】【Nuttx】任務休眠與喚醒:clock_nanosleep

背景 之前的 blog 63、【OS】【Nuttx】任務休眠與喚醒&#xff1a;sleep 分析了任務休眠中的 sleep 函數&#xff0c;下面繼續來分析下 sleep 函數中的核心功能 clock_nanosleep clock_nanosleep usleep 上篇 blog 分析了 sleep 函數&#xff0c;其核心功能封裝到了 clock_…

【生產實踐】華為存儲XSG1在RHEL 7.x/8.x上的多路徑配置操作手冊(生產環境)

一、概述 本手冊針對Red Hat Enterprise Linux 7.x/8.x系統與華為XSG1存儲設備的多路徑I/O&#xff08;MPIO&#xff09;配置&#xff0c;通過優化路徑策略實現高可用、負載均衡及故障容錯&#xff0c;適配華為存儲硬件特性&#xff0c;滿足生產環境需求。 二、參數解析與配置…

Unity開發之Webgl自動更新程序包

之前讓客戶端更新webgl程序是在程序里寫版本號然后和服務器對比&#xff0c;不同就調用 window.location.reload(true);之前做的客戶端都是給企業用&#xff0c;用戶數少看不出來啥問題。后來自己開發一個小網站&#xff0c;用戶數量還是挺多&#xff0c;然后就會遇到各種各樣的…

一個開源腳本,可自動安裝在 AMD Radeon 7900XTX 上運行選定 AI 接口所需的所有內容

?一、軟件介紹 文末提供程序和源碼下載 一個開源腳本&#xff0c;可自動安裝在 AMD Radeon 7900XTX 上運行選定 AI 接口所需的所有內容。 二、ROCm-AI-Installer ROCm-AI-安裝程序 一個開源腳本&#xff0c;可自動安裝在 AMD Radeon 7900XTX 上運行選定 AI 接口所需的所有內…

【Axure結合Echarts繪制圖表】

1.繪制一個矩形&#xff0c;用于之后存放圖表&#xff0c;將其命名為test&#xff1a; 2.新建交互 -> 載入時 -> 打開鏈接&#xff1a; 3.鏈接到URL或文件路徑&#xff1a; 4.點擊fx&#xff1a; 5.輸入&#xff1a; javascript: var script document.createEleme…

Relooking:損失權重λ 、梯度權重α、學習率η

一般多任務&#xff0c;大家都喜歡疊加很多損失&#xff0c;由此產生很多損失權重系數。此外&#xff0c;有的學者直接對梯度進行操作。咋一看&#xff0c;上面三個系數貌似重復多余&#xff0c;直接用其中一個系數代替不行嗎&#xff1f;為此&#xff0c;回顧了下神經網絡的前…

數學復習筆記 20

復習方程組&#xff0c;還有隨便復習一下高數和矩陣&#xff0c;向量。現在是復習高數的導數這一章。兩個曲線相切&#xff0c;列出方程&#xff0c;然后解出參數&#xff0c;沒有任何難度呢。算切線方程&#xff0c;就是&#xff0c;算導數&#xff0c;導數就用導數定義&#…

Sqlalchemy 連mssql坑

連接失敗: (pyodbc.OperationalError) (08001, [08001] [Microsoft][ODBC Driver 17 for SQL Server]SSL Provider: [error:0A00014D:SSL routines::legacy sigalg disallowed or unsupported] (-1) (SQLDriverConnect)) (Background on this error at: https://sqlalche.me/e/…

AI大模型學習三十、ubuntu安裝comfyui,安裝插件,修改返回405 bug,值得一看喔

一、說明 ComfyUI是一個開源的、基于節點的Web應用。它允許用戶根據一系列文本提示&#xff08;Prompt&#xff09;生成圖像。 ComfyUI使用擴散模型作為基礎模型&#xff0c;并結合 ControlNet、Lora和LCM低階自適應等模型&#xff0c;每個工具都由程序中的一個節點表示 二、開…