存算一體架構或成為AI處理器技術發展關鍵

?作者|堅果

來源|神州問學

?引言

馬斯克巨資60億美元打造的“超級算力工場”,通過串聯10萬塊頂級NVIDIA H100 GPU,不僅震撼了AI和半導體行業,促使英偉達股價應聲上漲6%,還強烈暗示了AI大模型及芯片需求的急劇膨脹。這一行動不僅是馬斯克對AI未來的大膽押注,也成為了全球企業加速布局AI芯片領域的催化劑,預示著一場科技革新競賽的全面升級,各方競相提升算力,爭奪AI時代的戰略高地。觀察近期Blackwell與Gaudi 3芯片的設計優化路徑,不難發現GPU芯片制造商已在不同程度上汲取了存算一體技術的精髓,尤其側重于近存計算架構的采納,以此直面大模型對高算力與高存儲需求的挑戰。

存算一體技術詳解

存算一體(Computational Memory或In-Memory Computing)的概念并非新近才出現,而是計算機科學領域一個長期的研究方向。它的起源可以追溯到早期計算機架構的探索,旨在克服馮·諾依曼架構的局限性,特別是數據傳輸帶寬瓶頸(通常稱為“內存墻”)的問題。

存算一體技術的過去和現在

追溯至上世紀80年代,存算一體的概念初現端倪,彼時研究者開始探討如何在存儲器內部直接進行計算,以減少數據在處理器與內存之間頻繁移動帶來的延遲與能耗。然而,受限于當時的材料科學與制造工藝,早期的嘗試多停留在理論探索與初步原型階段。進入21世紀,隨著納米科技、新材料與先進制造技術的飛速發展,存算一體技術迎來了突破性進展。新型非易失性存儲器,如相變存儲器(PCM)、磁阻隨機存取存儲器(MRAM)和電阻式隨機存取存儲器(RRAM),因其具備高速度、低功耗及非易失性等特點,成為實現存算一體的關鍵載體。這些存儲技術不僅能夠存儲信息,還能在其存儲單元上直接執行基本邏輯運算,從而大幅縮短數據傳輸距離,顯著提升整體計算效能。近年來,存算一體技術在學術界與產業界均獲得了廣泛關注與投資,多家科研機構與企業已研發出原型產品。例如,英特爾的Optane DC持久內存結合了DRAM的高速度與NAND閃存的非易失性,展現了存算一體的部分潛力;而IBM、三星、惠普實驗室等也在探索將存算一體應用于人工智能、大數據分析等領域,以期構建更高效能的計算平臺。

存算一體技術原理和分類

存算一體芯片基本架構圖所示,神經網絡模型的權重可以映射為子陣列中存儲單元的電導率,而輸入特征圖(Feature map)作為行電壓并行加載(圖中WL方向),然后以模擬方式進行乘法(即輸入電壓乘以權重電導),并使用列上的電流求和(圖中BL方向)來生成輸出向量。

圖片

圖源:

https://www.bilibili.com/video/BV1hF411a7wt/?from=search&seid=3978061323598318972&spm_id_from=333.337.0.0

按照計算單元和存儲單元的距離,存算一體技術大致分為近存計算(PNM)、存內處理(PIM)、存內計算(CIM)。

存內處理?則主要側重于將計算過程盡可能地嵌入到存儲器內部。這種實現方式旨在減少處理器訪問存儲器的頻率,因為大部分計算已經在存儲器內部完成。這種設計有助于消除馮·諾依曼瓶頸帶來的問題,提高數據處理速度和效率。

近存計算?是一種較為成熟的技術路徑。它利用先進的封裝技術,將計算邏輯芯片和存儲器封裝到一起,通過減少內存和處理單元之間的路徑,實現高I/O密度,進而實現高內存帶寬以及較低的訪問開銷。近存計算主要通過2.5D、3D堆疊等技術來實現,廣泛應用于各類CPU和GPU上。

存內計算?同樣是將計算和存儲合二為一的技術。它有兩種主要思路。第一種思路是通過電路革新,讓存儲器本身就具有計算能力。這通常需要對SRAM或者MRAM等存儲器進行改動,以在數據讀出的decoder等地方實現計算功能。這種方法的能效比通常較高,但計算精度可能受限。

存算一體技術的最終目標是提供一種計算平臺,它能夠顯著降低數據搬運的成本,提高計算效率,特別是在大規模并行計算和機器學習任務中展現出巨大的潛力。然而,這一領域的研究和開發仍面臨諸多挑戰,包括技術成熟度、可擴展性、成本和標準化等問題。

AI處理器架構參考近存計算原則

今年推出性能優化的兩款高性能AI芯片,都不同程度優化了內存模塊以拓展顯存容納更大規模的參數。

NVIDIA Blackwell

今年3月18日NVIDIA 在GTC宣布推出 NVIDIA Blackwell 架構以賦能計算新時代。

圖源:

https://www.nvidia.cn/data-center/technologies/blackwell-architecture/

Blackwell 架構 GPU 具有 2080 億個晶體管,采用專門定制的臺積電 4NP 工藝制造。所有 Blackwell 產品均采用雙倍光刻極限尺寸的裸片,通過 10 TB/s 的片間互聯技術連接成一塊統一的 GPU。Blackwell架構的GPU,作為高性能計算和AI加速器,參考近存計算的架構高度集成計算單元和存儲單元。

Blackwell GPU以集成的 HBM3E內存為核心,實現8Gbps速度與8TB/s帶寬,大幅縮減數據傳輸至計算單元的時間,有效降延遲、控能耗。其計算單元與內存的協同設計,確保了數據的快速訪問與高效利用,破解數據傳輸瓶頸。結合Grace CPU的系統集成,更促進了計算與內存管理的無縫銜接,共享數據機制減少了跨資源傳輸,雖非存內計算,卻通過內存與計算的緊密融合,實現了減少數據移動、提升計算效能的目標,與存算一體架構理念不謀而合。

Gaudi

今年4月9日晚,英特爾在美國召開了“Intel Vision 2024”大會發布了Gaudi 3 AI芯片。Gaudi 3 擁有 8 個矩陣數學引擎、64 個張量內核、96MB SRAM(每個Tile 48MB,可提供12.8 TB/s的總帶寬) 和 128 GB HBM2e 內存,16 個 PCIe 5.0 通道和 24 個 200GbE 鏈路 。在計算核心的周圍,則是八個HBM2e內存堆棧,總容量為128 GB,帶寬為3.7 TBps。訓練性能比英偉達H100快了40%,推理快了50%。

圖片

圖源:

https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html

Gaudi 3 AI加速器通過一系列優化,深刻詮釋了近存計算的精髓。其搭載的128GB HBM2e內存,以超高的數據傳輸速率削減訪問延遲;雙計算集群Chiplet設計讓計算貼近數據,減少移動距離;增強的網絡帶寬優化了分布式計算中的數據交換,有效降低節點間通信延遲;AI專用計算單元針對矩陣與卷積運算進行高效優化,間接促進數據訪問效率。所有這些設計,均致力于減少數據移動,提升計算效能,完美呼應了近存計算減少延遲、降低能耗的核心目標。

其他

除了以上廠家其他廠家也采用了近存計算或類似架構原則。

AMD MI200系列 GPU:

AMD的Instinct MI200系列GPU采用了3D V-Cache技術,以及HBM2e內存,提供了高帶寬數據訪問,旨在減少數據傳輸延遲。

Groq Tensor Processing Unit (TPU):

Groq的TPU采用了獨特的架構設計,其中包括了大規模的片上SRAM,以及高度并行的計算單元,旨在提供低延遲和高吞吐量的計算環境。

Graphcore IPU:

Graphcore的Intelligence Processing Units (IPUs) 設計有大規模的片上內存,以及分布式內存架構,以減少數據移動,提高機器學習模型的訓練和推理速度。

存算一體架構解決大模型高算力高存儲的需求

大模型高算力高存儲需求的挑戰

大模型計算任務對高算力的依賴源于其參數量的天文數字——如GPT-3的1750億參數——以及數據密集型訓練需求,后者涉及處理570GB規模的文本數據集。模型的深度與寬度、高維特征的處理、訓練迭代中的權重更新,乃至分布式訓練的協調,無一不在考驗著系統的計算極限。此外,模型優化和探索階段的資源消耗也不容小覷。為此,現代數據中心裝備了高性能GPU、TPU及配套基礎設施,旨在支撐這一計算盛宴。

高存儲挑戰則聚焦于顯存的極限。大模型的海量參數,即便是采用FP16或BF16低精度表示,也需占用大量存儲空間。前向與反向傳播產生的中間結果、優化器狀態維護、混合精度訓練中的精度轉換,以及批量處理和數據預處理階段的臨時數據生成,均顯著提升了顯存需求。尤其是模型推理階段,面對長序列或高分辨率數據,顯存消耗尤為突出。因此,諸如NVIDIA A100 GPU配備的80GB HBM2顯存成為必要,以應對大規模模型的訓練與推理需求。

存算一體架構優勢

存算一體架構針對大模型運算的高算力和高存儲需求,展現出了顯著優勢,通過在存儲單元本地執行計算,極大地減少了數據在CPU和內存之間傳輸的延遲和能量損耗,從而大幅度提升了計算效率。這種架構特別適合處理擁有海量參數和大規模數據集的大模型,如深度神經網絡,因為它能有效地解決“存儲墻”問題,確保即使在處理高維特征空間和進行復雜的模型優化時,也能保持高性能和低功耗,是實現未來高性能計算的關鍵技術之一。

結論

隨著數字化程度的日益加深,數字資產隨之累積,導致大模型所需的數據源愈發豐富,模型參數量亦呈指數級增長。這無疑對AI處理器提出了更高的要求,不僅需要更強大的存儲能力來容納這些海量數據,還必須具備更快的運算能力以實現高效處理。當前,AI處理器的研發正從多方面展開創新,除了持續優化科學計算的基本處理單元結構,還積極探索借鑒存算一體架構中的近存計算設計理念,旨在通過縮短數據讀取路徑,擴大存儲規模并減少數據傳輸中的能耗,從而大幅提升效率。顯然,存算一體架構已成為驅動AI芯片技術進步的關鍵因素。

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38530.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38530.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38530.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【學習積累】自然資源全領域基本知識

【學習積累】自然資源領域基本知識 土地篇 1、我國土地管理的基本國策和基本國情是什么? 答:基本國策是十分珍惜、合理利用土地和切實保護耕地。基本國情是人多地少,耕地后備資源嚴重不足 2、耕地保護對我國經濟社會發展有何作用? 答:…

數字化精益生產系統--RD研發管理系統

R&D研發管理系統是一種用于管理和監督科學研究和技術開發的軟件系統,其設計和應用旨在提高企業研發活動的效率、質量和速度。以下是對R&D研發管理系統的功能設計:

hive命令和參數

一.命令行模式 hive命令行 hive -H 查詢hive的可用參數 hive -e "" 在hive命令中直接執行簡單的sql語句 在hive命令中執行sql文件 hive -f 文件地址 在hive命令中新建hive變量 hive --hivevar mykey"myvalue" beeline命令行 先得啟動hiveserver…

電力授時設備常用:低功耗定位授時模塊ATGM332D-5T

ATGM332D有5N微星定位模塊系列和5T授時模塊,其中我們今天要解讀的是一款擁有高性能、低功耗、低成本優勢且適用于各類授時設備并支持BDS/GNSS的定位授時模塊ATGM332D-5T。 該系列模塊產品是基于中科微第四代低功耗GNSS SOC單芯片—AT6558,支持多種微星導…

第四十六章 解決 IRIS 中的 SOAP 問題

文章目錄 第四十六章 解決 IRIS 中的 SOAP 問題故障排除所需的信息IRIS SOAP 日志 第四十六章 解決 IRIS 中的 SOAP 問題 本主題提供信息來幫助識別 IRIS 數據平臺中 SOAP 問題的原因。 有關明顯與安全相關的問題的信息,請參閱故障排除安全問題。在極少數情況下&a…

使用Spring Boot和Docker進行容器化部署

使用Spring Boot和Docker進行容器化部署 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿!今天我們將探討如何利用Spring Boot和Docker來實現應用程序的容器化部署…

大數據開發語言 Scala(四):面向對象編程

目錄 1. 概述 2. 面向對象編程的基本概念 2.1 類和對象 2.2 繼承和多態 2.3 封裝和訪問控制 3. 面向對象編程在大數據開發中的應用 3.1 Spark中的面向對象編程 3.2 面向對象編程在數據清洗和預處理中 3.3 面向對象編程在機器學習中的應用 4. 面向對象編程的高級特性 …

adb簡介

ADB 的實現涉及到多個組件和多個步驟。下面是詳細的實現過程: 1. 架構組成 ADB Client:運行在主機上,用戶通過它發送命令。ADB Daemon(adbd):運行在Android設備上,負責接收和執行來自ADB Clie…

PyCharm遠程開發

PyCharm遠程開發 1- 遠程環境說明 每個人的本地電腦環境差別很大。各自在自己電腦上開發功能,測試/運行正常。但是將多個人的代碼功能合并,運行服務器上,會出現各種版本兼容性問題。 在實際企業中,一般會有兩套環境。第一套是測…

中小企業如何防止被查盜

在當前的商業環境中,小企業面臨諸多挑戰,其中之一便是如何在有限的預算內滿足日常運營的技術需求。由于正版軟件的高昂成本,一些小企業可能會選擇使用盜版軟件來降低成本。 我們聯網之后存在很多風險,你可以打開自己的可以聯網的電…

Spring boot 更改啟動LOGO

在resources目錄下創建banner.txt文件,然后編輯對應的圖案即可 注釋工具 Spring Boot Version: ${spring-boot.version},-.___,---.__ /|\ __,---,___,- \ -.____,- | -.____,- // -., | ~\ /~ | …

Docker 安裝 Python

Docker 安裝 Python 在當今的軟件開發領域,Docker 已成為一項關鍵技術,它允許開發人員將應用程序及其依賴環境打包到一個可移植的容器中。Python,作為一種廣泛使用的高級編程語言,經常被部署在 Docker 容器中。本文將詳細介紹如何在 Docker 中安裝 Python,以及如何配置環…

直播商城源碼選擇指南:如何找到適合您的?

直播商城源碼是一種可以幫助商家搭建并運營直播購物平臺的軟件代碼。隨著直播購物的快速發展,越來越多的商家開始關注并投資于直播商城源碼。然而,面對市面上眾多的選擇,商家在選擇適合自己的直播商城源碼時常常感到困惑。本文將為您提供一些…

淘寶扭蛋機小程序開發,新玩法、新收益體驗!

近幾年,隨著娛樂消費的火爆,潮玩市場得到了快速發展,從而帶動了扭蛋機市場的發展,扭蛋機也逐漸風靡在消費市場中。對于年輕人消費者來說,愿意為扭蛋機的熱門IP商品而買單。目前,價格低、顏值高、種類多樣的…

RHCE——四:web服務器的高級優化方案

文章目錄 一、基于https協議的靜態網站1.概念解釋2. SSL協議提供的服務:3.web服務的配置詳解web服務的常用種類nginx的基本配置參數 4.使用nginx的http_ssl模塊建立加密認證網站查看配置文件:ssl配置文件的主要參數實驗一:搭建nginxssl的加密…

sed 保持空間命令之 x 的執行邏輯

目錄 1. 將模式空間和保持空間的內容互換并打印 2. 將保持空間的內容交換回模式空間 3. 使用保持空間保存狀態信息 4. 交換模式空間與保持空間隔行匹配 sed 有兩個內置的緩存空間: 模式空間:該空間是 sed 內置的一個緩沖區,是 sed 執行的…

基于Hadoop平臺的電信客服數據的處理與分析③項目開發:搭建基于Hadoop的全分布式集群---任務9:HBase的安裝和部署

任務描述 任務內容為HBase的安裝部署與測試。 任務指導 HBase集群需要整個集群所有節點安裝的HBase版本保持一致,并且擁有相同的配置 具體配置步驟如下: 1. 解壓縮HBase的壓縮包 2. 配置HBase的環境變量 3. 修改HBase的配置文件,HBase…

怎樣在《好作文》期刊上發表文章?

怎樣在《好作文》期刊上發表文章? 《好作文》知網 G4 2版2500字符 小學語文閱讀寫作方向 24年8-9月不要摘要參考文獻(小學語文閱讀寫作方向內容,不收純教學文章,以學生角度為主,出刊晚2-3個月左右,一周內…

Python基礎002

Python數據類型 1、字符串&#xff08;str&#xff09; str3 """I miss you so much""" print("str3 ", str3,type(str3)) str3 I miss you so much <class str>2、整數&#xff08;int&#xff09; str1 55 print(&quo…

[從0開始軌跡預測][NMS]:NMS的應用(目標檢測、軌跡預測)

非極大值抑制&#xff08;Non-Maximum Suppression&#xff0c;簡稱NMS&#xff09;是一種在計算機視覺中廣泛應用的算法&#xff0c;主要用于消除冗余和重疊的邊界框。在目標檢測任務中&#xff0c;尤其是在使用諸如R-CNN系列的算法時&#xff0c;會產生大量的候選區域&#x…