存算一體架構下的新型AI加速范式:從Samsung HBM-PIM看近內存計算趨勢

引言:突破"內存墻"的物理革命

馮·諾依曼架構的"存儲-計算分離"設計正面臨根本性挑戰——在GPT-4等萬億參數模型中,數據搬運能耗已達計算本身的200倍。存算一體(Processing-In-Memory, PIM)技術通過?在存儲介質內部集成計算單元?,開辟了突破"內存墻"的新路徑。本文將聚焦三星HBM-PIM設計,解析近內存計算如何重塑AI加速器的能效邊界。

一、HBM-PIM架構的顛覆性設計

1.1 傳統HBM與PIM架構對比

三星2021年發布的HBM-PIM芯片在DRAM Bank中植入?可編程AI引擎?
在這里插入圖片描述
?關鍵創新點?

  • Bank級計算單元?:每個DRAM Bank集成16個INT16 MAC單元
  • 指令緩存優化?:支持SIMD指令的本地解碼與調度
  • 數據通路重構?:消除傳統架構中的PHY接口瓶頸

1.2 芯片級架構解析

HBM-PIM的3D堆疊設計包含核心組件:

┌───────────────────────┐  
│  Host Interface Layer │  
├───────────────────────┤  
│  Buffer Chip          │  
│  (TSV Interposer)     │  
├───────────────────────┤  
│  DRAM Layer           │  
│  ┌───────┬───────┐    │  
│  │ Bank 0│ Bank 1│ ...│  
│  │  MAC  │  MAC  │    │  
│  └───────┴───────┘    │  
└───────────────────────┘  

每個Bank內的AI引擎可并行執行:


// HBM-PIM指令流水線示例  
always @(posedge clk) begin  if (cmd_decoder == MAC_OP) begin  // 從本地row buffer讀取數據  operand_a = row_buf[addr_a];  operand_b = row_buf[addr_b];  // 執行乘累加  mac_result <= operand_a * operand_b + mac_accumulator;  // 結果寫回指定row  row_buf[addr_c] <= mac_result[31:16];  end  
end  

該設計使ResNet-50的推理能效提升2.8倍,延遲降低40%。

二、近內存計算的系統級創新

2.1 數據流重構范式

HBM-PIM引入?計算流式傳輸?模式,與傳統架構對比:

?傳統架構數據流?

DRAM → PHY → GDDR Bus → I/O Die → Compute Core  

?PIM架構數據流?

DRAM Bank → Local MAC → Result Aggregation → Host  

在Llama-2 7B模型測試中,該方案減少89%的片外數據搬運。

2.2 新型編程模型

三星提供SDK支持C++擴展語法:

#pragma pim_parallel  
void vec_add(int* a, int* b, int* c, int len) {  #pragma pim_for  for (int i = 0; i < len; ++i) {  c[i] = a[i] + b[i];  // 在PIM陣列執行  }  
}  

編譯器自動生成:

  • 數據分片策略?:將數組劃分為Bank對齊的塊
  • 指令調度?:并行化循環到多個AI引擎
  • 同步機制?:屏障同步確保數據一致性

三、性能實測與優化分析

3.1 典型AI負載測試

在AMD MI250X + HBM-PIM平臺上對比:
在這里插入圖片描述

3.2 關鍵優化技術

  1. 數據局部性增強?
  • 權重矩陣切片與Bank存儲對齊
  • 利用DRAM row buffer的8KB局部性?
  1. 混合精度計算?
  • FP16激活值 + INT8權重:誤差補償算法
def compensation(grad):  scale = torch.mean(torch.abs(grad))  return grad * scale / 127.0  
  1. 動態電壓調節?
  • 根據計算負載調整Bank電壓(1.2V → 0.9V)
  • 空閑Bank進入休眠狀態

四、技術挑戰與演進方向

4.1 當前技術瓶頸

  • 熱密度問題?:PIM芯片功耗密度達78W/cm2,需液冷散熱?
  • 工藝限制?:DRAM制程(20nm)落后于邏輯芯片(5nm)
  • 軟件生態?:缺乏統一編程標準,移植成本高

4.2 前沿突破方向

  1. 3D集成技術?
  • 計算層與存儲層的混合鍵合(Hybrid Bonding)
  • 硅通孔(TSV)密度提升至10^6/mm2
  1. 新型存儲介質?
  • 基于FeRAM的存算一體單元:非易失性+低漏電
  • 相變存儲器(PCM)的多值存儲特性
  1. 異構計算架構?
  • 存內計算 + 近存計算 + 存外計算的協同調度
  • 光子互連突破帶寬瓶頸

五、產業應用啟示

美光2024年發布的HBM4-PIM路線圖顯示:

  • 2025年:36層堆疊,帶寬突破2TB/s
  • 2026年:集成FPGA可編程邏輯單元
  • 2027年:支持存內訓練(In-Memory Training)

這將使大模型訓練出現顛覆性變革:

  • 萬億參數模型?的能效提升5-8倍
  • 邊緣設備?實現100B參數級推理?
  • 實時學習?成為可能

結語:架構重構的臨界點

存算一體不是簡單的技術改良,而是對計算本質的重新思考。當HBM-PIM將能效邊界推向10 TFLOPS/W,我們正站在架構革命的臨界點。這場變革的終極目標,是讓計算回歸數據本源——?在比特誕生的地方處理比特?

本文實驗數據基于Samsung Aquabolt-XL HBM-PIM實測,更多技術細節請參考ISSCC 2023論文《A 1ynm 16Gb 4.8TFLOPS/W HBM-PIM with Bank-Level Programmable AI Engines》。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/81964.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/81964.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/81964.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

藍橋杯15屆國賽 合法密碼

問題描述 小藍正在開發自己的 OJ 網站。他要求網站用戶的密碼必須符合以下條件&#xff1a; 長度大于等于 8 個字符&#xff0c;小于等于 16 個字符。必須包含至少 1 個數字字符和至少 1 個符號字符。 例如 **lanqiao2024!、-*/0601、8((>w<))8** 都是合法的密碼。 而…

Jenkins忘記admin密碼后的恢復步驟

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、pandas是什么&#xff1f;二、使用步驟 1.引入庫2.讀入數據 總結 前言 提示&#xff1a;這里可以添加本文要記錄的大概內容&#xff1a; 時間較長沒有使用…

C++ - 仿 RabbitMQ 實現消息隊列(1)(環境搭建)

C - 仿 RabbitMQ 實現消息隊列&#xff08;1&#xff09;&#xff08;環境搭建&#xff09; 什么是消息隊列核心特點核心組件工作原理常見消息隊列實現應用場景優缺點 項目配置開發環境技術選型 更換軟件源安裝一些工具安裝epel 軟件源安裝 lrzsz 傳輸工具安裝git安裝 cmake安裝…

簡單面試提問

Nosql非關系型數據庫&#xff1a; Mongodb&#xff1a;開源、json形式儲存、c編寫 Redis&#xff1a;key-value形式儲存&#xff0c;儲存在內存&#xff0c;c編寫 關系型數據庫&#xff1a; sqlite;&#xff1a;輕量型、0配置、磁盤存儲、支持多種語言 mysql&#xff1a;開源…

油氣地震資料信號處理中的NMO(正常時差校正)

油氣地震資料信號處理中的NMO&#xff08;正常時差校正&#xff09;介紹與應用 NMO基本概念 **正常時差校正&#xff08;Normal Moveout Correction&#xff0c;NMO&#xff09;**是地震資料處理中的一項關鍵技術&#xff0c;主要用于消除由于炮檢距&#xff08;source-recei…

深度解析:從 GPT-4o“諂媚”到 Deepseek“物理腔”,透視大模型行為模式的底層邏輯與挑戰

深度解析&#xff1a;從 GPT-4o“諂媚”到 AI“物理腔”&#xff0c;透視大模型行為模式的底層邏輯與挑戰 標簽&#xff1a;人工智能, GPT-4o, 大語言模型, AI倫理, 人機交互, 技術思考 大家好&#xff01;最近AI圈最火的“瓜”之一&#xff0c;莫過于OpenAI的GPT-4o模型在一…

Java引用RabbitMQ快速入門

這里寫目錄 Java發送消息給MQ消費者接收消息實現一個隊列綁定多個消費者消息推送限制 Fanout交換機路由的作用Direct交換機使用案例 Java發送消息給MQ public void testSendMessage() throws IOException, TimeoutException {// 1.建立連接ConnectionFactory factory new Conn…

從讀寫分離到分布式服務:系統架構演進十階段深度解析

第一階段到第四階段&#xff1a;架構進化四階段&#xff1a;探索單體到集群的高可用性能優化之道-CSDN博客https://blog.csdn.net/pinbodeshaonian/article/details/147464084?spm1001.2014.3001.5502 以下是對從第五階段到第十階段詳細的解釋&#xff1a; 第五階段&#xf…

Webug4.0靶場通關筆記07- 第9關反射XSS和第10關存儲XSS

目錄 第09關 反射型XSS 1.打開靶場 2.源碼分析 3.滲透實戰 第10關 存儲型XSS 1.打開靶場 2.源碼分析 3.滲透實戰 本系列為通過《Webug4.0靶場通關筆記》的滲透集合&#xff0c;本文為反射型和存儲型XSS漏洞關卡的滲透部分&#xff0c;通過對XSS關卡源碼的代碼審計找到漏…

Prometheus的安裝部署

目錄 一、概述 二、Prometheus的安裝 1、二進制方式 1.1、下載系統安裝包?編輯 1.2、解壓 1.3、創建數據目錄&#xff0c;服務運行用戶 1.4、設置為系統服務&#xff08;創建服務運行腳本&#xff09; 1.5、啟動服務&#xff0c;并通過瀏覽器訪問驗證 2、容器方式 2…

Jupyter Notebook為什么適合數據分析?

Jupyter Notebook 是一款超實用的 Web 應用程序&#xff0c;在數據科學、編程等諸多領域都發揮著重要作用。它最大的特點就是能讓大家輕松創建和共享文學化程序文檔。這里說的文學化程序文檔&#xff0c;簡單來講&#xff0c;就是把代碼、解釋說明、數學公式以及數據可視化結果…

Python清空Word段落樣式的方法

在 Python 中&#xff0c;你可以使用 python-docx 庫來操作 Word 文檔&#xff0c;包括清空段落樣式。以下是幾種清空段落樣式的方法&#xff1a; 方法一&#xff1a;直接設置段落樣式為"Normal" from docx import Documentdoc Document(your_document.docx) # 打…

macOS 上是否有類似 WinRAR 的壓縮軟件?

對于習慣使用 Windows 的用戶來說&#xff0c;WinRAR 是經典的壓縮/解壓工具&#xff0c;但 macOS 系統原生并不支持 RAR 格式的解壓&#xff0c;更無法直接使用 WinRAR。不過&#xff0c;macOS 平臺上有許多功能相似甚至更強大的替代工具&#xff0c;以下是一些推薦&#xff1…

WebRtc09:網絡基礎P2P/STUN/TURN/ICE

網絡傳輸基本知識 NATSTUN&#xff08;Session Traversal Utilities for NAT&#xff09;TURNICE NAT 產生的原因 IPV4地址不夠出于網絡安全的原因 NAT種類 完全錐型NAT(Full Cone NAT)地址限制型NAT(Address Restricted Cone NAT)端口限制型NAT(Port Restricted Cone NAT…

如何添加或刪除極狐GitLab 項目成員?

極狐GitLab 是 GitLab 在中國的發行版&#xff0c;關于中文參考文檔和資料有&#xff1a; 極狐GitLab 中文文檔極狐GitLab 中文論壇極狐GitLab 官網 項目成員 (BASIC ALL) 成員是有權訪問您的項目的用戶和群組。 每個成員都有一個角色&#xff0c;這決定了他們在項目中可以…

用單目相機和apriltag二維碼aruco實現單目定位

目錄 一、核心流程與代碼框架 1. ?環境準備? 2. ?ArUco定位實現 3. ?AprilTag定位實現&#xff08;需額外安裝Apriltag庫&#xff09; 二、關鍵優化點 1?.亞像素角點優化 2? 多標簽聯合定位 三、性能指標&#xff08;實測&#xff09; 四、常見問題 ?檢測失敗…

tinyrenderer筆記(透視矯正)

tinyrenderer個人代碼倉庫&#xff1a;tinyrenderer個人練習代碼 引言 還要從上一節知識說起&#xff0c;在上一節中我為了調試代碼&#xff0c;換了一個很簡單的正方形 obj 模型&#xff0c;配上紋理貼圖與法線貼圖進行渲染&#xff0c;得了下面的結果&#xff1a; what&…

MySQL的內置函數與復雜查詢

目錄 前言 一、聚合函數 1.1日期函數 1.2字符串函數 1.3數學函數 1.4其它函數 二、關鍵字周邊 2.1關鍵字的生效順序 2.2數據源 2.3可以使用聚合函數的關鍵字 前言 在前面幾篇文章中&#xff0c;講解了有關MySQL數據庫、數據庫表的創建、數據庫表的數據操作等等。本文我…

見多識廣4:Buffer與Cache,神經網絡加速器的Buffer

目錄 前言傳統意義上的Buffer與Cache一言以蔽之定義與主要功能BufferCache 數據存儲策略二者對比 神經網絡加速器的bufferInput BufferWeight BufferOutput Buffer與傳統buffer的核心區別總結 前言 知識主要由Qwen和Kimi提供&#xff0c;我主要做筆記。 參考文獻&#xff1a; …

內存的位運算

示例&#xff1a;提取和設置標志位 假設我們有一個32位的整數&#xff0c;其中不同的位代表不同的標志。例如&#xff1a; 位0&#xff1a;是否開啟日志&#xff08;0表示關閉&#xff0c;1表示開啟&#xff09; 位1&#xff1a;是否啟用調試模式&#xff08;0表示禁用&#…