存算一體架構下的新型AI加速范式：從Samsung HBM-PIM看近內存計算趨勢

引言：突破"內存墻"的物理革命

馮·諾依曼架構的"存儲-計算分離"設計正面臨根本性挑戰——在GPT-4等萬億參數模型中，數據搬運能耗已達計算本身的200倍。存算一體（Processing-In-Memory, PIM）技術通過?在存儲介質內部集成計算單元?，開辟了突破"內存墻"的新路徑。本文將聚焦三星HBM-PIM設計，解析近內存計算如何重塑AI加速器的能效邊界。

一、HBM-PIM架構的顛覆性設計

1.1 傳統HBM與PIM架構對比

三星2021年發布的HBM-PIM芯片在DRAM Bank中植入?可編程AI引擎?：
在這里插入圖片描述
?關鍵創新點?：

Bank級計算單元?：每個DRAM Bank集成16個INT16 MAC單元
指令緩存優化?：支持SIMD指令的本地解碼與調度
數據通路重構?：消除傳統架構中的PHY接口瓶頸

1.2 芯片級架構解析

HBM-PIM的3D堆疊設計包含核心組件：

┌───────────────────────┐  
│  Host Interface Layer │  
├───────────────────────┤  
│  Buffer Chip          │  
│  (TSV Interposer)     │  
├───────────────────────┤  
│  DRAM Layer           │  
│  ┌───────┬───────┐    │  
│  │ Bank 0│ Bank 1│ ...│  
│  │  MAC  │  MAC  │    │  
│  └───────┴───────┘    │  
└───────────────────────┘

每個Bank內的AI引擎可并行執行：


// HBM-PIM指令流水線示例  
always @(posedge clk) begin  if (cmd_decoder == MAC_OP) begin  // 從本地row buffer讀取數據  operand_a = row_buf[addr_a];  operand_b = row_buf[addr_b];  // 執行乘累加  mac_result <= operand_a * operand_b + mac_accumulator;  // 結果寫回指定row  row_buf[addr_c] <= mac_result[31:16];  end  
end

該設計使ResNet-50的推理能效提升2.8倍，延遲降低40%。

二、近內存計算的系統級創新

2.1 數據流重構范式

HBM-PIM引入?計算流式傳輸?模式，與傳統架構對比：

?傳統架構數據流?：

DRAM → PHY → GDDR Bus → I/O Die → Compute Core

?PIM架構數據流?：

DRAM Bank → Local MAC → Result Aggregation → Host

在Llama-2 7B模型測試中，該方案減少89%的片外數據搬運。

2.2 新型編程模型

三星提供SDK支持C++擴展語法：

#pragma pim_parallel  
void vec_add(int* a, int* b, int* c, int len) {  #pragma pim_for  for (int i = 0; i < len; ++i) {  c[i] = a[i] + b[i];  // 在PIM陣列執行  }  
}

編譯器自動生成：

數據分片策略?：將數組劃分為Bank對齊的塊
指令調度?：并行化循環到多個AI引擎
同步機制?：屏障同步確保數據一致性

三、性能實測與優化分析

3.1 典型AI負載測試

在AMD MI250X + HBM-PIM平臺上對比：
在這里插入圖片描述

3.2 關鍵優化技術

數據局部性增強?

權重矩陣切片與Bank存儲對齊
利用DRAM row buffer的8KB局部性?

混合精度計算?

FP16激活值 + INT8權重：誤差補償算法

def compensation(grad):  scale = torch.mean(torch.abs(grad))  return grad * scale / 127.0

動態電壓調節?

根據計算負載調整Bank電壓（1.2V → 0.9V）
空閑Bank進入休眠狀態

四、技術挑戰與演進方向

4.1 當前技術瓶頸

熱密度問題?：PIM芯片功耗密度達78W/cm2，需液冷散熱?
工藝限制?：DRAM制程（20nm）落后于邏輯芯片（5nm）
軟件生態?：缺乏統一編程標準，移植成本高

4.2 前沿突破方向

3D集成技術?：

計算層與存儲層的混合鍵合（Hybrid Bonding）
硅通孔（TSV）密度提升至10^6/mm2

新型存儲介質?：

基于FeRAM的存算一體單元：非易失性+低漏電
相變存儲器（PCM）的多值存儲特性

異構計算架構?：

存內計算 + 近存計算 + 存外計算的協同調度
光子互連突破帶寬瓶頸

五、產業應用啟示

美光2024年發布的HBM4-PIM路線圖顯示：

2025年：36層堆疊，帶寬突破2TB/s
2026年：集成FPGA可編程邏輯單元
2027年：支持存內訓練（In-Memory Training）

這將使大模型訓練出現顛覆性變革：

萬億參數模型?的能效提升5-8倍
邊緣設備?實現100B參數級推理?
實時學習?成為可能

結語：架構重構的臨界點

存算一體不是簡單的技術改良，而是對計算本質的重新思考。當HBM-PIM將能效邊界推向10 TFLOPS/W，我們正站在架構革命的臨界點。這場變革的終極目標，是讓計算回歸數據本源——?在比特誕生的地方處理比特?。

本文實驗數據基于Samsung Aquabolt-XL HBM-PIM實測，更多技術細節請參考ISSCC 2023論文《A 1ynm 16Gb 4.8TFLOPS/W HBM-PIM with Bank-Level Programmable AI Engines》。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/81964.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/81964.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/81964.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！