引言:突破"內存墻"的物理革命
馮·諾依曼架構的"存儲-計算分離"設計正面臨根本性挑戰——在GPT-4等萬億參數模型中,數據搬運能耗已達計算本身的200倍。存算一體(Processing-In-Memory, PIM)技術通過?在存儲介質內部集成計算單元?,開辟了突破"內存墻"的新路徑。本文將聚焦三星HBM-PIM設計,解析近內存計算如何重塑AI加速器的能效邊界。
一、HBM-PIM架構的顛覆性設計
1.1 傳統HBM與PIM架構對比
三星2021年發布的HBM-PIM芯片在DRAM Bank中植入?可編程AI引擎?:
?關鍵創新點?:
- Bank級計算單元?:每個DRAM Bank集成16個INT16 MAC單元
- 指令緩存優化?:支持SIMD指令的本地解碼與調度
- 數據通路重構?:消除傳統架構中的PHY接口瓶頸
1.2 芯片級架構解析
HBM-PIM的3D堆疊設計包含核心組件:
┌───────────────────────┐
│ Host Interface Layer │
├───────────────────────┤
│ Buffer Chip │
│ (TSV Interposer) │
├───────────────────────┤
│ DRAM Layer │
│ ┌───────┬───────┐ │
│ │ Bank 0│ Bank 1│ ...│
│ │ MAC │ MAC │ │
│ └───────┴───────┘ │
└───────────────────────┘
每個Bank內的AI引擎可并行執行:
// HBM-PIM指令流水線示例
always @(posedge clk) begin if (cmd_decoder == MAC_OP) begin // 從本地row buffer讀取數據 operand_a = row_buf[addr_a]; operand_b = row_buf[addr_b]; // 執行乘累加 mac_result <= operand_a * operand_b + mac_accumulator; // 結果寫回指定row row_buf[addr_c] <= mac_result[31:16]; end
end
該設計使ResNet-50的推理能效提升2.8倍,延遲降低40%。
二、近內存計算的系統級創新
2.1 數據流重構范式
HBM-PIM引入?計算流式傳輸?模式,與傳統架構對比:
?傳統架構數據流?:
DRAM → PHY → GDDR Bus → I/O Die → Compute Core
?PIM架構數據流?:
DRAM Bank → Local MAC → Result Aggregation → Host
在Llama-2 7B模型測試中,該方案減少89%的片外數據搬運。
2.2 新型編程模型
三星提供SDK支持C++擴展語法:
#pragma pim_parallel
void vec_add(int* a, int* b, int* c, int len) { #pragma pim_for for (int i = 0; i < len; ++i) { c[i] = a[i] + b[i]; // 在PIM陣列執行 }
}
編譯器自動生成:
- 數據分片策略?:將數組劃分為Bank對齊的塊
- 指令調度?:并行化循環到多個AI引擎
- 同步機制?:屏障同步確保數據一致性
三、性能實測與優化分析
3.1 典型AI負載測試
在AMD MI250X + HBM-PIM平臺上對比:
3.2 關鍵優化技術
- 數據局部性增強?
- 權重矩陣切片與Bank存儲對齊
- 利用DRAM row buffer的8KB局部性?
- 混合精度計算?
- FP16激活值 + INT8權重:誤差補償算法
def compensation(grad): scale = torch.mean(torch.abs(grad)) return grad * scale / 127.0
- 動態電壓調節?
- 根據計算負載調整Bank電壓(1.2V → 0.9V)
- 空閑Bank進入休眠狀態
四、技術挑戰與演進方向
4.1 當前技術瓶頸
- 熱密度問題?:PIM芯片功耗密度達78W/cm2,需液冷散熱?
- 工藝限制?:DRAM制程(20nm)落后于邏輯芯片(5nm)
- 軟件生態?:缺乏統一編程標準,移植成本高
4.2 前沿突破方向
- 3D集成技術?:
- 計算層與存儲層的混合鍵合(Hybrid Bonding)
- 硅通孔(TSV)密度提升至10^6/mm2
- 新型存儲介質?:
- 基于FeRAM的存算一體單元:非易失性+低漏電
- 相變存儲器(PCM)的多值存儲特性
- 異構計算架構?:
- 存內計算 + 近存計算 + 存外計算的協同調度
- 光子互連突破帶寬瓶頸
五、產業應用啟示
美光2024年發布的HBM4-PIM路線圖顯示:
- 2025年:36層堆疊,帶寬突破2TB/s
- 2026年:集成FPGA可編程邏輯單元
- 2027年:支持存內訓練(In-Memory Training)
這將使大模型訓練出現顛覆性變革:
- 萬億參數模型?的能效提升5-8倍
- 邊緣設備?實現100B參數級推理?
- 實時學習?成為可能
結語:架構重構的臨界點
存算一體不是簡單的技術改良,而是對計算本質的重新思考。當HBM-PIM將能效邊界推向10 TFLOPS/W,我們正站在架構革命的臨界點。這場變革的終極目標,是讓計算回歸數據本源——?在比特誕生的地方處理比特?。
本文實驗數據基于Samsung Aquabolt-XL HBM-PIM實測,更多技術細節請參考ISSCC 2023論文《A 1ynm 16Gb 4.8TFLOPS/W HBM-PIM with Bank-Level Programmable AI Engines》。