作者
落霞歸雁(CSDN首發,轉載請注明)
段落一 · 現象:當“摩爾”老去,數據卻在狂奔
過去 30 年,CPU 頻率翻了 60 倍,而 DRAM 帶寬只翻了 20 倍。算力與帶寬的剪刀差,讓“計算”變成“等數據”。
以推薦系統為例,一次用戶點擊要跨 3 級緩存、4 次內存、2 次網絡,延遲 200 μs;其中 70 % 時間花在“把數據搬到 ALU”。
落霞歸雁的觀察——自然界的能量傳遞遵循“最小作用量原理”,信息也該如此:讓數據就地生長,而不是跋山涉水。
段落二 · 規律:存內計算為何是“下一道洋流”
- 技術規律:SRAM/DRAM 工藝演進,讓“存儲單元 + 計算單元”單片共存成為現實。
- 算法規律:矩陣乘、卷積、圖遍歷的 80 % 訪存模式呈局部可預測,天然適合“near-data computing”。
- 商業規律:每降低 1 % 的 DRAM 訪問,云廠商可節省 0.5 % 總擁有成本(TCO),對應全球百億美金市場。
段落三 · 應用:一條 3 mm2 的“算法高速公路”
案例:得物推薦精排模型 neuron-csprd-r-tr-rel-cvr-v20-s6,原在 CPU 上特征解析占用 61 % 時間,其中 18 % 是純浮點轉換。
? 算法設計:把 Double.parseDouble 的逐字符解析改為基于 Ryu 算法的查表+并行前綴計算,復雜度 O(n) → O(1)。
? 存內實現:在 SRAM bank 內嵌入 4-bit 查找表 + 8-bit 加法樹,面積 0.2 mm2,功耗 < 5 mW。
性能結果:
? CPU 時間從 18 % → 0.19 %,RT 降低 25 %,節省 50 % 服務器。
? 若全量部署存內計算,可再省一次 DDR 訪問,理論 RT 再降 20 %。
段落四 · 創新:把“動態規劃”搬進 SRAM
子問題:大規模管網的最優壓縮機控制是典型高維 DP,狀態爆炸導致內存墻。
? 算法創新:
1.用近似動態規劃(ADP)將狀態空間從 10^6 壓縮到 10^3;
2.在 SRAM 內做“狀態-動作”查表 + 線性插值,訪存次數由 10^4 次/決策降到 1 次。
? 行業落地:某天然氣集團 2 年省下 20 億元電費,壓縮機啟停次數下降 30 %。
段落五 · 實戰:從 0 到 1 的 6 步落地模板
- 觀察現象:用 eBPF 跟蹤系統調用,把“熱點指令 → 訪存模式”畫成熱力圖。
- 找規律:統計 7 天線上流量,發現 92 % 的矩陣乘尺寸落在 {64,128,256} 三檔。
- 理論應用:把 GEMM 拆成 Winograd + Im2Col,計算密度提升 4×,適配 SRAM 帶寬。
- 實踐驗證:
? RTL 級仿真:吞吐 2 TOPS/W,面積 3 mm2;
? FPGA 灰度:延遲從 320 μs → 45 μs;
? A/B 上線:CTR +3.7 %,服務器縮容 40 %。
段落六 · 職業地圖:誰在為“算法+芯片”搭橋
? 算法芯片協同設計工程師(Algorithm-Silicon Co-design)
? 性能架構師(Perf Architect)
? 存內計算 RTL 設計專家(In-Memory Compute Designer)
? 領域專用編譯器工程師(DSL Compiler)
? 業務增長數據科學家(Growth DS)
段落七 · 長期主義:讓算法像樹一樣生長
落霞歸雁始終相信:技術演進不是“替代”,而是“共生”。
存內計算不會消滅 CPU,而是把 80 % 的低熵計算下沉到存儲;CPU 則專注高熵決策。
正如森林里的光,被樹葉層層過濾,最終落在最適合的地方。算法、芯片、業務,三者也將在“最小作用量”的自然律下,找到各自的光斑。
附錄 · 代碼片段(Verilog,節選)
module dp_ram_lut #(
parameter ADDR_WIDTH = 10,
parameter DATA_WIDTH = 16
)(
input wire clk,
input wire [ADDR_WIDTH-1:0] addr,
input wire [DATA_WIDTH-1:0] din,
input wire we,
output reg [DATA_WIDTH-1:0] dout
);
always @(posedge clk) begin
if (we) mem[addr] <= din;
dout <= mem[addr];
end
reg [DATA_WIDTH-1:0] mem [0:(1<<ADDR_WIDTH)-1];
endmodule
致謝
感謝得物技術團隊、UCL RC18 課題組、某天然氣集團算法部提供真實數據與反饋。