落霞歸雁:從自然之道到“存內計算”——用算法思維在芯片里開一條“數據高速航道”

作者
落霞歸雁(CSDN首發,轉載請注明)

段落一 · 現象:當“摩爾”老去,數據卻在狂奔

過去 30 年,CPU 頻率翻了 60 倍,而 DRAM 帶寬只翻了 20 倍。算力與帶寬的剪刀差,讓“計算”變成“等數據”。

以推薦系統為例,一次用戶點擊要跨 3 級緩存、4 次內存、2 次網絡,延遲 200 μs;其中 70 % 時間花在“把數據搬到 ALU”。

落霞歸雁的觀察——自然界的能量傳遞遵循“最小作用量原理”,信息也該如此:讓數據就地生長,而不是跋山涉水。

段落二 · 規律:存內計算為何是“下一道洋流”

  1. 技術規律:SRAM/DRAM 工藝演進,讓“存儲單元 + 計算單元”單片共存成為現實。
  2. 算法規律:矩陣乘、卷積、圖遍歷的 80 % 訪存模式呈局部可預測,天然適合“near-data computing”。
  3. 商業規律:每降低 1 % 的 DRAM 訪問,云廠商可節省 0.5 % 總擁有成本(TCO),對應全球百億美金市場。

段落三 · 應用:一條 3 mm2 的“算法高速公路”

案例:得物推薦精排模型 neuron-csprd-r-tr-rel-cvr-v20-s6,原在 CPU 上特征解析占用 61 % 時間,其中 18 % 是純浮點轉換。
? 算法設計:把 Double.parseDouble 的逐字符解析改為基于 Ryu 算法的查表+并行前綴計算,復雜度 O(n) → O(1)。

? 存內實現:在 SRAM bank 內嵌入 4-bit 查找表 + 8-bit 加法樹,面積 0.2 mm2,功耗 < 5 mW。

性能結果:
? CPU 時間從 18 % → 0.19 %,RT 降低 25 %,節省 50 % 服務器。
? 若全量部署存內計算,可再省一次 DDR 訪問,理論 RT 再降 20 %。

段落四 · 創新:把“動態規劃”搬進 SRAM

子問題:大規模管網的最優壓縮機控制是典型高維 DP,狀態爆炸導致內存墻。
? 算法創新:

1.用近似動態規劃(ADP)將狀態空間從 10^6 壓縮到 10^3;

2.在 SRAM 內做“狀態-動作”查表 + 線性插值,訪存次數由 10^4 次/決策降到 1 次。

? 行業落地:某天然氣集團 2 年省下 20 億元電費,壓縮機啟停次數下降 30 %。

段落五 · 實戰:從 0 到 1 的 6 步落地模板

  1. 觀察現象:用 eBPF 跟蹤系統調用,把“熱點指令 → 訪存模式”畫成熱力圖。
  2. 找規律:統計 7 天線上流量,發現 92 % 的矩陣乘尺寸落在 {64,128,256} 三檔。
  3. 理論應用:把 GEMM 拆成 Winograd + Im2Col,計算密度提升 4×,適配 SRAM 帶寬。
  4. 實踐驗證:
    ? RTL 級仿真:吞吐 2 TOPS/W,面積 3 mm2;
    ? FPGA 灰度:延遲從 320 μs → 45 μs;
    ? A/B 上線:CTR +3.7 %,服務器縮容 40 %。

段落六 · 職業地圖:誰在為“算法+芯片”搭橋

? 算法芯片協同設計工程師(Algorithm-Silicon Co-design)
? 性能架構師(Perf Architect)
? 存內計算 RTL 設計專家(In-Memory Compute Designer)
? 領域專用編譯器工程師(DSL Compiler)
? 業務增長數據科學家(Growth DS)

段落七 · 長期主義:讓算法像樹一樣生長

落霞歸雁始終相信:技術演進不是“替代”,而是“共生”。

存內計算不會消滅 CPU,而是把 80 % 的低熵計算下沉到存儲;CPU 則專注高熵決策。

正如森林里的光,被樹葉層層過濾,最終落在最適合的地方。算法、芯片、業務,三者也將在“最小作用量”的自然律下,找到各自的光斑。

附錄 · 代碼片段(Verilog,節選)
module dp_ram_lut #(
parameter ADDR_WIDTH = 10,
parameter DATA_WIDTH = 16
)(
input wire clk,
input wire [ADDR_WIDTH-1:0] addr,
input wire [DATA_WIDTH-1:0] din,
input wire we,
output reg [DATA_WIDTH-1:0] dout
);
always @(posedge clk) begin
if (we) mem[addr] <= din;
dout <= mem[addr];
end
reg [DATA_WIDTH-1:0] mem [0:(1<<ADDR_WIDTH)-1];
endmodule

致謝
感謝得物技術團隊、UCL RC18 課題組、某天然氣集團算法部提供真實數據與反饋。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92078.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92078.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92078.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

StyleX:Meta推出的高性能零運行時CSS-in-JS解決方案

簡介 StyleX 是由 Meta 開發的零運行時 CSS-in-JS 解決方案&#xff0c;在構建時將樣式編譯為靜態 CSS&#xff0c;消除運行時開銷。 核心特性 零運行時開銷 – 構建時編譯為靜態 CSS類型安全 – 完整的 TypeScript 支持原子化 CSS – 自動生成原子化類名&#xff0c;最小化…

LINUX 85 SHElL if else 前瞻 實例

問題 判斷用戶是否存在 id user id $user變量判斷vsftpd軟件包被安裝 rpm -q vsftpd rpm -ql vsftpd >& null[rootweb ~]# rpm -ql vsftpd >/dev/null 2>&1 您在 /var/spool/mail/root 中有郵件yum install vsftpd 內核主版本判斷 uname -rcut -d[rootweb ~]#…

2025 年非關系型數據庫全面指南:類型、優勢

非關系型數據庫的分類與特點隨著數據量呈指數級增長和數據類型日益多樣化&#xff0c;傳統關系型數據庫在處理海量非結構化數據時面臨著嚴峻挑戰。非關系型數據庫&#xff08;NoSQL&#xff09;應運而生&#xff0c;它摒棄了傳統關系模型的約束&#xff0c;采用更靈活的數據存儲…

深度殘差網絡ResNet結構

Deep Residual Learning for Image Recognition&#xff0c;由Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun于2016年發表在CVPR上 1512.03385 (arxiv.org)https://arxiv.org/pdf/1512.03385 下圖中&#xff0c;左側為VGG19網絡&#xff0c;中間為34層的普通網絡&#xf…

python筆記--socket_TCP模擬瀏覽器實現

""" 1,導包 2,創建TCP套接字 3,建立連接 4,拼接客戶端請求報文 5,發送請求報文 6,接收響應報文 7,過濾出html頁面 8,保存為html文件 9,關閉套接字 """ # 1,導包 import socket # 2,創建TCP套接字 tcp_socketsocket.socket(socket.AF_INET,socket…

西門子PLC基礎指令4:置位指令 S、復位指令 R

布爾指令 1、置位指令 S Setbit 是要進行置位操作的地址的首地址&#xff0c;N 是從該首地址開始連續置位的位數 。 LD I0.0 // 裝載輸入繼電器I0.0的狀態&#xff08;當I0.0為ON時&#xff0c;執行后續指令&#xff09; S Q0.0, 3 // 從Q0.0開始&#xff0c;連續置位3…

2.3 子組件樣式沖突詳解

Vue2組件樣式沖突的成因與解決方案組件樣式沖突的根本原因在Vue單頁面應用中&#xff0c;所有組件的DOM結構最終都會合并到同一個index.html 頁面中。若子組件未使用scoped屬性&#xff0c;其樣式會默認全局生效&#xff0c;導致不同組件中相同選擇器&#xff08;如h1、.contai…

26-數據倉庫與Apache Hive

1.數據倉庫 是什么&#xff1f;解決什么&#xff1f;1.1 數據倉庫Data Warehouse 數倉 / DW 是一個用于存儲、分析、報告的數據系統.目的&#xff1a;構建面向分析的集成數據環境&#xff0c;分析結構為企業提供決策支持。數倉專注于分析數倉本身不“”生產“”數據&#xff0c…

前端開發技術教學(二)

書接上回&#xff1a;前端開發技術教學(一) -CSDN博客 必要資源&#xff1a;TRAE - The Real AI Engineer 目錄 一) 自定義函數 - function 二) DOM操控 DOM事件 a.) onclick b.) onkeydown 三) AI寫代碼 書接上回說到的前端3種主語言以及其用法&#xff0c;這期我們…

設計模式 - 組合模式:用樹形結構處理對象之間的復雜關系

文章目錄一、引言二、模式原理分析三、代碼示例四、核心要點五、使用場景分析六、案例七、為何使用組合模式&#xff1f;八、優缺點剖析九、最佳實踐建議十、總結一、引言 “組合模式”&#xff08;Composite Pattern&#xff09;常被誤解為“組合關系”。前者專注于將對象組合…

STM32U575低功耗調試

開啟了MSIK時鐘導致功耗變高在stop2模式下, 整體板子25.41uA; 如果在standby模式, 整體板子5uA;如果在stop2模式, 并且把LPTIM3,4選擇的時鐘是MSIK, 整體功耗53.59uA2.stanby模式板子整體5uA調試的時候, 可以讓板子進入standby模式, 如果電流很小, 可以證明板子沒有漏電(圖畫錯…

基于ARM+FPGA多通道超聲信號采集與傳輸系統設計

針對超聲信號采集系統在多通道同步采集和高速數據傳輸所面臨的挑戰,設計并實現了一種 基于 FPGA 的8通道超聲信號同步采集與傳輸系統。系統以FPGA 作為主控芯片,ADI公司的 AD9279作 為8通道超聲信號同步采集的模擬前端和模數轉換芯片,通過 DDR3SDRAM 及 USB3.0實現數據緩存和 高…

計算機網絡:為什么IPv6沒有選擇使用點分十進制

IPv6沒有采用點分十進制(如IPv4的192.168.1.1),核心原因是其地址長度、設計目標與表示需求和IPv4存在本質差異,而冒號分十六進制(如2001:0db8:85a3:0000:0000:8a2e:0370:7334)是更適配其特性的選擇。具體可從以下幾個角度分析: 一、地址長度差異:點分十進制無法適配12…

HBM Basic(VCU128)

目錄 1. 簡介 1.1 硬件平臺 1.2 圖片 2. 硬件信息 2.1 Vivado Basic 2.1.1 GPIO 2.1.2 Clock Sources 2.1.3 Reset 2.1.4 Flash 2.1.5 燒寫報錯 2.2 PCIe simple 2.2.1 Block Design 2.2.2 XDMA 2.3 PCIe HBM 2.3.1 Block Design 2.3.2 HBM IP 3. HBM 知識 3…

Mybatis的應用及部分特性

初識MybatisMybatis的概念MyBatis 是一個Java 持久層框架&#xff0c;核心作用是簡化數據庫操作&#xff0c;把 SQL 和 Java 代碼解耦。ORM框架MyBatis是一個ORM 框架所謂ORM 框架&#xff0c;就是把數據庫里的表、字段、關系&#xff0c;映射成編程語言里的類、屬性、對象引用…

使用Jeecg低代碼平臺實現計劃管控系統建設方案--2平臺學習

1.前后端列表練習 前端頁面下的views下的system下的基本都是系統管理的東西。 在system下新建一個目錄edu。 index基本就是列表頁面。 modal就是新增編輯彈窗。 api就是接口。 data就是列配置。 一些組件的使用可以參考官方文檔&#xff0c;help.jeecg.com。 在創建一個…

調試|谷歌瀏覽器調試長連接|調試SSE和websocket

長連接需求不常有&#xff0c;控制臺調試的細節容易忘&#xff0c;在這截圖備忘。本文會記錄SSE、websocket連接、普通接口 在谷歌瀏覽器控制臺的對比 文章目錄SSE&#xff08;Server-Sent Events&#xff09;觀察對象&#xff1a;百度翻譯觀察請求頭和響應頭觀察EventStream觀…

VS2019 Qt5.14.2 OpenCV4.4.0 全流程安裝及開發環境搭建與配置(工業相機環境配置)

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄前言Visual Studio 2019 安裝步驟項目配置驗證Qt 5.14.2 安裝步驟項目配置驗證Visual Studio Qt 拓展&#xff08;確定項目后&#xff09;OpenCV 4.4.0 安裝步驟項目…

正確配置jdk環境但IntelliJ IDEA無法啟動

現象&#xff1a;今天突然發現開發工具雙擊沒有正常啟動&#xff0c;之前是用著的。問題排查&#xff1a;是否是因為jdk環境變量導致的&#xff0c;之前安裝過安卓的開發環境也修改過環境變量。步驟一&#xff1a;cmd輸入java -version 或javac&#xff0c;如圖沒有反應步驟二&…

ubuntu-server安裝

1.下載系統鏡像&#xff1a; 阿里云鏡像站下載服務器鏡像 https://mirrors.aliyun.com/ubuntu-releases/24.04/ubuntu-24.04.2-live-server-amd64.iso 1.創建新的虛擬機 按住鍵盤ctrl n 打開虛擬機創建界面 用光標選擇對應語言沒有中文哈 然后回車確認 設置計算機名、用戶名…