存算一體:重構AI計算的革命性技術(1)

存算一體:重構AI計算的革命性技術

一、從存儲墻到存算一體:計算架構的百年變革

1.1 馮·諾依曼架構的困境與突破

在計算機發展的歷史長河中,存儲與計算的分離一直是制約性能提升的關鍵瓶頸。1945年,計算機科學家馮·諾依曼提出了現代計算機的基本架構,將數據存儲和計算單元分離,通過總線進行數據傳輸。這一架構奠定了現代計算機的基礎,但也帶來了"存儲墻"(Memory Wall)和"功耗墻"(Power Wall)的問題。在傳統架構中,數據需要在存儲單元和計算單元之間頻繁搬運,這一過程消耗了大量時間和能量,尤其在處理大規模數據時,數據搬運的能耗甚至超過計算本身的能耗。

隨著人工智能技術的爆發式發展,傳統架構的局限性愈發明顯。AI計算需要處理海量數據,尤其是深度學習中的神經網絡模型,其參數數量呈指數級增長。以GPT-3為例,其訓練一次消耗的算力高達3640 PF-days,相當于約17500塊英偉達V100 GPU全年不停運算。在這種情況下,數據搬運造成的延遲和能耗成為制約AI算力提升的主要障礙。

存算一體(Computing-in-Memory,CIM)技術正是為解決這一困境而誕生的革命性架構。它打破了傳統馮·諾依曼架構的桎梏,將計算單元直接嵌入存儲芯片內部,使數據無需遠距離搬運即可就地處理,大幅降低延遲、削減功耗,為AI芯片發展開辟了全新路徑。

1.2 存算一體技術的起源與演進

存算一體技術的思想最早可追溯至20世紀80年代。當時,研究人員開始探索將計算功能融入存儲單元的可能性,但受限于當時的技術條件,這一想法并未得到廣泛應用。隨著半導體工藝的進步和人工智能需求的激增,存算一體技術重新受到學術界和產業界的關注。

2012年,美國密歇根大學的研究團隊在模擬計算領域取得突破,開發了基于閃存的模擬矩陣處理器原型,為存算一體技術奠定了基礎。同年,Mythic公司在美國成立,專注于開發模擬內存計算技術和模擬矩陣處理器,成為早期存算一體領域的重要開拓者。

2016年,英特爾公司聯合美國密歇根州立大學開始基于SRAM的計算型存儲/存算一體技術研究,發布了支持邏輯操作的存儲器,并在此基礎上實現了支持無進位乘法運算的計算型緩存。這一階段的研究主要集中在學術領域,尚未形成產業化。

2018年,深圳九天睿芯科技有限公司在劉洪杰博士的帶領下成立,專注于存算一體芯片的研發,標志著中國在這一領域的積極布局。同年,知存科技在北京成立,開始了存算一體技術的產品化探索。

2021年被視為中國存算一體產業化元年。2022年3月,知存科技正式量產了國際首顆存內計算SoC芯片WTM2101并推向市場,標志著存算一體技術從實驗室走向商業化應用。同年,Mythic推出了其首款商業芯片M1076,該芯片集成了76個AMP塊,可存儲多達80M的數據,無需任何外部存儲器即可執行矩陣乘法運算,并向洛克希德馬丁公司等知名客戶發貨。

2023年,后摩智能宣布完成了由現有投資者Atreides Management、DCVC和Lux Capital以及新投資者Catapult Ventures和Hermann Hauser Investment牽頭的1300萬美元融資,這筆資金將使其能夠將下一代產品——改進的節能人工智能處理器M2000推向市場。

2025年,隨著AI大模型的爆發式增長,存算一體技術迎來了發展的黃金期。各大廠商紛紛推出新一代產品,如后摩智能發布了即將在2025年第四季度量產的端邊大模型AI芯片——后摩漫界M50,這是一款單芯片就能運行百億參數大模型的存算一體芯片。

1.3 存算一體技術的現狀與競爭格局

目前,全球存算一體芯片市場正處于快速發展階段。根據相關預測,全球存算一體芯片市場將從2022年的163億美元增長至2028年的413億美元,年復合增長率16.6%,中國市場占比將超過40%,成為全球創新中心。

在競爭格局方面,全球范圍內形成了中美兩國主導的局面。美國以Mythic、Intel等公司為代表,中國則有知存科技、后摩智能、九天睿芯等一批創新企業。此外,三星、SK海力士等韓國企業也在積極布局這一領域。

中國存算一體芯片企業在政策和基金的雙重助力下,發展尤為迅速。從2021年開始,中國半導體產業政策和基金對存算一體領域的支持力度不斷加大,多家初創企業獲得上億元融資。發展存算一體芯片對于中國突破國外先進工藝封鎖,實現芯片產業"彎道超車"有著重要意義。

在技術路線上,目前主要有基于SRAM、DRAM和非易失性存儲器(如MRAM、PCM、RRAM等)的多種存算一體技術路線。其中,基于SRAM的存算一體芯片具有速度快、功耗低的優勢,但存儲密度相對較低;基于DRAM的方案可以實現較高的存儲密度,但需要解決刷新問題;非易失性存儲器則在待機功耗方面表現優異,適合對功耗敏感的應用場景。

IEEE正在制定《存算一體系統接口規范》,預計2026年發布,這將有助于統一存儲-計算協同協議,推動存算一體技術的標準化發展。

二、存算一體技術的理論基礎與工作原理

2.1 存算一體的理論背景

存算一體技術的理論基礎源于對馮·諾依曼架構局限性的深刻理解。在傳統馮·諾依曼架構中,計算單元(如CPU、GPU)與存儲單元(如DRAM)之間的物理分離導致了數據傳輸的瓶頸,即所謂的"馮·諾依曼瓶頸"。隨著半導體工藝的進步,處理器性能每年以約55%的速度增長,而內存性能僅以每年大約10%的速度提升,這種不均衡的發展速度導致存儲速度嚴重滯后于處理器的計算速度。

在AI計算中,這一瓶頸尤為明顯。以深度學習為例,神經網絡的訓練和推理過程涉及大量的矩陣乘法和累加操作。在傳統架構下,數據需要在內存和處理器之間頻繁傳輸,這一過程消耗了大量時間和能量。據研究,數據搬運功耗可達計算功耗的千倍,嚴重拖慢整體運算效率。

存算一體技術的核心思想是"數據不動計算動",通過將計算單元嵌入存儲單元內部,使數據無需遠距離搬運即可就地處理,從而徹底消除馮諾依曼計算架構的瓶頸,尤其適用于大數據量和大規模并行的應用場景,如深度學習神經網絡。

從理論上看,存算一體技術可以實現三個方面的突破:

  1. 性能突破:通過減少數據傳輸延遲,提高計算效率。
  2. 能效突破:降低數據搬運帶來的能耗,提高能效比。
  3. 架構突破:打破傳統存儲與計算分離的架構限制,為AI計算提供更高效的硬件支持。

2.2 存算一體的工作原理

存算一體技術的工作原理可以從硬件架構和計算流程兩個方面來理解。

在硬件架構方面,存算一體芯片的基本組成單元是存算陣列。以基于SRAM的存算一體芯片為例,其基本結構是將傳統的存儲單元(如6T SRAM單元)進行改造,使其能夠執行簡單的計算操作。例如,可以通過在存儲單元的位線上添加運算放大器,實現多個存儲單元數據的并行加法運算。

對于基于非易失性存儲器的存算一體芯片,如RRAM(憶阻器),其工作原理更為巧妙。憶阻器是一種具有記憶功能的非線性電阻元件,其電阻值可以根據流經的電流量而改變,并保持在一定的狀態。在存算一體架構中,憶阻器不僅可以存儲數據(通過不同的電阻值表示0和1),還可以直接執行矩陣乘法運算。具體來說,輸入向量通過憶阻器陣列時,每個憶阻器的電阻值與輸入電壓相乘,產生相應的電流,這些電流在輸出端累加,即可得到矩陣乘法的結果。

在計算流程方面,存算一體芯片采用了與傳統處理器完全不同的工作模式。以深度學習推理為例,傳統GPU需要將神經網絡的權重從內存加載到計算單元,然后將輸入數據也加載到計算單元進行矩陣乘法運算。而存算一體芯片則將神經網絡的權重直接存儲在存算陣列中,輸入數據通過存算陣列時,計算與存儲同時進行,直接在存儲單元內部完成矩陣乘法,大大減少了數據搬運的開銷。

Graphcore的IPU(智能處理單元)采用了另一種存算一體的思路。IPU芯片沒有高速的片外存儲,而是把存儲放到了片上。整個芯片由多個核心組成,稱作Tile。每個Tile由獨立的計算單元和存儲單元組成,整個片上存儲是分布式的。每個Tile中有624KB的SRAM,整個芯片的存儲大小為624KB乘以Tile數量。IPU芯片采用純分布式的架構,每個Tile有自己的存儲和計算資源,采用MIMD(多指令多數據)的計算架構,每個Tile可以獨立地執行不同的指令,可以獨立地訪存。

2.3 存算一體的優缺點分析

存算一體技術相比傳統馮·諾依曼架構具有以下顯著優勢:

  1. 能效比高:存算一體技術消除了數據在存儲和計算單元之間的搬運,大幅降低了能耗。例如,Mythic的模擬內存計算技術與行業標準的AI推理數字CPU相比,功耗低3.8倍。知存科技的WTM2101芯片在運行高算力AI算法時,可將功耗降低到微安級別,在免喚醒的數百個命令詞識別中整體功耗也低于1mA,NN環境降噪算法功耗僅在1mA到3mA之間,典型應用場景下工作功耗在微瓦級別。
  2. 計算密度高:由于計算和存儲集成在一起,存算一體芯片可以在相同面積下實現更高的計算密度。例如,后摩智能的漫界M50采用自研的第二代IPU架構——天璇,實現了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6 GB/s的超高帶寬,典型功耗僅10W。
  3. 延遲低:數據無需在存儲和計算單元之間傳輸,大大降低了處理延遲。Mythic的M1076芯片在YOLOv5等全高清高精度物體探測器上實現了僅33毫秒的延遲。
  4. 成本效益好:存算一體芯片可以減少對外部存儲器的需求,降低系統成本。同時,由于能效比高,也降低了運行成本。例如,Mythic的模擬內存計算技術與行業標準的AI推理數字CPU相比,價格便宜10倍。

然而,存算一體技術也面臨一些挑戰和局限:

  1. 精度問題:存算一體架構中,尤其是基于模擬計算的方案,信號在傳輸和處理過程中容易受到噪聲干擾,導致計算精度下降。目前,大多數存算一體芯片主要用于AI推理而非訓練,部分原因就是訓練對精度要求更高。
  2. 工藝兼容性:存算一體芯片需要對傳統存儲工藝進行改造,這可能導致與現有半導體制造工藝的兼容性問題,增加制造成本和難度。
  3. 編程模型復雜:存算一體芯片的編程模型與傳統處理器有很大不同,需要重新設計編譯器和開發工具鏈,增加了軟件開發的難度。例如,后摩智能重構的編譯器后摩大道,應用了自動的優化算子,只要給一些輸入的圖Graph,它就能自動搜索最優化的策略,無需開發者手動嘗試。
  4. 可擴展性挑戰:隨著模型規模的不斷增大,存算一體芯片的內存容量可能成為瓶頸。雖然可以通過芯片堆疊或多芯片互聯技術來擴展容量,但這又會增加系統復雜度和成本。

2.4 存算一體的適用場景

基于上述優缺點,存算一體技術特別適合以下幾類應用場景:

  1. 邊緣AI:邊緣設備通常對功耗、體積和成本有嚴格限制,同時又需要一定的AI處理能力。存算一體芯片能夠在低功耗下提供足夠的AI性能,非常適合邊緣AI應用。例如,Mythic的模擬內存計算技術特別適合在物聯網、機器人和消費設備等邊緣應用中。知存科技的WTM2101芯片已經應用于可穿戴設備、TWS耳機、智能家居、助聽輔聽等市場。
  2. 實時圖像處理:視頻處理需要處理大量數據,傳統架構下的數據搬運會導致延遲增加。存算一體芯片可以在存儲單元內直接對圖像數據進行處理,大幅提高處理速度并降低延遲。例如,在智能駕駛領域,車輛需要在瞬間處理海量來自攝像頭、激光雷達、毫米波雷達等傳感器的數據,存算一體技術可將自動駕駛系統的決策延遲從數十毫秒壓縮至數毫秒,大幅提升駕駛安全性。
  3. 語音識別與自然語言處理:語音識別和NLP任務通常涉及大量的矩陣運算和模式匹配,存算一體架構可以高效處理這些計算密集型任務。例如,知存科技的WTM2101芯片在語音識別任務中表現出色,能夠實現數百個命令詞的免喚醒識別。
  4. 高性能計算:對于科學計算、氣候模擬等需要大規模并行計算的場景,存算一體技術可以提供更高的計算效率和能效比。例如,三星開發的HBM-PIM產品,將高帶寬內存(HBM)與PIM技術精妙結合,為AI訓練、高性能計算提供澎湃動力。在與全球頂尖科研機構合作的AI氣候模擬項目中,基于HBM-PIM的計算平臺,相比傳統架構,數據處理速度飆升2.5倍,能耗降低60%。
  5. 大模型端側部署:隨著大模型的發展,將模型部署到終端設備成為一個重要需求。存算一體芯片的高算力和低功耗特性使其成為端側大模型部署的理想選擇。例如,后摩智能的漫界M50芯片能夠在典型功耗僅10W的情況下,支持1.5B到70B參數的本地大模型運行,為PC、智能語音設備、機器人等智能移動終端提供高效的AI能力。

(未完待續…)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921145.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921145.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921145.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux之centos 系統常用命令詳解(附實戰案例)

CentOS 系統常用命令詳解(附實戰案例) 前言 本文針對 CentOS 7/8 系統,整理了運維工作中高頻使用的命令,涵蓋系統信息、文件操作、用戶權限、軟件管理、服務控制、網絡配置等核心場景,并結合實戰案例說明具體用法&…

生成知識圖譜與技能樹的工具指南:PlantUML、Mermaid 和 D3.js

摘要本文詳細介紹了生成知識圖譜、技能樹和桑基圖的工具,包括 PlantUML、Mermaid 和 D3.js,以及它們的概念、原理和使用方法。文檔為前端開發提供了示例知識圖譜、技能樹和桑基圖,并為新手提供了在線編輯器和 VS Code 的操作步驟,…

如何正確使用ChatGPT做數學建模比賽——數學建模AI使用技巧

文章轉自川川菜鳥:如何正確使用ChatGPT做數學建模比賽 引言 數學建模競賽是將數學理論應用于解決現實世界問題的一項重要賽事。在這類比賽中,學生團隊通常需要在有限時間內完成從問題分析、模型構建、算法實現到結果分析和論文撰寫的一整套流程。這對參…

存算一體:重構AI計算的革命性技術(3)

四、存算一體技術的未來發展趨勢與前景 4.1 技術發展:從“單點突破”到“多維度融合” 4.1.1 新型存儲介質:憶阻器成核心方向 未來5-10年,憶阻器(RRAM)將成為存算一體芯片的主流存儲介質,關鍵突破集中在三方…

LangChain開源LLM集成:從本地部署到自定義生成的低成本落地方案

LangChain開源LLM集成:從本地部署到自定義生成的低成本落地方案 目錄 核心定義與價值底層實現邏輯代碼實踐設計考量替代方案與優化空間 1. 核心定義與價值 1.1 本質定位:開源LLM適配機制的橋梁作用 LangChain的開源LLM適配機制本質上是一個標準化接口…

記錄一下node后端寫下載https的文件報錯,而瀏覽器卻可以下載。

用node 寫的下載,直接報錯error downloading or exxtraction file: unable to verify the first certificate 根據此信息也是排查了老半天了。瀏覽器卻可下載。問了ai之后才發現,證書如果不完整,瀏覽器會自動補全證書。 先用此網站SSL Serv…

Spring AI調用sglang模型返回HTTP 400分析處理

Spring AI調用sglang模型返回HTTP 400分析處理 一、問題描述 環境 java21springboot: 3.5.5spring-ai: 1.0.1 問題描述 Spring AI調用公司部署的sglang大模型返回錯誤HTTP 400 - {"object":"error","message":[{type: missing, loc: (body,), ms…

rust學習之開發環境

工具鏈 安裝 curl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh確認 ethanG5000:~$ rustc --version rustc 1.89.0 (29483883e 2025-08-04)創建工程 創建 cargo new demo上述,demo為工程名稱。 調試 cargo run靜態編譯 目前計劃使用rust編寫一些小工具。…

計算機畢業設計選題推薦:基于Python+Django的新能源汽車數據分析系統

精彩專欄推薦訂閱:在 下方專欄👇🏻👇🏻👇🏻👇🏻 💖🔥作者主頁:計算機畢設木哥🔥 💖 文章目錄 一、項目介紹二…

MATLAB矩陣及其運算(三)矩陣的創建

3.1 元素輸入法元素輸入法是最簡單,也是最常用的一種矩陣的生成方法。例如:注意:整個矩陣必須用“[]”括起來;元素之間必須用逗號“,”或空格分開;矩陣的行與行之間必須用“;”或者回車鍵“Ente…

JVM分析(OOM、死鎖、死循環)(JProfiler、arthas、jdk調優工具(命令行))

JVM分析(OOM、死鎖、死循環)(JProfiler、arthas、jdk調優工具(命令行)) 本文聲明: 以下內容均為 JDK 8 springboot 2.6.13 (windows 11 或 CentOS 7.9.2009 )進行 ssh連…

深度學習中的數據增強實戰:基于PyTorch的圖像分類任務優化

在深度學習的圖像分類任務中,我們常常面臨一個棘手的問題:訓練數據不足。無論是小樣本場景還是模型需要更高泛化能力的場景,單純依靠原始數據訓練的模型很容易陷入過擬合,導致在新數據上的表現不佳。這時候,數據增強&a…

IEEE 802.11 MAC架構解析:DCF與HCF如何塑造現代Wi-Fi網絡?

IEEE 802.11 MAC架構解析:DCF與HCF如何塑造現代Wi-Fi網絡? 你是否曾好奇,當多個設備同時連接到同一個Wi-Fi網絡時,它們是如何避免數據沖突并高效共享無線信道的?這背后的核心秘密就隱藏在IEEE 802.11標準的MAC(媒體訪問控制)子層架構中。今天,我們將深入解析這一架構的…

深入掌握sed:Linux文本處理的流式編輯器利器

一、前言:sed是什么? 二、sed的工作原理 數據處理流程: 詳細工作流程: 三、sed命令常見用法 基本語法: 常用選項: 常用操作命令: 四、實用示例演示 1. 輸出符合條件的文本(…

k8s三階段項目

k8s部署discuz論壇和Tomcat商城 一、持久化存儲—storageclassnfs 1.創建sa賬戶 [rootk8s-master scnfs]# cat nfs-provisioner-rbac.yaml # 1. ServiceAccount:供 NFS Provisioner 使用的服務賬號 apiVersion: v1 kind: ServiceAccount metadata:name: nfs-prov…

Zynq開發實踐(FPGA之流水線和凍結)

【 聲明:版權所有,歡迎轉載,請勿用于商業用途。 聯系信箱:feixiaoxing 163.com】談到fpga相比較cpu的優勢,很多時候我們都會談到數據并發、邊接收邊處理、流水線這三個方面。所以,第三個優勢,也…

接口保證冪等性你學廢了嗎?

接口冪等性定義:無論一次或多次調用某個接口,對資源產生的副作用都是一致的。 簡單來說:用戶由于各種原因(網絡超時、前端重復點擊、消息重試等)對同一個接口發了多次請求,系統只能處理一次,不能…

入行FPGA選擇國企、私企還是外企?

不少人想要轉行FPGA,但不知道該如何選擇公司?下面就來為大家盤點一下FPGA大廠的薪資和工作情況,歡迎大家在評論區補充。一、老牌巨頭在 FPGA設計 領域深耕許久,流程完善、技術扎實,公司各項制度都很完善,前…

考研總結,25考研京區上岸總結(踩坑和建議)

我的本科是一所普通的雙非,其實,從我第一天入學時候,我就想走出去,開學給我帶來的更多是失望(感覺自己高考太差勁了),是不甘心(自己一定可以去更好的地方)。我在等一次機…

基于數據挖掘的當代不孕癥醫案證治規律研究

標題:基于數據挖掘的當代不孕癥醫案證治規律研究內容:1.摘要 背景:隨著現代生活方式的改變,不孕癥的發病率呈上升趨勢,為探索有效的中醫證治規律,數據挖掘技術為其提供了新的途徑。目的:運用數據挖掘方法研究當代不孕癥…