存算一體:重構AI計算的革命性技術
一、從存儲墻到存算一體:計算架構的百年變革
1.1 馮·諾依曼架構的困境與突破
在計算機發展的歷史長河中,存儲與計算的分離一直是制約性能提升的關鍵瓶頸。1945年,計算機科學家馮·諾依曼提出了現代計算機的基本架構,將數據存儲和計算單元分離,通過總線進行數據傳輸。這一架構奠定了現代計算機的基礎,但也帶來了"存儲墻"(Memory Wall)和"功耗墻"(Power Wall)的問題。在傳統架構中,數據需要在存儲單元和計算單元之間頻繁搬運,這一過程消耗了大量時間和能量,尤其在處理大規模數據時,數據搬運的能耗甚至超過計算本身的能耗。
隨著人工智能技術的爆發式發展,傳統架構的局限性愈發明顯。AI計算需要處理海量數據,尤其是深度學習中的神經網絡模型,其參數數量呈指數級增長。以GPT-3為例,其訓練一次消耗的算力高達3640 PF-days,相當于約17500塊英偉達V100 GPU全年不停運算。在這種情況下,數據搬運造成的延遲和能耗成為制約AI算力提升的主要障礙。
存算一體(Computing-in-Memory,CIM)技術正是為解決這一困境而誕生的革命性架構。它打破了傳統馮·諾依曼架構的桎梏,將計算單元直接嵌入存儲芯片內部,使數據無需遠距離搬運即可就地處理,大幅降低延遲、削減功耗,為AI芯片發展開辟了全新路徑。
1.2 存算一體技術的起源與演進
存算一體技術的思想最早可追溯至20世紀80年代。當時,研究人員開始探索將計算功能融入存儲單元的可能性,但受限于當時的技術條件,這一想法并未得到廣泛應用。隨著半導體工藝的進步和人工智能需求的激增,存算一體技術重新受到學術界和產業界的關注。
2012年,美國密歇根大學的研究團隊在模擬計算領域取得突破,開發了基于閃存的模擬矩陣處理器原型,為存算一體技術奠定了基礎。同年,Mythic公司在美國成立,專注于開發模擬內存計算技術和模擬矩陣處理器,成為早期存算一體領域的重要開拓者。
2016年,英特爾公司聯合美國密歇根州立大學開始基于SRAM的計算型存儲/存算一體技術研究,發布了支持邏輯操作的存儲器,并在此基礎上實現了支持無進位乘法運算的計算型緩存。這一階段的研究主要集中在學術領域,尚未形成產業化。
2018年,深圳九天睿芯科技有限公司在劉洪杰博士的帶領下成立,專注于存算一體芯片的研發,標志著中國在這一領域的積極布局。同年,知存科技在北京成立,開始了存算一體技術的產品化探索。
2021年被視為中國存算一體產業化元年。2022年3月,知存科技正式量產了國際首顆存內計算SoC芯片WTM2101并推向市場,標志著存算一體技術從實驗室走向商業化應用。同年,Mythic推出了其首款商業芯片M1076,該芯片集成了76個AMP塊,可存儲多達80M的數據,無需任何外部存儲器即可執行矩陣乘法運算,并向洛克希德馬丁公司等知名客戶發貨。
2023年,后摩智能宣布完成了由現有投資者Atreides Management、DCVC和Lux Capital以及新投資者Catapult Ventures和Hermann Hauser Investment牽頭的1300萬美元融資,這筆資金將使其能夠將下一代產品——改進的節能人工智能處理器M2000推向市場。
2025年,隨著AI大模型的爆發式增長,存算一體技術迎來了發展的黃金期。各大廠商紛紛推出新一代產品,如后摩智能發布了即將在2025年第四季度量產的端邊大模型AI芯片——后摩漫界M50,這是一款單芯片就能運行百億參數大模型的存算一體芯片。
1.3 存算一體技術的現狀與競爭格局
目前,全球存算一體芯片市場正處于快速發展階段。根據相關預測,全球存算一體芯片市場將從2022年的163億美元增長至2028年的413億美元,年復合增長率16.6%,中國市場占比將超過40%,成為全球創新中心。
在競爭格局方面,全球范圍內形成了中美兩國主導的局面。美國以Mythic、Intel等公司為代表,中國則有知存科技、后摩智能、九天睿芯等一批創新企業。此外,三星、SK海力士等韓國企業也在積極布局這一領域。
中國存算一體芯片企業在政策和基金的雙重助力下,發展尤為迅速。從2021年開始,中國半導體產業政策和基金對存算一體領域的支持力度不斷加大,多家初創企業獲得上億元融資。發展存算一體芯片對于中國突破國外先進工藝封鎖,實現芯片產業"彎道超車"有著重要意義。
在技術路線上,目前主要有基于SRAM、DRAM和非易失性存儲器(如MRAM、PCM、RRAM等)的多種存算一體技術路線。其中,基于SRAM的存算一體芯片具有速度快、功耗低的優勢,但存儲密度相對較低;基于DRAM的方案可以實現較高的存儲密度,但需要解決刷新問題;非易失性存儲器則在待機功耗方面表現優異,適合對功耗敏感的應用場景。
IEEE正在制定《存算一體系統接口規范》,預計2026年發布,這將有助于統一存儲-計算協同協議,推動存算一體技術的標準化發展。
二、存算一體技術的理論基礎與工作原理
2.1 存算一體的理論背景
存算一體技術的理論基礎源于對馮·諾依曼架構局限性的深刻理解。在傳統馮·諾依曼架構中,計算單元(如CPU、GPU)與存儲單元(如DRAM)之間的物理分離導致了數據傳輸的瓶頸,即所謂的"馮·諾依曼瓶頸"。隨著半導體工藝的進步,處理器性能每年以約55%的速度增長,而內存性能僅以每年大約10%的速度提升,這種不均衡的發展速度導致存儲速度嚴重滯后于處理器的計算速度。
在AI計算中,這一瓶頸尤為明顯。以深度學習為例,神經網絡的訓練和推理過程涉及大量的矩陣乘法和累加操作。在傳統架構下,數據需要在內存和處理器之間頻繁傳輸,這一過程消耗了大量時間和能量。據研究,數據搬運功耗可達計算功耗的千倍,嚴重拖慢整體運算效率。
存算一體技術的核心思想是"數據不動計算動",通過將計算單元嵌入存儲單元內部,使數據無需遠距離搬運即可就地處理,從而徹底消除馮諾依曼計算架構的瓶頸,尤其適用于大數據量和大規模并行的應用場景,如深度學習神經網絡。
從理論上看,存算一體技術可以實現三個方面的突破:
- 性能突破:通過減少數據傳輸延遲,提高計算效率。
- 能效突破:降低數據搬運帶來的能耗,提高能效比。
- 架構突破:打破傳統存儲與計算分離的架構限制,為AI計算提供更高效的硬件支持。
2.2 存算一體的工作原理
存算一體技術的工作原理可以從硬件架構和計算流程兩個方面來理解。
在硬件架構方面,存算一體芯片的基本組成單元是存算陣列。以基于SRAM的存算一體芯片為例,其基本結構是將傳統的存儲單元(如6T SRAM單元)進行改造,使其能夠執行簡單的計算操作。例如,可以通過在存儲單元的位線上添加運算放大器,實現多個存儲單元數據的并行加法運算。
對于基于非易失性存儲器的存算一體芯片,如RRAM(憶阻器),其工作原理更為巧妙。憶阻器是一種具有記憶功能的非線性電阻元件,其電阻值可以根據流經的電流量而改變,并保持在一定的狀態。在存算一體架構中,憶阻器不僅可以存儲數據(通過不同的電阻值表示0和1),還可以直接執行矩陣乘法運算。具體來說,輸入向量通過憶阻器陣列時,每個憶阻器的電阻值與輸入電壓相乘,產生相應的電流,這些電流在輸出端累加,即可得到矩陣乘法的結果。
在計算流程方面,存算一體芯片采用了與傳統處理器完全不同的工作模式。以深度學習推理為例,傳統GPU需要將神經網絡的權重從內存加載到計算單元,然后將輸入數據也加載到計算單元進行矩陣乘法運算。而存算一體芯片則將神經網絡的權重直接存儲在存算陣列中,輸入數據通過存算陣列時,計算與存儲同時進行,直接在存儲單元內部完成矩陣乘法,大大減少了數據搬運的開銷。
Graphcore的IPU(智能處理單元)采用了另一種存算一體的思路。IPU芯片沒有高速的片外存儲,而是把存儲放到了片上。整個芯片由多個核心組成,稱作Tile。每個Tile由獨立的計算單元和存儲單元組成,整個片上存儲是分布式的。每個Tile中有624KB的SRAM,整個芯片的存儲大小為624KB乘以Tile數量。IPU芯片采用純分布式的架構,每個Tile有自己的存儲和計算資源,采用MIMD(多指令多數據)的計算架構,每個Tile可以獨立地執行不同的指令,可以獨立地訪存。
2.3 存算一體的優缺點分析
存算一體技術相比傳統馮·諾依曼架構具有以下顯著優勢:
- 能效比高:存算一體技術消除了數據在存儲和計算單元之間的搬運,大幅降低了能耗。例如,Mythic的模擬內存計算技術與行業標準的AI推理數字CPU相比,功耗低3.8倍。知存科技的WTM2101芯片在運行高算力AI算法時,可將功耗降低到微安級別,在免喚醒的數百個命令詞識別中整體功耗也低于1mA,NN環境降噪算法功耗僅在1mA到3mA之間,典型應用場景下工作功耗在微瓦級別。
- 計算密度高:由于計算和存儲集成在一起,存算一體芯片可以在相同面積下實現更高的計算密度。例如,后摩智能的漫界M50采用自研的第二代IPU架構——天璇,實現了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6 GB/s的超高帶寬,典型功耗僅10W。
- 延遲低:數據無需在存儲和計算單元之間傳輸,大大降低了處理延遲。Mythic的M1076芯片在YOLOv5等全高清高精度物體探測器上實現了僅33毫秒的延遲。
- 成本效益好:存算一體芯片可以減少對外部存儲器的需求,降低系統成本。同時,由于能效比高,也降低了運行成本。例如,Mythic的模擬內存計算技術與行業標準的AI推理數字CPU相比,價格便宜10倍。
然而,存算一體技術也面臨一些挑戰和局限:
- 精度問題:存算一體架構中,尤其是基于模擬計算的方案,信號在傳輸和處理過程中容易受到噪聲干擾,導致計算精度下降。目前,大多數存算一體芯片主要用于AI推理而非訓練,部分原因就是訓練對精度要求更高。
- 工藝兼容性:存算一體芯片需要對傳統存儲工藝進行改造,這可能導致與現有半導體制造工藝的兼容性問題,增加制造成本和難度。
- 編程模型復雜:存算一體芯片的編程模型與傳統處理器有很大不同,需要重新設計編譯器和開發工具鏈,增加了軟件開發的難度。例如,后摩智能重構的編譯器后摩大道,應用了自動的優化算子,只要給一些輸入的圖Graph,它就能自動搜索最優化的策略,無需開發者手動嘗試。
- 可擴展性挑戰:隨著模型規模的不斷增大,存算一體芯片的內存容量可能成為瓶頸。雖然可以通過芯片堆疊或多芯片互聯技術來擴展容量,但這又會增加系統復雜度和成本。
2.4 存算一體的適用場景
基于上述優缺點,存算一體技術特別適合以下幾類應用場景:
- 邊緣AI:邊緣設備通常對功耗、體積和成本有嚴格限制,同時又需要一定的AI處理能力。存算一體芯片能夠在低功耗下提供足夠的AI性能,非常適合邊緣AI應用。例如,Mythic的模擬內存計算技術特別適合在物聯網、機器人和消費設備等邊緣應用中。知存科技的WTM2101芯片已經應用于可穿戴設備、TWS耳機、智能家居、助聽輔聽等市場。
- 實時圖像處理:視頻處理需要處理大量數據,傳統架構下的數據搬運會導致延遲增加。存算一體芯片可以在存儲單元內直接對圖像數據進行處理,大幅提高處理速度并降低延遲。例如,在智能駕駛領域,車輛需要在瞬間處理海量來自攝像頭、激光雷達、毫米波雷達等傳感器的數據,存算一體技術可將自動駕駛系統的決策延遲從數十毫秒壓縮至數毫秒,大幅提升駕駛安全性。
- 語音識別與自然語言處理:語音識別和NLP任務通常涉及大量的矩陣運算和模式匹配,存算一體架構可以高效處理這些計算密集型任務。例如,知存科技的WTM2101芯片在語音識別任務中表現出色,能夠實現數百個命令詞的免喚醒識別。
- 高性能計算:對于科學計算、氣候模擬等需要大規模并行計算的場景,存算一體技術可以提供更高的計算效率和能效比。例如,三星開發的HBM-PIM產品,將高帶寬內存(HBM)與PIM技術精妙結合,為AI訓練、高性能計算提供澎湃動力。在與全球頂尖科研機構合作的AI氣候模擬項目中,基于HBM-PIM的計算平臺,相比傳統架構,數據處理速度飆升2.5倍,能耗降低60%。
- 大模型端側部署:隨著大模型的發展,將模型部署到終端設備成為一個重要需求。存算一體芯片的高算力和低功耗特性使其成為端側大模型部署的理想選擇。例如,后摩智能的漫界M50芯片能夠在典型功耗僅10W的情況下,支持1.5B到70B參數的本地大模型運行,為PC、智能語音設備、機器人等智能移動終端提供高效的AI能力。
(未完待續…)