2025年的春天格外特別。伴隨著人形機器人、DeepSeek的強勢刷屏,AI成了最有前景的賽道。萬物皆可AI,萬物也在尋覓用上AI或者讓AI“轉正”的“aha moment”。
幫助機器更好地“思考”,讓更多的AI走向邊緣,是AI發展的重要趨勢之一。在MCU中加入NPU單元是落實這一趨勢的芯片技術路線之一,STM32N6便是MCU+NPU架構的開山之作,它擁有MPU級的AI性能,同時具備MCU級的功耗和成本。這一獨特的價值定位,讓邊緣AI部署更輕松。
我們發現,在人工智能芯片技術持續創新的過程中,許多神經網絡算法對傳統MCU的要求過高,為了運行這些算法,實現邊緣AI功能,開發者不得不采用集成神經處理單元(NPU)的MPU。當集成ST自研NPU的STM32N6問世之后,它可以替代那些性能強大的MPU,在保持貼近原始輸入數據源、降低延遲、增強數據安全性和隱私性等優勢的同時,還能降低系統成本(BOM成本更低)、加強系統的實時操作性、滿足更低的功耗要求。
1. STM32N6特性概覽
STM32N6是意法半導體最新且性能最強勁的STM32 MCU,它強在:
- 專用嵌入式神經處理單元(NPU)STM32N6集成ST自研硬件NPU,處理能力達600GOPS;同時具有3TOPS/W的極低功耗,在運行AI模型時,不需要任何散熱裝置。
- Arm Cortex-M55內核?STM32N6內核為Cortex-M55,主頻達800MHz,新增150個DSP矢量擴展指令集(MVE),可實現在數據被送到NPU之前的預處理,或從NPU得到結果的后處理。
- 大容量嵌入式RAM?STM32N6內置4.2 Mbytes嵌入式RAM,支持實時數據處理和多任務處理,如存儲NPU運算中的推理數據,或作為幀緩存,或H264壓縮時的中間數據。
- 強大的計算機視覺能力?STM32N6集成并行和MIPI CSI-2攝像頭接口及專用圖像處理單元(ISP),提供600GOPS的AI處理算力,可勝任很多機器視覺應用。
- 擴展的多媒體功能?STM32N6集成2.5D圖形加速器、H264編碼器,以及JPEG編解碼的硬件加速,能輕松實現在運行AI處理時,把從攝像頭獲取的視頻通過以太網口或USB(UVC協議)傳輸到外部。
- 增強的安全功能?STM32N6包括為Cortex-M55核和NPU配備的Arm TrustZone,目標認證SESIP3、PSA L3。
2. NPU引入MCU,將觸發邊緣AI應用新場景的“aha moment”
STM32N6之所以能夠實現MPU級別的AI性能,是因為它搭載了神經網絡硬件加速單元—Neural-ART加速器,這是ST自研的神經處理單元(NPU),運算吞吐量高達600 GOPS(每秒6000億次操作),比不具備NPU的STM32H7高出600倍。
NPU是專為加速神經網絡計算和人工智能相關任務而設計的,針對矩陣乘法、卷積和其他線性代數運算進行了優化。因此,NPU在運行和處理AI算法非常高效,非常擅長處理圖像分類、語音處理以及自然語言等多模態模型。NPU在處理AI相關任務時,功耗非常低,尤其適合電池供電的設備。不僅如此,它還可以減少微控制器上處理AI任務的延遲,這對于實時應用來說非常重要。
通過將NPU引入MCU,它將為您的人工智能應用開辟出一系列全新的可能性,為更高級和更復雜的AI用例甚至多模態場景打開大門,而不僅僅是單模態場景。
NPU帶來的性能提升也是非常顯著的。如上圖,選取一些如圖像分類、對象檢測、語音識別等非常經典的神經網絡模型,讓這些模型分別運行在STM32N6的NPU上,也運行在STM32N6的Cortex-M55內核上,通過比較,可以發現運行這些神經網絡模型時,推理性能提升了26倍到134倍。
3. STM32N6完備開發工具鏈邂逅成熟產品生態
AI應用的開發,除了硬件性能,軟件支持也非常重要。STM32N6擁有完備的開發工具鏈和成熟的軟件生態系統,原生支持多種主流人工智能框架,如TensorFlow和Keras。對于其他人工智能框架,如PyTorch,STM32N6通過ONNX格式來支持。ONNX是一種中間轉換格式,可用于將任何神經網絡模型格式轉換為開放和標準化的格式。這體現了STM32N6 NPU工具鏈的靈活性,未來將支持更多的人工智能框架和應用層。
ST還提供一個完整的軟件生態系統,極大地促進并優化基于STM32N6的新型人工智能應用的開發過程。這一生態系統的核心是ST Edge AI Suite,它由三部分組成:首先是Edge AI Model Zoo,這是一個免費軟件工具的資源庫,匯聚了免費的軟件工具、實用的邊緣AI模型和代碼示例,以及詳盡的文檔資料。無論開發者經驗豐富與否,都能在其中找到創建邊緣人工智能應用所需的支持。其次是Edge AI Developer Cloud在線平臺,開發者可以通過托管在這個云平臺上的板卡對自己的AI模型進行遠程性能基準測試。最后是STM32Cube.AI和ST Edge AI Core,這兩款工具是模型優化器,可以將您的神經網絡轉換為可以在設備上執行的C代碼。
4. 結語
在AI蓬勃發展的當下,STM32N6以MCU+NPU架構破局,性能飛升,為邊緣AI解鎖更多場景,成為邊緣AI落地的插上“隱形的翅膀”。