基于項目需求確定國產 AI
平臺的總體架構設計,完成硬件單元的選擇和搭建以及開發工具鏈的配置工作。
4.1 國產 AI 平臺總體架構
本文設計了一套靈活高效的國產 AI 平臺總體架構,設計方法是在嵌入式平
臺上使用串行總線( Peripheral Component Interconnect express , PCIe )或者 RJ45
以太網口,采集 1080P 大小的圖像數據流,再通過相關硬件單元和軟件環境的協
同工作,實現對目標檢測算法的前向推理和檢測效果的實時顯示。因此設計了如
圖 4-1 所示的處理流程架構。

從上圖可以看出處理的主要流程為:
( 1 )通過上位機完成算法開發工作,將程序燒寫至計算處理模塊上;
( 2 )視頻采集模塊通過攝像頭獲取實時檢測畫面。通過基于 FPGA 的圖像
采集設備將數據經過 PCIe 接口傳送至計算處理模塊,或者通過網絡攝像頭直接
傳送至計算處理模塊中的視頻處理芯片;
( 3 )計算處理模塊中的 CPU 控制視頻處理芯片的編解碼實現,將滿足模型
格式需求的像素值傳送至 NPU 進行前向計算,將推理完成的結果送至 CPU 進行
后處理,在 GPU 上進行圖像界面和相應功能的顯示;
( 4 )完成圖像檢測結果的存儲并在結果顯示模塊上實時輸出。
4.2 國產 AI 平臺硬件方案
在完成國產 AI 平臺的總體架構設計后,需要進行計算平臺、采集卡和攝像
頭的選型工作。選擇合適的硬件設備可以確保國產化、實時檢測以及性能穩定性。
首先,計算處理模塊的選型需要結合平臺的實時檢測需求和性能要求,它負
責對采集到的視頻數據進行實時的目標檢測和分析,因此需要選擇性能穩定、計
算能力強大的設備,以確保平臺能夠實時響應并準確識別目標。
其次,采集卡的性能直接影響到視頻數據的傳輸速度和穩定性,因此需要根
據平臺的需求選擇適當的采集卡,確保其能夠滿足高速數據采集和穩定傳輸的要
求。
最后,對于攝像頭的選型,需要考慮到拍攝畫質、視野范圍、光線條件以及
防護等因素。選擇適合的攝像頭可以確保平臺獲得高質量的視頻輸入,從而有利
于后續的目標檢測和分析。
4.2.1 國產 AI 芯片選型
根據在網絡中的位置, AI 芯片可以分為云端、邊緣和終端三大類 [63] 。云端
AI 芯片主要用于數據中心或云計算平臺,用于處理大規模的數據和復雜的計算
任務。邊緣 AI 芯片在接近數據源的地方進行實時數據處理和分析,通常具有較
低的功耗和較小的尺寸,能夠在資源有限的環境中執行深度學習推理任務。終端
AI 芯片是專門為物聯網設備和嵌入式系統設計的,以實現本地的智能感知和決
策,通常具有極低的功耗和極小的尺寸,能夠在資源極其有限的設備上運行輕量
級的深度學習模型。
目前,結合特定場景的應用已經成為推動 AI 產業發展的主要動力,因此國
內廠商紛紛投入到 AI 芯片的研發與生產中。表 4-1 對一些具有代表性的國產 AI
芯片進行了介紹,圖 4-2 重點從功耗和性能上對這些芯片進行了對比。
從表 4-1 和圖 4-2 可以看出,在綜合考慮功耗與算力后,只有海思 Hi3559A
V100 和瑞芯微 RK3588 能夠滿足課題需求。前者的 AI 框架支持較少,后者的功
耗略高。除此之外,兩者在算力和圖像處理能力等多方面性能接近,都適合作為
目標檢測算法的部署平臺。


4.3 國產 AI 平臺軟件方案
由于 RK3588 硬件資源有限,在國產 AI 平臺上進行整個深度學習應用流程
是不可行的。本文結合多方資源,將深度學習開發過程進行了細分,形成了如圖
4-7 所示的開發模式。
