一、CUDA的壟斷
????????當討論半導體行業面臨的挑戰時,你首先想到的是什么?光刻機?3納米或者5納米技術?我們無法生產的完美方形芯片?是的,但也不完全是。
????????人們經常把半導體芯片歸類為硬件產業,但實際上,半導體芯片是一個硬件和軟件高度融合的產業,而且軟件往往發揮更重要的作用。
????????芯片的硬件是指運行指令的物理平臺,包括處理器、內存、存儲設備等。“晶體管數量”和“7 納米工藝”等與芯片相關的術語就是硬件參數的示例。
????????另一方面,軟件包括固件、驅動程序、操作系統、應用程序、運算符、編譯器、開發工具、模型優化、部署工具和應用程序生態系統等。軟件指導硬件如何響應用戶指令、處理數據和任務,同時通過特定算法和策略優化硬件資源的使用。“x86 指令集”、“深度學習運算符”和“CUDA 平臺”等術語通常與芯片軟件有關。
????????沒有硬件,軟件就無法運行。然而,沒有軟件,硬件只是一堆毫無意義的硅片。
????????2012年,隨著深度學習與GPU的結合在ImageNet大賽上大放異彩,人工智能一夜之間風靡全球,科技界開始將目光聚焦人工智能領域,深耕CUDA人工智能計算平臺的英偉達股價一路飆升,成為新時代的主導力量。
????????然而,軟件將成為人工智能時代的核心技術壁壘。
????????為了打破 Nvidia 的壟斷,前芯片老大英特爾和老對手 AMD 分別推出了 OneAPI 和 ROCm,與 CUDA 展開競爭。Linux 基金會聯合英特爾、谷歌、高通、Arm、三星等公司成立了 UXL 基金會(俗稱“反 CUDA 聯盟”),致力于開發一套新的開源軟件套件,讓 AI 開發者可以在任何成員公司的芯片上進行編程,試圖取代 CUDA 成為首選的 AI 開發平臺。
????????相反,Nvidia 一直在鞏固其 CUDA 護城河。
????????早在 2021 年,Nvidia 就公開表示禁止使用轉換層在其他硬件平臺上運行基于 CUDA 的軟件,并于 2024 年 3 月將此升級為徹底禁止,直接在 CUDA 的最終用戶許可協議中添加條款。
????????對于中國用戶來說,這項禁令的打擊更大。
????????2022年,英偉達被要求停止向中國市場供應高端GPU芯片,有效封鎖了中國的GPU芯片采購渠道。
????????如今其他芯片上運行CUDA軟件也被禁止,中國AI企業該怎么辦?
二、中國國產AI芯片的崛起
????????其實早在禁令頒布之前,中國芯片企業就已做好了準備。2015年,中國人工智能產業蓬勃發展,出現了“人工智能四龍”引領產業發展。
????????在這波因對卷積神經網絡(CNN)的興趣而引發的人工智能浪潮中,中國企業認識到了國產人工智能芯片的重要性。
????????這一時期,中國涌現出近百家AI芯片企業,既有寒武紀、必任科技、厚墨等創業公司,也有華為、阿里巴巴、百度等科技巨頭,以及傳統芯片廠商、挖礦設備廠商。
????????大家都紛紛加入這股潮流,整個行業蓬勃發展,似乎都有一個共同的目標:打造自主可控的國產AI芯片生態。
????????在此推動下,中國AI芯片企業很早就意識到了軟件、工具和生態對于芯片的重要性,因此在不斷升級迭代硬件產品的同時,投入了大量的時間和精力去解決軟件相關的問題。
????????CUDA 是一個封閉的軟件平臺,因此從頭開始構建原始軟件堆棧是突破 CUDA 生態系統障礙的關鍵。
三、中國AI芯片軟件平臺概況
????????中國的AI芯片創業公司在云端、邊緣端領域蓬勃發展,各有千秋。例如,必韌科技開發了BIRENSUPA軟件平臺,包括硬件抽象層、編程模型、BRCC編譯器、深度學習和通用計算加速庫、工具鏈、支持主流深度學習框架、自研推理加速引擎以及適用于各種場景的應用SDK,是國內為數不多的綜合性AI軟件開發平臺之一。
????????此外,專注于云端及車規級AI芯片的寒武紀推出了基礎軟件平臺;專注于集成式智能駕駛芯片的厚墨科技也推出了厚墨大道軟件平臺;專注于全GPU的摩爾線程推出了MUSA SDK及AI軟件平臺;專注于通用GPU(GPGPU)的天數芯推出了天數芯軟件棧。
????????與中國早期白手起家的芯片研究人員不同,當代中國AI芯片玩家大多擁有豐富的行業經驗,并了解類似CUDA的軟件工具對于AI開發人員的關鍵重要性。
????????因此,在2015年至2022年期間,這些玩家努力構建自己的硬件和軟件生態系統。他們設法在國際層面上趕上了一些,盡管他們仍然遠遠落后于像Nvidia這樣的全球巨頭,但Nvidia并沒有閑著,而是利用其在深度學習方面的專業性鞏固了自己的地位。
????????然而誰也沒有想到,新的變革契機這么快就到來了,2022年11月,ChatGPT橫空出世,再一次打破了行業的平衡。
四、大型模型是天賜的機會嗎?
????????2022年11月,隨著ChatGPT在全球引起轟動,大型語言模型(LLM)突然成為全球追捧的前沿技術,熱度遠超CNN。
????????對于一些中國AI芯片制造商來說,這被視為趕上競爭潮流的天賜良機。
????????更加有利的是,LLM的技術基礎是Transformer網絡,其最初有BERT、T5、GPT三條不同的路徑。
????????然而,自從ChatGPT的驚艷亮相后,GPT已經成為了絕對的主流,引領全球AI產業走向統一的認識。
????????在AI技術發展史上,如此程度的團結幾乎是聞所未聞的。
????????CUDA的先發優勢因此而突然縮小。
????????正是因為這種快速的融合,中國AI芯片廠商才得以快速上手對大型模型進行調優和適配,更重??要的是,此時他們已經可以與其他國際廠商在同一起跑線上。
????????目前,在Nvidia嚴禁在其他AI芯片硬件平臺上運行CUDA,加之美國芯片禁令進一步加重、全球算力緊缺的背景下,中國大模型軟件公司難以獲得最前沿的GPU芯片,因此如何將現有的大模型遷移到新的計算平臺上成為首要解決的痛點。
????????鑒于大模型訓練對計算集群的迫切需求,國內AI芯片企業正致力于加強集群能力。以采用GPGPU架構的璧人為例,客戶反饋璧人的SUPA在軟件團隊的支持下,短時間內完成了實際應用遷移,在主流開源大模型上的表現也呈現出良好的效果。
????????如果AI芯片廠商能夠提供簡單易用、低成本的遷移工具,有完善的模型適配能力以及成熟的集群部署經驗,那么大模型的快速落地就變得可行。
????????包括必韌在內的多家中國公司已完成對國內大部分開源大模型的適配,積累了豐富的千卡集群部署經驗,中國大模型合作伙伴自研模型適配時間已大幅縮短。除了幫助用戶快速從CUDA遷移到SUPA生態之外,大型模型公司還可以利用Biren的架構特性和SUPA的能力來擴展CUDA生態,進一步提升性能。
????????通過自下而上的開發,Biren 可以最大限度地發揮其硬件優勢,確保無論硬件到終端應用程序如何變化,其軟件堆棧始終能夠進行優化、迭代和調整。
????????當前,除了芯片層面,大機型軟件、算力、云計算等層面的國產化也在積極推進。
????????AI芯片公司作為整個AI生態的基礎構建者,尋求與大型模型、框架、集群公司進行深度合作,以最大化整體性能。
????????例如,必韌科技不僅與PaddlePaddle等框架開發商合作,不僅滿足企業用戶符合國際標準的開發需求,還專門定制了與國內環境兼容的解決方案,為中國AI企業提供更為順暢的融入之路。
????????同時,必韌還與Infinigence等中國算力優化公司達成合作,進一步高效推動AI計算的本土化發展。
????????為破解生態瓶頸,璧人通過搭建算力平臺、開源相關工具和庫、開放上層模型等方式推進軟件平臺建設,與框架、大模型合作伙伴進行聯合適配優化,建立生態合作,并通過與高校、科研機構、終端客戶等開展產學研合作等多種方式推進落地。
????????軟件無疑是最難突破的一道坎,也是目前各大AI芯片公司的共識重點。通過產學研的共同努力,一定可以取得突破。例如浙江大學的AI教學平臺Mo,就利用比人軟硬件資源作為教學實踐的基礎,為學生提供實踐機會,為國產軟件生態的長遠發展播下種子。
五、結論
????????毫無疑問,算力已成為人工智能時代的戰場,算力的嚴重短缺制約著各國人工智能技術的發展。
????????據報道,OpenAI首席執行官Sam Altman曾表示,“計算能力將成為未來的貨幣”,暗示人工智能的發展將演變為公司、組織甚至國家之間的大規模權力斗爭。
????????目前,Nvidia的GPU硬件憑借CUDA軟件方面的優勢,受到市場熱捧,長期處于供不應求的狀態。而大模型取代深度神經網絡成為新一代AI技術的興起,恰恰給了中國AI芯片玩家一個難得的追趕機會。
????????回顧過去二十年,英偉達之所以能主宰AI時代,得益于其在AI領域的先發優勢,借助深度學習的浪潮,憑借CUDA平臺取得對英特爾的戰略優勢。
????????如今,一條嶄新的道路即將再次出現,但這一次,中國企業已經做好準備。