2025年北京智源大會 · PyTorch Day China 論壇上,PyTorch 基金會執行董事 Matt White 宣布高性能通用 AI 算子庫 FlagGems 項目獲得批準,正式加入 PyTorch 生態項目體系。Pytorch基金會于6月26日在推特上進行了官方宣布。
作為唯一支持多種AI芯片架構的算子庫,FlagGems 的加入加速了 PyTorch 實現“在多種芯片架構上無憂部署大模型”的技術創新。同時,這一進展也彰顯了智源研究院主導開發的 FlagGems 對全球開源 AI 的重要價值——為開發者利用各種AI加速硬件提供便捷支持,加快在多種芯片的人工智能算法創新和產業落地。
PyTorch Ecosystem 由科研人員、應用開發者以及機器學習工程師共同打造,是全球機器學習和深度學習領域的重要生態系統。該生態系統匯聚了一系列能夠擴展、集成或構建于 PyTorch 之上的創新型開源 AI 項目,旨在提供一個動態、靈活且強大的開發環境。
PyTorch 基金會對 PyTorch Ecosystem 項目的遴選有著十分嚴格的要求,只有對 AI 開源社區具有重要價值、在社區中具有公認的技術口碑的開源項目,才能進入其評估和項目申報。PyTorch技術委員會投票決定哪些項目能成為Pytorch Ecosystem生態項目體系。Pytorch Ecosystem體系中的開源項目作為Pytorch這一深度學習框架項目的重要補充,一同為全球社區提供各種AI開發的重要工具。
擴展 PyTorch 能力,FlagGems 帶來「跨芯無憂」的模型部署解決方案
FlagGems 是由智源研究院聯合多家機構共同研發的 Triton 高性能通用算子庫,算子貢獻單位包括中科加禾、摩爾線程、硅基流動、先進編譯實驗室等,通過提供一套內核函數,加速大語言模型的訓練和推理過程。通過在 PyTorch 的 ATen 后端進行注冊,FlagGems 讓用戶無需修改模型代碼即可切換到 Triton 函數庫。歷時一年多的打造,FlagGems 已經成為全球支持芯片種類最多、數量最大的(超過 180 個)Triton 語言算子庫。
當前 AI 芯片市場呈現多種技術路線并行、多種產品形態共存的現象,為解決用戶“一次編寫、處處編譯、處處執行”的難題,FlagGems 重點在以下方面做技術攻關。
-
性能表現:平均性能超過各個芯片廠商的原生算子性能,比 PyTorch ATen 的CUDA算子庫平均提速 30%
-
可插拔式設計:無感注冊到 PyTorch 的 ATen 后端
-
算子規模:全球支持芯片種類最多、數量最大的 Triton 算子庫,總數超 180+
-
模型驗證:在 DeepSeek 和 Qwen 重點模型上的訓推落地驗證中,FlagGems 均有不俗的表現。
整體而言,作為連接橋梁,FlagGems 加入 PyTorch 生態系統,能夠搭建起 PyTorch 框架和硬件架構之間的互通。用戶無需在代碼中逐個替換算子,就能在 eager 模式下隱式地廣泛使用 Triton 操作符。FlagGems 提供的統一代碼算子庫,幫助 PyTorch 適配多個芯片硬件后端生態,降低算法在不同硬件平臺之間的遷移難度。
FlagGems 在主流大模型 DeepSeek 和 Qwen 的推理與訓練驗證中,均能穩定支持上層算法。多種不同 AI 平臺上,FlagGems 也完成了在 NVIDIA、Cambricon、MooreThreads、TsingMicro、Ascend 等多種芯片架構的后端支持。
FlagOS技術生態推動多團隊針對FlagGems開源合作,共創創新
為了推動FlagGems的發展,FlagOS 社群已經成功舉辦了數十場社區活動,包括 AI 高校公益行、Triton 生態活動、技術meetup、tech tutorial等,覆蓋開發者人群15000+,匯聚 160+ 社區貢獻者共建高性能統一AI 算子庫,展現了FlagGems項目強大的生態張力。
FlagGems 是面向多芯片的統一開源 AI 系統軟件棧 FlagOS 的重要組成部分。FlagGems 連同多后端統一 AI 編譯器 FlagTree、并行訓推一體框架 FlagScale 和統一通信庫 FlagCX 等開源核心庫,以及大模型自動遷移部署平臺 FlagRelease、大模型評測平臺 FlagPerf 等開源工具,共同構建起一個面向多種 AI 芯片的開源、統一系統軟件生態。
FlagGems 與 PyTorch 社區的深度融合,豐富了 PyTorch Ecosystem 的多樣性和實用性,也是 FlagOS 系統軟件生態與更多成熟生態合作的良好開端。這將對 AI 技術的發展和應用創新貢獻出更多、更有用的技術組件,讓開發者享受到統一、開源開放系統軟件帶來的便利;方便多種主流大模型在不同 AI 芯片上極速部署,推動不同架構 AI 硬件系統的規模化落地,打破生態壁壘。