開源炸場!阿里通義千問Qwen3-Next發布:80B參數僅激活3B,訓練成本降90%,長文本吞吐提升10倍?
開源世界迎來震撼突破!
通義千問團隊最新發布的Qwen3-Next架構,以其獨創的"小而精"設計理念,徹底顛覆了大模型領域的傳統認知。這個總參數量達數百億的創新型模型,通過革命性的稀疏架構與混合注意力機制,實現了令人驚嘆的效能突破——單次推理激活參數大幅降低,訓練成本顯著下降,同時在長文本處理上獲得驚人的效率提升。
這一突破性進展不僅為大模型發展提供了全新的技術路徑,更展現了"高效智能"的無限可能。
隨著Qwen3-Next架構的推出,開源社區正在迎來一個全新的時代——以更少的計算資源實現更強的智能能力,讓高性能AI技術變得更加普惠和可持續。
架構創新
Qwen3-Next巧妙融合了線性注意力的高效性與標準注意力的強大召回能力,配合精心設計的專家網絡稀疏激活策略,在保證模型性能的同時大幅優化計算資源利用率。更令人矚目的是,該模型原生支持超長上下文處理,并能通過擴展技術實現百萬級別的token處理能力,在長文本理解和生成任務中展現出色表現。
1. Gated DeltaNet+標準Attention,兼顧效率與性能
面對線性注意力機制雖高效但全局召回能力不足,而標準自注意力雖性能強大卻計算開銷高昂的固有局限,Qwen3-Next創新性地采用了融合Gated DeltaNet與標準注意力的混合架構。該架構以約75%的Gated DeltaNet搭配約25%的標準注意力層:
- Gated DeltaNet在長序列建模任務中表現出顯著優勢,其效果優于滑動窗口注意力及Mamba2等同類機制。
- 保留的部分標準注意力層則引入輸出門控(Output Gating)機制,有效緩解注意力矩陣中的低秩瓶頸問題,并通過將注意力頭維度提升至256,對序列前25%的位置施加旋轉位置編碼(RoPE),顯著增強了模型的長程外推與泛化能力。
2. 前瞻預訓練,高效推理:多詞元預測(MTP)的雙重增益
Qwen3-Next創新地使用多詞元預測(MTP)任務作為預訓練目標,其在預訓練和推理階段均能帶來顯著收益:
- 預訓練過程中,與傳統語言模型僅預測下一詞元不同,MTP要求模型在每一步同時預測后續多個詞元,這種機制迫使模型學習更長程的上下文依賴和更具前瞻性的語言結構,從而深化了對語言因果關系的理解。
- 推理階段,MTP的能力與投機解碼技術天然契合:模型可一次性生成多個候選詞元,經系統并行驗證后,若接受率高則可大幅提升解碼速度,成為實現高效推理的關鍵技術之一。
3. 門控、歸一化與路由初始化助力訓練穩定
在訓練穩定性方面,模型集成多項創新技術以保障高效收斂:
- 輸出門控機制有效抑制了注意力池化過程中的極大激活現象。
- 采用零中心化RMSNorm并結合權重衰減策略,成功緩解了QK歸一化中范數權重異常膨脹的問題。
- 此外,通過對MoE路由參數進行初始化歸一化,確保訓練初期各個專家能夠獲得均衡的采樣機會。
模型評估
在實際能力方面,Qwen3-Next展現出與頂級閉源模型相媲美的卓越性能。無論是在復雜推理任務、代碼生成還是長文本理解方面,都達到了開源模型的新高度。
其推理版本在多項專業測試中甚至超越了知名閉源模型,標志著開源社區首次在核心能力上真正比肩業界巨頭。
- Qwen3-Next僅使用了Qwen3 36T預訓練語料中一個約15T tokens的均勻采樣子集,卻在訓練效率方面實現顯著突破:其所消耗的GPU小時數較Qwen3-30A-3B降低超過20%,與Qwen3-32B相比,更是僅需9.3%的計算資源,即達成了更優越的模型性能,充分體現出極高的訓練性價比。
- 在推理效率方面,憑借創新的混合架構設計,Qwen3-Next-80B-A3B展現出卓越的性能。在預填充(prefill)階段,4K上下文長度下的吞吐量達到Qwen3-32B的近七倍;而當上下文長度超過32K時,吞吐量提升更超過十倍。
- 在解碼(decode)階段,該模型同樣表現突出:在4K上下文下吞吐提升約四倍,在超越32K的長上下文環境中仍可維持十倍以上的性能優勢。此外,Qwen3-Next-80B-A3B-Base模型僅激活約十分之一的非嵌入參數,卻在多項基準測試中全面超越了參數量更高的Qwen3-32B-Base,并顯著領先于Qwen3-30B-A3B,充分體現出其卓越的模型效率與性能優勢。
Qwen3-Next-80B-A3B-Instruct在多項評測中顯著超越同類規模模型,并與參數量更大的Qwen3-235B版本表現接近。尤其在長文本能力方面,該模型在RULER評測集不同長度區間均展現出優異性能,其256K超長上下文處理能力甚至超越了層數更多的旗艦模型,凸顯了Gated DeltaNet與Gated Attention混合架構在長文本建模中的顯著優勢。
社區地址
-
OpenCSG社區:
https://opencsg.com/models/Qwen/Qwen3-Next-80B-A3B-Thinking -
hf社區:
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
關于 OpenCSG
OpenCSG是全球領先的開源大模型社區平臺,致力于打造開放、協同、可持續生態,AgenticOps
是人工智能領域的一種AI原生方法論。由OpenCSG(開放傳神)提出。AgenticOps是Agentic AI的最佳落地實踐也是方法論。核心產品CSGHub提供模型、數據集、代碼與AI應用的一站式托管、協作與共享服務,具備業界領先的模型資產管理能力,支持多角色協同和高效復用。