開源炸場!阿里通義千問Qwen3-Next發布:80B參數僅激活3B,訓練成本降90%,長文本吞吐提升10倍?

開源炸場!阿里通義千問Qwen3-Next發布:80B參數僅激活3B,訓練成本降90%,長文本吞吐提升10倍?

開源世界迎來震撼突破!
通義千問團隊最新發布的Qwen3-Next架構,以其獨創的"小而精"設計理念,徹底顛覆了大模型領域的傳統認知。這個總參數量達數百億的創新型模型,通過革命性的稀疏架構與混合注意力機制,實現了令人驚嘆的效能突破——單次推理激活參數大幅降低,訓練成本顯著下降,同時在長文本處理上獲得驚人的效率提升。

這一突破性進展不僅為大模型發展提供了全新的技術路徑,更展現了"高效智能"的無限可能。
隨著Qwen3-Next架構的推出,開源社區正在迎來一個全新的時代——以更少的計算資源實現更強的智能能力,讓高性能AI技術變得更加普惠和可持續。

架構創新

Qwen3-Next巧妙融合了線性注意力的高效性與標準注意力的強大召回能力,配合精心設計的專家網絡稀疏激活策略,在保證模型性能的同時大幅優化計算資源利用率。更令人矚目的是,該模型原生支持超長上下文處理,并能通過擴展技術實現百萬級別的token處理能力,在長文本理解和生成任務中展現出色表現。

1. Gated DeltaNet+標準Attention,兼顧效率與性能

面對線性注意力機制雖高效但全局召回能力不足,而標準自注意力雖性能強大卻計算開銷高昂的固有局限,Qwen3-Next創新性地采用了融合Gated DeltaNet與標準注意力的混合架構。該架構以約75%的Gated DeltaNet搭配約25%的標準注意力層:

  • Gated DeltaNet在長序列建模任務中表現出顯著優勢,其效果優于滑動窗口注意力及Mamba2等同類機制。
  • 保留的部分標準注意力層則引入輸出門控(Output Gating)機制,有效緩解注意力矩陣中的低秩瓶頸問題,并通過將注意力頭維度提升至256,對序列前25%的位置施加旋轉位置編碼(RoPE),顯著增強了模型的長程外推與泛化能力。

2. 前瞻預訓練,高效推理:多詞元預測(MTP)的雙重增益

Qwen3-Next創新地使用多詞元預測(MTP)任務作為預訓練目標,其在預訓練和推理階段均能帶來顯著收益:

  • 預訓練過程中,與傳統語言模型僅預測下一詞元不同,MTP要求模型在每一步同時預測后續多個詞元,這種機制迫使模型學習更長程的上下文依賴和更具前瞻性的語言結構,從而深化了對語言因果關系的理解。
  • 推理階段,MTP的能力與投機解碼技術天然契合:模型可一次性生成多個候選詞元,經系統并行驗證后,若接受率高則可大幅提升解碼速度,成為實現高效推理的關鍵技術之一。

3. 門控、歸一化與路由初始化助力訓練穩定

在訓練穩定性方面,模型集成多項創新技術以保障高效收斂:

  • 輸出門控機制有效抑制了注意力池化過程中的極大激活現象。
  • 采用零中心化RMSNorm并結合權重衰減策略,成功緩解了QK歸一化中范數權重異常膨脹的問題。
  • 此外,通過對MoE路由參數進行初始化歸一化,確保訓練初期各個專家能夠獲得均衡的采樣機會。

模型評估

在實際能力方面,Qwen3-Next展現出與頂級閉源模型相媲美的卓越性能。無論是在復雜推理任務、代碼生成還是長文本理解方面,都達到了開源模型的新高度。

其推理版本在多項專業測試中甚至超越了知名閉源模型,標志著開源社區首次在核心能力上真正比肩業界巨頭。

  • Qwen3-Next僅使用了Qwen3 36T預訓練語料中一個約15T tokens的均勻采樣子集,卻在訓練效率方面實現顯著突破:其所消耗的GPU小時數較Qwen3-30A-3B降低超過20%,與Qwen3-32B相比,更是僅需9.3%的計算資源,即達成了更優越的模型性能,充分體現出極高的訓練性價比。
  • 在推理效率方面,憑借創新的混合架構設計,Qwen3-Next-80B-A3B展現出卓越的性能。在預填充(prefill)階段,4K上下文長度下的吞吐量達到Qwen3-32B的近七倍;而當上下文長度超過32K時,吞吐量提升更超過十倍。
  • 在解碼(decode)階段,該模型同樣表現突出:在4K上下文下吞吐提升約四倍,在超越32K的長上下文環境中仍可維持十倍以上的性能優勢。此外,Qwen3-Next-80B-A3B-Base模型僅激活約十分之一的非嵌入參數,卻在多項基準測試中全面超越了參數量更高的Qwen3-32B-Base,并顯著領先于Qwen3-30B-A3B,充分體現出其卓越的模型效率與性能優勢。

Qwen3-Next-80B-A3B-Instruct在多項評測中顯著超越同類規模模型,并與參數量更大的Qwen3-235B版本表現接近。尤其在長文本能力方面,該模型在RULER評測集不同長度區間均展現出優異性能,其256K超長上下文處理能力甚至超越了層數更多的旗艦模型,凸顯了Gated DeltaNet與Gated Attention混合架構在長文本建模中的顯著優勢。

社區地址

  • OpenCSG社區:
    https://opencsg.com/models/Qwen/Qwen3-Next-80B-A3B-Thinking

  • hf社區:
    https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

關于 OpenCSG

OpenCSG是全球領先的開源大模型社區平臺,致力于打造開放、協同、可持續生態,AgenticOps

人工智能領域的一種AI原生方法論由OpenCSG(開放傳神)提出。AgenticOps是Agentic AI的最佳落地實踐也是方法論。核心產品CSGHub提供模型、數據集、代碼與AI應用的一站式托管、協作與共享服務,具備業界領先的模型資產管理能力,支持多角色協同和高效復用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/97835.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/97835.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/97835.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++入門】C++基礎

目錄 1. 命名空間 1.1 命名空間的創建和使用 2. 輸入輸出 2.1 輸出 2.2 輸入 3. 缺省參數 3.1 全缺省 3.2 半缺省 4.函數重載 4.1 為什么C支持重載而C語言不支持? 4.1.2 編譯的四個過程 4.2 extern是什么 5.引用 5.1 引用的特性 5.1.1 引用的“隱式類…

如何往mp4視頻添加封面圖和獲取封面圖?

前言:大家好,之前有給大家分享過mp4錄像的方案,今天給大家分享的內容是:如何在添加自定義的封面圖到mp4里面去,以及在進入回放mp4視頻列表的時候,怎么獲取mp4視頻里面的封面圖,當然這個獲取到的…

你的第一個Transformer模型:從零實現并訓練一個迷你ChatBot

點擊 “AladdinEdu,同學們用得起的【H卡】算力平臺”,注冊即送-H卡級別算力,80G大顯存,按量計費,靈活彈性,頂級配置,學生更享專屬優惠。 引言:破除神秘感,擁抱核心思想 …

【20期】滬深指數《實時交易數據》免費獲取股票數據API:PythonJava等5種語言調用實例演示與接口API文檔說明

? 隨著量化投資在金融市場的快速發展,高質量數據源已成為量化研究的核心基礎設施。本文將系統介紹股票量化分析中的數據獲取解決方案,涵蓋實時行情、歷史數據及基本面信息等關鍵數據類型。 本文將重點演示這些接口在以下技術棧中的實現: P…

RabbitMQ如何保障消息的可靠性

文章目錄什么是消息可靠性?RabbitMQ消息可靠性的三個維度1. 生產者到Exchange的可靠性2. Exchange到Queue的可靠性3. Queue到消費者的可靠性核心機制詳解Publisher Confirm機制消息持久化Mandatory參數消費者確認機制(ACK)最佳實踐建議1. 合理…

二十、DevOps落地:Jenkins基礎入門(一)

二十、DevOps落地:Jenkins基礎入門(一) 文章目錄二十、DevOps落地:Jenkins基礎入門(一)1、DevOps初識1.1 什么是DevOps1.2 DevOps相關工具鏈1.3 什么是CICD?1.4 持續集成CI介紹1.5 持續交付和持…

簡單易實現的數據校驗方法Checksum

簡單易實現的數據校驗方法Checksum 在數據傳輸中,Checksum(校驗和) 扮演著 “數據完整性哨兵” 的角色。它的主要作用是 快速檢測數據在傳輸過程中是否發生了錯誤 。 下面我將詳細解釋它的作用、工作原理、優缺點以及典型應用。 核心作用&…

再次深入學習深度學習|花書筆記1

我已經兩年沒有碰過深度學習了,寫此文記錄學習過程,加深理解。 深度學習再次深入學習深度學習|花書筆記1信息論第四節 數值計算中的問題上溢出 和 下溢出病態條件優化法再次深入學習深度學習|花書筆記1 這本書說的太繁瑣了,如果是想要基于這…

DeerFlow實踐:華為LTC流程的評審智能體設計

目錄 一、機制設計核心邏輯 二、4 個評審點智能體機制詳解 (一)立項決策(ATI)智能體機制 1. 知識調用與匹配 2. 評審校驗流程 3. 異常處理 (二)投標決策(ATB)智能體機制 1. …

C++與Lua交互:從原理到實踐指南

核心原理:Lua虛擬棧機制 C與Lua能夠高效交互的核心在于Lua虛擬棧的設計,這是一個精巧的中立通信區,解決了兩種語言間的本質差異:特性對比CLua語言類型靜態編譯型動態解釋型數據管理明確內存布局虛擬機統一管理類型系統編譯時確定運…

CSS 編碼規范

CSS 編碼規范1 CSS1.1 編碼規范1.1.1 【強制】所有聲明必須以分號結尾1.1.2 【推薦】使用 2 個空格縮進1.1.3 【推薦】選擇器與 { 之間保留一個空格1.1.4 【推薦】屬性值規范1.1.5 【推薦】組合器規范1.1.6 【推薦】逗號分隔規范1.1.7 【推薦】注釋規范1.1.8 【推薦】右大括號規…

ORA-12514:TNS:監聽程序當前無法識別連接描述符中請求的服務

已經不止一次自己本機電腦安裝的Oracle使用plsqldev軟件登入提示這個了.一般前一天還好好的,今天就不行了.好好總結一下吧,也共大家一起借鑒.主要原因還是數據的歸檔日志因為內部內存已經耗盡,不能在進行歸檔導致數據庫啟動異常,沒…

Spring框架的JDBC模板技術和事務管理

SpringJDBCJDBC模板技術概述JDBC的模板類的使用Spring框架的事務管理配置文件方式半注解的方式純注解的方式JDBC模板技術概述 什么是 JDBC 模板技術? JDBC 模板技術是 Spring 框架為簡化持久層(數據庫操作)編程而提供的一種封裝機制&#xf…

將文件部署到受管主機

目錄 1.ansible.builtin中用于創建、更新或刪除多行文本塊的模塊是什么 2.copy模塊的作用 3.fetch模塊的作用 4.file模塊的作用 5.lineinfile模塊的作用 6.stat模塊的作用 7.要確保受管主機上存在文件,類似touch命令功能,還能設置權限等的模塊及操作是怎…

Dell PowerEdge R620 服務器內存和硬盤罷工了

文章目錄前言調查原因查找解決方案硬盤問題內存問題總結前言 月黑風高夜,服務宕機時。做服務端技術的,誰還沒半夜遇到個服務掛掉的情況,而像我這種半兼職網管的工作,遇到機器問題的概率也就更大了,本來周五晚上寫完總…

2025:SourceTree 啟用/禁用Mercurial 或 Git,像素級細節

最近使用Git管理工具的時候,發現還是SourceTree好用些,但是使用SourceTree帶來一個問題:就是每次在重新打開SourceTree的時候,都會重新下載Mercurial.zip文件,查了一下,一般情況下我們是不需要使用Mercuria…

安卓 Google Maps 的使用和開發步驟

文章目錄1. main2. Android 谷歌地圖3. 源碼Reference1. main 在國內選擇的SDK可以是高德、百度、騰訊、xxxx等,但在國外,你首選是谷歌,因此要進行Google地圖的開發你首先要解決下面三個問題 VPN Google賬號 信用卡American Express&#x…

Linux -- 應用層協議Http

1.HTTP背景知識 HTTP協議:HTTP(HyperText Transfer Protocol,超文本傳輸協議)的本質是運行在 TCP/IP 協議族之上的 “應用層協議”,核心作用是定義客戶端(如瀏覽器、APP)與服務器之間的 “數據…

R 語言本身并不直接支持 Python 中 f“{series_matrix}.txt“ 這樣的字符串字面量格式化(f-string)語法 glue函數

R 語言本身并不直接支持 Python 中 f"{series_matrix}.txt" 這樣的字符串字面量格式化(f-string)語法。 在 R 中,要實現字符串拼接或格式化,你需要使用其他方法。下表對比了 Python f-string 和 R 中常見對應方法的主要…

【AI智能體】亮數據MCP Server × Dify:AI智能體獲取實時影音數據就是這么簡單

文章目錄一、引言:AI 應用與實時影音數據的融合價值1、傳統采集方式的痛點2、MCP Server 的創新價值二、亮數據 MCP Server 概覽1、什么是 MCP Server?2、支持的影音平臺和API接口3、產品特色亮點三、業務場景示例設計1、選定場景:競品分析與…