Qwen3技術綜述

1. 引入

2025年5月，qwen推出了旗艦模型（flagship model）Qwen3-235B-A22B。并以Apache 2.0版權發布（可自由商業使用，修改代碼和商用要包含原始版權）。本文對其技術報告中提到的數據處理技術與模型結構進行綜述。

2. 關鍵成果

（1）將think模式與non-think模式集成到同一個模型
（2）think budget機制，推理時優化、節約資源
（3）預訓練數據：36T tokens

3. 訓練數據

用多模型來生成訓練數據：
（1）多模態模型從pdf中提取文本
（2）math模型生成數學內容
（3）coder模型生成代碼相關的內容

4. 訓練

預訓練分3步：
（1）30T token
的通用數據
（2）STEM和代碼數據
（3）長上下文數據32k

后訓練分4步：
（1）長CoT推理能力：有/無推理過程的數據都訓練
（2）領域強化學習；對小模型做蒸餾

評估：
（1）base預訓練模型達到SOTA
（2）后訓練的think和no-think模型也都不錯

5. 架構

Qwen3的dense模型架構與Qwen2.5類似：
（1）GQA

將 query 頭分為 G 組，每組共享一個 key 和 value 頭。GQA - 1 相當于 MQA，只有一個組和一個 key、value 頭；GQA - H 組數等于 query 頭數，相當于 MHA。GQA 介于 MHA 和 MQA 之間，其 kv 分組讓模型質量比 MQA 高、速度比 MHA 快，是一種有利的權衡。對于大模型，GQA 在模型規模增大時能保持相同比例的帶寬和容量縮減，提供更好的權衡。

（2）SwiGLU
SwigLU（Swish-Gated Linear Unit）是一種融合了門控機制和激活函數的神經網絡結構，其核心思想是通過門控機制動態調節非線性變換的強度。將非線性激活函數與門控機制結合，設計一種更靈活的結構，增強模型的表達能力

（3）RoPE
RoPE（Rotary Position Embedding，旋轉位置編碼）是一種用于改進 Transformer 模型位置編碼的機制。其核心思想是通過旋轉向量的正交變換來引入位置信息，使模型能夠更高效地捕捉序列中的相對位置關系，尤其在長序列場景下表現更優。

（4）RMSNorm
RMSNorm（Root Mean Square Layer Normalization，均方根層歸一化）是一種改進的層歸一化（Layer Normalization, LN）方法，核心思想是通過簡化歸一化計算過程并保留尺度信息，提升模型訓練的穩定性和效率。

Qwen3的moe模型架構與Qwen2.5類似：
（1）fin-grained專家segmentation
不一樣的是
（2）不再使用共享專家

參考

qwen3技術文檔，https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/88067.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/88067.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/88067.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！