1. 引入
2025年5月,qwen推出了旗艦模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版權發布(可自由商業使用,修改代碼和商用要包含原始版權)。本文對其技術報告中提到的數據處理技術與模型結構進行綜述。
2. 關鍵成果
(1)將think模式與non-think模式集成到同一個模型
(2)think budget機制,推理時優化、節約資源
(3)預訓練數據:36T tokens
3. 訓練數據
用多模型來生成訓練數據:
(1)多模態模型從pdf中提取文本
(2)math模型生成數學內容
(3)coder模型生成代碼相關的內容
4. 訓練
預訓練分3步:
(1)30T token
的通用數據
(2)STEM和代碼數據
(3)長上下文數據32k
后訓練分4步:
(1)長CoT推理能力:有/無推理過程的數據都訓練
(2)領域強化學習;對小模型做蒸餾
評估:
(1)base預訓練模型達到SOTA
(2)后訓練的think和no-think模型也都不錯
5. 架構
Qwen3的dense模型架構與Qwen2.5類似:
(1)GQA
將 query 頭分為 G 組,每組共享一個 key 和 value 頭。GQA - 1 相當于 MQA,只有一個組和一個 key、value 頭;GQA - H 組數等于 query 頭數,相當于 MHA。GQA 介于 MHA 和 MQA 之間,其 kv 分組讓模型質量比 MQA 高、速度比 MHA 快,是一種有利的權衡。對于大模型,GQA 在模型規模增大時能保持相同比例的帶寬和容量縮減,提供更好的權衡。
(2)SwiGLU
SwigLU(Swish-Gated Linear Unit)是一種融合了門控機制和激活函數的神經網絡結構,其核心思想是通過門控機制動態調節非線性變換的強度。將非線性激活函數與門控機制結合,設計一種更靈活的結構,增強模型的表達能力
(3)RoPE
RoPE(Rotary Position Embedding,旋轉位置編碼)是一種用于改進 Transformer 模型位置編碼的機制。其核心思想是通過旋轉向量的正交變換來引入位置信息,使模型能夠更高效地捕捉序列中的相對位置關系,尤其在長序列場景下表現更優。
(4)RMSNorm
RMSNorm(Root Mean Square Layer Normalization,均方根層歸一化)是一種改進的層歸一化(Layer Normalization, LN)方法,核心思想是通過簡化歸一化計算過程并保留尺度信息,提升模型訓練的穩定性和效率。
Qwen3的moe模型架構與Qwen2.5類似:
(1)fin-grained專家segmentation
不一樣的是
(2)不再使用共享專家
參考
- qwen3技術文檔,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf