Qwen3 技術報告 的 Strong-to-Weak Distillation 強到弱蒸餾 和 代碼實現

Qwen3 技術報告 的 Strong-to-Weak Distillation 強到弱蒸餾 和 代碼實現

flyfish

代碼在文末

技術報告就是不一定經過嚴格的學術期刊同行評審,但具有較強的專業性和實用性。
在這里插入圖片描述

The post-training pipeline of Qwen3 is strategically designed with two core objectives:
(1) Thinking Control: This involves the integration of two distinct modes, namely the “non-thinking”
and “thinking” modes, providing users with the flexibility to choose whether the model should
engage in reasoning or not, and to control the depth of thinking by specifying a token budget for
the thinking process.
(2) Strong-to-Weak Distillation: This aims to streamline and optimize the post-training process
for lightweight models. By leveraging the knowledge from large-scale models, we substantially
reduce both the computational costs and the development efforts required for building smaller-
scale models.

post-training 后訓練

post-training強調的是 在模型完成預訓練(pre-training)之后、正式部署或應用之前 進行的一系列針對性訓練、優化步驟(比如 “思考控制”“強到弱蒸餾” 等)

“后訓練” 體現這一階段與 “預訓練” 的承接關系 —— 它屬于模型訓練生命周期中的一個特定階段(預訓練→后訓練→部署)

后訓練包括但不限于:微調(fine-tuning)、對齊(alignment)符合人類價值觀或指令、蒸餾(distillation)、能力增強等。

Qwen3 的后訓練流程

Qwen3 的后訓練流程經過精心設計,圍繞兩個核心目標展開:

(1)思考控制:整合 “非思考” 和 “思考” 兩種不同模式,為用戶提供靈活選擇的空間 —— 既可以決定模型是否進行推理,也能通過指定思考過程的 token 預算來控制思考深度。

(2)強到弱蒸餾:旨在簡化和優化輕量級模型的訓練后流程。借助大規模模型的知識,大幅降低構建小規模模型所需的計算成本和開發精力。

通過讓小模型直接學習大模型輸出的 logits,既能提升小模型性能,又能保留對其推理過程的精準調控,同時不用給每個小模型重復走復雜的四階段訓練流程,效率更高。

Strong-to-Weak Distillation 強到弱蒸餾

Strong-to-Weak Distillation
The Strong-to-Weak Distillation pipeline is specifically designed to optimize lightweight models, encompassing 5 dense models (Qwen3-0.6B, 1.7B, 4B, 8B, and 14B) and one MoE model (Qwen3-30B-A3B). This approach enhances model performance while effectively imparting robust mode-switching capabilities.The distillation process is divided into two primary phases:
(1) Off-policy Distillation: At this initial phase, we combine the outputs of teacher models generated
with both /think and /no think modes for response distillation. This helps lightweight student
models develop basic reasoning skills and the ability to switch between different modes of
thinking, laying a solid foundation for the next on-policy training phase.(2) On-policy Distillation: In this phase, the student model generates on-policy sequences for
fine-tuning. Specifically, prompts are sampled, and the student model produces responses in
either /think or /no think mode. The student model is then fine-tuned by aligning its logits
with those of a teacher model (Qwen3-32B or Qwen3-235B-A22B) to minimize the KL divergence.

Strong-to-Weak Distillation(強到弱蒸餾) 是一種知識遷移策略,其含義是:利用大規模高性能模型(強模型,即教師模型)的知識,通過系統性方法優化輕量級模型(弱模型,即學生模型)的訓練流程

強到弱蒸餾流程專為優化輕量級模型而設計,涵蓋 5 個密集型模型(Qwen3-0.6B、1.7B、4B、8B 和 14B)以及 1 個混合專家模型(Qwen3-30B-A3B)。該方法在提升模型性能的同時,能有效賦予其強大的模式切換能力。

蒸餾過程分為兩個主要階段:
(1)離線策略蒸餾:在這一初始階段,我們結合教師模型在 /think 模式和 /no think 模式下生成的輸出進行響應蒸餾。這有助于輕量級學生模型培養基本推理能力以及在不同思考模式間切換的能力,為下一階段的在線策略訓練奠定堅實基礎。

(2)在線策略蒸餾:在這一階段,學生模型生成在線策略序列以進行微調。具體而言,先對提示詞進行抽樣,再讓學生模型以 /think 模式或 /no think 模式生成響應。隨后,通過將學生模型的 logits 與教師模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 對齊,以最小化 KL 散度,完成對學生模型的微調。

thinking and non-thinking modes 思考模式和非思考模式

在這里插入圖片描述

Qwen3-4B-Instruct-2507

此模型僅支持非思考模式,在輸出中不會生成<think></think>塊。同時,不再需要指定enable_thinking=False

Qwen/Qwen3-4B-Thinking-2507

此模型僅支持思考模式。同時,不再需要指定enable_thinking=True
此外,為了強制模型思考,默認聊天模板自動包含 <think>。因此,模型輸出只包含 </think> 而沒有顯式的 <think> 開始標簽是正常的。

蒸餾代碼的實現

https://github.com/shaoshengsong/KDTrainer
代碼分析的是LLM-KD-Trainer/LLM-KD-Trainer.py

最好先看完基礎知識
知識蒸餾 - 蒸的什么

知識蒸餾 - 通過引入溫度參數T調整 Softmax 的輸出

知識蒸餾 - 對數函數的單調性

知識蒸餾 - 信息量的公式為什么是對數

知識蒸餾 - 根據真實事件的真實概率分布對其進行編碼

知識蒸餾 - 信息熵中的平均為什么是按概率加權的平均

知識蒸餾 - 自信息量是單個事件的信息量,而平均自信息量(即信息熵)是所有事件自信息量以其概率為權重的加權平均值

知識蒸餾 - 最小化KL散度與最小化交叉熵是完全等價的

知識蒸餾 - 基于KL散度的知識蒸餾 KL散度的方向

知識蒸餾 - 大語言模型知識蒸餾LLM-KD-Trainer 源碼分析 數據集處理
知識蒸餾 - 大語言模型知識蒸餾LLM-KD-Trainer 源碼分析 KnowledgeDistillationTrainer類

微調訓練時,ignore_empty_think是怎么保護模型的思考能力?

在對 Qwen3 進行微調訓練時,如何保護模型的思考能力?

模型的原始輸出為什么叫 logits

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92801.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92801.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92801.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一體化步進伺服電機在無人機艙門應用中的應用案例

在無人機的設計過程中&#xff0c;艙門的快速、穩定開合對于無人機的任務執行效率和安全性至關重要。傳統的艙門驅動方式存在響應速度慢、控制精度不足等問題&#xff0c;難以滿足無人機復雜任務的需求。因此&#xff0c;某客戶無人機選擇了?一體化步進伺服電機?作為艙門的驅…

Ansible 面試題 20250811

1. 你使用過哪些 Ansible 模塊? Ansible 常用的模塊: file 、copy 、template 、yum 、apt 、service 、user 、group 、shell 、script 、command 、cron 等等。 這些模塊可以用來管理文件、軟件包、服務、用戶、組、計劃任務等等。 Docker相關模塊: docker_container:用…

安路Anlogic FPGA下載器的驅動安裝與測試教程

參考鏈接&#xff1a;安路下載器JTAG驅動安裝 - 米聯客(milianke) - 博客園 安路支持幾款下載器&#xff1a; AL-LINK在線下載器是基于上海安路信息科技股份科技有限公司全系列 CPLD/FPGA 器件&#xff0c;結合公司自研的 TD 軟件&#xff0c;可實現在線 JTAG 程序下載、Chip…

基于深度學習的股票分析和預測系統

摘要 【關鍵詞】 第一章 緒論 1.1 研究背景及意義 1.2 國內外文獻綜述 1.2.1 國外研究結果 1.2.2 國內研究結果 1.3 本課題主要工作 第二章 相關工作介紹 2.1文本量化方法 2.2 CNN、LSTM模型 2.3評測準確率及收益率 第三章 開發技術介紹 3.1 系統開發平臺 3.2平臺…

ML基礎設施(Machine Learning Infrastructure)

ML基礎設施&#xff08;Machine Learning Infrastructure&#xff09; 是指支持機器學習項目從開發到部署全生命周期所需的底層技術架構和工具集合。其核心目標是讓數據科學家和工程師能專注于模型創新&#xff0c;而非環境搭建等重復性工作。以下是深度解析&#xff1a;一、ML…

代碼隨想錄刷題Day29

逆波蘭表達式求值這是一道經典地使用棧來解決后綴表達式求解的題目。使用棧來求解后綴表達式的流程如下&#xff1a;借助棧的結構&#xff0c;可以求解出原始表達式是&#xff1a;9 &#xff08;-3 - 1&#xff09;* 3 10 / 2 2&#xff0c;在遵照規則過程中&#xff0c;還有…

crew AI筆記[3] - 設計理念

二八法則-task設計最重要80%精力設計tasks&#xff0c;20%精力定義agents花最多的實踐定義任務說明清晰定義輸入輸出增加示例和預期結果來約束輸出剩下的精力完善agent的role、goal、backstory1、Agent設計三要素role-goal-backstory框架Role - 職能定義足夠具體【作家 &#x…

【李宏毅-2024】第六講 大語言模型的訓練過程1——預訓練(Pre-training)

目錄概述1. 預訓練&#xff08;Pre-training&#xff09;2. 微調&#xff08;Fine-tuning&#xff0c;又稱 SFT&#xff0c;Supervised Fine-Tuning&#xff09;3. 對齊&#xff08;Alignment&#xff0c;又稱 RLHF 或 DPO 等&#xff09;4 三階段對比6 第一階段——自我學習&a…

基于LLVM的memcpy靜態分析工具:設計思路與原理解析(C/C++代碼實現)

在程序開發中&#xff0c;內存復制操作&#xff08;如memcpy&#xff09;往往是性能瓶頸的關鍵來源——尤其是大型內存塊的復制&#xff0c;可能導致緩存失效、帶寬占用過高等問題。為了精準定位這些潛在的性能熱點&#xff0c;開發者需要一種能自動識別程序中memcpy調用&#…

使用 Conda 安裝 xinference[all](詳細版)

1. 安裝 Miniconda&#xff08;若未安裝&#xff09; Miniconda 是 Anaconda 的輕量版&#xff0c;僅包含 Conda 和 Python&#xff0c;適合服務器環境。 下載并安裝 Miniconda 下載地址&#xff1a;Index of /miniconda &#xff0c;可以自行選擇適合的版本 # 下載最新版 …

服務器登上去,顯示 failed to send WATCHDOG 重啟有效嗎?

文章目錄 概要整體架構流程技術名詞解釋技術細節小結 概要 當你登錄服務器時&#xff0c;看到類似以下提示&#xff1a; failed to send WATCHDOG: Resource temporarily unavailable這通常和系統的 systemd 服務有關&#xff0c;尤其是那些啟用了 watchdog&#xff08;看門…

重學React(五):脫圍機制一

背景&#xff1a; 之前將React的基礎知識以及狀態管理相關的知識都過了一遍&#xff0c;查漏補缺的同時對React也有了一些新鮮的認知&#xff0c;接下來這個模塊的名字很有意思&#xff1a;脫圍機制&#xff0c;內容也比之前的部分難理解一些。但整體看下來&#xff0c;理解之后…

去除Edge微軟瀏覽器與Chrome谷歌瀏覽器頂部出現“此版本的Windows不再支持升級Windows 10”的煩人提示

前言 在 Windows 7 中&#xff0c;安裝 Microsoft Edge 109 版本后&#xff0c;啟動瀏覽器時會彈出提示&#xff1a; 此版本的 Windows 不再支持 Microsoft Edge。升級到 Windows 10 或更高版本&#xff0c;以獲取常規功能和安全更新。 同樣地&#xff0c;安裝 Google Chrome 1…

PWM、脈沖

要求&#xff1a;一、PWM輸出PWM波生成原理在此處使用TIM2生成PWM&#xff0c;PA1輸出PWM波。CNT小于CCR時&#xff0c;輸出高電平&#xff1b;CNT大于CCR時&#xff0c;輸出低電平。 輸入捕獲測量頻率的原理輸入捕獲的捕獲意思是它在PWM波上升沿或者下降沿的時候&#xff0c;會…

文件IO(1)

.文件IO1.概念標準IO是有緩存的IO&#xff0c;文件IO沒有緩存&#xff0c;適合于通信、硬件設備操作標準IO是庫函數&#xff0c;文件IO是系統調用2.系統調用與庫函數系統調用&#xff1a;是Linux內核中的代碼&#xff0c;只能在Linux系統中使用庫函數&#xff1a;是對系統調用的…

【AI】Pycharm中要注意Python程序文件的位置

博主試著在本地電腦用Pycharm環境運行隨便一個機器學習然后做圖像識別的模型&#xff0c;Python的程序一直報博主學習圖片的路徑不正確&#xff0c;博主查了好幾遍&#xff0c;也沒找出問題&#xff0c;后來借助Deepseek才知道&#xff0c;Python主程序的位置一定要在Project下…

TDengine 可觀測性最佳實踐

TDengine 介紹 TDengine 是一款開源、高性能、云原生的時序數據庫&#xff0c;專為物聯網、車聯網、工業互聯網、金融、IT 運維等場景優化設計。它不僅提供了高效的數據存儲和查詢功能&#xff0c;還帶有內建的緩存、流式計算、數據訂閱等系統功能&#xff0c;能大幅減少系統設…

Jenkins 搭建鴻蒙打包

1、創建流水線工程 選擇 Freestyle project 2、配置模板倉庫、憑證 配置倉庫地址 創建憑證&#xff0c;憑證選擇賬號-密碼&#xff08;能夠訪問該倉庫的個人或管理員 Gitlab 賬密&#xff09; 到這里執行構建&#xff0c;便可以克隆倉庫到工作目錄 3、安裝插件 3.1 Rebuild…

【SpringBoot】02 基礎入門-什么是Spring Boot?:Spring與SpringBoot

文章目錄1、Spring能做什么1.1、Spring的能力1.2、Spring的生態1.3、Spring5重大升級1.3.1、響應式編程1.3.2、內部源碼設計2、為什么用SpringBoot2.1、SpringBoot優點2.2、SpringBoot缺點3、時代背景3.2、分布式分布式的困難分布式的解決3.3、云原生上云的困難4、如何學習Spri…

FFmpeg 編譯安裝和靜態安裝

FFmpeg 編譯安裝和靜態安裝 簡介 FFmpeg 是一個領先的多媒體框架&#xff0c;能夠解碼、編碼、轉碼、復用、解復用、流化、過濾和播放幾乎所有人類和機器創建的格式。本指南將詳細介紹如何在 CentOS 8.5.2111 系統上從源代碼編譯并安裝 FFmpeg 6.1.1 版本。從源代碼編譯安裝可…