【DL】淺談深度學習中的知識蒸餾 | 輸出層知識蒸餾

目錄

一 核心概念與背景

二 輸出層知識蒸餾

1 教師模型訓練

2 軟標簽生成(Soft Targets)

3 學生模型訓練

三 擴展

1 有效性分析

2 關鍵影響因素

3 變體



一 核心概念與背景

知識蒸餾(Knowledge Distillation, KD)是一種模型壓縮知識遷移技術,由Hinton等人于2015年在《Distilling the Knowledge in a Neural Network》中提出。其核心目標是將復雜模型(教師模型)中的“知識”遷移到更輕量的模型(學生模型)中,使學生模型在保持較小計算代價的同時,逼近甚至超越教師模型的性能

核心思想:教師模型通過輸出軟標簽(Soft Targets,即概率分布)傳遞隱含知識(如類別間相似性),而非僅依賴硬標簽(One-hot編碼標簽)。學生模型通過模仿教師模型的輸出分布,學習更泛化的特征表示。

輸出層知識蒸餾

論文題目:Distilling the Knowledge in a Neural Network(2015.3.9)

論文地址:https://arxiv.org/pdf/1503.02531

【摘要】提高幾乎任何機器學習算法性能的一個非常簡單的方法是在同一數據上訓練許多不同的模型,然后對它們的預測進行平均。不幸的是,使用整個模型集合進行預測是很麻煩的,并且可能過于昂貴,無法部署到大量的用戶,特別是如果單個模型是大型神經網絡。卡魯阿納及其合作者的研究表明,將一個集合中的知識壓縮為一個更易于部署的單一模型是可能的,我們進一步使用不同的壓縮技術來開發這種方法。我們在MNIST上取得了一些令人驚訝的結果,我們表明,通過將模型集合中的知識提取到單個模型中,我們可以顯著地改進大量使用的商業系統的聲學模型。我們還介紹了一種由一個或多個全模型和許多專家模型組成的新型集成,它們能夠學習區分全模型混淆的細粒度類。與混合專家不同,這些專家模型可以快速并行地進行訓練。

1 教師模型訓練

教師模型對輸入樣本的預測輸出是一個概率分布,而不是單一的類別標簽。這種概率分布包含了教師模型對于各個類別的置信度,比硬標簽提供了更多關于類間關系的信息

教師模型需在目標任務上充分訓練至收斂,通常選擇參數量大、性能優越的模型(如ResNet-152、BERT-large)。教師模型的logits輸出(未經Softmax的原始分數)或經過溫度參數調整的軟概率分布

2 軟標簽生成(Soft Targets)

通過溫度參數?T調整Softmax函數,生成更平滑的概率分布:

其中?T?>?1時分布更平緩,揭示類別間相似性;T=1時為標準Softmax。

3 學生模型訓練

生模型同時學習教師的軟標簽和真實標簽,損失函數為加權和:

loss?=?αH(teacher(x),student(x))?+?(1?α)H(target,student(x))

其中:H(teacher(x),student(x))?是教師模型與學生模型的交叉熵H(target,student(x))?是學生模型與真實情況的交叉熵α?是一個超參數,用來平衡兩個損失項的權重

蒸餾的過程如下圖。

三 擴展

1 有效性分析

?知識傳遞機制

軟標簽包含類間關系,而硬標簽僅保留正確類別信息。

溫度參數?T?控制知識粒度:高?T?強調類間關系,低?T?聚焦主要類別。

?正則化效應

教師模型的軟標簽為學生提供額外監督信號,緩解小模型過擬合問題。

?優化軌跡引導

教師模型的輸出分布為學生模型提供更平滑的優化路徑,降低陷入局部最優風險。

2 關鍵影響因素

?溫度參數?T

經驗值范圍:T∈[3,10],需根據任務調整。過高導致分布過于平緩,過低則接近硬標簽。

?教師-學生容量差距

學生模型需具備足夠容量學習教師知識,差距過大會限制性能上限。漸進式蒸餾(如先訓練中等模型)可緩解此問題。

?數據增強策略

使用與教師模型相同的數據增強方法,確保知識遷移一致性。

3 變體

?中間特征蒸餾

直接對齊教師與學生中間層的特征(如注意力圖、特征圖)。

?自蒸餾(Self-Distillation)

同一模型在不同訓練階段或不同子模塊間遷移知識,無需獨立教師模型。

?對抗蒸餾

引入生成對抗網絡(GAN),通過判別器強制學生模仿教師特征分布。

至此,本文的內容就結束啦。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895768.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895768.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895768.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

嵌入式學習第十六天--stdio(二)

文件打開 open函數 #include <fcntl.h> int open(const char *pathname&#xff0c;int flags); int open(const char *pathname&#xff0c;int flags&#xff0c;mode_t mode); 功能: 打開或創建文件 參數: pathname //打開的文件名 flags //操作…

對話智面創始人陶然:一是初心和心態,二是堅持和心力

隨著經濟全球化的加深和市場競爭的日益激烈&#xff0c;企業迅速發展成為了每一個企業家的夢想。然而&#xff0c;要實現企業的快速發展并保持競爭力&#xff0c;企業戰略的人力資源管理起著至關重要的作用。 企業的核心競爭力是“人才”的競爭&#xff0c;無論是研發、銷售、…

mybatis使用typeHandler實現類型轉換

使用mybatis作為操作數據庫的orm框架&#xff0c;操作基本數據類型時可以通過內置的類型處理器完成java數據類型和數據庫類型的轉換&#xff0c;但是對于擴展的數據類型要實現與數據庫類型的轉換就需要自定義類型轉換器完成&#xff0c;比如某個實體類型存儲到數據庫&#xff0…

Qt開發①Qt的概念+發展+優點+應用+使用

目錄 1. Qt的概念和發展 1.1 Qt的概念 1.2 Qt 的發展史&#xff1a; 1.3 Qt 的版本 2. Qt 的優點和應用 2.1 Qt 的優點&#xff1a; 2.2 Qt 的應用場景 2.3 Qt 的應用案例 3. 搭建 Qt 開發環境 3.1 Qt 的開發工具 3.2 Qt SDK 的下載和安裝 3.3 Qt 環境變量配置和使…

mac安裝Pyspark并連接Mysql

安裝Scala, apache-spark, Hadoop brew install scala brew install apache-spark brew install hadoop pip install pyspark注意不要自己另外安裝jdk, 會造成版本對不上報錯。因為安裝apache-spark的過程中會自動安裝openjdk。 配置環境變量 JAVA_HOME/opt/homebrew/Cellar…

【Go語言快速上手】第二部分:Go語言進階之網絡編程

文章目錄 前言&#xff1a;網絡編程一、TCP/UDP 編程&#xff1a;net 包的使用1. TCP 編程1.1 TCP 服務器1.2 TCP 客戶端 2. UDP 編程2.1 UDP 服務器2.2 UDP 客戶端 二、HTTP 編程&#xff1a;net/http 包的使用&#xff0c;編寫 HTTP 服務器和客戶端2.1 HTTP 服務器2.2 HTTP 客…

王炸 用AI+飛書 分解 一鍵生成 項目計劃表模版

效果圖&#xff1a; 各字段設置&#xff1a; 以下是一個使用 AI&#xff08;DeepSeeker&#xff09; 飛書多維表格分解項目待辦模板的示例&#xff0c;你可以根據實際情況進行調整和優化&#xff1a; 列表中需要選擇對象&#xff0c;且選擇輸出結果&#xff08;記得控制字符長度…

從月牙定理看古希臘數學的奇妙突破

文章目錄 每日一句正能量前言古希臘人的 “化圓為方” 之夢&#xff08;一&#xff09;幾何作圖的基本規則&#xff08;二&#xff09;化圓為方問題的起源與發展&#xff08;三&#xff09;化圓為方的意義 月牙面積定理的誕生&#xff08;一&#xff09;希波克拉底的生平與成就…

實戰:vLLM多機多卡部署大模型

兩臺服務器 1. Docker容器中使用GPU 必須確保已安裝并配置 NVIDIA Docker。你可以安裝 nvidia-docker 來確保 GPU 驅動能夠被 Docker 使用 #安裝 nvidia-docker&#xff1a; sudo apt-get install nvidia-docker2#然后重啟 Docker&#xff1a; sudo systemctl restart docke…

LLM中種子(Seed)作用是什么:多樣性

LLM中種子(Seed)作用是什么:多樣性 目錄 LLM中種子(Seed)作用是什么:多樣性作用舉例不同種子的區別設置不同種子的原因在LLM(大語言模型)中,種子(Seed)用于初始化隨機數生成器,發揮著確保結果可重復性的關鍵作用,具體如下: 作用 當大語言模型生成文本時,很多操…

neo4j二進制部署

neo4j二進制部署 下載所需組件 jdk 17 neo4j 5.2.0 配置文件 server.default_listen_address0.0.0.0環境變量 export JAVA_HOME/usr/local/jdk-17.0.13 export CLASSPATH.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar export PATH$…

Win10環境使用零訊ZeroNews內網穿透實現Deepseek對外服務

Win10環境使用零訊ZeroNews內網穿透實現Deepseek對外服務 前言 之前筆者已經在Win10環境搭建好了Ollama、DeepSeek、Open WebUI、Dify等組件&#xff0c;成功實現了私有化部署及內網訪問&#xff1a; https://lizhiyong.blog.csdn.net/article/details/145505686 https://l…

spconv 安裝測試

pip install spconv 報錯: File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py", line 1736, in _wrapped_call_impl return self._call_impl(*args, **kwargs) File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/mod…

MySQL 查詢緩存技術深度解析

在現代數據庫管理系統中&#xff0c;查詢性能優化是提升應用響應速度和用戶體驗的關鍵環節。MySQL 作為一款廣泛使用的開源關系型數據庫&#xff0c;提供了查詢緩存功能&#xff0c;用于緩存查詢結果&#xff0c;從而在后續相同的查詢請求時能夠快速返回結果&#xff0c;減少數…

halcon 條形碼、二維碼識別、opencv識別

一、條形碼 函數介紹 create_bar_code_model * 1.創建條碼讀取器的模板 * 參數一&#xff1a;通用參數的名稱&#xff0c;針對條形碼模型進行調整。默認值為空 * 參數二&#xff1a;針對條形碼模型進行調整 * 參數三&#xff1a;條形碼模型的句柄。 create_bar_code_model (…

一個簡潔高效的Flask用戶管理示例

Flask-Login 是 Flask 的用戶管理擴展&#xff0c;提供 用戶身份驗證、會話管理、權限控制 等功能。 適用于&#xff1a; ? 用戶登錄、登出 ? 記住用戶&#xff08;“記住我” 功能&#xff09; ? 限制未登錄用戶訪問某些頁面 ? 用戶會話管理 1. 安裝 Flask-Login pi…

HashSet 的底層原理(簡單易懂)

在 Java 集合框架中&#xff0c;HashSet 是一個非常常用的集合類&#xff0c;它提供了快速的元素查找和插入操作。那么&#xff0c;HashSet 的底層是如何實現這些高效操作的呢&#xff1f;本文將深入探討 HashSet 的底層原理。 一、HashSet 的基本概念 HashSet 是基于哈希表的…

【學習資源】時間序列數據分析方法(2)-mWDN和AutoEncoder

接著上次的【學習資源】時間序列數據分析方法&#xff08;1&#xff09;-CSDN博客&#xff0c;本次介紹mWDN和AutoEncoder 解決時序數據分類的方法。介紹模型原理、應用場景和參考代碼。也從模型性能、訓練效率、模型復雜度、計算復雜度、可解釋性、適應性和泛化能力、健壯性、…

[LeetCode力扣hot100]-鏈表

相交鏈表 160. 相交鏈表 - 力扣&#xff08;LeetCode&#xff09; 思路就是遍歷兩個鏈表&#xff0c;有相同的部分就可以視為相交。 但是長度不一樣&#xff0c;比如兩個會相交的鏈表&#xff0c;headA 的長度為 a c&#xff0c;headB 的長度為 b c&#xff0c;其中 c 是公…

JAVA EE初階 - 預備知識(四)

一、API API 即應用程序編程接口&#xff08;Application Programming Interface&#xff09;&#xff0c;是一組定義、協議和工具&#xff0c;用于不同軟件組件、應用程序或系統之間進行交互和通信。以下從多個方面詳細介紹 API&#xff1a; 基本概念 接口規范&#xff1a;A…