目錄
一 核心概念與背景
二 輸出層知識蒸餾
1 教師模型訓練
2 軟標簽生成(Soft Targets)
3 學生模型訓練
三 擴展
1 有效性分析
2 關鍵影響因素
3 變體
一 核心概念與背景
知識蒸餾(Knowledge Distillation, KD)是一種模型壓縮與知識遷移技術,由Hinton等人于2015年在《Distilling the Knowledge in a Neural Network》中提出。其核心目標是將復雜模型(教師模型)中的“知識”遷移到更輕量的模型(學生模型)中,使學生模型在保持較小計算代價的同時,逼近甚至超越教師模型的性能。
核心思想:教師模型通過輸出軟標簽(Soft Targets,即概率分布)傳遞隱含知識(如類別間相似性),而非僅依賴硬標簽(One-hot編碼標簽)。學生模型通過模仿教師模型的輸出分布,學習更泛化的特征表示。
二 輸出層知識蒸餾
論文題目:Distilling the Knowledge in a Neural Network(2015.3.9)
論文地址:https://arxiv.org/pdf/1503.02531
【摘要】提高幾乎任何機器學習算法性能的一個非常簡單的方法是在同一數據上訓練許多不同的模型,然后對它們的預測進行平均。不幸的是,使用整個模型集合進行預測是很麻煩的,并且可能過于昂貴,無法部署到大量的用戶,特別是如果單個模型是大型神經網絡。卡魯阿納及其合作者的研究表明,將一個集合中的知識壓縮為一個更易于部署的單一模型是可能的,我們進一步使用不同的壓縮技術來開發這種方法。我們在MNIST上取得了一些令人驚訝的結果,我們表明,通過將模型集合中的知識提取到單個模型中,我們可以顯著地改進大量使用的商業系統的聲學模型。我們還介紹了一種由一個或多個全模型和許多專家模型組成的新型集成,它們能夠學習區分全模型混淆的細粒度類。與混合專家不同,這些專家模型可以快速并行地進行訓練。
1 教師模型訓練
教師模型對輸入樣本的預測輸出是一個概率分布,而不是單一的類別標簽。這種概率分布包含了教師模型對于各個類別的置信度,比硬標簽提供了更多關于類間關系的信息。
教師模型需在目標任務上充分訓練至收斂,通常選擇參數量大、性能優越的模型(如ResNet-152、BERT-large)。教師模型的logits輸出(未經Softmax的原始分數)或經過溫度參數調整的軟概率分布。
2 軟標簽生成(Soft Targets)
通過溫度參數?T調整Softmax函數,生成更平滑的概率分布:
其中,?T?>?1時分布更平緩,揭示類別間相似性;T=1時為標準Softmax。
3 學生模型訓練
學生模型同時學習教師的軟標簽和真實標簽,損失函數為加權和:
loss?=?αH(teacher(x),student(x))?+?(1?α)H(target,student(x))
其中:H(teacher(x),student(x))?是教師模型與學生模型的交叉熵。H(target,student(x))?是學生模型與真實情況的交叉熵。α?是一個超參數,用來平衡兩個損失項的權重。
蒸餾的過程如下圖。
三 擴展
1 有效性分析
■?知識傳遞機制
軟標簽包含類間關系,而硬標簽僅保留正確類別信息。
溫度參數?T?控制知識粒度:高?T?強調類間關系,低?T?聚焦主要類別。
■?正則化效應
教師模型的軟標簽為學生提供額外監督信號,緩解小模型過擬合問題。
■?優化軌跡引導
教師模型的輸出分布為學生模型提供更平滑的優化路徑,降低陷入局部最優風險。
2 關鍵影響因素
■?溫度參數?T
經驗值范圍:T∈[3,10],需根據任務調整。過高導致分布過于平緩,過低則接近硬標簽。
■?教師-學生容量差距
學生模型需具備足夠容量學習教師知識,差距過大會限制性能上限。漸進式蒸餾(如先訓練中等模型)可緩解此問題。
■?數據增強策略
使用與教師模型相同的數據增強方法,確保知識遷移一致性。
3 變體
■?中間特征蒸餾
直接對齊教師與學生中間層的特征(如注意力圖、特征圖)。
■?自蒸餾(Self-Distillation)
同一模型在不同訓練階段或不同子模塊間遷移知識,無需獨立教師模型。
■?對抗蒸餾
引入生成對抗網絡(GAN),通過判別器強制學生模仿教師特征分布。
至此,本文的內容就結束啦。