一、 核心壓縮與優化技術詳解
1. 知識蒸餾:智慧的傳承(Knowledge Distillation, KD)
-
核心思想:“師授徒業”。訓練一個龐大、高性能但笨重的“教師模型”(Teacher Model),讓其指導訓練一個輕量級的“學生模型”(Student Model)。學生模型學習模仿教師模型的輸出行為(預測概率分布),而非僅僅學習原始數據的硬標簽。
-
關鍵機制:
-
軟標簽(Soft Targets):教師模型對輸入樣本預測的概率分布(如softmax輸出)包含了比“正確/錯誤”硬標簽更豐富的知識(如類間相似性、模型置信度)。
-
蒸餾損失(Distillation Loss):學生模型的目標函數通常結合:
-
KD Loss
:衡量學生輸出概率分布與教師輸出概率分布的差異(常用KL散度)。 -
Student Loss
:衡量學生輸出與真實
-
-