Teacher-Student Setup是一個經典的機器學習框架,包含兩個核心角色:
-
-
教師模型 (Teacher Model):
- 通常是一個更大、更強、已經訓練好(或正在訓練)的模型。
- 它對問題有很好的理解,性能優秀。
- 它的作用是為學生提供“指導”。
-
學生模型 (Student Model):
- 通常是一個更小、更輕量級的模型。
- 它的目標是學習教師的能力,最終在性能上接近甚至超越教師(在特定任務上)。
- 學生不僅從真實標簽 (hard labels)?中學習,還會從教師的輸出 (soft labels)?中學習。
-
-
教師如何“教”學生?—— 知識蒸餾 (Knowledge Distillation)
這是最核心的機制:- Hard Labels (硬標簽):原始數據中的正確答案,比如圖片是“貓”,標簽就是?
[0, 1, 0]
。 - Soft Labels (軟標簽):教師模型輸出的概率分布。例如,對于一張貓的圖片,教師可能輸出?
[0.05 (狗), 0.9 (貓), 0.05 (虎)]
。這個分布包含了教師的“思考過程”——它知道這張圖非常像貓,但也有一點點像狗和虎。 - 學習過程:學生模型的損失函數(Loss Function)通常由兩部分組成:
- 一部分是與真實標簽計算的損失(如交叉熵)。
- 另一部分是與教師的軟標簽計算的損失,目標是讓學生的輸出分布與教師的輸出分布盡可能相似。
- Hard Labels (硬標簽):原始數據中的正確答案,比如圖片是“貓”,標簽就是?