知識蒸餾 Knowledge Distillation 論文 Generalized Knowledge Distillation (GKD) 乘法法則、全概率公式、貝葉斯定理

flyfish

代碼實踐

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

設定（方便算數）：市場里共有 100 個物品，分布如下

蘋果（Apple）：30 個 → $P(Apple)=30100=0.30P(\text{Apple})=\dfrac{30}{100}=0.30$ 。

其中 紅色蘋果 24 個，非紅蘋果 6 個。所以 $P(Red∣Apple)=2430=0.80P(\text{Red}\mid \text{Apple})=\dfrac{24}{30}=0.80$ 。
其他水果（OtherFruit）：20 個 → $P(OtherFruit)=0.20P(\text{OtherFruit})=0.20$ 。
其中紅色的有 8 個，故 $P(Red∣OtherFruit)=820=0.40P(\text{Red}\mid \text{OtherFruit})=\dfrac{8}{20}=0.40$ 。

非水果（NonFruit）：50 個 → $P(NonFruit)=0.50P(\text{NonFruit})=0.50$ 。

其中紅色的有 10 個，故 $P(Red∣NonFruit)=1050=0.20P(\text{Red}\mid \text{NonFruit})=\dfrac{10}{50}=0.20$ 。

檢驗計數和概率：24+8+10 = 42 個紅色，總概率 $P(Red)=42/100=0.42P(\text{Red})=42/100=0.42$ 。

1. 乘法法則 —— 解決“同時發生”的問題

問題場景：
想知道“既是蘋果，又是紅色”的概率是多少。
即 交集概率 $P(A∩B)P(A\cap B)$ 。

直接算交集有時不容易，于是用條件概率來“分解”。

推導過程

定義條件概率：

$P(A∣B)=P(A∩B)P(B)?P(A∩B)=P(A∣B)P(B).P(A\mid B) = \frac{P(A\cap B)}{P(B)} \quad\Rightarrow\quad P(A\cap B)=P(A\mid B)P(B).$

對稱地：

$P(A∩B)=P(B∣A)P(A).P(A\cap B)=P(B\mid A)P(A).$

在這里插入圖片描述

蘋果例子

$A =$ “是蘋果”
$B =$ “是紅色”

要算 $P(A∩B)=P(紅色蘋果)P(A\cap B)=P(\text{紅色蘋果})$ 。
用乘法法則：

$P(紅色蘋果)=P(紅色∣蘋果)?P(蘋果).P(\text{紅色蘋果})=P(\text{紅色}\mid \text{蘋果}) \cdot P(\text{蘋果}).$

代入數據：

$=0.80×0.30=0.24.=0.80\times0.30=0.24.$

結論：有 24% 的物品是紅色蘋果。

乘法法則解決的問題：當想要“同時發生”的概率時，可以先算一個條件概率，再乘以邊緣概率。

2. 全概率公式 —— 解決“分解復雜事件概率”的問題

問題場景：
想知道“隨機拿一個是紅色的概率” $P (B)$ 。
但紅色物體可能來自不同來源（蘋果、其他水果、非水果）。
于是把復雜的事件 $B$ 分解為一系列互斥情形。

推導過程

設 ${H_i\}$ 是一組互斥且完備的劃分（如“是蘋果 / 其他水果 / 非水果”）。
那么：

$P(B)=∑iP(B∩Hi).P(B)=\sum_i P(B\cap H_i).$

再用乘法法則：

$P(B)=∑iP(B∣Hi)P(Hi).P(B)=\sum_i P(B\mid H_i)\,P(H_i).$

在這里插入圖片描述

蘋果例子

要算 $P(紅色)P(\text{紅色})$ ：

$P(紅色)=P(紅色∣蘋果)P(蘋果)+P(紅色∣其他水果)P(其他水果)+P(紅色∣非水果)P(非水果).P(\text{紅色}) =P(\text{紅色}\mid \text{蘋果})P(\text{蘋果}) +P(\text{紅色}\mid \text{其他水果})P(\text{其他水果}) +P(\text{紅色}\mid \text{非水果})P(\text{非水果}).$

代入數據：

$=0.80×0.30+0.40×0.20+0.20×0.50=0.42.=0.80\times0.30 + 0.40\times0.20 + 0.20\times0.50 =0.42.$

結論：有 42% 的物品是紅色的。

全概率公式解決的問題：當一個事件可以由不同來源組成時（多條路徑導致同一個結果），把它分解成加和。

3. 貝葉斯定理 —— 解決“逆向推理”的問題

問題場景：
看到一個物品是紅色（結果/證據），想問：它是蘋果的概率是多少？
即 $P(蘋果∣紅色)P(\text{蘋果}\mid \text{紅色})$ 。
這就是“由結果推原因”。

推導過程

乘法法則：

$P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A).P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A).$

整理：

$P(A∣B)=P(B∣A)P(A)P(B).P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}.$

再把 $P (B)$ 用全概率公式展開：

$P(A∣B)=P(B∣A)P(A)∑iP(B∣Hi)P(Hi).P(A\mid B)=\frac{P(B\mid A)P(A)}{\sum_i P(B\mid H_i)P(H_i)}.$

在這里插入圖片描述

蘋果例子

要算“看到紅色 → 是蘋果的概率”：

$P(蘋果∣紅色)=P(紅色∣蘋果)?P(蘋果)P(紅色).P(\text{蘋果}\mid \text{紅色}) =\frac{P(\text{紅色}\mid \text{蘋果})\cdot P(\text{蘋果})}{P(\text{紅色})}.$

代入數據：

$=0.80×0.300.42=0.240.42≈0.571.=\frac{0.80\times0.30}{0.42}=\frac{0.24}{0.42}\approx 0.571.$

結論：如果看到紅色，57.1% 的可能性是蘋果。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/96381.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/96381.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/96381.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！