知識蒸餾 Knowledge Distillation 論文 Generalized Knowledge Distillation (GKD) 乘法法則、全概率公式、貝葉斯定理

知識蒸餾 Knowledge Distillation 論文 Generalized Knowledge Distillation (GKD) 乘法法則、全概率公式、貝葉斯定理

flyfish

代碼實踐

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

設定(方便算數):市場里共有 100 個物品,分布如下

蘋果(Apple):30 個 → P(Apple)=30100=0.30P(\text{Apple})=\dfrac{30}{100}=0.30P(Apple)=10030?=0.30

其中 紅色蘋果 24 個,非紅蘋果 6 個。 所以 P(Red∣Apple)=2430=0.80P(\text{Red}\mid \text{Apple})=\dfrac{24}{30}=0.80P(RedApple)=3024?=0.80
其他水果(OtherFruit):20 個 → P(OtherFruit)=0.20P(\text{OtherFruit})=0.20P(OtherFruit)=0.20
其中紅色的有 8 個,故 P(Red∣OtherFruit)=820=0.40P(\text{Red}\mid \text{OtherFruit})=\dfrac{8}{20}=0.40P(RedOtherFruit)=208?=0.40

非水果(NonFruit):50 個 → P(NonFruit)=0.50P(\text{NonFruit})=0.50P(NonFruit)=0.50

其中紅色的有 10 個,故 P(Red∣NonFruit)=1050=0.20P(\text{Red}\mid \text{NonFruit})=\dfrac{10}{50}=0.20P(RedNonFruit)=5010?=0.20

檢驗計數和概率:24+8+10 = 42 個紅色,總概率P(Red)=42/100=0.42P(\text{Red})=42/100=0.42P(Red)=42/100=0.42

1. 乘法法則 —— 解決“同時發生”的問題

問題場景
想知道“既是蘋果,又是紅色”的概率是多少。
交集概率 P(A∩B)P(A\cap B)P(AB)

直接算交集有時不容易,于是用條件概率來“分解”。

推導過程

定義條件概率:

P(A∣B)=P(A∩B)P(B)?P(A∩B)=P(A∣B)P(B).P(A\mid B) = \frac{P(A\cap B)}{P(B)} \quad\Rightarrow\quad P(A\cap B)=P(A\mid B)P(B). P(AB)=P(B)P(AB)??P(AB)=P(AB)P(B).

對稱地:

P(A∩B)=P(B∣A)P(A).P(A\cap B)=P(B\mid A)P(A). P(AB)=P(BA)P(A).

在這里插入圖片描述

蘋果例子

  • A=A=A=“是蘋果”
  • B=B=B=“是紅色”

要算 P(A∩B)=P(紅色蘋果)P(A\cap B)=P(\text{紅色蘋果})P(AB)=P(紅色蘋果)
用乘法法則:

P(紅色蘋果)=P(紅色∣蘋果)?P(蘋果).P(\text{紅色蘋果})=P(\text{紅色}\mid \text{蘋果}) \cdot P(\text{蘋果}). P(紅色蘋果)=P(紅色蘋果)?P(蘋果).

代入數據:

=0.80×0.30=0.24.=0.80\times0.30=0.24. =0.80×0.30=0.24.

結論:有 24% 的物品是紅色蘋果。

乘法法則解決的問題:當想要“同時發生”的概率時,可以先算一個條件概率,再乘以邊緣概率。

2. 全概率公式 —— 解決“分解復雜事件概率”的問題

問題場景
想知道“隨機拿一個是紅色的概率” P(B)P(B)P(B)
但紅色物體可能來自不同來源(蘋果、其他水果、非水果)。
于是把復雜的事件 BBB 分解為一系列互斥情形

推導過程

{Hi}\{H_i\}{Hi?} 是一組互斥且完備的劃分(如“是蘋果 / 其他水果 / 非水果”)。
那么:

P(B)=∑iP(B∩Hi).P(B)=\sum_i P(B\cap H_i). P(B)=i?P(BHi?).

再用乘法法則:

P(B)=∑iP(B∣Hi)P(Hi).P(B)=\sum_i P(B\mid H_i)\,P(H_i). P(B)=i?P(BHi?)P(Hi?).

在這里插入圖片描述

蘋果例子

要算 P(紅色)P(\text{紅色})P(紅色)

P(紅色)=P(紅色∣蘋果)P(蘋果)+P(紅色∣其他水果)P(其他水果)+P(紅色∣非水果)P(非水果).P(\text{紅色}) =P(\text{紅色}\mid \text{蘋果})P(\text{蘋果}) +P(\text{紅色}\mid \text{其他水果})P(\text{其他水果}) +P(\text{紅色}\mid \text{非水果})P(\text{非水果}). P(紅色)=P(紅色蘋果)P(蘋果)+P(紅色其他水果)P(其他水果)+P(紅色非水果)P(非水果).

代入數據:

=0.80×0.30+0.40×0.20+0.20×0.50=0.42.=0.80\times0.30 + 0.40\times0.20 + 0.20\times0.50 =0.42. =0.80×0.30+0.40×0.20+0.20×0.50=0.42.

結論:有 42% 的物品是紅色的。

全概率公式解決的問題:當一個事件可以由不同來源組成時(多條路徑導致同一個結果),把它分解成加和。

3. 貝葉斯定理 —— 解決“逆向推理”的問題

問題場景
看到一個物品是紅色(結果/證據),想問:它是蘋果的概率是多少?
P(蘋果∣紅色)P(\text{蘋果}\mid \text{紅色})P(蘋果紅色)
這就是“由結果推原因”。

推導過程

乘法法則:

P(A∩B)=P(A∣B)P(B)=P(B∣A)P(A).P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A). P(AB)=P(AB)P(B)=P(BA)P(A).

整理:

P(A∣B)=P(B∣A)P(A)P(B).P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}. P(AB)=P(B)P(BA)P(A)?.

再把 P(B)P(B)P(B) 用全概率公式展開:

P(A∣B)=P(B∣A)P(A)∑iP(B∣Hi)P(Hi).P(A\mid B)=\frac{P(B\mid A)P(A)}{\sum_i P(B\mid H_i)P(H_i)}. P(AB)=i?P(BHi?)P(Hi?)P(BA)P(A)?.

在這里插入圖片描述

蘋果例子

要算“看到紅色 → 是蘋果的概率”:

P(蘋果∣紅色)=P(紅色∣蘋果)?P(蘋果)P(紅色).P(\text{蘋果}\mid \text{紅色}) =\frac{P(\text{紅色}\mid \text{蘋果})\cdot P(\text{蘋果})}{P(\text{紅色})}. P(蘋果紅色)=P(紅色)P(紅色蘋果)?P(蘋果)?.

代入數據:

=0.80×0.300.42=0.240.42≈0.571.=\frac{0.80\times0.30}{0.42}=\frac{0.24}{0.42}\approx 0.571. =0.420.80×0.30?=0.420.24?0.571.

結論:如果看到紅色,57.1% 的可能性是蘋果。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96381.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96381.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96381.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Fastjson 2.x踩坑——序列化Java字段為null值默認輸出

先上無法實現效果的代碼,我的目的是序列化時如果數字型字段為null則填0,盡可能保證數據整齊。 Data NoArgsConstructor AllArgsConstructor ToString JSONType(serializeFeatures {JSONWriter.Feature.WriteNulls,JSONWriter.Feature.WriteMapNullValue…

4G高負荷解決方案

4G高負荷解決方案 一、網絡優化手段(低成本優先)參數優化 調整功率控制、負荷均衡參數。優化小區重選與切換參數,避免高負荷小區擁塞。負荷均衡 開啟 MLB(Mobility Load Balancing,移動負荷均衡)。引導用戶…

K8S 安裝部署 Rocky Linux 10.0 + Docker + Containerd + Calico

Docker Containerd Flannel 安裝部署K8S 系統環境準備 # 1. 設置主機名 hostnamectl set-hostname k8s-n1 && bash# hostnamectl set-hostname k8s-n2 && bash # hostnamectl set-hostname k8s-n3 && bash# 2. 刪除系統自帶的容器軟件(可…

新華三H3CNE網絡工程師認證—等價路由

等價路由就是“去同一個地方有多條路,時間一樣近,快遞站聰明地分撥送貨”的技術!(網絡不堵車,速度翻倍爽!)路由表中存在等價路由之后,前往該目的網段的IP報文路由器輝通過所有有效的…

DBLens 業界首創AI表結構變更審查,智能評估影響,助力開發效率躍升。

智能守護每一次變更:dblens AI 審查流程詳解 在快速迭代的軟件開發過程中,數據庫結構變更是常見卻高風險的操作。一次不經意的字段調整,可能引發線上故障、數據不一致甚至業務中斷。為應對這一挑戰,dblens 率先引入AI驅動的表結構…

窗口看門狗(WWDG)

窗口看門狗(WWDG)1. WWDG 簡介作用:在應用跑飛、死循環、長時間被中斷占用等異常時,強制復位 MCU,提高系統可靠性。時鐘來源:來自 APB1 時鐘 (PCLK1) 的分頻(與 IWDG 的 LSI 獨立時鐘不同&#…

PyTorch API 6

文章目錄torch.onnx概述基于 TorchDynamo 的 ONNX 導出器基于TorchScript的ONNX導出器貢獻與開發torch.optim如何使用優化器構建優化器每個參數的選項執行優化步驟optimizer.step()optimizer.step(closure)基類算法如何調整學習率如何利用命名參數加載優化器狀態字典權重平均法…

2025年09月計算機二級MySQL選擇題每日一練——第二期

計算機二級中選擇題是非常重要的,所以開始寫一個每日一題的專欄。 答案及解析將在末尾公布! 今日主題:SQL 交互操作基礎 1、有如下創建表的語句: CREATE TABLE tb_gs( gno CHAR(10) NOT NULL, sno CHAR(10) NOT NULL, gjob CH…

MySQL診斷系列(5/6):表結構與元數據查詢——快速掌握數據庫“DNA”

🔗 接上一篇《MySQL性能瓶頸定位》,今天我們來學習如何像查字典一樣,快速、精準地了解任何數據庫的內部結構。 當你接手一個新項目,或者需要排查一個不熟悉的模塊時,你最需要的是什么? 不是代碼&#xff0…

精準評估新紀元:AI得賢招聘官AI面試智能體6.3,重新定義AI面試

隨著生成式AI技術爆發式發展,人力資源管理正經歷從“信息化”到“智能化”的躍遷。據Gartner預測,2025年60%的企業將使用AI完成HR基礎事務性工作。在這場變革中,AI得賢招聘官以其卓越的技術實力和產品能力,已成為行業智能化轉型的…

MinerU:重新定義PDF智能提取的開源利器

MinerU:重新定義PDF智能提取的開源利器 ——告別傳統工具的“雞肋”體驗,讓文檔處理真正高效智能 在數字化時代,PDF、Word等文檔已成為信息傳遞的主要載體,但如何從這些格式中精準提取數據,卻成了困擾無數人的難題。…

電腦芯片其實更偏向MPU不是CPU,GPU CPU NPU MPU MCU的區別

現代電腦的處理器(如 Intel i5)本質上是 MPU,因為它集成了 CPU 核心、緩存、定時器等,但我們日常仍習慣稱其為 “CPU”電腦里的芯片(如 Intel i5、AMD Ryzen)通常被通俗地稱為 “CPU”,但嚴格來…

Python爬蟲XPath實戰:電商商品ID的精準抓取策略

1. 引言 在電商數據爬取過程中,商品ID(Product ID)是最關鍵的字段之一,它通常用于唯一標識商品,并可用于構建商品詳情頁URL、價格監控、庫存查詢等場景。然而,不同電商網站的HTML結構差異較大,…

Web3:重構互聯網秩序的下一代范式革命

Web3(即 Web 3.0)作為互聯網發展的第三代形態,并非簡單的技術迭代,而是一場圍繞 “數據主權” 與 “價值分配” 的底層邏輯重構。它以區塊鏈為核心骨架,融合分布式存儲、密碼學、人工智能等技術,旨在打破 W…

DeepSeek R2難產:近期 DeepSeek-V3.1 發布,邁向 Agent 時代的第一步

DeepSeek R2難產:近期 DeepSeek-V3.1 發布,邁向 Agent 時代的第一步 要說 AI 模型的江湖,這一年簡直就是 「大模型修羅場」。 前腳 R2 傳出難產的風聲,后腳 DeepSeek 就甩出了一張大招牌:DeepSeek-V3.1。 這波操作不…

element-plus:el-tree ref初始化異常記錄

文章目錄描述問題解決記錄一個tsx 下el-tree的小問題描述 <Dialog v-model"showEdit" :title"t(button.edit)" width"900" :maxHeight"650"><el-form :model"nowdata" class"dialog"><el-form-ite…

Linux軟件安裝(JDK,Mysql,Nginx)

安裝方式介紹一、安裝JDKtar -zxvf jdk-17.0.10_linux-x64_bin.tar.gz -C /usr/localexport JAVA_HOME/usr/local/jdk-17.0.10export PATH$JAVA_HOME/bin:$PATHsource /etc/profile1、操作步驟二、mysql黑馬視頻已經安裝好了我們只需開放指定端口就可以在navicat中連接了&#…

公有地址和私有地址

在計算機網絡中&#xff0c;私有地址和公有地址是IP地址的兩大重要分類&#xff0c;二者在網絡通信中承擔著不同角色。下面從定義、聯系、區別和應用四個維度進行詳細說明&#xff1a; 一、定義 1. 公有地址&#xff08;Public IP Address&#xff09; 公有地址是全球唯一且可在…

分治思想在系統分流削峰中的實踐與Golang前沿實現

分治思想在系統分流削峰中的實踐與Golang前沿實現 1. 分治思想概述 分治(Divide and Conquer)是計算機科學中一種重要的算法設計思想&#xff0c;其核心在于"分而治之"——將復雜問題分解為若干個規模較小的相同或相似子問題&#xff0c;遞歸地解決這些子問題&#x…

移動端視口終極解決方案:使用 Visual Viewport封裝一個優雅的 React Hook

前言 在移動端開發中&#xff0c;視口高度一直是一個令人頭疼的問題。尤其是在 iOS Safari 瀏覽器中&#xff0c;還有三星手機的導航遮擋&#xff0c;當虛擬鍵盤彈出時&#xff0c;視口高度的變化會導致固定定位元素錯位、全屏布局異常等問題。本文將深入分析這個問題的本質&a…