LLM損失函數面試會問到的

介紹一下KL散度

KL(Kullback-Leibler散度衡量了兩個概率分布之間的差異。其公式為:
D K L ( P / / Q ) = ? ∑ x ∈ X P ( x ) log ? 1 P ( x ) + ∑ x ∈ X P ( x ) log ? 1 Q ( x ) D_{KL}(P//Q)=-\sum_{x\in X}P(x)\log\frac{1}{P(x)}+\sum_{x\in X}P(x)\log\frac{1}{Q(x)} DKL?(P//Q)=?xX?P(x)logP(x)1?+xX?P(x)logQ(x)1?

寫一下交叉熵損失函數,其物理意義是什么

交叉熵損失函數(Cross-Entropy Loss Function)是用于度量兩個概率分布之間的差異的一種損失函數。在分類問題中,它通常用于衡量模型的預測分布與實際標簽分布之間的差異

H ( p , q ) = ? ∑ i = 1 N p i log ? ( q i ) ? ( 1 ? p i ) log ? ( 1 ? q i ) H(p,q)=-\sum_{i=1}^Np_i\log(q_i)-(1-p_i)\log(1-q_i) H(p,q)=?i=1N?pi?log(qi?)?(1?pi?)log(1?qi?)

注:其中,p 表示真實標簽,q 表示模型預測的標簽,N 表示樣本數量。該公式可以看作是一個基于概率分布的比較方式,即將真實標簽看做一個概率分布,將模型預測的標簽也看做一個概率分布,然后計算它們之間的交叉熵。
物理意義:交叉熵損失函數可以用來衡量實際標簽分布與模型預測分布之間的“信息差”。當兩個分布完全一致時,交叉熵損失為0,表示模型的預測與實際情況完全吻合。當兩個分布之間存在差異時,損失函數的值會增加,表示預測錯誤程度的大小。

KL散度與交叉熵的區別

KL散度指的是相對熵,KL散度是兩個概率分布P和Q差別的非對稱性的度量。KL散度越小表示兩個分布越接近。
也就是說KL散度是不對稱的,且KL散度的值是非負數。(也就是熵和交叉熵的差)

  • 交叉熵損失函數是二分類問題中最常用的損失函數,由于其定義出于信息學的角度,可以泛化到多分類問題中
  • KL散度是一種用于衡量兩個分布之間差異的指標,交叉熵損失函數是KL散度的一種特殊形式。在二分類問題中,交叉熵函數只有一項,而在多分類問題中有多項。

多任務學習各loss差異過大怎么樣去處理

多任務學習中,如果各任務的損失差異過大,可以通過動態調整損失權重、使用任務特定的損失函數、改變模型架構或引入正則化等方法來處理。目標是平衡各任務的貢獻,以便更好地訓練模型。

分類問題為什么用交叉熵損失函數而不用均方誤差(MSE)

交叉熵損失函數通常在分類問題中使用,而均方誤差(MSE)損失函數通常用于回歸問題。這是因為分類問題和回歸問題具有不同的特點和需求。
分類問題的目標是將輸入樣本分到不同的類別中,輸出為類別的概率分布。交叉熵損失函數可以度量兩個概率分布之間的差異,使得模型更好地擬合真實的類別分布。它對概率的細微差異更敏感,可以更好地區分不同的類別。此外,交叉熵損失函數在梯度計算時具有較好的數學性質,有助于更穩定地進行模型優化。
相比之下,均方誤差(MSE)損失函數更適用于回歸問題,其中目標是預測連續數值而不是類別。MSE損失函數度量預測值與真實值之間的差異的平方,適用于連續數值的回歸問題。在分類問題中使用MSE損失函數可能不 太合適,因為它對概率的微小差異不夠敏感,而且在分類問題中通常需要使用激活函數(如sigmoid或softmax)
將輸出映射到概率空間,使得MSE的數學性質不再適用。
綜上所述,交叉熵損失函數更適合分類問題,而MSE損失函數更適合回歸問題

什么是信息增益

信息增益是在決策樹算法中用于選擇最佳特征的一種評價指標。在決策樹的生成過程中,選擇最佳特征來進行節點的分裂是關鍵步驟之一,信息增益可以幫助確定最佳特征。
信息增益衡量了在特征已知的情況下,將樣本集合劃分成不同類別的純度提升程度。它基于信息論的概念,使用熵來度量樣本集合的不確定性。具體而言,信息增益是原始集合的熵與特定特征下的條件熵之間的差異。
在決策樹的生成過程中,選擇具有最大信息增益的特征作為當前節點的分裂標準,可以將樣本劃分為更加純凈的子節點。信息增益越大,意味著使用該特征進行劃分可以更好地減少樣本集合的不確定性,提高分類的準確性。

多分類的損失函數(Softmax)

多分類的分類損失函數采用Softmax交叉熵(Softmax Cross Entropy)損失函數。Softmax函數可以將輸出值歸一化為概率分布,用于多分類問題的輸出層。Softmax交叉熵損失函數可以寫成:

? ∑ i = 1 n y i log ? ( p i ) -\sum_{i=1}^ny_i\log(p_i) ?i=1n?yi?log(pi?)

Softmax和交叉熵損失怎么計算,二值交叉熵呢?

softmax:

y = e f i ∑ j e f j y=\frac{e^{f_i}}{\sum_je^{f_j}} y=j?efj?efi??

在這里插入圖片描述

如果softmax的e次方超過float的值怎么辦

將分子分母同時除以x中的最大值,可以解決。

x ~ k = e x k ? max ? ( x ) e x 1 ? max ? ( x ) + e x 2 ? max ? ( x ) + … + e x k ? max ? ( x ) + … + e x n ? max ? ( x ) \mathrm{\tilde{x}_k~=~\frac{e^{xk-\max(x)}}{e^{x_1-\max(x)}+e^{x_2-\max(x)}+\ldots+e^{x_k-\max(x)}+\ldots+e^{x_n-\max(x)}}} x~k??=?ex1??max(x)+ex2??max(x)++exk??max(x)++exn??max(x)exk?max(x)?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78724.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78724.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78724.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于CBOW模型的詞向量訓練實戰:從原理到PyTorch實現

基于CBOW模型的詞向量訓練實戰:從原理到PyTorch實現 在自然語言處理(NLP)領域,詞向量是將單詞映射為計算機可處理的數值向量的重要方式。通過詞向量,單詞之間的語義關系能夠以數學形式表達,為后續的文本分…

Linux——進程終止/等待/替換

前言 本章主要對進程終止,進程等待,進程替換的詳細認識,根據實驗去理解其中的原理,干貨滿滿! 1.進程終止 概念:進程終止就是釋放進程申請的內核數據結構和對應的代碼和數據 進程退出的三種狀態 代碼運行…

iOS開發架構——MVC、MVP和MVVM對比

文章目錄 前言MVC(Model - View - Controller)MVP(Model - View - Presenter)MVVM(Model - View - ViewModel) 前言 在 iOS 開發中,MVC、MVVM、和 MVP 是常見的三種架構模式,它們主…

0506--01-DA

36. 單選題 在娛樂方式多元化的今天,“ ”是不少人(特別是中青年群體)對待戲曲的態度。這里面固然存在 的偏見、難以靜下心來欣賞戲曲之美等因素,卻也有另一個無法回避的原因:一些戲曲雖然與觀眾…

關于Java多態簡單講解

面向對象程序設計有三大特征,分別是封裝,繼承和多態。 這三大特性相輔相成,可以使程序員更容易用編程語言描述現實對象。 其中多態 多態是方法的多態,是通過子類通過對父類的重寫,實現不同子類對同一方法有不同的實現…

【Trea】Trea國際版|海外版下載

Trea目前有兩個版本,海外版和國內版。? Trae 版本差異 ?大模型選擇?: ?國內版?:提供了字節自己的Doubao-1.5-pro以及DeepSeek的V3版本和R1版本。海外版:提供了ChartGPT以及Claude-3.5-Sonnet和3.7-Sonnt. ?功能和界面?&a…

Missashe考研日記-day33

Missashe考研日記-day33 1 專業課408 學習時間:2h30min學習內容: 今天開始學習OS最后一章I/O管理的內容,聽了第一小節的內容,然后把課后習題也做了。知識點回顧: 1.I/O設備分類:按信息交換單位、按設備傳…

鏈表的面試題3找出中間節點

來來來,接著繼續我們的第三道題 。 解法 暴力求解 快慢指針 https://leetcode.cn/problems/middle-of-the-linked-list/submissions/ 這道題的話,思路是非常明確的,就是讓你找出我們這個所謂的中間節點并且輸出。 那這道題我們就需要注意…

linux磁盤介紹與LVM管理

一、磁盤基本概述 GPT是全局唯一標識分區表的縮寫,是全局唯一標示磁盤分區表格式。而MBR則是另一種磁盤分區形式,它是主引導記錄的縮寫。相比之下,MBR比GPT出現得要更早一些。 MBR 與 GPT MBR 支持的磁盤最大容量為 2 TB,GPT 最大支持的磁盤容量為 18 EB,當前數據盤支持…

突破測試環境文件上傳帶寬瓶頸!React Native 阿里云 OSS 直傳文件格式問題攻克二

上一篇我們對服務端和阿里云oss的配置及前端調用做了簡單的介紹,但是一直報錯。最終判斷是文件格式問題,通常我們在reactnative中用formData上傳, formData.append(file, {uri: file, name: nameType(type), type: multipart/form-data});這…

Spring Boot 中 @Bean 注解詳解:從入門到實踐

在 Spring Boot 開發中,Bean注解是一個非常重要且常用的注解,它能夠幫助開發者輕松地將 Java 對象納入 Spring 容器的管理之下,實現對象的依賴注入和生命周期管理。對于新手來說,理解并掌握Bean注解,是深入學習 Spring…

TCP 協議設計入門:自定義消息格式與粘包解決方案

目錄 一、為什么需要自定義 TCP 協議? TCP粘包問題的本質 1.1 粘包與拆包的定義 1.2 粘包的根本原因 1.3 粘包的典型場景 二、自定義消息格式設計 2.1 協議結構設計 方案1:固定長度協議 方案2:分隔符標記法 方案3:長度前…

了解一下OceanBase中的表分區

OceanBase 是一個高性能的分布式關系型數據庫,它支持 SQL 標準的大部分功能,包括分區表。分區表可以幫助管理大量數據,提高查詢效率,通過將數據分散到不同的物理段中,可以減少查詢時的數據掃描量。 在 OceanBase 中操…

多線程網絡編程:粘包問題、多線程/多進程服務器實戰與常見問題解析

多線程網絡編程:粘包問題、多線程/多進程服務器實戰與常見問題解析 一、TCP粘包問題:成因、影響與解決方案 1. 粘包問題本質 TCP是面向流的協議,數據傳輸時沒有明確的消息邊界,導致多個消息可能被合并(粘包&#xf…

大模型主干

1.什么是語言模型骨架LLM-Backbone,在多模態模型中的作用? 語言模型骨架(LLM Backbone)是多模態模型中的核心組件之一。它利用預訓練的語言模型(如Flan-T5、ChatGLM、UL2等)來處理各種模態的特征,進行語義…

[創業之路-350]:光刻機、激光器、自動駕駛、具身智能:跨學科技術體系全景解析(光-機-電-材-熱-信-控-軟-網-算-智)

光刻機、激光器、自動駕駛、具身智能四大領域的技術突破均依賴光、機、電、材、熱、信、控、軟、網、算、智十一大學科體系的深度耦合。以下從技術原理、跨學科融合、關鍵挑戰三個維度展開系統性分析: 一、光刻機:精密制造的極限挑戰 1. 核心技術與學科…

SVTAV1 編碼函數 svt_aom_is_pic_skipped

一 函數解釋 1.1 svt_aom_is_pic_skipped函數的作用是判斷當前圖片是否可以跳過編碼處理。 具體分析如下 函數邏輯 參數說明:函數接收一個指向圖片父控制集的指針PictureParentControlSet *pcs, 通過這個指針可以獲取與圖片相關的各種信息,用于判斷是否跳…

【Redis新手入門指南】從小白入門到日常使用(全)

文章目錄 前言redis是什么?定義原理與特點與MySQL對比 Redis安裝方式一、Homebrew 快速安裝 Redis(推薦)方式二、源碼編譯安裝redisHomebrew vs 源碼安裝對比 redis配置說明修改redis配置的方法常見redis配置項說明 redis常用命令redis服務啟…

Linux grep 命令詳解及示例大全

文章目錄 一、基本語法二、常用選項及示例1. 基本匹配:查找包含某字符串的行2. 忽略大小寫匹配 -i3. 顯示行號 -n4. 遞歸查找目錄下的文件 -r 或 -R5. 僅顯示匹配的字符串 -o6. 使用正則表達式 -E(擴展)或 egrep7. 顯示匹配前后行 -A, -B, -C…

【排序算法】快速排序(全坤式超詳解)———有這一篇就夠啦

【排序算法】——快速排序 目錄 一:快速排序——思想 二:快速排序——分析 三:快速排序——動態演示圖 四:快速排序——單趟排序 4.1:霍爾法 4.2:挖坑法 4.3:前后指針法 五:…