似然函數對數似然函數負對數似然函數

目錄

  • 1. 似然函數的定義
  • 2. 對數似然函數的定義
  • 3. 負對數似然函數的定義
  • 4. 負對數似然函數的優化
  • 5. 具體應用示例
    • 5.1 邏輯回歸中的負對數似然函數
    • 5.2 優化邏輯回歸的負對數似然函數

1. 似然函數的定義

似然函數L(θ∣X)L(\theta | X)L(θX)是在給定參數θ\thetaθ 下,觀測數據XXX出現的概率。它是統計推斷中的一個核心概念,用于衡量在特定參數假設下,觀測數據的合理性。

假設我們有一組觀測數據X={x1,x2,…,xn}X = \{x_1, x_2, \dots, x_n\}X={x1?,x2?,,xn?},并且假設這些數據是獨立同分布的(i.i.d.)(i.i.d.)i.i.d.,那么似然函數可以表示為所有觀測數據概率的乘積:

L(θ∣X)=∏i=1nP(xi∣θ)L(\theta | X) = \prod_{i=1}^{n} P(x_i | \theta) L(θX)=i=1n?P(xi?θ)

其中:

  • θ\thetaθ是模型的參數,例如線性回歸中的權重和偏置,或者邏輯回歸中的權重向量。
  • P(xi∣θ)P(x_i | \theta)P(xi?θ)是在參數 θ\thetaθ下,第iii 個數據點 xix_ixi?出現的概率。

示例:假設有一個簡單的硬幣拋擲實驗,硬幣正面朝上的概率為θ\thetaθ,反面朝上的概率為 1?θ1 - \theta1?θ。如果進行了 nnn 次獨立的拋擲,觀察到正面朝上的次數為 kkk,那么似然函數可以表示為:

L(θ∣k,n)=θk(1?θ)n?kL(\theta | k, n) = \theta^k (1 - \theta)^{n - k} L(θk,n)=θk(1?θ)n?k



2. 對數似然函數的定義

對數似然函數 ?(θ∣X)\ell(\theta | X)?(θX)是似然函數的自然對數。它將似然函數的乘積形式轉換為求和形式,便于計算和優化。

?(θ∣X)=log?L(θ∣X)=log?(∏i=1nP(xi∣θ))=∑i=1nlog?P(xi∣θ)\ell(\theta | X) = \log L(\theta | X) = \log \left( \prod_{i=1}^{n} P(x_i | \theta) \right) = \sum_{i=1}^{n} \log P(x_i | \theta) ?(θX)=logL(θX)=log(i=1n?P(xi?θ))=i=1n?logP(xi?θ)

為什么要取對數?

  1. 簡化計算:將乘積轉換為求和,避免數值下溢或上溢問題。
  2. 數學性質:對數函數是單調遞增的,因此最大化對數似然函數等價于最大化似然函數。
  3. 統計意義:對數似然函數在統計推斷中具有良好的性質,例如漸近正態性。



3. 負對數似然函數的定義

負對數似然函數 NLL(θ∣X)\text{NLL}(\theta | X)NLL(θX)是對數似然函數的負值。它將最大化似然函數的問題轉化為最小化損失函數的問題,便于在機器學習中使用優化算法。

NLL(θ∣X)=??(θ∣X)=?∑i=1nlog?P(xi∣θ)\text{NLL}(\theta | X) = -\ell(\theta | X) = -\sum_{i=1}^{n} \log P(x_i | \theta) NLL(θX)=??(θX)=?i=1n?logP(xi?θ)

為什么要取負值?
在機器學習中,優化問題通常被表述為最小化某個損失函數。取負對數似然函數的目的是將最大化似然函數的問題轉化為最小化損失函數的問題。具體來說:

  • 最大化似然函數max?θ?(θ∣X)\max_{\theta} \ell(\theta | X)maxθ??(θX)
  • 最小化負對數似然函數min?θNLL(θ∣X)\min_{\theta} \text{NLL}(\theta | X)minθ?NLL(θX)

這兩個優化問題是等價的,因為對數函數是單調遞增的。


4. 負對數似然函數的優化

在實際應用中,通常通過最小化負對數似然函數來估計模型參數 θ\thetaθ。具體步驟如下:

  1. 定義模型:選擇一個概率模型 P(x∣θ)P(x | \theta)P(xθ),例如高斯分布、伯努利分布等。
  2. 計算負對數似然函數:根據模型和數據,計算負對數似然函數 NLL(θ∣X)\text{NLL}(\theta | X)NLL(θX)
  3. 優化參數:通過梯度下降或其他優化算法,最小化負對數似然函數,找到最優參數 θ^\hat{\theta}θ^

梯度下降法:假設使用梯度下降法來優化參數θ\thetaθ。梯度下降的更新規則為:

θnew=θold?η?θNLL(θ∣X)\theta_{\text{new}} = \theta_{\text{old}} - \eta \nabla_{\theta} \text{NLL}(\theta | X) θnew?=θold??η?θ?NLL(θX)

其中:

  • η\etaη 是學習率,控制每次迭代的步長。
  • ?θNLL(θ∣X)\nabla_{\theta} \text{NLL}(\theta | X)?θ?NLL(θX) 是負對數似然函數對參數θ\thetaθ 的梯度。



5. 具體應用示例

5.1 邏輯回歸中的負對數似然函數

假設有一個二分類問題,使用邏輯回歸模型。邏輯回歸模型的輸出是樣本屬于類別 1 的概率:

P(y=1∣x,θ)=σ(θTx)P(y = 1 | x, \theta) = \sigma(\theta^T x) P(y=1∣x,θ)=σ(θTx)

其中 σ(z)=11+e?z\sigma(z) = \frac{1}{1 + e^{-z}}σ(z)=1+e?z1?是 Sigmoid 函數。

對于二分類問題,似然函數可以表示為:

L(θ∣X,y)=∏i=1nP(yi∣xi,θ)L(\theta | X, y) = \prod_{i=1}^{n} P(y_i | x_i, \theta) L(θX,y)=i=1n?P(yi?xi?,θ)

其中yi∈{0,1}y_i \in \{0, 1\}yi?{0,1}是第 iii個樣本的標簽。

對數似然函數為:

?(θ∣X,y)=∑i=1nlog?P(yi∣xi,θ)=∑i=1n[yilog?σ(θTxi)+(1?yi)log?(1?σ(θTxi))]\ell(\theta | X, y) = \sum_{i=1}^{n} \log P(y_i | x_i, \theta) = \sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T x_i) + (1 - y_i) \log (1 - \sigma(\theta^T x_i)) \right] ?(θX,y)=i=1n?logP(yi?xi?,θ)=i=1n?[yi?logσ(θTxi?)+(1?yi?)log(1?σ(θTxi?))]

負對數似然函數為:

NLL(θ∣X,y)=?∑i=1n[yilog?σ(θTxi)+(1?yi)log?(1?σ(θTxi))]\text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \log \sigma(\theta^T x_i) + (1 - y_i) \log (1 - \sigma(\theta^T x_i)) \right] NLL(θX,y)=?i=1n?[yi?logσ(θTxi?)+(1?yi?)log(1?σ(θTxi?))]

5.2 優化邏輯回歸的負對數似然函數

為了優化邏輯回歸模型的參數θ\thetaθ,需要計算負對數似然函數的梯度:

?θNLL(θ∣X,y)=?∑i=1n[yi??θlog?σ(θTxi)+(1?yi)??θlog?(1?σ(θTxi))]\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \frac{\partial}{\partial \theta} \log \sigma(\theta^T x_i) + (1 - y_i) \frac{\partial}{\partial \theta} \log (1 - \sigma(\theta^T x_i)) \right] ?θ?NLL(θX,y)=?i=1n?[yi??θ??logσ(θTxi?)+(1?yi?)?θ??log(1?σ(θTxi?))]

通過鏈式法則,可以得到:

??θlog?σ(θTxi)=σ′(θTxi)σ(θTxi)xi\frac{\partial}{\partial \theta} \log \sigma(\theta^T x_i) = \frac{\sigma'(\theta^T x_i)}{\sigma(\theta^T x_i)} x_i ?θ??logσ(θTxi?)=σ(θTxi?)σ(θTxi?)?xi?

??θlog?(1?σ(θTxi))=?σ′(θTxi)1?σ(θTxi)xi\frac{\partial}{\partial \theta} \log (1 - \sigma(\theta^T x_i)) = \frac{-\sigma'(\theta^T x_i)}{1 - \sigma(\theta^T x_i)} x_i ?θ??log(1?σ(θTxi?))=1?σ(θTxi?)?σ(θTxi?)?xi?

其中 σ′(z)=σ(z)(1?σ(z))\sigma'(z) = \sigma(z)(1 - \sigma(z))σ(z)=σ(z)(1?σ(z))是 Sigmoid 函數的導數。

因此,負對數似然函數的梯度可以簡化為:

?θNLL(θ∣X,y)=?∑i=1n[yiσ(θTxi)(1?σ(θTxi))σ(θTxi)xi?(1?yi)σ(θTxi)(1?σ(θTxi))1?σ(θTxi)xi]\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i \frac{\sigma(\theta^T x_i)(1 - \sigma(\theta^T x_i))}{\sigma(\theta^T x_i)} x_i - (1 - y_i) \frac{\sigma(\theta^T x_i)(1 - \sigma(\theta^T x_i))}{1 - \sigma(\theta^T x_i)} x_i \right] ?θ?NLL(θX,y)=?i=1n?[yi?σ(θTxi?)σ(θTxi?)(1?σ(θTxi?))?xi??(1?yi?)1?σ(θTxi?)σ(θTxi?)(1?σ(θTxi?))?xi?]

進一步簡化為:

?θNLL(θ∣X,y)=?∑i=1n[yi(1?σ(θTxi))?(1?yi)σ(θTxi)]xi\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i (1 - \sigma(\theta^T x_i)) - (1 - y_i) \sigma(\theta^T x_i) \right] x_i ?θ?NLL(θX,y)=?i=1n?[yi?(1?σ(θTxi?))?(1?yi?)σ(θTxi?)]xi?

最終得到:

?θNLL(θ∣X,y)=?∑i=1n[yi?σ(θTxi)]xi\nabla_{\theta} \text{NLL}(\theta | X, y) = -\sum_{i=1}^{n} \left[ y_i - \sigma(\theta^T x_i) \right] x_i ?θ?NLL(θX,y)=?i=1n?[yi??σ(θTxi?)]xi?

這個公式是邏輯回歸模型中負對數似然函數的梯度,它在模型訓練中用于參數的優化。



本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/97509.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/97509.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/97509.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

鴻蒙地址選擇庫(ArkTs UI)

功能點:支持三級聯動、點擊確認返回省市區code及name(安心)、布局可以高度自定義 實現:TextPicker讀取本地json(也可用第三方的json 不過需要自行調整了) 先上圖吧、廢話下面再說: 湊和看吧、…

YOLO 目標檢測:數據集構建(LabelImg 實操)、評估指標(mAP/IOU)、 NMS 后處理

文章目錄基本知識介紹1.視覺處理三大任務2.訓練、驗證、測試、推理3.數據集3.1 數據集格式3.2 數據集標注4.上游任務和下游任務YOLO指標1.真實框(Ground Truth Box)與邊界框(Bounding Box)2.交并比(IOU)3.置…

進程狀態 —— Linux內核(Kernel)

🎁個人主頁:工藤新一 🔍系列專欄:C面向對象(類和對象篇) 🌟心中的天空之城,終會照亮我前方的路 🎉歡迎大家點贊👍評論📝收藏?文章 文章目錄進…

計算機視覺與深度學習 | 低照度圖像處理算法綜述:發展、技術與趨勢

文章目錄 一、發展歷程:從傳統模型到智能融合 (一)傳統模型構建階段(1970s-2016) (二)深度學習應用階段(2017-2020) (三)硬件-算法協同階段(2021至今) 二、技術分類與性能對比 (一)傳統方法體系 (二)深度學習方法 1. 監督學習模型 2. 無監督/自監督方法 3. 混…

責任鏈模式實踐-開放銀行數據保護及合規

責任鏈模式介紹什么是責任鏈模責任鏈模式是一種行為設計模式, 允許你將請求沿著處理者鏈進行發送。 收到請求后, 每個處理者均可對請求進行處理, 或將其傳遞給鏈上的下個處理者。責任鏈模式結構偽代碼基于責任鏈的開放銀行數據保護及合規實踐…

npm install --global @dcloudio/uni-cli 時安裝失敗

這個日志顯示在執行 npm install --global dcloudio/uni-cli 時安裝失敗,核心錯誤是 UNABLE_TO_GET_GET_ISSUER_CERT_LOCALLY(無法獲取本地頒發者證書),屬于 HTTPS 證書驗證失敗 問題。錯誤原因npm 訪問官方 registry(…

吱吱企業通訊軟件可私有化部署,構建安全可控的通訊辦公平臺

在當今激烈的市場競爭環境中,企業通訊已成為制勝的關鍵因素。吱吱作為一款專為企業管理設計的IM即時辦公通訊軟件,提供了高度安全的通訊辦公環境,確保信息在內部流通的安全性與高效性,為企業數字化轉型奠定了堅實的基礎。 一、私有…

暄桐:唯有認真思考過死亡,才足以應對日常

暄桐是一間傳統美學教育教室,創辦于2011年,林曦是創辦人和授課老師,教授以書法為主的傳統文化和技藝,皆在以書法為起點,親近中國傳統之美,以實踐和所得,滋養當下生活。初聽莊子在妻子離世后“鼓…

目標檢測領域基本概念

基于提議的方法,也常被稱為兩階段 (Two-stage) 方法,是目標檢測領域的經典范式。它們將目標檢測任務分解為兩個主要步驟:階段一:區域提議 (Region Proposal Generation) 目標: 在圖像中生成一系列可能包含物體的候選區…

【開題答辯全過程】以 基于SpringBoot的流浪貓狗領養系統為例,包含答辯的問題和答案

個人簡介一名14年經驗的資深畢設內行人,語言擅長Java、php、微信小程序、Python、Golang、安卓Android等開發項目包括大數據、深度學習、網站、小程序、安卓、算法。平常會做一些項目定制化開發、代碼講解、答辯教學、文檔編寫、也懂一些降重方面的技巧。感謝大家的…

扣子(coze)實踐指南進階篇——創建工作流,并將工作流接入智能體

大家好,歡迎閱讀這份《智能體(AIAgent)開發指南》! 在大模型和智能體快速發展的今天,很多朋友希望學習如何從零開始搭建一個屬于自己的智能體。本教程的特點是 完全基于國產大模型與火山推理引擎實現,不用翻…

【STM32】外部中斷(上)

【STM32】外部中斷前言一、中斷系統1.1 什么是中斷1.2 中斷優先級1.3 中斷嵌套1.4 中斷執行流程二、NVIC2.1NVIC基本結構2.2 NVIC優先級分組三、EXTI3.1 EXTI 外部中斷(Extern Interrupt)3.2 EXTI基本結構3.3 AFIO復用IO口3.4 EXTI內部框圖前言 【STM32…

TimeDP Learning to Generate Multi-Domain Time Series with Domain Prompts論文閱讀筆記

TimeDP Learning to Generate Multi-Domain Time Series with Domain Prompts 摘要 在跨域時序數據生成任務中,提出使用”時間序列語義原型“模塊定義時間序列原型來表示時間序列基,每個原型向量作為“詞”表示一些基本的時間序列特征。應用原型分配模塊…

Ubuntu安裝NVIDIA顯卡驅動

清理舊驅動 sudo apt purge nvidia* libnvidia* sudo apt autoremovesudo find /etc -name *nvidia* -exec sudo rm -rf {} sudo rm -rf /usr/local/cuda*禁用 nouveau echo blacklist nouveau options nouveau modeset0 | sudo tee /etc/modprobe.d/blacklist-nouveau.conf…

硬件工程師成長之路:從入門到精通的技術旅程

文章目錄前言第一階段:基礎知識的積累理論知識儲備動手實踐第二階段:專業技能的提升PCB設計嵌入式系統開發第三階段:專業方向的選擇射頻(RF)工程電源設計高速數字電路FPGA/ASIC設計第四階段:工程管理與視野…

PyTorch 張量(Tensor)詳解:從基礎到實戰

1. 引言在深度學習和科學計算領域,張量(Tensor) 是最基礎的數據結構。PyTorch 作為當前最流行的深度學習框架之一,其核心計算單元就是張量。與 NumPy 的 ndarray 類似,PyTorch 張量支持高效的數值計算,但額…

CPTS---Hospital

端口掃描 nmap -A -p- -n -Pn -T4 10.10.11.241 22/tcp open ssh OpenSSH 9.0p1 Ubuntu 1ubuntu8.5 (Ubuntu Linux; protocol 2.0) | ssh-hostkey: | 256 e1:4b:4b:3a:6d:18:66:69:39:f7:aa:74:b3:16:0a:aa (ECDSA) |_ 256 96:c1:dc:d8:97:20:95:e7:01:5…

【貪心算法】day5

📝前言說明: 本專欄主要記錄本人的貪心算法學習以及LeetCode刷題記錄,按專題劃分每題主要記錄:(1)本人解法 本人屎山代碼;(2)優質解法 優質代碼;&#xff…

軟考中級【網絡工程師】第6版教材 第4章 無線通信網 (上)

考點分析: 重要程度:??? 選擇題考查1 ~ 3分,案例分析可能考查填空和簡答 高頻考點:802.11信道與頻段、CSMA/CA、無線網絡優化、無線認證、無線配置步驟 新教材變化:新增4G/5G、刪除無線城域網 本章將詳述蜂窩移動通信系統、無線局域網以及無線個人網的體系結構和實用技…

vscode+EIDE+Clangd環境導入keil C51以及MDK工程

我最近一直在使用vscodeclangd的編譯環境替代了vscode自帶的c/c插件。感覺clangd的環境更加優秀,能夠更好找到函數、全局變量等定義調用等。如果使用keil C51以及MDK環境開發51單片機或者STM32單片機就需要使用到了EIDE這個插件這個插件現在能夠自動生成compile_com…