最大似然估計(Maximum Likelihood Estimation, MLE)詳解

一、定義

最大似然估計 是一種參數估計方法,其核心思想是:
選擇能使觀測數據出現概率最大的參數值作為估計值
具體來說,假設數據 D = x 1 , x 2 , … , x n D={x_1,x_2,…,x_n} D=x1?,x2?,,xn?獨立且服從某個概率分布 P ( x ∣ θ ) P(x∣θ) P(xθ),則通過最大化似然函數 L ( θ ∣ D ) \mathcal{L}(\theta \mid \mathcal{D}) L(θD)來求解參數 θ θ θ

二、公式推導
  1. 似然函數
    數據獨立時,似然函數為各數據點概率的乘積:
    L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θD)=i=1n?P(xi?θ)

  2. 對數似然:
    為簡化計算,取自然對數(乘積變加法):
    L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θD)=i=1n?P(xi?θ)

  3. 最大化目標:
    求解使對數似然最大的參數 θ ? θ^? θ?
    θ ? = arg ? max ? θ ∑ i = 1 n ln ? P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ?=argmaxθ?i=1n?lnP(xi?θ)

  4. 求解方法:
    對 θ 求導并令導數為零,或使用梯度下降等優化算法。

三、經典例子
例1:估計正態分布的均值和方差

假設數據 D = x 1 ? , x 2 ? , … , x n ? \mathcal{D}={x_1?,x_2?,…,x_n?} D=x1??,x2??,,xn??服從正態分布 N ( μ , σ 2 ) \mathcal{N}\left(\mu, \sigma^2\right) N(μ,σ2),求 μ \mu μ σ 2 \sigma^2 σ2估計。

  1. 似然函數:
    L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 e ? ( x i ? μ ) 2 2 σ 2 \mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}} L(μ,σ2)=i=1n?2πσ2 ?1?e?2σ2(xi??μ)2?

  2. 對數似然:

ln ? L = ? n 2 ln ? ( 2 π ) ? n 2 ln ? σ 2 ? 1 2 σ 2 ∑ i = 1 n ( x i ? μ ) 2 \ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2 lnL=?2n?ln(2π)?2n?lnσ2?2σ21?i=1n?(xi??μ)2
3. 求導解方程:
μ μ μ 求導:
? ln ? L ? μ = 1 σ 2 ∑ i = 1 n ( x i ? μ ) = 0 ? μ ? = 1 n ∑ i = 1 n x i \frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i ?μ?lnL?=σ21?i=1n?(xi??μ)=0?μ?=n1?i=1n?xi?
σ 2 \sigma^2 σ2求導:
? ln ? L ? σ 2 = ? n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i ? μ ) 2 = 0 ? σ 2 ? = 1 n ∑ i = 1 n ( x i ? μ ? ) 2 \frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2 ?σ2?lnL?=?2σ2n?+2σ41?i=1n?(xi??μ)2=0?σ2?=n1?i=1n?(xi??μ?)2

  1. 結論
    μ ? \mu^* μ?是樣本均值, σ 2 ? \sigma^{2 *} σ2?是樣本方差(但分母為 n,有偏估計)。
例2:二項分布的參數估計

假設拋硬幣 n 次,正面朝上 k 次,估計正面概率 p。

  1. 似然函數:
    $\mathcal{L}§ = \binom{n}{k} p^k (1-p)^{n-k} $

  2. 對數似然:

$\ln \mathcal{L} = \ln \binom{n}{k} + k \ln p + (n - k) \ln (1 - p) $
3. 求導解方程:
$\frac{\partial \ln \mathcal{L}}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \implies p^* = \frac{k}{n} $

結論:正面概率的 MLE 估計是觀測頻率 k n \frac{k}{n} nk?

?

四、MLE 與大模型的關系

在大模型(如 GPT、BERT、ResNet)中,MLE 是訓練目標的數學基礎,但需結合工程技巧擴展:

  1. 損失函數設計

    • 交叉熵損失:分類任務中,最小化交叉熵等價于最大化對數似然。
      例如,語言模型預測下一個詞的概率分布時,損失函數為:

      L = ? ∑ t = 1 T ln ? P ( w t ∣ w < t , θ ) \mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta) L=?t=1T?lnP(wt?w<t?,θ)

    • 均方誤差(MSE):回歸任務中,MSE 等價于假設數據服從高斯分布時的 MLE。

  2. 正則化與貝葉斯擴展

    • MLE 容易過擬合,大模型常加入正則化項(如 L2 正則),這等價于最大后驗估計(MAP,貝葉斯框架下的 MLE 擴展)。

    • 貝葉斯神經網絡將 MLE 推廣為后驗分布推斷(如變分推斷)。

  3. 優化算法

    • 大模型參數規模巨大(如 GPT-3 有 1750 億參數),直接求解 MLE 不可行,需使用 隨機梯度下降(SGD) 或其變體(如 Adam)近似優化。
  4. 生成模型中的應用

    • 生成對抗網絡(GAN)和擴散模型中,生成器的訓練隱式地最大化數據的似然。

    • 自回歸模型(如 Transformer)顯式地通過 MLE 學習序列數據的分布。

五、MLE 的局限性及應對
  1. 過擬合風險

    • 問題:MLE 傾向于擬合訓練數據噪聲。

    • 解決方案:加入正則化項,或使用貝葉斯方法引入先驗。

  2. 數據稀疏性

    • 問題:小數據場景下,MLE 估計可能不準確。

    • 解決方案:數據增強、預訓練(如 BERT 的 MLM 任務)。

  3. 非凸優化

    • 問題:復雜模型的似然函數可能非凸,陷入局部最優。

    • 解決方案:隨機初始化、動量優化、學習率調度。


六、總結
  • 核心公式 θ ? = arg ? max ? θ ∑ i = 1 n ln ? P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ?=argmaxθ?i=1n?lnP(xi?θ)

  • 應用場景:從經典統計到深度學習,MLE 是參數估計的基石。

  • 大模型中的角色

    • 直接指導損失函數設計(如交叉熵)。

    • 結合正則化和優化算法解決高維問題。

    • 生成模型和自回歸模型的核心訓練目標。

  • 哲學意義:MLE 體現了“讓數據自己說話”的思想,但需通過技術手段平衡擬合與泛化。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84319.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84319.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84319.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

用go從零構建寫一個RPC(3)--異步調用+多路復用實現

在前兩個版本中&#xff0c;我們實現了基礎的客戶端-服務端通信、連接池、序列化等關鍵模塊。為了進一步提升吞吐量和并發性能&#xff0c;本版本新增了 異步發送機制 和 多路復用支持&#xff0c;旨在減少資源消耗、提升連接利用率。 代碼地址&#xff1a;https://github.com/…

FFmpeg 安裝包全攻略:gpl、lgpl、shared、master 區別詳解

這些 FFmpeg 安裝包有很多版本和變種&#xff0c;主要區別在于以下幾個方面&#xff1a; ? 一、從名稱中看出的關鍵參數&#xff1a; 1. 版本號 master&#xff1a;開發版&#xff0c;最新功能&#xff0c;但可能不穩定。n6.1 / n7.1&#xff1a;正式版本&#xff0c;更穩定…

深度學習實戰:從圖像分類到文本生成的完整案例解析

1 圖像分類案例 1.1 CIFAR10數據集介紹 cifar數據是torchvision第三方包提供的數據集 訓練集5w 測試集1w y標簽 10個類別 10分類問題 一張圖形狀 (32, 32, 3) import torch import torch.nn as nn from torchvision.datasets import CIFAR10 from torchvision.transforms i…

Android 添加系統服務的完整流程

[應用程序] (應用進程)│↓ 調用簡單API [SoundManager] │ ├─ 代理模式門面模式&#xff08;應用進程&#xff09;│ ├─ 緩存數據 ←─ 裝飾器模式&#xff08;應用進程&#xff09;│ └─ 轉換異常 ←─ 適配器模式&#xff08;應用進程&#xff09;│↓ 通過Bind…

wan2.1代碼筆記

GPU內存不夠&#xff0c;可以先運行umt5&#xff0c;然后再運行wanpipeline&#xff0c;參考FLUX.1代碼筆記&#xff0c;或者使用ComfyUI。 下面使用隨機數代替umt5 embedding。 import torch from diffusers.utils import export_to_video from diffusers import Autoencoder…

環境搭建與工具配置

3.1 本地環境搭建 3.1.1 WAMP環境搭建漏洞靶場&#xff08;一、二&#xff09; WAMP&#xff08;Windows Apache MySQL PHP&#xff09;是搭建本地Web漏洞靶場的基礎環境。 安裝步驟&#xff1a; Apache&#xff1a;下載并安裝最新版Apache HTTP Server&#xff0c;配置監…

STM32F446主時鐘失效時DAC輸出異常現象解析與解決方案

—### 現象概述 在STM32F446微控制器應用中&#xff0c;若主時鐘&#xff08;HSE&#xff09;的晶體信號對地短路&#xff0c;但DAC&#xff08;數模轉換器&#xff09;仍能輸出變化信號&#xff0c;這一現象看似矛盾&#xff0c;實則與系統時鐘切換機制密切相關。本文將從硬件…

React 如何封裝一個可復用的 Ant Design 組件

文章目錄 前言一、為什么需要封裝組件&#xff1f;二、 仿antd組件的Button按鈕三、封裝一個可復用的表格組件 (實戰)1. 明確需求2. 設計組件 API3. 實現組件代碼4. 使用組件 三、封裝組件的最佳實踐四、進階優化 總結 前言 作為一名前端開發工程師&#xff0c;在日常項目中&a…

STC89C52RC/LE52RC

STC89C52RC 芯片手冊原理圖擴展版原理圖 功能示例LED燈LED燈的常亮效果LED燈的閃爍LED燈的跑馬燈效果&#xff1a;從左到右&#xff0c;從右到左 數碼管靜態數碼管數碼管計數mian.cApp.cApp.hCom.cCom.hDir.cDir.hInt.cInt.hMid.cMid.h 模板mian.cApp.cApp.hCom.cCom.hDir.cDir…

踩坑記錄:RecyclerView 局部刷新notifyItemChanged多次調用只觸發一次 onBindViewHolder 的原因

1. 問題背景 在做項目的時候&#xff0c;RecyclerView需要使用局部刷新&#xff0c;使用 notifyItemChanged(position, payload) 實現局部刷新&#xff0c;但發現調用多次只執行了一次&#xff0c;第二個刷新不生效。 2. 錯誤示例&#xff08;只處理 payloads.get(0)&#xff…

OpenLayers 加載鷹眼控件

注&#xff1a;當前使用的是 ol 5.3.0 版本&#xff0c;天地圖使用的key請到天地圖官網申請&#xff0c;并替換為自己的key 地圖控件是一些用來與地圖進行簡單交互的工具&#xff0c;地圖庫預先封裝好&#xff0c;可以供開發者直接使用。OpenLayers具有大部分常用的控件&#x…

WPF···

設置啟動頁 默認最后一個窗口關閉,程序退出,可以設置 修改窗體的icon圖標 修改項目exe圖標 雙擊項目名會看到代碼 其他 在A窗體點擊按鈕打開B窗體,在B窗體設置WindowStartupLocation=“CenterOwner” 在A窗體的代碼設置 B.Owner = this; B.Show(); B窗體生成在A窗體中間…

github公開項目爬取

import requestsdef search_github_repositories(keyword, tokenNone, languageNone, max_results1000):"""通過 GitHub API 搜索倉庫&#xff0c;支持分頁獲取所有結果&#xff08;最多 1000 條&#xff09;:param keyword: 搜索關鍵詞:param token: GitHub To…

防震基座在半導體晶圓制造設備拋光機詳細應用案例-江蘇泊蘇系統集成有限公司

在半導體制造領域&#xff0c;晶圓拋光作為關鍵工序&#xff0c;對設備穩定性要求近乎苛刻。哪怕極其細微的振動&#xff0c;都可能對晶圓表面質量產生嚴重影響&#xff0c;進而左右芯片制造的成敗。以下為您呈現一個防震基座在半導體晶圓制造設備拋光機上的經典應用案例。 企…

S32K開發環境搭建詳細教程(一、S32K IDE安裝注冊)

一、S32K IDE安裝注冊 1、進入恩智浦官網https://www.nxp.com.cn/&#xff08;需要在官網注冊一個賬號&#xff09; 2、直接搜索 “Standard Software”&#xff0c;找到S32K3 Standard Software&#xff0c;點擊進入 3、下載 (1)Automotive SW - S32K3 - S32 Design Studio…

Spring Cloud Gateway 微服務網關實戰指南

上篇文章簡單介紹了SpringCloud系列OpenFeign的基本用法以及Demo搭建&#xff08;Spring Cloud實戰&#xff1a;OpenFeign遠程調用與服務治理-CSDN博客&#xff09;&#xff0c;今天繼續講解下SpringCloud Gateway實戰指南&#xff01;在分享之前繼續回顧下本次SpringCloud的專…

MSP430G2553 USCI模塊串口通信

1.前言 最近需要利用msp430連接藍牙模塊傳遞數據&#xff0c;于是死磕了一段時間串口&#xff0c;在這里記錄一下 2.msp430串口模塊 msp430的串口模塊可以有USCI模塊提供 在異步模式中&#xff0c; USCI_Ax 模塊通過兩個外部引腳&#xff0c; UCAxRXD 和 UCAxTXD&#xff0…

【產品經理從0到1】用戶端產品設計與用戶畫像

思考 xx新聞的第一個版本應該做哪些事情呢&#xff1f; 用戶端核心功能 用戶端通用頁面設計 思考 回想一下&#xff0c;大家在第一次使用一個新下載的App的時候會看到一些什么樣的頁面?這樣的頁面一般都是展示了一些什么內容? 引導頁 概念 第一次安裝App或者更新App后第…

多場景游戲AI新突破!Divide-Fuse-Conquer如何激發大模型“頓悟時刻“?

多場景游戲AI新突破&#xff01;Divide-Fuse-Conquer如何激發大模型"頓悟時刻"&#xff1f; 大語言模型在強化學習中偶現的"頓悟時刻"引人關注&#xff0c;但多場景游戲中訓練不穩定、泛化能力差等問題亟待解決。Divide-Fuse-Conquer方法&#xff0c;通過…

佰力博科技與您探討壓電材料的原理與壓電效應的應用

壓電材料的原理基于正壓電效應和逆壓電效應&#xff0c;即機械能與電能之間的雙向轉換特性。 壓電材料的原理源于其獨特的晶體結構和電-機械耦合效應&#xff0c;具體可分為以下核心要點&#xff1a; 1. ?正壓電效應與逆壓電效應的定義? ?正壓電效應?&#xff1a;當壓電…