從統計學視角看機器學習的訓練與推理

從統計學視角看機器學習的訓練與推理

目錄

  1. 引言:統計學與機器學習的奇妙緣分
  2. 訓練與推理:你得先學會“看數據”再“用數據”
  3. 最大似然估計(MLE):從直覺到數學證明
    • 3.1 伯努利分布的MLE
    • 3.2 單變量高斯分布的MLE
    • 3.3 多元高斯與線性回歸中的MLE
  4. 經驗風險最小(ERM):MLE的自然推廣
  5. 其他估計方法:矩估計、在線遞歸估計與指數加權移動平均
  6. 總結與展望

引言:統計學與機器學習的奇妙緣分

當我們談論機器學習時,其實是在說如何“訓練”一個模型,讓它能夠從數據中“推理”出規律。統計學作為這一過程的數學基石,提供了嚴格的理論支持。從古老的貝葉斯推理到現代的頻數推理,每種方法都有其獨特的數學證明和直觀解釋。本文就將帶你走進這些理論的世界,讓你在大白話的解釋中,感受到數學公式背后的美妙邏輯!

訓練與推理:你得先學會“看數據”再“用數據”

在機器學習中,我們通常把整個過程分為兩個階段:訓練和推理。訓練階段,我們使用大量數據來“教會”模型識別數據的內在規律;而在推理階段,模型利用學到的知識對新數據進行預測。兩者的區別在于:

  • 訓練(Training): 模型根據已知數據調整自身參數,就像你學習數學時不斷做題、修正錯誤。這個過程本質上就是參數估計和優化問題。
  • 推理(Inference): 模型用訓練中學到的參數去處理未知數據,給出預測結果,就像考試時你憑借平時的訓練作答。

在統計學里,我們往往用概率分布來刻畫數據,通過最大似然估計、貝葉斯方法等工具,實現訓練與推理的數學轉化。

最大似然估計(MLE):從直覺到數學證明

最大似然估計是統計學中最核心的參數估計方法之一,它的思想其實很直白——選擇使得觀測數據出現概率最大的參數值。下面,我們通過幾個經典例子來詳細說明這一過程。

伯努利分布的MLE

假設你在做一個拋硬幣實驗,每次實驗的結果只有“正面”(1)和“反面”(0)。用$ \theta $表示出現正面的概率,那么一組獨立實驗的似然函數為:

L ( θ ) = ∏ i = 1 n θ x i ( 1 ? θ ) 1 ? x i L(\theta)=\prod_{i=1}^{n} \theta^{x_i}(1-\theta)^{1-x_i} L(θ)=i=1n?θxi?(1?θ)1?xi?

為了方便求導,我們取對數,得到對數似然函數:

? ( θ ) = ∑ i = 1 n [ x i log ? θ + ( 1 ? x i ) log ? ( 1 ? θ ) ] \ell(\theta)=\sum_{i=1}^{n} \Bigl[x_i\log\theta+(1-x_i)\log(1-\theta)\Bigr] ?(θ)=i=1n?[xi?logθ+(1?xi?)log(1?θ)]

接下來,對 θ \theta θ求導并令導數為零,我們可以得到:

d ? ( θ ) d θ = ∑ i = 1 n x i θ ? n ? ∑ i = 1 n x i 1 ? θ = 0 \frac{d\ell(\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{n-\sum_{i=1}^{n}x_i}{1-\theta}=0 dθd?(θ)?=θi=1n?xi???1?θn?i=1n?xi??=0

解得:

θ = 1 n ∑ i = 1 n x i \theta=\frac{1}{n}\sum_{i=1}^{n}x_i θ=n1?i=1n?xi?

這告訴我們,最佳的參數 θ \theta θ就是正面出現的頻率。簡單明了,對吧?

單變量高斯分布的MLE

對于連續變量,最常用的分布之一就是高斯分布。設數據服從單變量高斯分布:

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ? ( ? ( x ? μ ) 2 2 σ 2 ) p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) p(xμ,σ2)=2πσ2 ?1?exp(?2σ2(x?μ)2?)

對于獨立數據集,似然函數為:

L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 exp ? ( ? ( x i ? μ ) 2 2 σ 2 ) L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x_i-\mu)^2}{2\sigma^2}\Bigr) L(μ,σ2)=i=1n?2πσ2 ?1?exp(?2σ2(xi??μ)2?)

取對數后得到:

? ( μ , σ 2 ) = ? n 2 log ? ( 2 π σ 2 ) ? 1 2 σ 2 ∑ i = 1 n ( x i ? μ ) 2 \ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2 ?(μ,σ2)=?2n?log(2πσ2)?2σ21?i=1n?(xi??μ)2

分別對 μ \mu μ σ 2 \sigma^2 σ2求導并令導數為零,我們能推導出:

μ = 1 n ∑ i = 1 n x i \mu=\frac{1}{n}\sum_{i=1}^{n}x_i μ=n1?i=1n?xi?

σ 2 = 1 n ∑ i = 1 n ( x i ? μ ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 σ2=n1?i=1n?(xi??μ)2

這兩個公式直觀地告訴我們,數據的均值和方差正是高斯分布參數的最佳估計。

多元高斯與線性回歸中的MLE

當數據是多維的,我們用多元高斯分布來描述數據。設 x ∈ R d \mathbf{x}\in \mathbb{R}^d xRd,其概率密度函數為:

p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ? ( ? 1 2 ( x ? μ ) T Σ ? 1 ( x ? μ ) ) p(\mathbf{x}|\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\Bigl(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\Bigr) p(xμ,Σ)=(2π)d/2∣Σ1/21?exp(?21?(x?μ)TΣ?1(x?μ))

同樣地,對數似然函數為:

? ( μ , Σ ) = ? n 2 log ? ( ( 2 π ) d ∣ Σ ∣ ) ? 1 2 ∑ i = 1 n ( x i ? μ ) T Σ ? 1 ( x i ? μ ) \ell(\boldsymbol{\mu},\Sigma)=-\frac{n}{2}\log((2\pi)^d|\Sigma|)-\frac{1}{2}\sum_{i=1}^{n}(\mathbf{x}_i-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_i-\boldsymbol{\mu}) ?(μ,Σ)=?2n?log((2π)d∣Σ∣)?21?i=1n?(xi??μ)TΣ?1(xi??μ)

通過對 μ \boldsymbol{\mu} μ Σ \Sigma Σ求導,可以得到最優估計公式。特別地,在線性回歸中,我們假定目標變量 y y y與輸入特征 x \mathbf{x} x之間滿足:

y = x T β + ? , ? ~ N ( 0 , σ 2 ) y=\mathbf{x}^T\boldsymbol{\beta}+\epsilon,\quad \epsilon\sim N(0,\sigma^2) y=xTβ+?,?N(0,σ2)

在這種假設下,最大似然估計的求解過程等價于最小二乘法,最佳參數為:

β ^ = ( X T X ) ? 1 X T y \hat{\boldsymbol{\beta}}=(X^TX)^{-1}X^Ty β^?=(XTX)?1XTy

同時,噪聲方差的估計為:

σ ^ 2 = 1 n ∥ y ? X β ^ ∥ 2 \hat{\sigma}^2=\frac{1}{n}\|y-X\hat{\boldsymbol{\beta}}\|^2 σ^2=n1?y?Xβ^?2

這些推導不僅告訴我們如何從數據中“學習”參數,更為后續更復雜的模型訓練提供了理論基礎。

經驗風險最小(ERM):MLE的自然推廣

最大似然估計是一種非常特殊的經驗風險最小(ERM)方法。當我們在訓練一個模型時,目標是最小化經驗風險,即:

θ ^ = arg ? min ? θ 1 n ∑ i = 1 n L ( y i , f ( x i ; θ ) ) \hat{\theta}=\arg\min_{\theta}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i;\theta)) θ^=argθmin?n1?i=1n?L(yi?,f(xi?;θ))

這里, L L L是損失函數,而 f ( x i ; θ ) f(x_i;\theta) f(xi?;θ)是模型預測值。如果我們選擇 L L L為負對數似然,那么ERM就完全等價于MLE。這說明,經驗風險最小化不僅適用于概率模型,也適用于更廣泛的模型訓練問題,是MLE思想的自然推廣。

其他估計方法:矩估計、在線遞歸估計與指數加權移動平均

除了MLE之外,統計學中還有許多其他參數估計方法。下面我們用大白話和公式來解釋幾種常見的方法:

矩估計法(Method of Moments, MOM)

矩估計法的基本思想是:用樣本矩來估計分布的理論矩。例如,對于單變量高斯分布,我們有:

μ = E [ x ] ≈ 1 n ∑ i = 1 n x i \mu=E[x]\approx \frac{1}{n}\sum_{i=1}^{n}x_i μ=E[x]n1?i=1n?xi?

σ 2 = E [ ( x ? μ ) 2 ] ≈ 1 n ∑ i = 1 n ( x i ? μ ) 2 \sigma^2=E[(x-\mu)^2]\approx \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 σ2=E[(x?μ)2]n1?i=1n?(xi??μ)2

對于均勻分布 U ( a , b ) U(a,b) U(a,b),已知其理論均值和方差分別為:

μ = a + b 2 , σ 2 = ( b ? a ) 2 12 \mu=\frac{a+b}{2},\quad \sigma^2=\frac{(b-a)^2}{12} μ=2a+b?,σ2=12(b?a)2?

利用樣本均值和樣本方差,我們可以反推出分布的參數。這種方法簡單直觀,適用于很多分布的參數估計。

在線遞歸估計與高斯分布均值的遞歸MLE

在實際應用中,數據往往是不斷到來的,我們希望能夠實時更新模型參數。在線遞歸估計便是一種非常實用的方法。例如,對高斯分布均值的遞歸估計公式為:

μ ^ t = μ ^ t ? 1 + α ( x t ? μ ^ t ? 1 ) \hat{\mu}_t=\hat{\mu}_{t-1}+\alpha(x_t-\hat{\mu}_{t-1}) μ^?t?=μ^?t?1?+α(xt??μ^?t?1?)

其中, α \alpha α是一個學習率參數,控制新數據對估計值的影響。這其實和我們日常生活中的“不斷修正預期”很像:每次遇到新情況,我們就會略微調整之前的看法。

指數加權移動平均(Exponential Weighted Moving Average, EWMA)

當我們希望對時間序列數據進行平滑處理時,指數加權移動平均是一個好方法。其公式為:

S t = λ x t + ( 1 ? λ ) S t ? 1 S_t=\lambda x_t+(1-\lambda)S_{t-1} St?=λxt?+(1?λ)St?1?

其中, λ \lambda λ為平滑系數(通常在 0 0 0 1 1 1之間), S t S_t St?為當前的平滑值。簡單來說,每個時刻的估計值不僅考慮當前數據 x t x_t xt?,還會參考之前的狀態 S t ? 1 S_{t-1} St?1?,使得整體估計更平滑、魯棒性更高。

總結與展望

通過上面的討論,我們可以看到,統計學不僅為機器學習中的訓練和推理提供了理論基礎,更在參數估計上展現出極大的魅力。無論是最大似然估計的嚴謹證明,還是經驗風險最小化的廣義框架,都為我們理解機器學習模型的本質提供了強有力的支持。同時,矩估計、在線遞歸估計和指數加權移動平均等方法,也展示了數據流時代實時更新模型參數的可能性。


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896885.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896885.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896885.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI賦能企業協作4-NL2Sql技術路線

1.1 對話即服務的一點思考 在數智化轉型的過程中,基于即時通信(IM)的協作平臺正悄然成為企業智能化轉型的“新基建”。協作平臺天然具備高頻交互、實時協同和場景化落地的特性,仿佛是為對話式AI量身定制的試驗場——員工在熟悉的聊…

批量提取 Word 文檔中的頁面

如何將 Word 文檔中的頁面提取出來形成一個新的文檔呢?比如將 Word 文檔中的第一頁提取出來、將 Word 文檔中的最后一頁提取出來、再或者將 Word 文檔中的中間幾頁提取出來等等。人工的處理肯定非常的麻煩,需要新建 Word 文檔,然后將內容復制…

Sqlserver安全篇之_啟用TLS即配置SQL Server 數據庫引擎以加密連接

官方文檔 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/configure-sql-server-encryption?viewsql-server-ver16 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/manage-certificates?viewsql-server-ver15&pre…

多鏡頭視頻生成、機器人抓取、擴散模型個性化 | Big Model weekly第58期

點擊藍字 關注我們 AI TIME歡迎每一位AI愛好者的加入! 01 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot 本文介紹了一種名為GLM-4-Voice的智能且類人化的端到端語音聊天機器人。它支持中文和英文,能夠進行實時語音對話&a…

基于 Rust 與 GBT32960 規范的編解碼層

根據架構設計,實現編解碼層的代碼設計 Cargo.toml 加入二進制序列化支持 # 序列化支持 ... bincode "1.3" # 添加二進制序列化支持 bytes-utils "0.1" # 添加字節處理工具 開始編碼 錯誤處理(error.rs&#x…

MOM成功實施分享(七)電力電容制造MOM工藝分析與解決方案(第一部分)

聲明:文章僅用于交流學習,不用于商業項目實施,圖片來源于網絡,如有侵犯權利,請聯系作者及時刪除。 本方案旨在對電力電容(PEC和PQM型號)制造工藝深度分析,結合管理要求設計MOM相關功…

FPGA開發,使用Deepseek V3還是R1(1):應用場景

以下都是Deepseek生成的答案 FPGA開發,使用Deepseek V3還是R1(1):應用場景 FPGA開發,使用Deepseek V3還是R1(2):V3和R1的區別 FPGA開發,使用Deepseek V3還是R1&#x…

JavaWeb后端基礎(3)

原打算把Mysql操作數據庫的一些知識寫進去,但是感覺沒必要,要是現在會的都是簡單的增刪改查,所以,這一篇,我直接從java操作數據庫開始寫,所以這一篇大致就是記一下JDBC、MyBatis、以及SpringBoot的配置文件…

Pytorch實現之SRGAN+CBAM的結構設計

簡介 簡介:在SRGAN的殘差連接中加入了CBAM注意力機制,同時設計了四類損失來訓練。 論文題目:Super-resolution Generative Adversarial Networks Based on Attention Model(基于注意力模型的超分辨率生成對抗網絡) 會議:2020 IEEE第六屆計算機與通信國際會議 摘要:基…

移動端國際化翻譯同步解決方案-V3

1.前言 因為軟件出海,從在上上家公司就開始做翻譯系統,到目前為止已經出了兩個比較大的版本了,各個版本解決的痛點如下: V1版本: 主要針對的是AndroidiOS翻譯不一致和翻譯內容管理麻煩的問題,通過這個工具…

2.css簡介

什么是css: CSS (Cascading Style Sheets,層疊樣式表),是一種用來為結構化文檔(如 HTML 文檔或 XML 應用)添加樣式(字體、間距和顏色等)的計算機語言,CSS 文件擴展名為 .…

機器人學習模擬框架 robosuite (3) 機器人控制代碼示例

Robosuite框架是一個用于機器人模擬和控制的強大工具,支持多種類型的機器人。 官方文檔:Overview — robosuite 1.5 documentation 開源地址:https://github.com/ARISE-Initiative/robosuite 目錄 1、通過鍵盤或SpaceMouse遠程控制機器人…

可終身授權的外國工具,不限次數使用!PDF轉CAD的軟件

最近有不少朋友問我有沒有好用的CAD轉換工具,今天就來給大家分享兩款超實用的小軟件,希望能幫到大家。 第一款軟件是一款國外開發的,它專門用來把PDF文件轉換成CAD格式,特別方便。 這款軟件的操作非常簡單,打開后無需安…

Ubuntu系統上部署Node.js項目的完整流程

以下是在Ubuntu系統上部署Node.js項目的完整流程,分為系統初始化、環境配置、項目部署三個部分: 一、系統初始化 & 環境準備 bash # 1. 更新系統軟件包 sudo apt update && sudo apt upgrade -y# 2. 安裝基礎工具 sudo apt install -y buil…

Android內存優化指南:從數據結構到5R法則的全面策略

目錄 一、APP 內存限制 二、內存的三大問題 2.1、內存抖動(Memory Churn) 2.1.1 頻繁創建短生命周期對象 2.1.2 系統API或第三方庫的不合理使用 2.1.3 Handler使用不當 2.2、內存泄漏(Memory Leak) 2.2.1 靜態變量持有Activity或Context引用 2.2.2 未取消的回調或…

ffmpeg源碼編譯支持cuda

1.安裝cuda CUDA Toolkit 11.3 Downloads | NVIDIA Developer 在選擇組件的時候,將CUDA中的Nsight VSE和Visual Studio Integration取消勾選 不然會安裝失敗 2.編譯ffmpeg 把cuda編譯宏定義開啟,再編譯avcodec 3.編譯livavutil報錯struct "Cuda…

Git強制覆蓋分支:將任意分支完全恢復為main分支內容

Git強制覆蓋分支:將任意分支完全恢復為main分支內容 場景背景完整操作步驟一、前置準備二、操作流程步驟 1:更新本地 main 分支步驟 2:強制重置目標分支步驟 3:強制推送至遠程倉庫 三、操作示意圖 關鍵風險提示(必讀&a…

【Java反序列化測試】

Java反序列化測試 1. 識別反序列化入口點2. 構造探測Payload3. 發送Payload并觀察結果4. 繞過可能的防護5. 自動化工具注意事項總結 Java反序列化測試: 1. 識別反序列化入口點 常見入口: HTTP請求參數(如POST數據、Cookie、Headers&#xff…

golang的io

https://www.bilibili.com/list/BV1gx4y1r7xb 1. 原生io包 io包是Go語言標準庫中底層的I/O接口層,定義了通用的讀寫規則和錯誤處理邏輯。每次讀寫都是直接調用底層系統 I/O,每次讀取1字節,系統調用次數多。適用于小數據量、實時性要求高。io…

【北京迅為】iTOP-RK3568OpenHarmony系統南向驅動開發-第4章 UART基礎知識

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工藝,搭載一顆四核Cortex-A55處理器和Mali G52 2EE 圖形處理器。RK3568 支持4K 解碼和 1080P 編碼,支持SATA/PCIE/USB3.0 外圍接口。RK3568內置獨立NPU,可用于輕量級人工…