從統計學視角看機器學習的訓練與推理

引言：統計學與機器學習的奇妙緣分
訓練與推理：你得先學會“看數據”再“用數據”
最大似然估計（MLE）：從直覺到數學證明
- 3.1 伯努利分布的MLE
- 3.2 單變量高斯分布的MLE
- 3.3 多元高斯與線性回歸中的MLE
經驗風險最小（ERM）：MLE的自然推廣
其他估計方法：矩估計、在線遞歸估計與指數加權移動平均
總結與展望

引言：統計學與機器學習的奇妙緣分

當我們談論機器學習時，其實是在說如何“訓練”一個模型，讓它能夠從數據中“推理”出規律。統計學作為這一過程的數學基石，提供了嚴格的理論支持。從古老的貝葉斯推理到現代的頻數推理，每種方法都有其獨特的數學證明和直觀解釋。本文就將帶你走進這些理論的世界，讓你在大白話的解釋中，感受到數學公式背后的美妙邏輯！

訓練與推理：你得先學會“看數據”再“用數據”

在機器學習中，我們通常把整個過程分為兩個階段：訓練和推理。訓練階段，我們使用大量數據來“教會”模型識別數據的內在規律；而在推理階段，模型利用學到的知識對新數據進行預測。兩者的區別在于：

訓練（Training）： 模型根據已知數據調整自身參數，就像你學習數學時不斷做題、修正錯誤。這個過程本質上就是參數估計和優化問題。
推理（Inference）： 模型用訓練中學到的參數去處理未知數據，給出預測結果，就像考試時你憑借平時的訓練作答。

在統計學里，我們往往用概率分布來刻畫數據，通過最大似然估計、貝葉斯方法等工具，實現訓練與推理的數學轉化。

最大似然估計（MLE）：從直覺到數學證明

最大似然估計是統計學中最核心的參數估計方法之一，它的思想其實很直白——選擇使得觀測數據出現概率最大的參數值。下面，我們通過幾個經典例子來詳細說明這一過程。

伯努利分布的MLE

假設你在做一個拋硬幣實驗，每次實驗的結果只有“正面”（1）和“反面”（0）。用$ \theta $表示出現正面的概率，那么一組獨立實驗的似然函數為：

$L(\theta)=\prod_{i=1}^{n} \theta^{x_i}(1-\theta)^{1-x_i}$

為了方便求導，我們取對數，得到對數似然函數：

$\ell(\theta)=\sum_{i=1}^{n} \Bigl[x_i\log\theta+(1-x_i)\log(1-\theta)\Bigr]$

接下來，對 $\theta$ 求導并令導數為零，我們可以得到：

$\frac{d\ell(\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{n-\sum_{i=1}^{n}x_i}{1-\theta}=0$

解得：

$\theta=\frac{1}{n}\sum_{i=1}^{n}x_i$

這告訴我們，最佳的參數 $\theta$ 就是正面出現的頻率。簡單明了，對吧？

單變量高斯分布的MLE

對于連續變量，最常用的分布之一就是高斯分布。設數據服從單變量高斯分布：

$p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr)$

對于獨立數據集，似然函數為：

$L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x_i-\mu)^2}{2\sigma^2}\Bigr)$

取對數后得到：

$\ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2$

分別對 $\mu$ 和 $\sigma^2$ 求導并令導數為零，我們能推導出：

$\mu=\frac{1}{n}\sum_{i=1}^{n}x_i$

$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$

這兩個公式直觀地告訴我們，數據的均值和方差正是高斯分布參數的最佳估計。

多元高斯與線性回歸中的MLE

當數據是多維的，我們用多元高斯分布來描述數據。設 $\mathbf{x}\in \mathbb{R}^d$ ，其概率密度函數為：

$p(\mathbf{x}|\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\Bigl(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\Bigr)$

同樣地，對數似然函數為：

$\ell(\boldsymbol{\mu},\Sigma)=-\frac{n}{2}\log((2\pi)^d|\Sigma|)-\frac{1}{2}\sum_{i=1}^{n}(\mathbf{x}_i-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_i-\boldsymbol{\mu})$

通過對 $\boldsymbol{\mu}$ 和 $\Sigma$ 求導，可以得到最優估計公式。特別地，在線性回歸中，我們假定目標變量 $y$ 與輸入特征 $\mathbf{x}$ 之間滿足：

$y=\mathbf{x}^T\boldsymbol{\beta}+\epsilon,\quad \epsilon\sim N(0,\sigma^2)$

在這種假設下，最大似然估計的求解過程等價于最小二乘法，最佳參數為：

$\hat{\boldsymbol{\beta}}=(X^TX)^{-1}X^Ty$

同時，噪聲方差的估計為：

$\hat{\sigma}^2=\frac{1}{n}\|y-X\hat{\boldsymbol{\beta}}\|^2$

這些推導不僅告訴我們如何從數據中“學習”參數，更為后續更復雜的模型訓練提供了理論基礎。

經驗風險最小（ERM）：MLE的自然推廣

最大似然估計是一種非常特殊的經驗風險最小（ERM）方法。當我們在訓練一個模型時，目標是最小化經驗風險，即：

$\hat{\theta}=\arg\min_{\theta}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i;\theta))$

這里， $L$ 是損失函數，而 $f(x_i;\theta)$ 是模型預測值。如果我們選擇 $L$ 為負對數似然，那么ERM就完全等價于MLE。這說明，經驗風險最小化不僅適用于概率模型，也適用于更廣泛的模型訓練問題，是MLE思想的自然推廣。

其他估計方法：矩估計、在線遞歸估計與指數加權移動平均

除了MLE之外，統計學中還有許多其他參數估計方法。下面我們用大白話和公式來解釋幾種常見的方法：

矩估計法（Method of Moments, MOM）

矩估計法的基本思想是：用樣本矩來估計分布的理論矩。例如，對于單變量高斯分布，我們有：

$\mu=E[x]\approx \frac{1}{n}\sum_{i=1}^{n}x_i$

$\sigma^2=E[(x-\mu)^2]\approx \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$

對于均勻分布 $U (a, b)$ ，已知其理論均值和方差分別為：

$\mu=\frac{a+b}{2},\quad \sigma^2=\frac{(b-a)^2}{12}$

利用樣本均值和樣本方差，我們可以反推出分布的參數。這種方法簡單直觀，適用于很多分布的參數估計。

在線遞歸估計與高斯分布均值的遞歸MLE

在實際應用中，數據往往是不斷到來的，我們希望能夠實時更新模型參數。在線遞歸估計便是一種非常實用的方法。例如，對高斯分布均值的遞歸估計公式為：

$\hat{\mu}_t=\hat{\mu}_{t-1}+\alpha(x_t-\hat{\mu}_{t-1})$

其中， $\alpha$ 是一個學習率參數，控制新數據對估計值的影響。這其實和我們日常生活中的“不斷修正預期”很像：每次遇到新情況，我們就會略微調整之前的看法。

指數加權移動平均（Exponential Weighted Moving Average, EWMA）

當我們希望對時間序列數據進行平滑處理時，指數加權移動平均是一個好方法。其公式為：

$S_t=\lambda x_t+(1-\lambda)S_{t-1}$

其中， $\lambda$ 為平滑系數（通常在 $0$ 到 $1$ 之間）， $S_t$ 為當前的平滑值。簡單來說，每個時刻的估計值不僅考慮當前數據 $x_t$ ，還會參考之前的狀態 $S_{t-1}$ ，使得整體估計更平滑、魯棒性更高。

總結與展望

通過上面的討論，我們可以看到，統計學不僅為機器學習中的訓練和推理提供了理論基礎，更在參數估計上展現出極大的魅力。無論是最大似然估計的嚴謹證明，還是經驗風險最小化的廣義框架，都為我們理解機器學習模型的本質提供了強有力的支持。同時，矩估計、在線遞歸估計和指數加權移動平均等方法，也展示了數據流時代實時更新模型參數的可能性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/896885.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/896885.shtml
英文地址，請注明出處：http://en.pswp.cn/news/896885.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！