給定一組包含 𝑁 個訓練樣本的訓練集
我們希望能夠 學習一個最優的線性回歸的模型參數 𝒘?
現在我們來介紹線性回歸的一種模型參數估計方法:經驗風險最小化。
我們前面說過,對于標簽 𝑦 和模型輸出都為連續的實數值,平方損失函數非常合適衡量真實標簽和預測標簽之間的差異。
因此這里大家需要注意一點,經驗風險最小化在線性回歸中,一般使用均方誤差作為損失函數。
一、先來理解一下均方誤差作為損失函數時,對應的矩陣形式如何表示
(一)先來認識什么是二范數?
1、二范數的數學定義:
2、二范數的幾何解釋
3、二范數的代數解釋
4、二范數的性質
5、二范數在機器學習中的應用
(二)再來理解均方誤差的矩陣表示
在線性回歸中,均方誤差(Mean Squared Error, MSE)和二范數(L2L_2L2?范數)之間有密切的關系。均方誤差實際上是預測誤差向量的二范數的平方的均值,在矩陣形式下,可以用二范數的表達方式來表示。
1、均方誤差(MSE)的定義
2、結合二范數的概念,則可以推導出:
二、現在我們回到標題,掌握如何通過經驗風險最小化來學習線性回歸的最優參數
在機器學習中,經驗風險最小化(Empirical Risk Minimization, ERM)是一種常用的策略,用來在給定的訓練數據上找到最優的模型參數。對于線性回歸(Linear Regression),我們可以使用經驗風險最小化來求解最優參數 w,從而最小化模型的損失。
(一)正規方程求解最優參數 w
1. 問題描述
假設我們有一個線性回歸模型,其形式為:
其中:
目標:
利用經驗風險最小化,學習最優的 w,使得模型的預測誤差最小。
2. 經驗風險最小化(ERM)框架
經驗風險定義為訓練數據上的損失函數的均值:
對于線性回歸,常用的損失函數是均方誤差(MSE, Mean Squared Error):
因此,經驗風險(均方誤差)可表示為:
用矩陣表示:
ERM目標:
通過最小化均方誤差來找到最優的 w:
3. 解析解求解過程
4. 示例:具體計算過程
假設數據如下:
x1 | x2 | y |
---|---|---|
1 | 2 | 5 |
3 | 4 | 11 |
5 | 6 | 17 |
5. 結論
使用經驗風險最小化學習線性回歸模型的步驟如下:
- 定義目標函數: 均方誤差
- 最小化損失函數: 通過求導得到閉式解(正規方程)。
- 計算最優參數:
- 預測新數據: 使用得到的 w?進行預測。
(二)梯度下降法求解最優參數 w
除了使用正規方程求解最優參數 w之外,**梯度下降法(Gradient Descent)**也是一種常見的方法,尤其適用于高維數據或特征數量很大的情況下。梯度下降可以在沒有直接解析解或矩陣維度過大導致計算成本過高時,提供一種更為高效的優化手段。
梯度下降法求解線性回歸的最優參數
(1) 問題回顧
(2) 梯度下降法的基本思想
梯度下降是一種迭代優化算法,通過沿著損失函數梯度的反方向不斷更新參數 w,直到收斂到最優值。
更新公式:
(3) 計算梯度
(4) 梯度下降算法步驟
(5) 示例
第 2 次迭代計算:
(6) 什么時候使用梯度下降?
- 數據量大時
- 特征數量多,尤其是當 XX稀疏時,梯度下降可有效利用稀疏矩陣優化。
- 適用于在線學習,當數據逐步到來時,可以使用**隨機梯度下降(SGD)**來不斷更新模型。
梯度下降 vs 正規方程的比較
方法 | 優點 | 缺點 | 適用場景 |
---|---|---|---|
正規方程 | 無需迭代,求解精確解,數學簡單 | 當數據量大時計算開銷大 | 低維數據,數據量較小時 |
梯度下降 | 適合大規模數據,計算復雜度低 | 需調參(學習率),可能收斂慢 | 高維數據,流式數據處理 |
其他優化算法
除了梯度下降,線性回歸的優化還可以使用:
- 隨機梯度下降(SGD):每次隨機選擇一個樣本進行更新,適用于大數據集。
- 動量梯度下降:加速收斂,減少震蕩。
- L-BFGS(擬牛頓法):適用于更復雜的回歸問題。
其中動量梯度下降和L-BFGS(擬牛頓法),我們后面再學習。
結論
- 正規方程:適用于小規模數據,直接求解閉式解。
- 梯度下降法:適用于大規模數據,通過迭代優化找到近似解,尤其在高維和大數據集情況下表現更優。