最小二乘線性回歸

? 線性回歸（linear regression）：試圖學得一個線性模型以盡可能準確地預測實際值的輸出。

以一個例子來說明線性回歸，假設銀行貸款會根據年齡和工資來評估可放款的額度。即：

? 數據：工資和年齡（2個特征）

? 目標：預測銀行放款額度（標簽）

? 參數：考慮工資和年齡分別對放款額度的影響程度

可以寫成這樣： $Y=X_1\theta_1+X_2\theta_2$ ，這里 $X_1、X_2 就是特征，Y$ 就是銀行最終放款額度。

? 找到最合適的一個平面來擬合數據點：
在這里插入圖片描述

? 擬合的平面方程： $h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2$ ，這里 $\theta_0$ 是偏置項。整合該方程可以寫成如下形式：
$h_{\theta}(x)=\sum_{i=0}^n \theta_ix_i=\theta^\top x$
注意這里 $x_0=1$ ，添加一個全為1的特征，方便表示。

? 真實值和預測值之間肯定存在誤差，用 $\epsilon$ 來表示誤差。對于每個樣本：
$y_i = \theta^\top x_i + \epsilon_i$
這里 $y_i$ 為真實值， $\theta^\top x_i$ 為預測值， $\epsilon_i$ 為誤差項

? 對于誤差的理解：誤差 $\epsilon_i$ 是獨立同分布的，且服從均值為0方差為 $\theta^2$ 的高斯分布

獨立：每個樣本 $x_i$ 是沒有關系的（張三李四一起放款，他倆沒關系）
同分布：每個 $x_i$ 都是對于同一個問題的（他倆都是來同一家銀行）
高斯分布：誤差可大可小，但是絕大多數情況下這個浮動不會太大，極小情況下浮動會比較大，符合正常情況。

? 由于誤差服從高斯分布：
$p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2}$
將預測值和誤差帶入上式得：
$y_i = \theta^\top x_i + \epsilon_i \\ 帶入\ \ p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2}：\\ p(y_i|x_i;\theta)=\frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}$
上式的似然函數如下：
$L(\theta) = \prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}$
對似然函數的解釋：

? 什么樣的參數跟我們的數據組合后恰好是真實值

對數似然：
$L(\theta) =log \prod_{i=1}^mp(y_i|x_i;\theta)=log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}\\=mlog\frac{1}{\sqrt{2 \pi}\sigma}-\frac{1}{\sigma ^2}*\frac12*\sum_{i=1}^m(y_i-\theta^\top x_i)^2$
目標是讓似然函數（對數變換之后）越大越好：
$\ log L(\theta)\\ →min \ J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2（最小二乘法）$
$J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2$ 即為最小二乘法。

? 將目標函數寫為矩陣形式：
$J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2= \frac12(X\theta-y)^\top (X\theta-y)\\ 對\theta 求偏導:\\ \nabla_\theta J(\theta)=X^\top X\theta-X^\top y\\ 令\nabla_\theta J(\theta)=0得:\\ \theta=(X^\top X)^{-1}X^\top y$
? 采用微分和跡的關系 $tr((\frac{\partial f}{\partial X})^\top dX)$ 進行求導，求導過程如下：
$dJ(\theta)= tr(dJ(\theta))=d[\frac12(X\theta-y)^\top (X\theta-y)]\\ =tr[d(\frac12(\theta^\top X^\top X\theta-2y^\top X\theta+y^\top y))]\\ =tr[d(\frac12\theta^\top X^\top X\theta)]-tr(d(2y^\top X\theta))+tr(d(y^\top y))\\ =tr(\frac12d\theta^\top X^\top X\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)+0\\ =tr(\frac12\theta^\top X^\top Xd\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)\\ =tr(\theta^\top X^\top Xd\theta-2y^\top Xd\theta)=tr((\theta^\top X^\top X-2y^\top X)d\theta)\\ =tr(( X^\top X\theta - 2X^\top y)^\top d\theta)\\ 故：\\ \frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y\\$
當 $X^\top X$ 為滿秩矩陣或者正定矩陣時，令偏導數 $\frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y=0$ 得到：
$\theta=(X^\top X)^{-1}X^\top y$
?

其中 $(X^\top X)^{-1}$ 是矩陣 $X^\top X$ 的逆矩陣。但是現實任務中， $X^\top X$ 通常不是滿秩矩陣，例如在許多任務中會遇到大量的變量，其數目甚至超過樣例數，導致X的列數多于行數， $X^\top X$ ， $X^\top X$ 顯然不滿秩。此時可以解出多個 $\theta$ ，他們都能使均方差最小化。選擇哪一個解作為輸出，將由機器學習算法的歸納偏好決定，常見的做法是引入正則化項。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/165833.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/165833.shtml
英文地址，請注明出處：http://en.pswp.cn/news/165833.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！