簡單線性回歸模型原理推導(最小二乘法)和案例解析

線性回歸是一種用于建模自變量與因變量之間線性關系的統計方法，核心是通過最小化誤差平方和估計模型參數。以下從數學原理推導和案例兩方面詳細說明。

一、線性回歸模型的數學原理推導

1. 模型定義

線性回歸假設因變量 y 與自變量 x 存在線性關系，具體分為：

簡單線性回歸（單自變量）：

$yi=β0+β1xi+εi(i=1,2,...,n)y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \quad (i=1,2,...,n)$

2. 參數估計：最小二乘法（OLS）

要詳細推導 $β1=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2\boldsymbol{\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}}$ 的過程，我們從 最小二乘法的正規方程 出發，逐步化簡：

步驟 1：建立誤差平方和與正規方程

簡單線性回歸模型為：
$yi=β0+β1xi+εi(i=1,2,...,n)y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \quad (i=1,2,...,n)$

誤差平方和（SSE）為：
$SSE=∑i=1n(yi?β0?β1xi)2\text{SSE} = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2$

為最小化 SSE，對 $β0\beta_0$ 和 $β1\beta_1$ 求偏導并令其為 0，得到 正規方程：

（1）對 $β0\beta_0$ 求偏導

$?SSE?β0=?2∑i=1n(yi?β0?β1xi)=0\frac{\partial \text{SSE}}{\partial \beta_0} = -2 \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i) = 0$

整理得：
$∑i=1nyi=nβ0+β1∑i=1nxi\sum_{i=1}^n y_i = n\beta_0 + \beta_1 \sum_{i=1}^n x_i$

兩邊除以 $n$ （記 $xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_i$ ， $yˉ=1n∑yi\bar{y} = \frac{1}{n}\sum y_i$ ，即樣本均值），得：
$yˉ=β0+β1xˉ?β0=yˉ?β1xˉ(1)\bar{y} = \beta_0 + \beta_1 \bar{x} \quad \Rightarrow \quad \boldsymbol{\beta_0 = \bar{y} - \beta_1 \bar{x}} \tag{1}$

（2）對 $β1\beta_1$ 求偏導

$?SSE?β1=?2∑i=1nxi(yi?β0?β1xi)=0\frac{\partial \text{SSE}}{\partial \beta_1} = -2 \sum_{i=1}^n x_i (y_i - \beta_0 - \beta_1 x_i) = 0$

整理得：
$∑i=1nxiyi=β0∑i=1nxi+β1∑i=1nxi2(2)\sum_{i=1}^n x_i y_i = \beta_0 \sum_{i=1}^n x_i + \beta_1 \sum_{i=1}^n x_i^2 \tag{2}$

步驟 2：代入 $β0\boldsymbol{\beta_0}$ 的表達式到方程（2）

將式（1） $β0=yˉ?β1xˉ\boldsymbol{\beta_0 = \bar{y} - \beta_1 \bar{x}}$ 代入式（2），右邊變為：
$(yˉ?β1xˉ)∑xi+β1∑xi2(\bar{y} - \beta_1 \bar{x}) \sum x_i + \beta_1 \sum x_i^2$

利用 $∑xi=nxˉ\sum x_i = n\bar{x}$ （因為 $xˉ=1n∑xi\bar{x} = \frac{1}{n}\sum x_i$ ），展開并整理：
$右邊=yˉ?nxˉ?β1xˉ?nxˉ+β1∑xi2=nxˉyˉ+β1(∑xi2?nxˉ2)\begin{align*} \text{右邊} &= \bar{y} \cdot n\bar{x} - \beta_1 \bar{x} \cdot n\bar{x} + \beta_1 \sum x_i^2 \\ &= n\bar{x}\bar{y} + \beta_1 \left( \sum x_i^2 - n\bar{x}^2 \right) \end{align*}$

步驟 3：化簡方程求 $β1\boldsymbol{\beta_1}$

式（2）左邊為 $∑xiyi\sum x_i y_i$ ，因此：
$∑xiyi=nxˉyˉ+β1(∑xi2?nxˉ2)\sum x_i y_i = n\bar{x}\bar{y} + \beta_1 \left( \sum x_i^2 - n\bar{x}^2 \right)$

將左邊的 $nxˉyˉn\bar{x}\bar{y}$ 移到左邊，得：
$∑xiyi?nxˉyˉ=β1(∑xi2?nxˉ2)(3)\sum x_i y_i - n\bar{x}\bar{y} = \beta_1 \left( \sum x_i^2 - n\bar{x}^2 \right) \tag{3}$

步驟 4：轉化為離均差形式

（1）分子： $∑xiyi?nxˉyˉ\sum x_i y_i - n\bar{x}\bar{y}$

展開 離均差 $(xi?xˉ)(yi?yˉ)(x_i - \bar{x})(y_i - \bar{y})$ ：
$∑(xi?xˉ)(yi?yˉ)=∑(xiyi?xiyˉ?xˉyi+xˉyˉ)=∑xiyi?yˉ∑xi?xˉ∑yi+nxˉyˉ=∑xiyi?yˉ?nxˉ?xˉ?nyˉ+nxˉyˉ(因∑xi=nxˉ,∑yi=nyˉ)=∑xiyi?nxˉyˉ\begin{align*} \sum (x_i - \bar{x})(y_i - \bar{y}) &= \sum \left( x_i y_i - x_i \bar{y} - \bar{x} y_i + \bar{x}\bar{y} \right) \\ &= \sum x_i y_i - \bar{y} \sum x_i - \bar{x} \sum y_i + n\bar{x}\bar{y} \\ &= \sum x_i y_i - \bar{y} \cdot n\bar{x} - \bar{x} \cdot n\bar{y} + n\bar{x}\bar{y} \quad (\text{因} \sum x_i = n\bar{x}, \sum y_i = n\bar{y}) \\ &= \sum x_i y_i - n\bar{x}\bar{y} \end{align*}$

因此，分子 $∑xiyi?nxˉyˉ=∑(xi?xˉ)(yi?yˉ)\sum x_i y_i - n\bar{x}\bar{y} = \sum (x_i - \bar{x})(y_i - \bar{y})$ 。

（2）分母： $∑xi2?nxˉ2\sum x_i^2 - n\bar{x}^2$

展開離均差平方 $(xi?xˉ)2(x_i - \bar{x})^2$ ：
$∑(xi?xˉ)2=∑(xi2?2xixˉ+xˉ2)=∑xi2?2xˉ∑xi+nxˉ2=∑xi2?2xˉ?nxˉ+nxˉ2(因∑xi=nxˉ)=∑xi2?nxˉ2\begin{align*} \sum (x_i - \bar{x})^2 &= \sum \left( x_i^2 - 2x_i \bar{x} + \bar{x}^2 \right) \\ &= \sum x_i^2 - 2\bar{x} \sum x_i + n\bar{x}^2 \\ &= \sum x_i^2 - 2\bar{x} \cdot n\bar{x} + n\bar{x}^2 \quad (\text{因} \sum x_i = n\bar{x}) \\ &= \sum x_i^2 - n\bar{x}^2 \end{align*}$

因此，分母 $∑xi2?nxˉ2=∑(xi?xˉ)2\sum x_i^2 - n\bar{x}^2 = \sum (x_i - \bar{x})^2$ 。

步驟 5：最終推導

將分子和分母的離均差形式代入式（3），得：
$β1=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2\boldsymbol{\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}}$

核心邏輯總結

通過最小二乘法得到 兩個正規方程，分別對應截距 $β0\beta_0$ 和斜率 $β1\beta_1$ 。
利用 $β0\beta_0$ 與均值的關系（ $β0=yˉ?β1xˉ\beta_0 = \bar{y} - \beta_1 \bar{x}$ ），將其代入 $β1\beta_1$ 的正規方程。
通過 離均差展開 化簡，將代數形式轉化為更直觀的協方差/方差形式（分子是 $x$ 和 $y$ 的協方差和，分母是 $x$ 的方差和）。

這種推導體現了最小二乘法的核心：通過均值和離均差簡化計算，最終得到斜率的直觀表達式。

二、數學案例（簡單線性回歸）

問題：

已知5組數據（( x ) 為廣告投入，( y ) 為銷售額，單位：萬元）：
( x: [1, 2, 3, 4, 5] )，( y: [2, 4, 5, 7, 8] )，求回歸方程 $y^=β^0+β^1x\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$

計算步驟：

公式：
$β1=∑(xi?xˉ)(yi?yˉ)∑(xi?xˉ)2\boldsymbol{\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}}$
$β0=yˉ?β1xˉ\beta_0 = \bar{y} - \beta_1 \bar{x}$

計算均值：
$xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3$ $yˉ=2+4+5+7+85=5.2\bar{y} = \frac{2+4+5+7+8}{5} = 5.2$
計算分子 $∑(xi?xˉ)(yi?yˉ)\sum (x_i - \bar{x})(y_i - \bar{y})$
$(1 ? 3) (2 ? 5.2) = (? 2) (? 3.2) = 6.4$
$(2 ? 3) (4 ? 5.2) = (? 1) (? 1.2) = 1.2$
$\times (-0.2) = 0$
$\times 1.8 = 1.8$
$\times 2.8 = 5.6$
總和： $6.4 + 1.2 + 0 + 1.8 + 5.6 = 15$
計算分母 $∑(xi?xˉ)2\sum (x_i - \bar{x})^2$
$1-3)^2 = 4$
$2-3)^2 = 1$
$3-3)^2 = 0$
$4-3)^2 = 1$
$5-3)^2 = 4$
總和： $4 + 1 + 0 + 1 + 4 = 10$
估計參數：
斜率： $β^1=1510=1.5\hat{\beta}_1 = \frac{15}{10} = 1.5$
截距： $β^0=yˉ?β^1xˉ=5.2?1.5×3=0.7\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 5.2 - 1.5 \times 3 = 0.7$

結果：

回歸方程為 $y^=0.7+1.5x\hat{y} = 0.7 + 1.5x$ ，即廣告投入每增加1萬元，銷售額平均增加1.5萬元。

三、總結

線性回歸通過最小二乘法估計參數，核心是最小化誤差平方和。簡單線性回歸的參數可通過均值和協方差直接計算。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/94256.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/94256.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/94256.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！