機器學習-線性回歸（簡單回歸、多元回歸）

這一篇文章，我們主要來理解一下，什么是線性回歸中的簡單回歸和多元回歸，順便掌握一下特征向量的概念。

一、簡單回歸

簡單回歸是線性回歸的一種最基本形式，它用于研究**一個自變量（輸入）與一個因變量（輸出）**之間的線性關系。其數學表達形式為：

y=?wx + b

其中：

y：因變量（輸出），即我們要預測的目標值
x：自變量（輸入），即影響因變量的已知因素
w（權重/斜率）：表示自變量對因變量的影響程度
b（偏置/截距）：表示當 x = 0 時，y?的取值

通俗舉例 1：通過身高預測體重

假設我們想要建立一個簡單的模型，根據一個人的身高來預測體重，我們有以下數據：

身高（cm）	體重（kg）
150	50
160	60
170	70
180	80

建模思路：

設身高 x，體重 y，假設兩者之間有一個線性關系 y=wx+b。
通過擬合這些數據，模型可能會得到類似的方程：體重=0.5×身高?25，在這里：
- w=0.5（表示每增加 1 cm 身高，體重約增加 0.5 kg）
- b=?25（表示身高為 0 時的理論體重，但在實際場景中無意義，僅為模型參數）

預測：
如果一個人的身高是 175 cm，則模型預測體重為：

y=0.5×175?25=62.5kg

通俗舉例 2：學習時間與考試分數

假設我們想要研究學習時間（小時）對考試分數的影響，收集了一些數據：

學習時間（小時）	考試分數（分）
1	50
2	55
3	65
4	70

建模思路：
我們嘗試建立一個簡單回歸模型來預測分數：

考試分數=10×學習時間+45

在這里：

斜率 w=10（表示每增加 1 小時學習時間，分數提高 10 分）
截距 b=45（表示即使不學習，可能的最低分數是 45 分）

預測：
如果某人學習 5 小時，預測的考試分數為：

10×5+45=95

簡單回歸的特點

只涉及一個自變量（單輸入）
假設變量之間是線性關系（如果關系復雜，可能需要更高級的回歸方法）
易于解釋和計算（適合初學者理解和使用）

簡單回歸的應用場景

通過溫度預測冰淇淋銷量
通過廣告支出預測銷售額
通過年齡預測血壓

二、多元回歸

什么是多元回歸？

多元回歸（Multiple Linear Regression, MLR） 是線性回歸的一種擴展，它用于研究**多個自變量（輸入）與一個因變量（輸出）**之間的關系。簡單來說，它是一種能同時考慮多個影響因素的回歸模型。

多元回歸的數學公式：

其中：

y：因變量（輸出）
x1,x2,...,xn：自變量（輸入特征）
w1,w2,...,wn：各特征的權重（回歸系數），衡量每個特征對結果的影響程度
b：偏置項（截距），表示所有輸入特征為 0 時的輸出值

通俗舉例 1：房價預測

假設我們想要預測一套房子的價格，影響房價的因素有：

面積（㎡）	房齡（年）	離市中心距離（km）	價格（萬元）
100	5	3	200
120	10	5	180
80	2	2	220
150	15	10	150

在這里，我們可以建立一個多元回歸模型：

通俗舉例 2：學生考試成績預測

假設某個學生的考試成績可能受到上課時長、作業完成情況、睡眠時間等因素的影響，我們收集到以下數據：

上課時長（小時）	作業完成率（%）	睡眠時間（小時）	考試成績（分）
10	90	8	85
8	70	6	70
12	95	9	90
6	50	5	60

建立回歸模型：

多元回歸的特點

同時考慮多個因素，適合更復雜的現實場景
線性關系假設，適用于數據中存在一定的線性相關性
解釋性強，可以分析每個變量對結果的貢獻

多元回歸的應用場景

市場營銷：影響銷售額的因素可能包括廣告投放、產品價格、品牌影響力等
醫學研究：預測患者的疾病風險，考慮年齡、體重、血壓、運動習慣等
商業分析：評估員工績效，考慮工作時長、項目數量、經驗等

三、特征向量

如何簡單理解特征向量？

通俗來說，特征向量（Feature Vector） 就是用一組數字來描述一個對象的“特征”。在機器學習中，我們用特征向量來表示數據，使得計算機能夠處理和學習這些數據的模式。

簡單例子 1：水果分類

假設你要訓練一個模型來識別不同的水果，比如蘋果、橘子、香蕉。我們可以用以下特征來描述水果：

重量（克）
顏色（紅色=1，橙色=2，黃色=3）
大小（直徑 cm）

如果你拿到一個水果，它的特征如下：

重量：150 克
顏色：1（紅色，代表蘋果）
大小：8 cm

那么，這個水果可以表示成一個特征向量：

[150,1,8]

同樣，橘子和香蕉的特征可能分別是：

[120,2,7]（橘子）

[130,3,9]（香蕉）

這些特征向量可以作為機器學習模型的輸入，讓模型學習如何區分不同的水果。

簡單例子 2：學生成績分析

假設你想分析學生的表現，考慮以下特征：

上課時長（小時）
作業完成率（%）
考試成績（分）

學生 A：

[10, 90, 85]

學生 B：

[8,70,78]

這些數據可以組成特征向量，讓我們對學生的學習情況進行分析和預測。

特征向量的特點

數值化：將現實世界的特征轉換為計算機可處理的數值形式。
多維度：可以同時包含多個屬性，描述一個對象的多個方面。
通用性：適用于分類、回歸、聚類等各種機器學習任務。

總結

特征向量就是用一組數字來表示事物的特征，它幫助計算機更好地理解和分析數據。你可以把它想象成一個“數據快照”，每個維度（數值）代表事物的一個屬性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/66833.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/66833.shtml
英文地址，請注明出處：http://en.pswp.cn/web/66833.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！