這一篇文章,我們主要來理解一下,什么是線性回歸中的簡單回歸和多元回歸,順便掌握一下特征向量的概念。
一、簡單回歸
簡單回歸是線性回歸的一種最基本形式,它用于研究**一個自變量(輸入)與一個因變量(輸出)**之間的線性關系。其數學表達形式為:
y=?wx + b
其中:
- y:因變量(輸出),即我們要預測的目標值
- x:自變量(輸入),即影響因變量的已知因素
- w(權重/斜率):表示自變量對因變量的影響程度
- b(偏置/截距):表示當 x = 0 時,y?的取值
通俗舉例 1:通過身高預測體重
假設我們想要建立一個簡單的模型,根據一個人的身高來預測體重,我們有以下數據:
身高(cm) | 體重(kg) |
---|---|
150 | 50 |
160 | 60 |
170 | 70 |
180 | 80 |
建模思路:
- 設身高 x,體重 y,假設兩者之間有一個線性關系 y=wx+b。
- 通過擬合這些數據,模型可能會得到類似的方程: 體重=0.5×身高?25, 在這里:
- w=0.5(表示每增加 1 cm 身高,體重約增加 0.5 kg)
- b=?25(表示身高為 0 時的理論體重,但在實際場景中無意義,僅為模型參數)
預測:
如果一個人的身高是 175 cm,則模型預測體重為:
y=0.5×175?25=62.5kg
通俗舉例 2:學習時間與考試分數
假設我們想要研究學習時間(小時)對考試分數的影響,收集了一些數據:
學習時間(小時) | 考試分數(分) |
---|---|
1 | 50 |
2 | 55 |
3 | 65 |
4 | 70 |
建模思路:
我們嘗試建立一個簡單回歸模型來預測分數:
考試分數=10×學習時間+45
在這里:
- 斜率 w=10(表示每增加 1 小時學習時間,分數提高 10 分)
- 截距 b=45(表示即使不學習,可能的最低分數是 45 分)
預測:
如果某人學習 5 小時,預測的考試分數為:
10×5+45=95
簡單回歸的特點
- 只涉及一個自變量(單輸入)
- 假設變量之間是線性關系(如果關系復雜,可能需要更高級的回歸方法)
- 易于解釋和計算(適合初學者理解和使用)
簡單回歸的應用場景
- 通過溫度預測冰淇淋銷量
- 通過廣告支出預測銷售額
- 通過年齡預測血壓
二、多元回歸
什么是多元回歸?
多元回歸(Multiple Linear Regression, MLR) 是線性回歸的一種擴展,它用于研究**多個自變量(輸入)與一個因變量(輸出)**之間的關系。簡單來說,它是一種能同時考慮多個影響因素的回歸模型。
多元回歸的數學公式:
其中:
- y:因變量(輸出)
- x1,x2,...,xn:自變量(輸入特征)
- w1,w2,...,wn:各特征的權重(回歸系數),衡量每個特征對結果的影響程度
- b:偏置項(截距),表示所有輸入特征為 0 時的輸出值
通俗舉例 1:房價預測
假設我們想要預測一套房子的價格,影響房價的因素有:
面積(㎡) | 房齡(年) | 離市中心距離(km) | 價格(萬元) |
---|---|---|---|
100 | 5 | 3 | 200 |
120 | 10 | 5 | 180 |
80 | 2 | 2 | 220 |
150 | 15 | 10 | 150 |
在這里,我們可以建立一個多元回歸模型:
通俗舉例 2:學生考試成績預測
假設某個學生的考試成績可能受到上課時長、作業完成情況、睡眠時間等因素的影響,我們收集到以下數據:
上課時長(小時) | 作業完成率(%) | 睡眠時間(小時) | 考試成績(分) |
---|---|---|---|
10 | 90 | 8 | 85 |
8 | 70 | 6 | 70 |
12 | 95 | 9 | 90 |
6 | 50 | 5 | 60 |
建立回歸模型:
多元回歸的特點
- 同時考慮多個因素,適合更復雜的現實場景
- 線性關系假設,適用于數據中存在一定的線性相關性
- 解釋性強,可以分析每個變量對結果的貢獻
多元回歸的應用場景
- 市場營銷:影響銷售額的因素可能包括廣告投放、產品價格、品牌影響力等
- 醫學研究:預測患者的疾病風險,考慮年齡、體重、血壓、運動習慣等
- 商業分析:評估員工績效,考慮工作時長、項目數量、經驗等
三、特征向量
如何簡單理解特征向量?
通俗來說,特征向量(Feature Vector) 就是用一組數字來描述一個對象的“特征”。在機器學習中,我們用特征向量來表示數據,使得計算機能夠處理和學習這些數據的模式。
簡單例子 1:水果分類
假設你要訓練一個模型來識別不同的水果,比如蘋果、橘子、香蕉。我們可以用以下特征來描述水果:
- 重量(克)
- 顏色(紅色=1,橙色=2,黃色=3)
- 大小(直徑 cm)
如果你拿到一個水果,它的特征如下:
- 重量:150 克
- 顏色:1(紅色,代表蘋果)
- 大小:8 cm
那么,這個水果可以表示成一個特征向量:
[150,1,8]
同樣,橘子和香蕉的特征可能分別是:
[120,2,7](橘子)
[130,3,9](香蕉)
這些特征向量可以作為機器學習模型的輸入,讓模型學習如何區分不同的水果。
簡單例子 2:學生成績分析
假設你想分析學生的表現,考慮以下特征:
- 上課時長(小時)
- 作業完成率(%)
- 考試成績(分)
學生 A:
[10, 90, 85]
學生 B:
[8,70,78]
這些數據可以組成特征向量,讓我們對學生的學習情況進行分析和預測。
特征向量的特點
- 數值化:將現實世界的特征轉換為計算機可處理的數值形式。
- 多維度:可以同時包含多個屬性,描述一個對象的多個方面。
- 通用性:適用于分類、回歸、聚類等各種機器學習任務。
總結
特征向量就是用一組數字來表示事物的特征,它幫助計算機更好地理解和分析數據。你可以把它想象成一個“數據快照”,每個維度(數值)代表事物的一個屬性。