機器學習入門：線性回歸詳解與實戰

線性回歸（Linear Regression）是機器學習中最基礎也最常用的算法之一，無論是初學者入門還是實際業務場景，都能看到它的身影。本文將從概念、原理到代碼實現，帶你全方位了解線性回歸。

一、什么是線性回歸？

簡單來說，線性回歸是一種用于預測自變量與因變量之間線性關系的算法。它假設因變量（需要預測的結果）與一個或多個自變量（影響因素）之間存在線性關聯，通過構建數學模型來描述這種關系，從而實現對未知數據的預測。

舉個生活中的例子：

房價（因變量）與房屋面積、房齡、地段（自變量）的關系
學生成績（因變量）與學習時長、刷題量（自變量）的關系
銷售額（因變量）與廣告投入（自變量）的關系

二、線性回歸的數學原理

1. 模型表達式

單變量線性回歸

當只有一個自變量時，模型表達式為：
y=wx+b
其中：

y?是因變量（預測值）
x?是自變量
w?是權重（斜率）
b?是偏置（截距）

三、線性回歸核心代碼（入門必看）

對于零基礎入門者，線性回歸的核心代碼只有三行！以下是最簡化版本：

# 極簡線性回歸示例（僅需3行核心代碼）
import numpy as np
from sklearn.linear_model import LinearRegression# 準備數據（示例：學習時間與考試分數）
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 學習時間（小時）
y = np.array([60, 70, 80, 85, 90])             # 對應分數# 1. 創建模型
model = LinearRegression()# 2. 訓練模型
model.fit(X, y)# 3. 預測
new_X = np.array([6]).reshape(-1, 1)  # 預測學習6小時的分數
print(f"預測分數: {model.predict(new_X)[0]:.2f}")# 查看模型參數
print(f"權重(斜率): {model.coef_[0]:.2f}")
print(f"偏置(截距): {model.intercept_:.2f}")

輸出結果：

預測分數: 92.00
權重(斜率): 6.50
偏置(截距): 53.50

對應的數學模型就是：分數 = 6.5 × 學習時間 + 53.5

如果需要更詳細的解釋，可以看下面這版帶注釋的：

# 帶注釋的極簡版
import numpy as np
from sklearn.linear_model import LinearRegression# 準備數據（學習時間與考試分數的關系）
# X必須是二維數組，所以用reshape(-1, 1)轉換
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([60, 70, 80, 85, 90])# 創建線性回歸模型對象
model = LinearRegression()# 用數據訓練模型（核心！）
# 模型會自動找到最佳的權重(w)和偏置(b)
model.fit(X, y)# 用訓練好的模型預測新數據
new_X = np.array([6]).reshape(-1, 1)  # 預測學習6小時的分數
prediction = model.predict(new_X)
print(f"學習6小時的預測分數: {prediction[0]:.2f}")# 查看模型學到的參數
# 數學模型：分數 = 權重 × 學習時間 + 偏置
print(f"模型學到的權重(斜率): {model.coef_[0]:.2f}")  # 每多學1小時，分數提高6.5分
print(f"模型學到的偏置(截距): {model.intercept_:.2f}")  # 基礎分數53.5分

四、線性回歸的完整實現（帶可視化）

下面我們用 Python 的 Scikit-learn 庫實現一個完整的線性回歸示例，以房屋面積與房價的關系為例。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression# 生成模擬數據（房屋面積與房價）
np.random.seed(42)
x = np.random.rand(100, 1) * 10  # 房屋面積（0-100平米）
y = 2.5 * x + 3 + np.random.randn(100, 1) * 2  # 真實關系：y=2.5x+3，添加噪聲# 創建并訓練模型
model = LinearRegression()
model.fit(x, y)# 預測
y_pred = model.predict(x)# 輸出參數
print(f"權重 w: {model.coef_[0][0]:.2f}")
print(f"偏置 b: {model.intercept_[0]:.2f}")# 可視化
plt.scatter(x, y, color='blue', label='真實數據')
plt.plot(x, y_pred, color='red', linewidth=2, label='擬合直線')
plt.xlabel('房屋面積（平米）')
plt.ylabel('房價（萬元）')
plt.title('房屋面積與房價的線性回歸')
plt.legend()
plt.show()

五、線性回歸的優缺點

優點

原理簡單，解釋性強（權重可直接反映特征影響）
訓練速度快，計算成本低
可作為基礎模型，為復雜模型提供參考

缺點

只能捕捉線性關系，無法處理非線性數據
對異常值敏感，需要預處理

六、總結

線性回歸是機器學習的入門基石，掌握它不僅能解決簡單的預測問題，更能幫助理解機器學習的基本思想：通過數據擬合模型，最小化誤差來逼近真實規律。

如果覺得本文有幫助，歡迎點贊收藏，也歡迎在評論區交流你的學習心得～

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/916393.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/916393.shtml
英文地址，請注明出處：http://en.pswp.cn/news/916393.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！