學習筆記(27):線性回歸基礎與實戰：從原理到應用的簡易入門

線性回歸：通過擬合線性方程（如?\(y = w_1x_1 + w_2x_2 + b\)）預測房價、銷售額等連續變量，需掌握特征標準化、正則化（L1/L2）防止過擬合。應用場景：金融領域的股價預測、電商用戶消費金額預估。

線性回歸基礎與實戰：從原理到應用的簡易入門

一、線性回歸的核心思想：用直線（或超平面）擬合數據

線性回歸是一種監督學習算法，核心目標是通過找到一個線性方程，來描述自變量（特征）與因變量（目標值）之間的關系。通俗來說，就是用一條 “直線”（二維場景）或 “超平面”（多維場景）盡可能準確地擬合數據點，從而實現對連續變量的預測。

二、數學原理：線性方程與擬合目標

線性方程的數學表達
- 簡單線性回歸（單特征）：y=w?x+b，其中?w?是權重（斜率），b?是偏置（截距）。
擬合目標：最小化預測誤差
- 如何判斷一條直線 “擬合得好不好”？通過計算均方誤差（MSE）：其中?\(y_i\)是真實值，\(\hat{y}_i\)?是模型預測值。線性回歸的核心就是通過優化算法（如梯度下降）找到一組?w?和?b，使 MSE 最小。

三、關鍵技術點：特征標準化與正則化

特征標準化（Feature Standardization）
- 為什么需要標準化？ 當特征的量綱差異很大時（例如房價特征中 “面積” 以平方米為單位，“房齡” 以年為單位），模型會更關注量綱大的特征，導致擬合偏差。
正則化（Regularization）：防止過擬合的 “剎車器”
- 過擬合問題：當模型在訓練數據上擬合得太好，可能會學習到數據中的噪聲，導致在新數據上預測效果差。

四、應用場景：金融與電商的實戰案例

金融領域：股價預測
- 特征設計：
  - 技術指標：市盈率（PE）、市凈率（PB）、成交量等；
  - 市場因素：大盤指數、行業政策、宏觀經濟數據（如利率）。
- 模型作用：通過歷史數據擬合股價與特征的線性關系，輔助判斷股價趨勢（注意：實際金融市場復雜，線性模型需結合其他方法）。
電商領域：用戶消費金額預估
- 特征設計：
  - 用戶行為：歷史消費頻次、客單價、瀏覽商品數；
  - 商品屬性：價格區間、促銷力度、品類偏好。
- 模型價值：用于個性化推薦（如高消費潛力用戶推送高端商品）、營銷預算分配（針對不同消費層級用戶制定策略）。

五、簡易實戰：用 Python 實現線性回歸（以房價預測為例）

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
# 配置中文顯示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 1. 生成模擬數據（假設房價與面積、房齡的關系）
np.random.seed(42)
n_samples = 100
# 面積（平方米），房齡（年）
X = np.random.rand(n_samples, 2) * 100
X[:, 0] = X[:, 0]  # 面積范圍：0-100
X[:, 1] = X[:, 1]  # 房齡范圍：0-100
# 真實房價 = 5000*面積 + 1000*房齡 + 隨機噪聲（模擬真實場景）
y = 5000 * X[:, 0] + 1000 * X[:, 1] + np.random.randn(n_samples) * 10000# 2. 數據預處理：標準化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 3. 劃分訓練集與測試集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 4. 訓練線性回歸模型
model = LinearRegression()
model.fit(X_train, y_train)# 5. 模型評估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"均方誤差（MSE）：{mse:.2f}")
print(f"決定系數（R2）：{r2:.2f}")  # R2越接近1，模型擬合越好# 6. 查看模型參數（權重和偏置）
print(f"特征權重：{model.coef_}")  # 對應面積和房齡的權重
print(f"偏置：{model.intercept_}")# 7. 可視化（以單特征為例，假設只看面積與房價的關系）
plt.scatter(X[:, 0], y, color='blue', label='真實數據')
# 用訓練好的模型預測僅基于面積的房價（固定房齡為平均值）
X_single_feature = scaler.transform(np.array([[50, 0], [100, 0]]))  # 面積50和100，房齡0（僅示例）
y_single_pred = model.predict(X_single_feature)
# 反標準化面積特征（便于可視化）
X_original = scaler.inverse_transform(X_single_feature)
plt.plot(X_original[:, 0], y_single_pred, color='red', linewidth=2, label='線性回歸預測')
plt.xlabel('房屋面積（平方米）')
plt.ylabel('房價（元）')
plt.title('線性回歸：房屋面積與房價的關系')
plt.legend()
plt.show()

效果圖

線性回歸代碼逐行解析

下面我將對之前提供的線性回歸房價預測代碼進行詳細解析，幫助你理解每一步的作用和實現原理。

1. 導入必要的庫

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

numpy：用于生成和處理數組數據
pandas：用于數據處理和分析（本代碼未實際使用，但在實際項目中常用）
matplotlib.pyplot：用于數據可視化
sklearn：機器學習工具包，包含：
- LinearRegression：線性回歸模型
- train_test_split：劃分訓練集和測試集
- StandardScaler：特征標準化工具
- mean_squared_error和r2_score：模型評估指標

2. 生成模擬數據

# 1. 生成模擬數據（假設房價與面積、房齡的關系）
np.random.seed(42)  # 設置隨機種子，確保結果可復現
n_samples = 100     # 樣本數量# 生成特征矩陣X（面積和房齡）
X = np.random.rand(n_samples, 2) * 100  # 生成0-100之間的隨機數
X[:, 0] = X[:, 0]  # 面積范圍：0-100平方米
X[:, 1] = X[:, 1]  # 房齡范圍：0-100年# 生成目標變量y（房價）
# 真實房價 = 5000*面積 + 1000*房齡 + 隨機噪聲
y = 5000 * X[:, 0] + 1000 * X[:, 1] + np.random.randn(n_samples) * 10000

數據生成邏輯：
- 特征 X 包含兩個維度：房屋面積和房齡
- 房價計算公式：5000*面積 + 1000*房齡 + 隨機噪聲
- 添加隨機噪聲模擬真實場景中的不確定性
np.random.seed(42)，“42” 的特殊意義：在計算機科學中，“42” 是《銀河系漫游指南》中 “生命、宇宙及一切的答案”，常被用作示例代碼的默認種子，無實際數學含義。
何時設置：應在生成隨機數之前設置種子，通常放在代碼開頭或隨機操作前。
多線程場景：在多線程程序中，僅設置種子可能無法完全保證隨機性一致，需結合其他線程安全措施。
np.random.seed(42)?是數據科學中保證實驗可復現的重要工具，通過固定隨機數生成的起點，讓隨機操作變得 “可控”。這在學術研究、工程開發中都是必不可少的步驟 —— 畢竟，能復現的結果才具有說服力！

3. 特征標準化

# 2. 數據預處理：標準化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

其中，μ 是均值，σ 是標準差
為什么需要標準化？
- 消除不同特征量綱差異的影響
- 加速梯度下降算法的收斂速度
- 某些模型（如 SVM、KNN）對特征尺度敏感

4. 劃分訓練集和測試集

# 3. 劃分訓練集與測試集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42
)

參數說明：
- test_size=0.2：將 20% 的數據作為測試集
- random_state=42：固定隨機種子，確保每次劃分結果相同
數據劃分目的：
- 訓練集：用于模型學習參數
- 測試集：用于評估模型泛化能力

5. 訓練線性回歸模型

# 4. 訓練線性回歸模型
model = LinearRegression()
model.fit(X_train, y_train)

線性回歸模型數學表達式：其中：
- 是特征權重（對應面積和房齡）
- b?是偏置項
模型訓練過程：
- 最小化均方誤差（MSE）損失函數
- 使用正規方程或梯度下降求解最優參數

6. 模型評估

# 5. 模型評估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"均方誤差（MSE）：{mse:.2f}")
print(f"決定系數（R2）：{r2:.2f}")

評估指標解釋：
- 均方誤差（MSE）：誤差越小，模型預測越準確
- 決定系數（R2）：

7. 查看模型參數

# 6. 查看模型參數（權重和偏置）
print(f"特征權重：{model.coef_}")
print(f"偏置：{model.intercept_}")

參數解釋：
- model.coef_：特征權重數組，對應面積和房齡的影響系數
- model.intercept_：偏置項，相當于線性方程的截距
注意：
- 由于特征經過標準化，權重不能直接解釋為 “面積每增加 1 平方米，房價增加 5000 元”
- 需要對標準化后的數據進行反推才能得到原始尺度的解釋

8. 可視化結果

# 7. 可視化（以單特征為例，假設只看面積與房價的關系）
plt.scatter(X[:, 0], y, color='blue', label='真實數據')# 用訓練好的模型預測僅基于面積的房價（固定房齡為平均值）
X_single_feature = scaler.transform(np.array([[50, 0], [100, 0]]))
y_single_pred = model.predict(X_single_feature)# 反標準化面積特征（便于可視化）
X_original = scaler.inverse_transform(X_single_feature)# 繪制回歸線
plt.plot(X_original[:, 0], y_single_pred, color='red', linewidth=2, label='線性回歸預測')
plt.xlabel('房屋面積（平方米）')
plt.ylabel('房價（元）')
plt.title('線性回歸：房屋面積與房價的關系')
plt.legend()
plt.show()