【深度學習】深度學習的四個核心步驟：從房價預測看機器學習本質

文章目錄

基礎概念與原理
第一步：準備數據 - 構建學習的基礎
- 數據生成與特征工程（選擇對預測有用的特征）
- 數據集劃分的重要性
第二步：設計模型 - 建立數學表達
- 線性回歸模型的數學表達
- - 損失函數的設計哲學
第三步：訓練優化 - 自動參數學習
- 梯度下降的直觀理解
- 學習率的重要性
- 梯度清零的必要性
第四步：預測評估 - 驗證學習效果
- 模型預測與可視化
- 泛化能力的評估
核心概念總結與延伸
- 關鍵術語的深層含義
- 從線性回歸到深度學習的演進

深度學習本質上是一個數據驅動的參數優化過程，通過"準備數據→設計模型→訓練優化→預測評估"四個步驟，讓機器從歷史數據中學習規律，從而對未來進行預測。

這個過程就像人類學習一樣：我們先觀察大量歷史現象（數據準備），建立對世界的理解模型（模型設計），通過不斷試錯和調整來完善認知（訓練優化），最終能夠對新情況做出合理判斷（預測評估）。房價預測這個經典問題完美詮釋了這一過程。

基礎概念與原理

在深入四個步驟之前，我們需要理解幾個核心概念。機器學習與傳統編程的根本區別在于：傳統編程是"規則驅動"，我們告訴計算機具體的計算步驟；而機器學習是"數據驅動"，我們讓計算機從數據中自動發現規律。

具體來說，我們定義了一個參數化的模型（如線性函數 y = ax + b），然后通過優化算法自動找到最優的參數組合，使得模型能夠最好地擬合歷史數據。這個過程的核心是損失函數和梯度下降：損失函數衡量模型預測與真實值的差距，梯度下降則通過計算損失函數對參數的導數，指導參數向減小損失的方向更新，逐漸求出最佳參數。

?
完整代碼見：【初識pytorch】從房價預測來學習深度學習的四個步驟

第一步：準備數據 - 構建學習的基礎

數據是機器學習的燃料，沒有高質量的數據，再先進的算法也無法發揮作用。 在房價預測問題中，我們需要收集時間序列的房價數據，這些數據構成了模型學習的"經驗"。

數據生成與特征工程（選擇對預測有用的特征）

import torch
import matplotlib.pyplot as plt
import numpy as np# 生成時間特征：0-100個月
# torch.linspace(start, end, steps) 生成從start到end的steps個均勻分布的數字
# start=0: 起始時間（第0個月）
# end=100: 結束時間（第100個月）  
# steps=100: 生成100個時間點
x = torch.linspace(0, 100, 100).type(torch.FloatTensor)# 生成房價數據：y = x + 噪聲（模擬真實房價趨勢）
# torch.randn(size) 生成服從標準正態分布N(0,1)的隨機數
# size=100: 生成100個隨機數
# * 10: 將標準差從1放大到10，模擬房價的波動性
rand = torch.randn(100) * 10  # 添加隨機噪聲
y = x + rand  # 房價 = 時間趨勢 + 隨機波動

特征工程的基本原理： 特征工程是機器學習中的關鍵步驟，它涉及從原始數據中提取、轉換和選擇對預測任務有用的特征。在房價預測中，我們選擇時間作為特征，這基于以下假設：

時間趨勢假設：房價通常隨時間呈現某種趨勢（上漲、下跌或平穩）
連續性假設：相鄰時間點的房價變化是連續的，不會出現劇烈跳躍
可預測性假設：歷史房價模式對未來房價有預測價值

數學表達式： 我們假設房價與時間的關系為：
$yi=xi+?iy_i = x_i + \epsilon_i$
其中：

$y_i$ 是第i個月的房價
$x_i$ 是第i個月的時間點
$?i～N(0,102)\epsilon_i \sim N(0, 10^2)$ 是隨機噪聲項

這個模型假設房價隨時間線性增長，但受到隨機因素影響。

數據集劃分的重要性

# 訓練集：用于模型學習（前90個月）
# x[: -10] 表示從開始到倒數第11個元素（包含）
# 即索引0到89，共90個數據點
x_train = x[: -10]
y_train = y[: -10]# 測試集：用于評估泛化能力（后10個月）
# x[-10 :] 表示從倒數第10個元素到末尾
# 即索引90到99，共10個數據點
x_test = x[-10 :]
y_test = y[-10 :]

數據集劃分的核心目的是模擬真實預測場景。 訓練集相當于歷史經驗，測試集相當于未來情況。模型只能看到訓練數據，在測試集上的表現才能真正反映其預測能力。這種劃分方式確保了模型評估的客觀性，避免了"作弊"現象。

第二步：設計模型 - 建立數學表達

模型是對現實世界的數學抽象，它決定了機器如何理解和預測數據。 在房價預測中，我們假設房價與時間存在線性關系，這是一個簡化的假設，但為理解機器學習原理提供了清晰的框架。

線性回歸模型的數學表達

# 初始化模型參數（需要梯度計算）
# torch.rand(size) 生成[0,1)之間的均勻分布隨機數
# requires_grad=True 告訴PyTorch需要計算這個張量的梯度
a = torch.rand(1, requires_grad = True)  # 斜率參數，初始化為隨機值
b = torch.rand(1, requires_grad = True)  # 截距參數，初始化為隨機值# 線性模型：y = ax + b
# expand_as(x_train) 將a和b的維度擴展到與x_train相同
# 這樣可以進行元素級別的乘法運算
predictions = a.expand_as(x_train) * x_train + b.expand_as(x_train)

模型設計的核心是參數化表達。 我們將房價預測問題轉化為尋找最優參數 a 和 b 的問題。這兩個參數控制了直線的斜率和位置，通過調整它們，我們可以擬合不同的線性關系。

數學表達式： 線性回歸模型可以表示為：
$y^i=axi+b\hat{y}_i = ax_i + b$
其中：

$y^i\hat{y}_i$ 是模型對第i個月房價的預測值
$a$ 是斜率參數，表示房價隨時間的變化率
$b$ 是截距參數，表示時間起點（x=0）時的房價
$x_i$ 是第i個月的時間點

損失函數的設計哲學

# 均方誤差損失函數
# predictions: 模型預測值
# y_train: 真實標簽值
# (predictions - y_train) ** 2: 計算每個樣本的平方誤差
# torch.mean(): 計算所有樣本的平均誤差
loss = torch.mean((predictions - y_train) ** 2)

損失函數是模型優化的"指南針"，它量化了模型預測的準確性。 均方誤差（Mean Squared Error, MSE）的數學表達式為：

$L(a,b)=1n∑i=1n(yi?y^i)2=1n∑i=1n(yi?(axi+b))2L(a, b) = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 = \frac{1}{n}\sum_{i=1}^{n}(y_i - (ax_i + b))^2$

其中：

$L (a, b)$ 是損失函數，它是參數a和b的函數
$n$ 是訓練樣本數量（這里是90）
$y_i$ 是第i個樣本的真實房價
$y^i=axi+b\hat{y}_i = ax_i + b$ 是第i個樣本的預測房價

均方誤差之所以被廣泛使用，是因為它具有幾個重要性質：

可微性：MSE是連續可微的，便于梯度計算
對稱性：正負誤差同等對待，符合直覺
懲罰性：大誤差被平方放大，小誤差相對減小，鼓勵模型關注大誤差
統計意義：MSE是方差的無偏估計，具有統計學意義

更重要的是，損失函數的選擇反映了我們對"什么是好的預測"的理解。在房價預測中，我們關心的是預測值與真實值的平均差距，因此選擇均方誤差是合理的。

第三步：訓練優化 - 自動參數學習

訓練過程是機器學習的核心，它體現了"從數據中學習"的本質。 通過梯度下降算法，模型能夠自動調整參數，逐步接近最優解。

梯度下降的直觀理解

# 初始化參數和學習率
a = torch.rand(1, requires_grad = True)  # 斜率參數，隨機初始化
b = torch.rand(1, requires_grad = True)  # 截距參數，隨機初始化
learning_rate = 0.0001  # 學習率，控制參數更新步長for i in range(1000):  # 訓練1000輪# 前向傳播：計算預測值predictions = a.expand_as(x_train) * x_train + b.expand_as(x_train)# 計算損失loss = torch.mean((predictions - y_train) ** 2)# 反向傳播：計算梯度# backward() 自動計算損失函數對所有requires_grad=True的張量的梯度loss.backward()# 參數更新：梯度下降# a.data.add_(-learning_rate * a.grad.data) 等價于 a = a - learning_rate * ?L/?a# 負號表示向梯度相反方向更新（下山方向）a.data.add_(- learning_rate * a.grad.data)b.data.add_(- learning_rate * b.grad.data)# 清空梯度（防止累積）# 每次迭代后必須清零梯度，否則梯度會累積a.grad.data.zero_()b.grad.data.zero_()

梯度下降算法可以類比為"盲人下山"的過程。 想象一個盲人站在山上，想要找到最低點。他會在原地轉一圈，感受哪個方向下降最快（梯度方向），然后朝那個方向邁出一步（參數更新）。重復這個過程，最終會到達山谷的最低點（損失函數的最小值）。

梯度下降的數學原理： 對于我們的線性回歸問題，梯度下降的更新公式為：

$at+1=at?α?L?aa_{t+1} = a_t - \alpha \frac{\partial L}{\partial a}$
$bt+1=bt?α?L?bb_{t+1} = b_t - \alpha \frac{\partial L}{\partial b}$

其中：

$a_t, b_t$ 是第t次迭代的參數值
$α\alpha$ 是學習率（learning_rate）
$?L?a,?L?b\frac{\partial L}{\partial a}, \frac{\partial L}{\partial b}$ 是損失函數對參數的偏導數

偏導數的計算： 對于MSE損失函數：
$\frac{1}{n}\sum_{i=1}^{n}(y_i - (ax_i + b))^2$

偏導數為：
$?L?a=?2n∑i=1n(yi?(axi+b))xi\frac{\partial L}{\partial a} = -\frac{2}{n}\sum_{i=1}^{n}(y_i - (ax_i + b))x_i$
$?L?b=?2n∑i=1n(yi?(axi+b))\frac{\partial L}{\partial b} = -\frac{2}{n}\sum_{i=1}^{n}(y_i - (ax_i + b))$

這些偏導數告訴我們在當前參數值下，損失函數對每個參數的敏感度，即參數微小變化時損失函數的變化率。

學習率的重要性

學習率是訓練過程中的關鍵超參數，它決定了參數更新的步長。 學習率太大，可能導致震蕩或發散；學習率太小，收斂速度會很慢。選擇合適的學習率需要在收斂速度和穩定性之間找到平衡。

學習率的影響機制：

學習率過大（如0.1）：
- 參數更新步長過大
- 可能在最優解附近震蕩
- 甚至可能發散，損失函數不收斂
學習率過小（如0.00001）：
- 參數更新步長過小
- 收斂速度很慢
- 需要更多迭代次數才能達到最優解
合適的學習率（如0.0001）：
- 在穩定性和收斂速度之間取得平衡
- 能夠平滑地收斂到最優解

學習率選擇經驗法則： 通常從0.01開始嘗試，如果震蕩則減小，如果收斂太慢則增大。在我們的房價預測問題中，0.0001是一個相對保守的選擇，確保訓練過程穩定。

梯度清零的必要性

梯度清零是PyTorch訓練中的關鍵步驟，它防止了梯度累積導致的錯誤。 每次反向傳播后，梯度信息會累積在參數的 .grad 屬性中。如果不清零，下一次迭代的梯度會與之前的梯度相加，導致參數更新錯誤。

梯度累積的數學解釋： 如果不清零梯度，第t次迭代的參數更新實際上是：
$at+1=at?α∑k=1t?Lk?aa_{t+1} = a_t - \alpha \sum_{k=1}^{t} \frac{\partial L_k}{\partial a}$

這會導致參數更新過大，訓練不穩定。正確的做法是每次只使用當前批次的梯度：
$at+1=at?α?Lt?aa_{t+1} = a_t - \alpha \frac{\partial L_t}{\partial a}$

第四步：預測評估 - 驗證學習效果

預測評估是檢驗模型學習效果的關鍵環節，它告訴我們模型是否真正學到了有用的規律。 在房價預測中，我們不僅要看模型在歷史數據上的表現，更要看它對新數據的預測能力。

模型預測與可視化

# 在測試集上進行預測
# 使用訓練好的參數a和b對測試數據進行預測
predictions = a.expand_as(x_test) * x_test + b.expand_as(x_test)# 可視化預測結果
plt.figure(figsize = (10, 7))  # 設置圖形大小
# 繪制訓練數據點
plt.plot(x_train.numpy(), y_train.numpy(), 'o', label='Training Data')
# 繪制測試數據點
plt.plot(x_test.numpy(), y_test.numpy(), 's', label='Test Data')
# 繪制擬合直線（在訓練數據范圍內）
plt.plot(x_train.numpy(), a.data.numpy() * x_train.numpy() + b.data.numpy(), label='Fitted Line')
# 繪制預測點
plt.plot(x_test.numpy(), predictions.numpy(), 'o', label='Predictions')
plt.xlabel('Time (months)')  # x軸標簽
plt.ylabel('House Price')    # y軸標簽
plt.legend()                 # 顯示圖例
plt.show()                   # 顯示圖形

預測結果的可視化幫助我們直觀理解模型的學習效果。 通過比較訓練數據、測試數據、擬合直線和預測點，我們可以判斷模型是否真正學到了房價隨時間變化的規律，以及這種規律是否具有泛化能力。

模型評估指標： 除了可視化，我們還可以計算定量指標：

訓練集MSE：衡量模型在訓練數據上的擬合程度
測試集MSE：衡量模型的泛化能力
R2決定系數：衡量模型解釋數據變異性的比例
?

泛化能力的評估

泛化能力是衡量模型質量的核心指標，它反映了模型對新數據的適應能力。 一個好的模型不僅要在訓練數據上表現良好，更要能夠準確預測未見過的數據。這正是我們劃分訓練集和測試集的原因。

過擬合與欠擬合：

欠擬合（Underfitting）：
- 模型過于簡單，無法捕捉數據中的規律
- 訓練集和測試集誤差都很高
- 解決方案：增加模型復雜度或特征
過擬合（Overfitting）：
- 模型過于復雜，記住了訓練數據的噪聲
- 訓練集誤差很低，但測試集誤差很高
- 解決方案：正則化、增加數據、減少模型復雜度
良好擬合：
- 模型復雜度適中，能夠泛化到新數據
- 訓練集和測試集誤差都較低且接近