深度學習 - 梯度下降優化方法

梯度下降的基本概念

梯度下降（Gradient Descent）是一種用于優化機器學習模型參數的算法，其目的是最小化損失函數，從而提高模型的預測精度。梯度下降的核心思想是通過迭代地調整參數，沿著損失函數下降的方向前進，最終找到最優解。

生活中的背景例子：尋找山谷的最低點

想象你站在一個山谷中，眼睛被蒙住，只能用腳感受地面的坡度來找到山谷的最低點（即損失函數的最小值）。你每一步都想朝著坡度下降最快的方向走，直到你感覺不到坡度，也就是你到了最低點。這就好比在優化一個模型時，通過不斷調整參數，使得模型的預測誤差（損失函數）越來越小，最終找到最佳參數組合。

梯度下降的具體方法及其優化

1. 批量梯度下降（Batch Gradient Descent）

生活中的例子：
你決定每次移動之前，都要先測量整個山谷的坡度，然后再決定移動的方向和步幅。雖然每一步的方向和步幅都很準確，但每次都要花很多時間來測量整個山谷的坡度。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta)$
其中：

$\theta$ 是模型參數
$\eta$ 是學習率
$\nabla_{\theta} J(\theta)$ 是損失函數 $J(\theta)$ 關于 $\theta$ 的梯度

API：
TensorFlow：

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

PyTorch：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

2. 隨機梯度下降（Stochastic Gradient Descent, SGD）

生活中的例子：
你決定每一步都只根據當前所在位置的坡度來移動。雖然這樣可以快速決定下一步怎么走，但由于只考慮當前點，可能會導致路徑不穩定，有時候會走過頭。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; x^{(i)}, y^{(i)})$
其中 $x^{(i)}, y^{(i)})$ 是當前樣本的數據

API：
TensorFlow 和 PyTorch 中的API與批量梯度下降相同，具體行為取決于數據的加載方式。例如在訓練時可以一批數據包含一個樣本。

3. 小批量梯度下降（Mini-Batch Gradient Descent）

生活中的例子：
你決定每次移動之前，只測量周圍一小部分區域的坡度，然后根據這小部分區域的平均坡度來決定方向和步幅。這樣既不需要花太多時間測量整個山谷，也不會因為只看一個點而導致路徑不穩定。

公式：
$\theta := \theta - \eta \cdot \nabla_{\theta} J(\theta; \mathcal{B})$
其中 $\mathcal{B}$ 是當前小批量的數據

API：
TensorFlow 和 PyTorch 中的API與批量梯度下降相同，但在數據加載時使用小批量。

4. 動量法（Momentum）

生活中的例子：
你在移動時，不僅考慮當前的坡度，還考慮之前幾步的移動方向，就像帶著慣性一樣。如果前幾步一直往一個方向走，那么你會傾向于繼續往這個方向走，減少來回震蕩。

公式：
$\beta v + (1 - \beta) \nabla_{\theta} J(\theta)$
$\theta := \theta - \eta v$
其中：

$v$ 是動量項
$\beta$ 是動量系數（通常接近1，如0.9）

API：
TensorFlow：

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, momentum=0.9)

PyTorch：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

5. RMSProp

生活中的例子：
你在移動時，會根據最近一段時間內每一步的坡度情況，動態調整步幅。比如，當坡度變化劇烈時，你會邁小步，當坡度變化平緩時，你會邁大步。

公式：
$\beta s + (1 - \beta) (\nabla_{\theta} J(\theta))^2$
$\theta := \theta - \frac{\eta}{\sqrt{s + \epsilon}} \nabla_{\theta} J(\theta)$
其中：

$s$ 是梯度平方的加權平均值
$\epsilon$ 是一個小常數，防止除零錯誤

API：
TensorFlow：

optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.001)

PyTorch：

optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001)

6. Adam（Adaptive Moment Estimation）

生活中的例子：
你在移動時，結合動量法和RMSProp的優點，不僅考慮之前的移動方向（動量），還根據最近一段時間內的坡度變化情況（調整步幅），從而使移動更加平穩和高效。

公式：
$\beta_1 m + (1 - \beta_1) \nabla_{\theta} J(\theta)$
$\beta_2 v + (1 - \beta_2) (\nabla_{\theta} J(\theta))^2$
$\hat{m} := \frac{m}{1 - \beta_1^t}$
$\hat{v} := \frac{v}{1 - \beta_2^t}$
$\theta := \theta - \eta \frac{\hat{m}}{\sqrt{\hat{v}} + \epsilon}$
其中：

$m$ 和 $v$ 分別是梯度的一階和二階動量
$\beta_1$ 和 $\beta_2$ 是動量系數（通常分別取0.9和0.999）
$\hat{m}$ 和 $\hat{v}$ 是偏差校正后的動量項
$t$ 是時間步

API：
TensorFlow：

optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

PyTorch：

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

綜合應用示例

假設我們在使用TensorFlow和PyTorch訓練一個簡單的神經網絡，以下是如何應用這些優化方法的示例代碼。

TensorFlow 示例：

import tensorflow as tf# 定義模型
model = tf.keras.Sequential([tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),tf.keras.layers.Dense(10, activation='softmax')
])# 編譯模型并選擇優化器
optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])# 準備數據
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0# 訓練模型
model.fit(x_train, y_train, epochs=10, batch_size=32)

PyTorch 示例：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader# 定義模型
class SimpleNN(nn.Module):def __init__(self):super(SimpleNN, self).__init__()self.fc1 = nn.Linear(784, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return xmodel = SimpleNN()# 選擇優化器
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()# 準備數據
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)# 訓練模型
for epoch in range(10):for batch in train_loader:x_train, y_train = batchx_train = x_train.view(x_train.size(0), -1)  # Flatten the imagesoptimizer.zero_grad()outputs = model(x_train)loss = criterion(outputs, y_train)loss.backward()optimizer.step()