神經網絡基礎-神經網絡補充概念-43-梯度下降法

概念

梯度下降法（Gradient Descent）是一種優化算法，用于在機器學習和深度學習中最小化（或最大化）目標函數。它通過迭代地調整模型參數，沿著梯度方向更新參數，以逐步接近目標函數的最優解。梯度下降法在訓練神經網絡等機器學習模型時非常常用，可以幫助模型學習數據中的模式和特征。

基本原理和步驟

目標函數定義：首先，需要定義一個目標函數（損失函數），它用來衡量模型預測與實際值之間的差異。通常目標是最小化損失函數。

參數初始化：初始化模型的參數，這些參數將在優化過程中被逐步調整。

計算梯度：計算損失函數對于模型參數的梯度（導數）。梯度表示了目標函數在當前參數值處的變化率，它指示了在哪個方向上參數應該更新以減小損失。

參數更新：通過梯度下降公式，沿著梯度的反方向更新模型的參數。更新步長由學習率（learning rate）控制，學習率越大，參數更新越大；學習率越小，參數更新越小。

重復迭代：重復執行步驟 3 和 4，直到達到預定的迭代次數（epochs）或收斂條件。通常，隨著迭代次數的增加，模型的損失逐漸減小，參數逐漸趨于收斂到最優值。

梯度下降法可以分為多種變體，包括批量梯度下降（Batch Gradient Descent）、隨機梯度下降（Stochastic Gradient Descent）和小批量梯度下降（Mini-Batch Gradient Descent）。隨機梯度下降和小批量梯度下降在實際應用中更為常見，因為它們可以更快地收斂并適應大規模數據。

代碼實現(SGD)

import numpy as np
import matplotlib.pyplot as plt# 生成一些隨機數據
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)# 添加偏置項
X_b = np.c_[np.ones((100, 1)), X]# 初始化參數
theta = np.random.randn(2, 1)# 學習率
learning_rate = 0.01# 迭代次數
n_iterations = 1000# 隨機梯度下降
for iteration in range(n_iterations):random_index = np.random.randint(100)xi = X_b[random_index:random_index+1]yi = y[random_index:random_index+1]gradients = 2 * xi.T.dot(xi.dot(theta) - yi)theta = theta - learning_rate * gradients# 繪制數據和擬合直線
plt.scatter(X, y)
plt.plot(X, X_b.dot(theta), color='red')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Linear Regression with Stochastic Gradient Descent')
plt.show()print("Intercept (theta0):", theta[0][0])
print("Slope (theta1):", theta[1][0])

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/41281.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/41281.shtml
英文地址，請注明出處：http://en.pswp.cn/news/41281.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！