【機器學習】關于外插修正隨機梯度方法的數值實驗

1. 隨機梯度下降（SGD）

迭代格式：
$x_{k+1} = x_k - \eta_k \nabla f_i(x_k)$
其中， $\eta_k$ 為步長（可能遞減）， $\nabla f_i(x_k)$ 是隨機采樣樣本 $i$ 的梯度估計。
優點：
計算效率高，適合大規模數據集，每次迭代僅需單個樣本的梯度。
在強凸問題中收斂速度為 $O (1/ t)$ ，非凸問題中為 $O(1/\log t)$ 。
理論分析成熟，易于實現。
缺點：
收斂速度較慢，尤其在非凸問題中易陷入局部最優。
對步長敏感，需要精心調整參數以保證穩定性。

2. 重球隨機梯度方法（SHB）

迭代格式：
$x_{k+1} = x_k - \eta_k \nabla f_i(x_k) + \beta (x_k - x_{k-1})$
其中， $\beta \in (0,1)$ 為動量參數，通過歷史更新方向加速收斂。
優點：
動量項可加速收斂，尤其在光滑強凸問題中表現優于固定步長的SGD 。
對梯度噪聲具有一定魯棒性，通過歷史梯度平均降低方差。

缺點：
早期迭代可能表現不佳，收斂速度不一定始終優于SGD 。
參數選擇（如 $\beta$ 和 $\eta_k$ ）需謹慎，否則可能導致震蕩或發散。
在有限和隨機設置中，缺乏嚴格的加速收斂證明。

3. Nesterov隨機梯度方法（SNAG）

迭代格式：
$y_k = x_k + \gamma_k (x_k - x_{k-1}) \\ x_{k+1} = y_k - \eta_k \nabla f_i(y_k)$
其中， $\gamma_k$ 為動量系數，通常在Nesterov方法中設計為時變參數。
優點：
在凸問題中理論收斂速度可達 $O(1/t^2)$ ，顯著快于SGD 。
通過“前瞻梯度”設計，減少震蕩并提高穩定性。
實驗顯示在分類和圖像任務中優于傳統動量方法。

缺點：
隨機環境下（如有限和設置）可能發散，需額外條件保證收斂。
實現復雜度較高，需同時維護多個變量（如 $x_k$ 和 $y_k$ ）。

參數調節更復雜，尤其在非凸問題中收斂性理論尚不完善。

以上段落來自秘塔 AI 綜述的結果（先搜索后擴展選項，文獻均來自中英文論文而非全網）。該完整版請移步至鏈接

https://metaso.cn/s/ThPU2bK

以下我們給出一組實驗來探討 Nesterov 加速方法的參數選擇，收斂效果請大家自行驗證，這里放上一個數值結果圖作為代表
在這里插入圖片描述

其中一點比較尷尬的現象是確定問題中 $\theta_k=\frac{k-1}{k+2}$ 類型的外插參數在隨機問題中的數值實驗中的表現并不好，有一子列不收斂到0，但是仍有大量文獻包括教材，論文仍然推薦使用這類策略。但是換成任何一個介于開區間 $(0, 1)$ 的常數，例如 0.9, 0.99 則有明顯的序列收斂至0的趨勢，從本文給的算例來看是非常簡單的凸二次 $x_0^2+x_1^2+2\xi_0 x_0+2\xi_1x_0$ ，其中 $\xi_i$ 服從 $N (0, I)$ 二維標準正態分布。為了壓縮噪聲影響，采用遞減步長 $\alpha_k=\frac{1}{(k+2)^\gamma}$ 。

規模小：僅2維問題
強凸
可微，且隨機梯度關于自變量 $x$ 是李普希茲連續的
隨機樣本噪聲期望存在，方差有界

很難相信這樣二維簡單的例子參數 $\theta_k=\frac{k-1}{k+2}$ 都不收斂，其在大規模以及大數據問題中會具有較好的收斂效果，歡迎大家參與實驗與討論。

Python 代碼如下：

import numpy as np
import matplotlib.pyplot as plt
import numpy.linalg as la
iters=1000000
root=np.array([1.0,3.0])
vec1=root.copy()
vec2=root.copy()
dim=len(root)
path=np.zeros([iters,dim])
def gobj(x,xi):return(2*(x+xi))
gamma=1#  (k-1)/(k+2)  ===============================
np.random.seed(0)
for k in range(iters):    theta= (k-1)/(k+2)root=(1.0+theta)*vec2-theta*vec1a=1/(k+1)**gammaxi=np.random.randn(2)vec1=vec2.copy()vec2=root - a*gobj(root,xi)path[k,:]=root
V=np.zeros(iters)
for k in range(iters):V[k]=la.norm(path[k,:])
plt.loglog(V,'-.')
plt.grid(True)# 0.99    ===============================
iters=1000000
root=np.array([1.0,3.0])
vec1=root.copy()
vec2=root.copy()
dim=len(root)
path=np.zeros([iters,dim])
np.random.seed(0)
for k in range(iters):    theta= 0.99root=(1.0+theta)*vec2-theta*vec1a=1/(k+1)**gammaxi=np.random.randn(2)vec1=vec2.copy()vec2=root - a*gobj(root,xi)path[k,:]=root
V=np.zeros(iters)
for k in range(iters):V[k]=la.norm(path[k,:])
plt.loglog(V,'--')
plt.grid(True)# 0.9  ===============================
iters=1000000
root=np.array([1.0,3.0])
vec1=root.copy()
vec2=root.copy()
dim=len(root)
path=np.zeros([iters,dim])
np.random.seed(0)
for k in range(iters):    theta= 0root=(1.0+theta)*vec2-theta*vec1a=1/(k+1)**gammaxi=np.random.randn(2)vec1=vec2.copy()vec2=root - a*gobj(root,xi)path[k,:]=root
V=np.zeros(iters)
for k in range(iters):V[k]=la.norm(path[k,:])
plt.loglog(V,'.-')
plt.grid(True)plt.legend(['(k-1)/(k+2)',0.99,0.5,'2/(k+2)'])
plt.show()

Matlab 代碼如下

% (k-1)/(k+2)   ===============================
init=[1,3];
lth=length(init);
fobj=@(x,xi)(x*x'+2*xi*x');
gobj=@(x,xi)(2*x+2*xi);
iters=1000000;
path=ones(iters+1,length(init));
path(1,:)=init;
root=init;
randn('seed',1)
for k =1:itersif k<2xi=randn(1,lth);a=1/(k+2)^(2/3);root=root-a*gobj(root,xi);path(k+1,:)=root;elsexi=randn(1,lth);a=1/(k+2)^(2/3);v=root-a*gobj(root,xi);path(k+1,:)=v;theta=(k-1)/(k+2);th=theta;root=(1+th)*path(k+1,:)-theta*path(k,:);end
end
Vk=ones(iters+1,1);
for k=1:iters+1Vk(k)= path(k,:)*path(k,:)';
end
loglog(Vk,'--')
grid on;
hold on;% theta=0.99    ===============================
init=[1,3];
iters=1000000;
path=ones(iters+1,length(init));
path(1,:)=init;
root=init;
randn('seed',1)
for k =1:itersif k<2xi=randn(1,lth);a=1/(k+2)^(2/3);root=root-a*gobj(root,xi);path(k+1,:)=root;elsexi=randn(1,lth);a=1/(k+2)^(2/3);v=root-a*gobj(root,xi);path(k+1,:)=v;theta=0.99;th=theta;root=(1+th)*path(k+1,:)-theta*path(k,:);end
end
Vk=ones(iters+1,1);
for k=1:iters+1Vk(k)= path(k,:)*path(k,:)';
end
loglog(Vk,'--')
grid on;
hold on;% theta=0.9     ===============================
init=[1,3];
iters=1000000;
path=ones(iters+1,length(init));
path(1,:)=init;
root=init;
randn('seed',1)
for k =1:itersif k<2xi=randn(1,lth);a=1/(k+2)^(2/3);root=root-a*gobj(root,xi);path(k+1,:)=root;elsexi=randn(1,lth);a=1/(k+2)^(2/3);v=root-a*gobj(root,xi);path(k+1,:)=v;theta=0.9;th=theta;root=(1+th)*path(k+1,:)-theta*path(k,:);end
end
Vk=ones(iters+1,1);
for k=1:iters+1Vk(k)= path(k,:)*path(k,:)';
end
loglog(Vk,'--')
grid on;
hold on;% theta=0.9  ===================================================================
init=[1,3];iters=1000000;
path=ones(iters+1,length(init));
path(1,:)=init;
root=init;
randn('seed',1)
for k =1:itersif k<2xi=randn(1,lth)a=1/(k+2)^(2/3);root=root-a*gobj(root,xi);path(k+1,:)=root;elsexi=randn(1,lth);a=1/(k+2)^(2/3);v=root-a*gobj(root,xi);path(k+1,:)=v;theta=0.5;th=theta;root=(1+th)*path(k+1,:)-theta*path(k,:);end
end
Vk=ones(iters+1,1);
for k=1:iters+1Vk(k)= path(k,:)*path(k,:)';
end
loglog(Vk,'--')
grid on;
hold on;
legend('(k-1)/(k+2)','0.99','0.9','0.5')

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/82294.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/82294.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/82294.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！