梯度下降算法收斂所需要的迭代次數根據模型的不同而不同,我們不能提前預知,我們
可以繪制迭代次數和代價函數的圖表來觀測算法在何時趨于收斂。
?
也有一些自動測試是否收斂的方法,例如將代價函數的變化值與某個閥值(例如0.001)
進行比較,但通常看上面這樣的圖表更好。
梯度下降算法的每次迭代受到學習率的影響,如果學習率?過小,則達到收斂所需的迭
代次數會非常高;如果學習率?過大,每次迭代可能不會減小代價函數,可能會越過局部最
小值導致無法收斂。
通常可以考慮嘗試些學習率:
? = 0.01,0.03,0.1,0.3,1,3,10