機器學習筆記之優化算法——關于二次上界引理
- 引言
- 回顧:
- 利普希茲連續
- 梯度下降法介紹
- 二次上界引理:介紹與作用
- 二次上界與最優步長之間的關系
- 二次上界引理證明過程
引言
本節將介紹二次上界的具體作用以及它的證明過程。
回顧:
利普希茲連續
在 Wolfe \text{Wolfe} Wolfe準則收斂性證明一節中簡單介紹了利普希茲連續 ( Lipschitz?Continuity ) (\text{Lipschitz Continuity}) (Lipschitz?Continuity)。其定義對應數學符號表達如下:
? x , x ^ ∈ R n , ? L : s . t . ∣ ∣ f ( x ) ? f ( x ^ ) ∣ ∣ ≤ L ? ∣ ∣ x ? x ^ ∣ ∣ \forall x,\hat x \in \mathbb R^n , \exist \mathcal L: \quad s.t. ||f(x) - f(\hat x)|| \leq \mathcal L \cdot ||x - \hat x|| ?x,x^∈Rn,?L:s.t.∣∣f(x)?f(x^)∣∣≤L?∣∣x?x^∣∣
如果函數 f ( ? ) f(\cdot) f(?)滿足利普希茲連續,對上式進行簡單變換可得到:
不等式左側可使用
拉格朗日中值定理進行進一步替換。
? ξ ∈ ( x , x ^ ) ? ∣ ∣ f ( x ) ? f ( x ^ ) ∣ ∣ ∣ ∣ x ? x ^ ∣ ∣ = f ′ ( ξ ) ≤ L \exist \xi \in (x,\hat x) \Rightarrow \frac{||f(x) - f(\hat x)||}{||x - \hat x||} = f'(\xi)\leq \mathcal L ?ξ∈(x,x^)?∣∣x?x^∣∣∣∣f(x)?f(x^)∣∣?=f′(ξ)≤L
這意味著:在函數 f ( ? ) f(\cdot) f(?)在定義域內的絕大部分點處的變化率存在上界,受到 L \mathcal L L的限制。
梯度下降法介紹
在梯度下降法鋪墊:總體介紹一節中對梯度下降法進行了簡單認識。首先,梯度下降法是一個典型的線搜索方法 ( Line?Search?Method ) (\text{Line Search Method}) (Line?Search?Method)。其迭代過程對應數學符號表示如下:
x k + 1 = x k + α k ? P k x_{k+1} = x_k + \alpha_k \cdot \mathcal P_k xk+1?=xk?+αk??Pk?
- 其中 P k ∈ R n \mathcal P_k \in \mathbb R^n Pk?∈Rn,描述數值解的更新方向,在梯度下降法中,它選擇目標函數 f ( ? ) f(\cdot) f(?)在 x k x_k xk?處梯度的反方向 ? ? f ( x k ) - \nabla f(x_k) ??f(xk?)作為更新方向,也稱最速下降方向:
P k = ? ? f ( x k ) \mathcal P_k = -\nabla f(x_k) Pk?=??f(xk?) - 而 α k \alpha_k αk?表示步長。基于步長的選擇方式分為精確搜索與非精確搜索兩類。關于非精確搜索——通過迭代獲取數值解序列并以此近似最優步長的方法詳見:
本節將介紹梯度下降法中使用精確搜索求解最優步長,以及精確搜索的限制條件——二次上界引理。
二次上界引理:介紹與作用
在求解梯度下降法的精確步長過程中,關于目標函數 f ( ? ) f(\cdot) f(?),在其定義域內可微的基礎上增加一個條件:目標函數的梯度函數 ? f ( ? ) \nabla f(\cdot) ?f(?)滿足利普希茲連續。
如果是梯度函數
? f ( ? ) \nabla f(\cdot) ?f(?)滿足利普希茲連續,根據上面的格式,可以得到:
? 2 f ( ? ) ≤ L \nabla^2 f(\cdot) \leq \mathcal L ?2f(?)≤L
而二階梯度描述的是梯度
? f ( ? ) \nabla f(\cdot) ?f(?)的變化量。這意味著:
關于 ? f ( ? ) \nabla f(\cdot) ?f(?)的變化情況不會過于劇烈。相反,如果
? f ( ? ) \nabla f(\cdot) ?f(?)的變化情況
過于劇烈:即便迭代過程中極小的一次更新,對應函數結果的變化也極大,例如:
f ( x ) = 1 x \begin{aligned}f(x) = \frac{1}{x}\end{aligned} f(x)=x1??在
x ∈ ( 0 , 1 ] x \in (0,1] x∈(0,1]區間內
? f ( ? ) \nabla f(\cdot) ?f(?)的變化情況。從而在迭代過程中,可能出現
梯度爆炸的現象。
基于上述條件,可以得到結論:函數 f ( ? ) f(\cdot) f(?)存在二次上界。其數學符號表示為:
? x , y ∈ R n ? f ( y ) ≤ f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) + L 2 ∣ ∣ y ? x ∣ ∣ 2 \forall x,y \in \mathbb R^n \Rightarrow f(y) \leq f(x) + [\nabla f(x)]^T \cdot (y-x) + \frac{\mathcal L}{2}||y - x||^2 ?x,y∈Rn?f(y)≤f(x)+[?f(x)]T?(y?x)+2L?∣∣y?x∣∣2
我們之前僅知道函數梯度 ? f ( ? ) \nabla f(\cdot) ?f(?)的變化率存在上界對其進行約束,但可通過該結論求出該上界的精確結果。
首先通過圖像觀察該結論各部分的具體意義:
很明顯,這僅是一個一維變量對應的函數結果 ( R ? R ) (\mathbb R \mapsto\mathbb R) (R?R),其中藍色虛線箭頭表示 f ( y ) f(y) f(y);黑色虛線箭頭表示 f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) f(x) + [\nabla f(x)]^T \cdot (y - x) f(x)+[?f(x)]T?(y?x)。在上述結論中,兩者之間的差距(綠色實線)不會無限大下去,而是存在一個上界約束這個差距:
f ( y ) ? [ f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) ] ≤ L 2 ∣ ∣ y ? x ∣ ∣ 2 f(y) - [f(x) + [\nabla f(x)]^T \cdot (y-x)] \leq \frac{\mathcal L}{2}||y -x||^2 f(y)?[f(x)+[?f(x)]T?(y?x)]≤2L?∣∣y?x∣∣2
假如這個差距結果遠遠大于 L 2 ∣ ∣ y ? x ∣ ∣ 2 \begin{aligned}\frac{\mathcal L}{2}||y -x||^2\end{aligned} 2L?∣∣y?x∣∣2?。例如:
從圖像中可以明顯看到,如果 f ( y ) f(y) f(y)與 f ( x ) + [ ? f ( x ) ] T ( y ? x ) f(x) + [\nabla f(x)]^T (y - x) f(x)+[?f(x)]T(y?x)之間的差距過大的話,那么必然是 f ( y ) f(y) f(y)處的斜率與 f ( x ) f(x) f(x)處的斜率差距過大產生的結果。因此這個差距上界 L 2 ∣ ∣ y ? x ∣ ∣ 2 \begin{aligned}\frac{\mathcal L}{2}||y - x||^2\end{aligned} 2L?∣∣y?x∣∣2?本質上依然是約束 ? f ( ? ) \nabla f(\cdot) ?f(?)變化率的大小。
這種情況出現梯度爆炸的可能性更高。
二次上界與最優步長之間的關系
假定二次上界引理是已知的,我們觀察:二次上界引理對精確步長的求解起到什么作用。
? x , y ∈ R n ? f ( y ) ≤ f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) + L 2 ∣ ∣ y ? x ∣ ∣ 2 \forall x,y \in \mathbb R^n \Rightarrow f(y) \leq f(x) + [\nabla f(x)]^T \cdot (y-x) + \frac{\mathcal L}{2}||y - x||^2 ?x,y∈Rn?f(y)≤f(x)+[?f(x)]T?(y?x)+2L?∣∣y?x∣∣2
既然二次上界引理對于 ? x , y ∈ R n \forall x,y \in \mathbb R^n ?x,y∈Rn均成立,我們可以將 x , y x,y x,y視作:某次迭代步驟 k k k的 x k , x k + 1 x_k,x_{k+1} xk?,xk+1?:
后續依然使用
x , y x,y x,y進行表示。
{ x ? x k y ? x k + 1 y = x + α k ? P k \begin{cases} x \Rightarrow x_k \\ y \Rightarrow x_{k+1} \\ y = x + \alpha_k \cdot \mathcal P_k \end{cases} ? ? ??x?xk?y?xk+1?y=x+αk??Pk??
由于 x ? x k x \Rightarrow x_k x?xk?是上一次迭代步驟產生的位置,是已知項。這意味著:上述不等式右側相當于關于變量 y ? x k + 1 y \Rightarrow x_{k+1} y?xk+1?的一個二次函數。記作 ? ( y ) \phi(y) ?(y):
{ ? ( y ) ? f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) + L 2 ∣ ∣ y ? x ∣ ∣ 2 f ( y ) ≤ ? ( y ) \begin{cases} \phi(y) \triangleq f(x) + [\nabla f(x)]^T \cdot (y - x) + \frac{\mathcal L}{2}||y - x||^2 \\ \quad \\ f(y) \leq \phi(y) \end{cases} ? ? ???(y)?f(x)+[?f(x)]T?(y?x)+2L?∣∣y?x∣∣2f(y)≤?(y)?
由于關于 y y y的二次項 L 2 > 0 \begin{aligned}\frac{\mathcal L}{2} > 0\end{aligned} 2L?>0?,說明函數 ? ( y ) \phi(y) ?(y)存在最小值。對該值進行求解:
函數圖像開口向上~
y m i n = arg ? min ? y ∈ R n ? ( y ) y_{min} = \mathop{\arg\min}\limits_{y \in \mathbb R^n} \phi(y) ymin?=y∈Rnargmin??(y)
- 首先對 ? ( y ) \phi(y) ?(y)關于 y y y求解梯度:
與
x x x相關的項均視作常數。
? ? ( y ) = 0 + ? f ( x ) ? 1 + L 2 ? 2 ? ( y ? x ) = ? f ( x ) + L ? ( y ? x ) \begin{aligned} \nabla \phi(y) & = 0 + \nabla f(x) \cdot 1 + \frac{\mathcal L}{2} \cdot 2 \cdot (y-x) \\ & = \nabla f(x) + \mathcal L \cdot (y-x) \end{aligned} ??(y)?=0+?f(x)?1+2L??2?(y?x)=?f(x)+L?(y?x)? - 令 ? ? ( y ) ? 0 \nabla \phi(y) \triangleq 0 ??(y)?0,有:
y m i n = ? ? f ( x ) L + x y_{min} = -\frac{\nabla f(x)}{\mathcal L} + x ymin?=?L?f(x)?+x
對應 ? ( y ) \phi(y) ?(y)的最小值 min ? ? ( y ) \min \phi(y) min?(y)有:
min ? ? ( y ) = ? ( y m i n ) = f ( x ) + [ ? f ( x ) ] T ? ( ? ? f ( x ) L ) + L 2 ? [ ? ? f ( x ) ] T [ ? ? f ( x ) ] L 2 = f ( x ) ? ∣ ∣ ? f ( x ) ∣ ∣ 2 2 L \begin{aligned} \min \phi(y) & = \phi(y_{min}) \\ & = f(x) + [\nabla f(x)]^T \cdot \left(-\frac{\nabla f(x)}{\mathcal L}\right) + \frac{\mathcal L}{2} \cdot \frac{[- \nabla f(x)]^T [- \nabla f(x)]}{\mathcal L^2}\\ & = f(x) - \frac{||\nabla f(x)||^2}{2\mathcal L} \end{aligned} min?(y)?=?(ymin?)=f(x)+[?f(x)]T?(?L?f(x)?)+2L??L2[??f(x)]T[??f(x)]?=f(x)?2L∣∣?f(x)∣∣2??
將 y = x + α k ? P k y = x + \alpha_k \cdot \mathcal P_k y=x+αk??Pk?代入,觀察:
- P k \mathcal P_k Pk?
是
描述更新方向的向量,對應的是
負梯度方向 ? ? f ( x ) -\nabla f(x) ??f(x); 同理,
α k \alpha_k αk?對應
1 L \begin{aligned}\frac{1}{\mathcal L}\end{aligned} L1??。
{ y = x + α k ? P k y m i n = x + 1 L ? [ ? ? f ( x ) ] ? { α k = 1 L P k = ? ? f ( x ) \begin{cases} \begin{aligned} y & = x + \alpha_k \cdot \mathcal P_k \\ y_{min} & = x + \frac{1}{\mathcal L} \cdot [-\nabla f(x)] \end{aligned} \end{cases} \Rightarrow \begin{cases} \begin{aligned}\alpha_k & = \frac{1}{\mathcal L} \\ \mathcal P_k & = - \nabla f(x) \end{aligned} \end{cases} ? ? ??yymin??=x+αk??Pk?=x+L1??[??f(x)]???? ? ??αk?Pk??=L1?=??f(x)??
但需要注意的是: f ( y ) ≤ ? ( y ) f(y) \leq \phi(y) f(y)≤?(y),而 y m i n y_{min} ymin?僅僅是 ? ( y ) \phi(y) ?(y)中的最小值。也就是說: y m i n y_{min} ymin?是 f ( y ) f(y) f(y)取值上界中的最小值。在這種條件下,我們認為 α k = 1 L \begin{aligned}\alpha_k = \frac{1}{\mathcal L}\end{aligned} αk?=L1??就是可控制的最優步長。
二次上界引理證明過程
條件:函數 f ( ? ) f(\cdot) f(?)可微,并且 ? f ( ? ) \nabla f(\cdot) ?f(?)滿足利普希茲連續;
結論: f ( ? ) f(\cdot) f(?)存在二次上界:
? x , y ∈ R n ? f ( y ) ≤ f ( x ) + [ ? f ( x ) ] T ? ( y ? x ) + L 2 ∣ ∣ y ? x ∣ ∣ 2 \forall x,y \in \mathbb R^n \Rightarrow f(y) \leq f(x) + [\nabla f(x)]^T \cdot (y - x) + \frac{\mathcal L}{2}||y - x||^2 ?x,y∈Rn?f(y)≤f(x)+[?f(x)]T?(y?x)+2L?∣∣y?x∣∣2
證明:
由于上述的 x , y ∈ R n x,y \in \mathbb R^n x,y∈Rn是定義域內任意取值,因而無法直接從條件中獲取到 f ( x ) , f ( y ) f(x),f(y) f(x),f(y)之間的大小關系。這里不妨設: y > x y > x y>x,并引入輔助函數 G ( θ ) \mathcal G(\theta) G(θ):
在
x , y ∈ R n ( y > x ) x,y \in \mathbb R^n \text{ } (y > x) x,y∈Rn?(y>x)確定的情況下,構建一個關于
θ \theta θ的函數,從而通過調節
θ \theta θ來獲取
[ f ( x ) , f ( y ) ] [f(x),f(y)] [f(x),f(y)]之間的函數結果。
G ( θ ) = f [ θ ? y + ( 1 ? θ ) ? x ] = f [ x + θ ( y ? x ) ] θ ∈ [ 0 , 1 ] \begin{aligned} \mathcal G(\theta) & = f [\theta \cdot y + (1 - \theta) \cdot x] \\ & = f [x + \theta(y - x)] \quad \theta \in [0,1] \end{aligned} G(θ)?=f[θ?y+(1?θ)?x]=f[x+θ(y?x)]θ∈[0,1]?
從而有: G ( 0 ) = f ( x ) ; G ( 1 ) = f ( y ) \mathcal G(0) = f(x);\mathcal G(1) = f(y) G(0)=f(x);G(1)=f(y)。將其與結論中的對應項進行替換:
僅需證明‘替換’后的式子成立即可。
G ( 1 ) ≤ G ( 0 ) + [ ? f ( x ) ] T ? ( y ? x ) + L 2 ∣ ∣ y ? x ∣ ∣ 2 ? G ( 1 ) ? G ( 0 ) ? [ ? f ( x ) ] T ? ( y ? x ) ≤ L 2 ∣ ∣ y ? x ∣ ∣ 2 \begin{aligned} & \quad \quad \mathcal G(1) \leq \mathcal G(0) + [\nabla f(x)]^T \cdot (y - x) + \frac{\mathcal L}{2} ||y - x||^2 \\ & \Rightarrow \mathcal G(1) - \mathcal G(0) - [\nabla f(x)]^T \cdot (y - x) \leq \frac{\mathcal L}{2} ||y - x||^2 \end{aligned} ?G(1)≤G(0)+[?f(x)]T?(y?x)+2L?∣∣y?x∣∣2?G(1)?G(0)?[?f(x)]T?(y?x)≤2L?∣∣y?x∣∣2?
觀察不等式左側:
使用
牛頓-萊布尼茲公式,可以將
G ( 1 ) ? G ( 0 ) \mathcal G(1) - \mathcal G(0) G(1)?G(0)表示成如下形式:
G ( 1 ) ? G ( 0 ) = G ( θ ) ∣ 0 1 = ∫ 0 1 G ′ ( θ ) d θ \mathcal G(1) - \mathcal G(0) = \mathcal G(\theta) |_{0}^1 = \int_{0}^1 \mathcal G'(\theta) d\theta G(1)?G(0)=G(θ)∣01?=∫01?G′(θ)dθ
關于項
[ ? f ( x ) ] T ? ( y ? x ) [\nabla f(x)]^T \cdot (y - x) [?f(x)]T?(y?x),同樣可以使用定積分的形式進行表示。其中
[ ? f ( x ) ] T ? ( y ? x ) [\nabla f(x)]^T \cdot (y - x) [?f(x)]T?(y?x)中不含
θ \theta θ,被視作常數。
[ ? f ( x ) ] T ? ( y ? x ) = [ ? f ( x ) ] T ? ( y ? x ) ? 1 = [ ? f ( x ) ] T ? ( y ? x ) ? θ ∣ 0 1 = [ ? f ( x ) ] T ? ( y ? x ) ? ∫ 0 1 1 d θ = ∫ 0 1 [ ? f ( x ) ] T ? ( y ? x ) d θ \begin{aligned} [\nabla f(x)]^T \cdot(y - x) & = [\nabla f(x)]^T \cdot (y - x) \cdot 1 \\ & = [\nabla f(x)]^T \cdot (y - x) \cdot \theta |_0^1 \\ & = [\nabla f(x)]^T \cdot (y - x) \cdot \int_0^1 1 d\theta \\ & = \int_{0}^1 [\nabla f(x)]^T \cdot (y - x) d\theta \end{aligned} [?f(x)]T?(y?x)?=[?f(x)]T?(y?x)?1=[?f(x)]T?(y?x)?θ∣01?=[?f(x)]T?(y?x)?∫01?1dθ=∫01?[?f(x)]T?(y?x)dθ?
至此,不等式左側可表示為:
I l e f t = ∫ 0 1 G ′ ( θ ) d θ ? ∫ 0 1 [ ? f ( x ) ] T ? ( y ? x ) d θ = ∫ 0 1 { [ ? f ( x + θ ? ( y ? x ) ) ] T ? ( y ? x ) ? [ ? f ( x ) ] T ? ( y ? x ) } d θ \begin{aligned} \mathcal I_{left} & = \int_{0}^1 \mathcal G'(\theta) d\theta - \int_{0}^1 [\nabla f(x)]^T \cdot (y - x) d\theta \\ & = \int_0^1 \left \{[\nabla f(x + \theta \cdot (y - x))]^T\cdot (y - x) - [\nabla f(x)]^T \cdot (y - x) \right\} d\theta \end{aligned} Ileft??=∫01?G′(θ)dθ?∫01?[?f(x)]T?(y?x)dθ=∫01?{[?f(x+θ?(y?x))]T?(y?x)?[?f(x)]T?(y?x)}dθ?
提出公共部分: y ? x y - x y?x,將剩余部分進行合并:
I l e f t = ∫ 0 1 { ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) } T ? ( y ? x ) d θ \mathcal I_{left} = \int_{0}^1 \left\{\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)\right\}^T \cdot (y - x) d\theta Ileft?=∫01?{?f[x+θ?(y?x)]??f(x)}T?(y?x)dθ
觀察積分號內的項,其本質上是向量 ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) \nabla f[x + \theta \cdot (y - x)] - \nabla f(x) ?f[x+θ?(y?x)]??f(x)與向量 y ? x y - x y?x的內積結果。因而有:
不等式滿足的原因:
cos ? θ ∈ [ ? 1 , 1 ] \cos \theta \in [-1,1] cosθ∈[?1,1]
{ ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) } T ? ( y ? x ) = ∣ ∣ ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) ∣ ∣ ? ∣ ∣ y ? x ∣ ∣ ? cos ? θ ≤ ∣ ∣ ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) ∣ ∣ ? ∣ ∣ y ? x ∣ ∣ \begin{aligned} \left\{\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)\right\}^T \cdot (y - x) & = ||\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)|| \cdot ||y - x|| \cdot \cos \theta \\ & \leq ||\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)|| \cdot ||y - x|| \end{aligned} {?f[x+θ?(y?x)]??f(x)}T?(y?x)?=∣∣?f[x+θ?(y?x)]??f(x)∣∣?∣∣y?x∣∣?cosθ≤∣∣?f[x+θ?(y?x)]??f(x)∣∣?∣∣y?x∣∣?
將該不等式帶回 I l e f t \mathcal I_{left} Ileft?,有:
I l e f t ≤ ∫ 0 1 ∣ ∣ ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) ∣ ∣ ? ∣ ∣ y ? x ∣ ∣ d θ \mathcal I_{left} \leq \int_0^1 ||\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)|| \cdot ||y - x|| d\theta Ileft?≤∫01?∣∣?f[x+θ?(y?x)]??f(x)∣∣?∣∣y?x∣∣dθ
由于 f ( ? ) f(\cdot) f(?)滿足利普希茲連續,因而有:
其中
θ ∈ [ 0 , 1 ] \theta \in [0,1] θ∈[0,1],因而可以將其從范數符號中提出來。
∣ ∣ ? f [ x + θ ? ( y ? x ) ] ? ? f ( x ) ∣ ∣ ≤ L ? ∣ ∣ x + θ ? ( y ? x ) ? x ∣ ∣ = L ? θ ? ∣ ∣ y ? x ∣ ∣ ||\nabla f[x + \theta \cdot (y - x)] - \nabla f(x)|| \leq \mathcal L \cdot ||x + \theta \cdot (y -x) - x|| = \mathcal L \cdot \theta \cdot ||y - x|| ∣∣?f[x+θ?(y?x)]??f(x)∣∣≤L?∣∣x+θ?(y?x)?x∣∣=L?θ?∣∣y?x∣∣
整理有:
I l e f t ≤ ∫ 0 1 L ? θ ? ∣ ∣ y ? x ∣ ∣ 2 d θ \mathcal I_{left} \leq \int_0^1 \mathcal L \cdot \theta \cdot ||y - x||^2 d\theta Ileft?≤∫01?L?θ?∣∣y?x∣∣2dθ
又因為 L , ∣ ∣ y ? x ∣ ∣ 2 \mathcal L,||y - x||^2 L,∣∣y?x∣∣2與 θ \theta θ無關,因而從積分號中提出:
I l e f t ≤ L ? ∣ ∣ y ? x ∣ ∣ 2 ? ∫ 0 1 θ d θ = L ? ∣ ∣ y ? x ∣ ∣ 2 ? 1 2 θ 2 ∣ 0 1 = L 2 ? ∣ ∣ y ? x ∣ ∣ 2 = I r i g h t \begin{aligned} \mathcal I_{left} & \leq \mathcal L \cdot ||y - x||^2 \cdot \int_0^1 \theta d\theta \\ & = \mathcal L \cdot ||y - x||^2 \cdot \frac{1}{2} \theta^2|_0^1 \\ & = \frac{\mathcal L}{2} \cdot ||y - x||^2 \\ & = \mathcal I_{right} \end{aligned} Ileft??≤L?∣∣y?x∣∣2?∫01?θdθ=L?∣∣y?x∣∣2?21?θ2∣01?=2L??∣∣y?x∣∣2=Iright??
證畢。
相關參考:
【優化算法】梯度下降法-二次上界