引言
前序學習進程中,已經對最佳超平面的求解有了一定認識。
剛好在此梳理一下:
函數距離
首先有函數距離F,也可以稱為函數間隔F:
F=min?i=1...myi(w?xi+b)F= \min_{i=1...m}y_{i}(w \cdot x_{i}+b)F=i=1...mmin?yi?(w?xi?+b)
幾何距離
然后有幾何距離δ,也可以稱為幾何間隔δ:
δ=min?i=1...myi(w∥w∥?xi+b∥w∥)\delta=\min_{i=1...m}y_{i}(\frac{w}{\left\|w\right\|} \cdot x_{i}+\frac{b}{\left\|w\right\|}) δ=i=1...mmin?yi?(∥w∥w??xi?+∥w∥b?)
很顯然,幾何距離δ和函數距離F之間只相差一個量||w||:
δ=F∥w∥\delta=\frac{F}{\left\|w\right\|}δ=∥w∥F?然后我們再次回憶最佳超平面的尋找過程:
第一步,一個特定超平面的周圍會有很多點,通過計算后會獲得不同的幾何距離,取出這些距離中的最小值;
第二步,遍歷所有可能的超平面,重復步驟一;
第三步:在前兩步的基礎上,在取出的所有幾何距離中,選取最大值對應的超平面為最優超平面。
這是一個稍微有點繞的過程,首先是每個備選超平面都選取最小幾何距離,然后是在所有最小幾何距離中挑出最大值,取這個最大的幾何距離對應的超平面為最佳超平面。可以總結為:在最小值集合中挑選最大值。
為了尋找這個最大值,我們聯想到同比率變換權重矩陣w和偏置量b不會改變幾何距離,因此有一種巧妙的解法:
通過同比率調整權重矩陣w和偏置量b,使得函數距離F=1,這個時候最佳超平面對應的最大幾何距離δmax滿足:
δmax=max?i=1...m1∥w∥\delta_{max}=\max_{i=1...m}\frac{1}{\left\|w\right\|}δmax?=i=1...mmax?∥w∥1?
為求解這個最佳超平面對應的最大幾何距離,一種更好理解的思路被提出來,把尋找過程中的除法轉化為了乘法,定義距離函數f:
f=mini=1...m12∥w∥2f=min_{i=1...m}\frac{1}{2}{\left\|w\right\|}^2f=mini=1...m?21?∥w∥2這篇文章的學習任務,就是梳理距離函數f的最佳解法:拉格朗日乘數法。
拉格朗日乘數法
拉格朗日乘數法的構造需要兩個前提條件,一個是目標函數,比如此處的距離函數f,另一個是約束函數,可以定義為g。
關于f和g,展開如下討論:
f和g在任意位置的梯度都指向它們增長最快的方向,和它們本身的圖像垂直;
對于目標函數f,它取特定值的時候,結果可能繪制出一條閉合的等高線,也可能是孤立的點。對于孤立的點,法向量是(0,0);對于等高線,可以記錄任意一點的梯度為▽f\bigtriangledown f▽f;
目標函數f和約束函數g可能有很多交點,但當目標函數取極值的時候,一定會滿足條件:▽f=λ▽g\bigtriangledown f=\lambda \bigtriangledown g▽f=λ▽g
為解釋這個梯度平行的條件,我們這樣想:
將f的梯度▽f\bigtriangledown f▽f分解到互相垂直的▽g\bigtriangledown g▽g和g的切線方向vvv上,此時沿著vvv的方向只要還有f的梯度,就表明f的取值還可以繼續改變;
當▽f\bigtriangledown f▽f在vvv上沒有任何分量時,f只能在垂直g的方向上增長,也就是沿著約束函數g再也無法改變f。
當然,f的取值也無法脫離g的約束,所以▽f\bigtriangledown f▽f在vvv上沒有任何分量時,f就取到了極值,此時f的法向量垂直于g,g的法向量自然也垂直于g,這兩個法向量平行,所以一定有:
▽f=λ▽g\bigtriangledown f=\lambda\bigtriangledown g▽f=λ▽g
當f為孤立點時,λ=0,上式依然滿足。
為輔助理解,求助了deepseek,它提供了一張圖,放在這里和大家共享,也可復制鏈接直達原圖:https://upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Lagrange_multiplier.png/300px-Lagrange_multiplier.png
總結
學習了一下拉格朗日乘數法的基本概念。