引言
前序學習過程中,已經對幾何距離的概念有了認知,學習鏈接為:幾何距離
這里先來回憶幾何距離δ的定義:
δ=min?i=1...myi(w∥w∥?xi+b∥w∥)\delta =\min_{i=1...m}y_{i}(\frac{w}{\left \| w \right \|}\cdot x_{i}+\frac{b}{\left \| w \right \|})δ=i=1...mmin?yi?(∥w∥w??xi?+∥w∥b?)
對上述公式的理解實際上有三步:
第一步,超平面相對周圍有很多點,通過上式計算后會獲得不同的幾何距離,取出這些距離中的最小值;
第二步,遍歷所有可能的超平面,重復步驟一;
第三步:在前兩步的基礎上,取幾何距離最大值對應的超平面為最優超平面。
幾何距離的理解
實際上在更早的時候,我們定義了函數距離F:
F=min?i=1...myi(w?xi+b)F=\min_{i=1...m}y_{i}(w\cdot x_{i}+b)F=i=1...mmin?yi?(w?xi?+b)顯然,函數距離F和幾何距離δ中間只是相差了||w||:
δ=F∥w∥\delta=\frac{F}{\left\| w\right\|}δ=∥w∥F?在函數距離定義δ的過程中,我們已經知曉,對權重矩陣w和偏置量b的同比率調整不會影響δ的計算值。
據此有一種非常簡單粗暴的新思路:通過同比率調整w和b,使得F=1,此時最佳超平面對應的最佳也是最大幾何距離δmax滿足:
δmax=max?i=1...m1∥w∥\delta_{max}=\max_{i=1...m}\frac{1}{\left\|w\right\|}δmax?=i=1...mmax?∥w∥1?
所以最佳超平面的選擇可以轉化為對最小||w||的追尋過程。
此時另有一種解題思路,設定距離函數f,滿足:
f=min?12∥w∥2f=\min\frac{1}{2}{\left\|w\right\|}^{2}f=min21?∥w∥2