【1】引言
前序學習進程中,已經對SVM的KKT條件,Slater條件等進行了探究,但這些都是完美情況,數據線性可分。
實際生活中需要處理的數據往往因為各式各樣的原因會不可分,所以必須學會容忍一些小錯誤,完美的很難永恒存在。
為描述這種小錯誤的存在,軟邊界被定義出來。
【2】軟邊界定義
在早期的拉格朗日函數構造中,我們很熟悉函數距離F的定義公式:F=min?i=1,...,myi(w?xi+b)F=\min_{i=1,...,m}y_{i}(w \cdot x_{i}+b)F=i=1,...,mmin?yi?(w?xi?+b)
這個時候先把最小的函數間隔調整為1,就會有F≥1F\geq 1F≥1
此時最好換一種寫法,把F改為g:g=yi(w?xi+b)≥1g=y_{i}(w\cdot x_{i}+b)\geq 1g=yi?(w?xi?+b)≥1
但因為有一些淘氣的點存在,所以給上述公式配一個變量項ξi\xi_{i}ξi?,這個時候再把g改為h,有:
h=yi(w?xi+b)≥1?ξih=y_{i}(w\cdot x_{i}+b)\geq 1-\xi_{i}h=yi?(w?xi?+b)≥1?ξi?
之前我們已經推算過,幾何距離和最優化幾何距離是不斷變化數學表達式的效果。
幾何距離:δ=F∣∣w∣∣\delta=\frac{F}{||w||}δ=∣∣w∣∣F?
最佳幾何距離:通過同比率調整w和b,使得F=1,從而有δmax=1∣∣w∣∣\delta_{max}=\frac{1}{||w||}δmax?=∣∣w∣∣1?,
在此基礎上進而轉化為距離函數fff:f=min?12∣∣w∣∣2f=\min \frac{1}{2}||w||^2f=min21?∣∣w∣∣2
現在匹配帶有變量項ξ\xiξ的情況,改寫上述定義:
幾何距離:δξ=h∣∣w∣∣\delta_{\xi}=\frac{h}{||w||}δξ?=∣∣w∣∣h?
最佳幾何距離:通過同比率調整w和b,使得F=1,變量項這個時候就出現了,從而有δmax,ξi=1?ξi∣∣w∣∣\delta_{max,\xi_{i}}=\frac{1-\xi_{i}}{||w||}δmax,ξi??=∣∣w∣∣1?ξi??。
此時的距離函數fff包括兩部分,第一部分是單純和∣∣w∣∣||w||∣∣w∣∣相關,另一部分的影響則來自在∣∣w∣∣||w||∣∣w∣∣確認時,ξi\xi_{i}ξi?的存在。為了避免麻煩,定義最優化幾何距離為:
f=min?12∣∣w∣∣2+C∑i=1nξif=\min \frac{1}{2}||w||^2+C\sum_{i=1}^{n}\xi_{i}f=min21?∣∣w∣∣2+Ci=1∑n?ξi?
這就是SVM的軟邊界公式。
此處的新增項C∑i=1nξiC\sum_{i=1}^{n}\xi_{i}C∑i=1n?ξi?是錯誤懲罰項。
定義一個常數C有很多好處:
首先實際上每個ξ\xiξ的大小都不一樣,如果定義CiξiC_{i}\xi_{i}Ci?ξi?會讓公式變得異常復雜,所以C放在求和符號之前,可以簡化公式;
然后C放在求和符號之前,實際上對變量項進行線性化處理,待求解問題的結構變得簡單,在之后構造拉格朗日函數也會變得相對容易。
從更大的層面,我們也更希望從整體的角度控制模型對錯誤的容忍度,所以定義一個常數C可以實現快速調整,非常符合調參數的期待。
【3】總結
初步學習了支持向量機的軟邊界公式。