數據挖掘——支持向量機分類器
- 支持向量機
- 最小間隔面推導
- 基于軟間隔的C-SVM
- 非線性SVM與核變換
- 常用核函數
支持向量機
根據統計學習理論,學習機器的實際風險由經驗風險值和置信范圍值兩部分組成。而基于經驗風險最小化準則的學習方法只強調了訓練樣本的經驗風險最小誤差,沒有最小化置信范圍值,因此其泛化能力較差。
Vapnik于1995年提出的支持向量機(Support Vector Machine, SVM)以訓練誤差作為優化問題的約束條件,以置信范圍值最小化作為優化目標,即SVM是一種基于結構風險最小化準則的學習方法,其泛化能力明顯優于一些傳統的學習方法。
由于SVM 的求解最后轉化成二次規劃問題的求解,因此SVM的解是全局唯一的最優解
SVM在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。
最小間隔面推導
注意分類的間隔為 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} ∣∣w∣∣2?,不是 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} ∣∣w∣∣1?
SVM目標函數求解:對偶問題求解
支持向量機解的稀疏性:訓練完成后,大部分的訓練樣本都不需保留,最終模型僅與支持向量有關。
稀疏性理論解釋:
基于軟間隔的C-SVM
非線性SVM與核變換
觀察以上兩個式子可見:無論判別函數還是對偶形式中的目標函數都只涉及到高維空間中兩個矢量之間的內積,而并不需要知道它們的具體坐標。