機器學習（5）——支持向量機

1. 支持向量機（SVM）是什么？

支持向量機（SVM，Support Vector Machine）是一種監督學習算法，廣泛應用于分類和回歸問題，尤其適用于高維數據的分類。其核心思想是尋找最優分類超平面，使得不同類別的樣本間隔（Margin）最大化，從而提高模型的泛化能力。

2. SVM的基本原理

2.1. 核心思想

目標： 在特征空間中找到一個超平面（決策邊界），使得兩類樣本的間隔最大化。
關鍵概念：
- 支持向量（Support Vectors）： 距離超平面最近的樣本點，決定超平面的位置。這些點在定義分類邊界時起著至關重要的作用，因此稱為“支持向量”
- 間隔（Margin）： 支持向量到超平面的距離，越大表示分類器魯棒性越強。SVM通過最大化這個間隔來選擇最佳超平面。

3. 線性可分和非線性可分

線性可分： 如果數據可以通過一個直線（二維空間）或超平面（高維空間）分開，則稱數據是線性可分的。在這種情況下，SVM能夠找到一個線性決策邊界。
非線性可分： 當數據不是線性可分時，我們可以通過核函數將數據映射到更高維的空間，使得在這個高維空間中數據變得線性可分。這個過程稱為核技巧。

4. SVM的數學基礎

4.1. 線性可分情況（硬間隔 SVM）

4.1.1. 間隔最大化

在二維空間中，我們用一個線性決策邊界（直線）來將數據分開。假設數據點可以被線性分開，則可以表示為：
$w ? x + b = 0$
其中：
- $w$ 是法向量，決定超平面的方向。
- $b$ 是偏置項，控制超平面與原點的距離。
- $x$ 是數據點。
目標是找到一個決策邊界，使得不同類別的數據點到該邊界的距離盡量遠。最大化間隔可以轉化為如下的優化問題：

$\frac{2}{\|w\|}$

其中， $\|w\|$ 是法向量的范數，優化的目標是使這個范數最小化，從而間隔最大化。

4.1.2. SVM 的優化目標

假設數據線性可分，SVM 的優化目標是：
$\ 等價于 \ 最小化 \frac {1}{2}\|w\|^2$
約束條件： $y_i(w^T x_i + b) \geq 1, \quad \forall i$
其中
- $w$ ：是法向量。
- $b$ ：是偏置項。
- $y_i∈{?1,+1}$ ：樣本標簽。
幾何解釋：
- 超平面方程： $w^Tx+b=0$ 。
- 支持向量滿足 $y_i(w ^Tx_i +b)=1$ 。

3. 線性不可分情況（軟間隔 SVM）

當數據存在噪聲或輕微重疊時，引入松弛變量（Slack Variables） $\xi_i≥0$ ，允許部分樣本違反約束：
$\ 等價于 \min \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{N} \xi_i$

$\xi_i$ 是松弛變量，表示第 $i$ 個樣本點與分類邊界的偏差。

約束條件：
$y_i(w^T x_i + b) \geq 1 - \xi_i, \xi_i≥0$

參數 $C$ ：控制分類嚴格性：
- $C$ 大 → 更嚴格（可能過擬合）。
- $C$ 小 → 允許更多錯誤（提高泛化性）。

4. 非線性 SVM（核方法）

當數據非線性可分時，通過核函數（Kernel）將數據映射到高維空間，使其線性可分。

常用核函數

線性核（無映射）：
$K(x_i, x_j) = x_i^T x_j$
線性核（無映射）：
$K(x_i, x_j) = (x_i^T x_j + c)^d$
高斯核（RBF）（最常用）：
$K(x_i, x_j) = \exp \left( -\frac{\|x_i - x_j\|^2}{2\sigma^2} \right)$
- σ 控制樣本間影響范圍（小 → 過擬合，大 → 欠擬合）。
Sigmoid 核：
$K(x_i, x_j) = \tanh(\alpha x_i^T x_j + c)$

核技巧（Kernel Trick）

無需顯式計算高維映射 $? (x)$ ，直接通過核函數計算內積：
$\phi(x_i)^T \phi(x_j) = K(x_i, x_j)$

5. 優化方法（對偶問題）

原始問題轉化為拉格朗日對偶問題，通過求解：
$\max_{\alpha} \sum_{i=1}^{n} \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(x_i, x_j)$
約束：
$\sum_{i=1}^{n} \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C$

$α_i$ ：拉格朗日乘子，非零 $α_i$ 對應支持向量。

最終決策函數：
$\text{sign} \left( \sum_{i \in SV} \alpha_i y_i K(x_i, x) + b \right)$

6. 優缺點

? 優點
- 高維數據有效（尤其適合文本、圖像）。
- 核方法處理非線性問題。
- 泛化能力強（最大化間隔）。
- 對過擬合有一定魯棒性（通過 $C$ 控制）。
? 缺點
- 計算復雜度高（訓練時間隨樣本數增長）。
- 對參數（ $C$ 、核參數）敏感。
- 不直接提供概率輸出（需額外校準）。

7. Python 示例（Scikit-learn）

7.1. 線性 SVM

from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split# 加載數據
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)# 訓練線性SVM（C=1.0）
model = SVC(kernel='linear', C=1.0)
model.fit(X_train, y_train)# 評估
print("Accuracy:", model.score(X_test, y_test))

7.2. 非線性 SVM（RBF 核）

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler# 標準化數據
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)# 訓練RBF核SVM（C=1.0, gamma='scale'）
model = SVC(kernel='rbf', C=1.0, gamma='scale')
model.fit(X_train_scaled, y_train)# 預測
print("Accuracy:", model.score(X_test_scaled, y_test))

7.3. 支持向量可視化

import matplotlib.pyplot as plt
from sklearn.inspection import DecisionBoundaryDisplay# 僅用前兩特征簡化可視化
X_2d = X[:, :2]
model = SVC(kernel='linear').fit(X_2d, y)disp = DecisionBoundaryDisplay.from_estimator(model, X_2d, response_method="predict",plot_method="pcolormesh", alpha=0.3,
)
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, edgecolor='k')
plt.title("SVM Decision Boundary")
plt.show()

8. 關鍵參數調優

$C$ ：平衡分類嚴格性與泛化能力。
- 網格搜索：GridSearchCV(param_grid={‘C’: [0.1, 1, 10]})
核函數選擇：
- 線性：kernel=‘linear’
- RBF：kernel=‘rbf’（需調 gamma）
$γ$ （RBF核）：
- 小 → 決策邊界平滑，大 → 復雜（過擬合風險）。

9. 總結

SVM 核心：最大化間隔的超平面，支持核方法處理非線性。
關鍵參數：
- 正則化參數 $C$ 。
- 核函數類型（RBF/線性/多項式）。
- RBF 核的 $γ$ 。
適用場景：
- 中小規模高維數據（如文本分類、圖像識別）。
- 需強泛化能力的分類任務。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/77170.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/77170.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/77170.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！