引言
通過本篇閱讀,從理論上去理解為什么:
- ? ? ? ? 要選擇復雜度低的模型
- ? ? ? ? 過擬合的時候,增加樣本量有用
- ? ? ? ? 以及如何根據樣本量選擇特征個數
- ? ? ? ??PAC機器學習框架, VC 維是機器學習最重要的基礎理論之一
? ? ? ? ?在機器學習領域,模型泛化能力是衡量算法性能的核心指標。一個關鍵問題是:如何確保在有限訓練數據上訓練的模型能夠有效預測未知數據?這正是Vapnik-Chervonenkis(VC)維度理論要解決的核心問題。
? ?我們核心是了解下面公式
? ? ?
公式原理參考:https://www.youtube.com/watch?v=EmSVek5QMnE)
? ?VC理論的核心貢獻是建立了泛化誤差上界,當固定模型的復雜度,增加樣本量可以降低過擬合風險
如果是線性分類器,其VC維如下:
目錄:
- ? ??vc維定義
- ? ? Shattering
- ? ? 機器學習VC維
- ? ? ?使用VC維度理論選擇模型
一? VC維定義(Vapnik-Chervonenkis Dimension)
? ? ? ? VC維度(Vapnik-Chervonenkis Dimension)由統計學習理論先驅Vladimir Vapnik和Alexey Chervonenkis于1971年提出,是量化模型復雜度的數學工具。
? ? ? ? ?定義為能被H(Hypothesis Class:? 假設空間,指模型可以學習的所有可能函數的集合)完全打散(shatter)的最大樣本點數n。完全打散意味著對于這n個點的任意標簽組合,H中均存在一個假設能正確分類。
? ? ?核心概念
-
打散(Shattering):如果對于任意標簽分配方式,假設類H都能完美分離樣本點,則稱H打散了該點集
-
VC維度:假設類H能夠打散的最大點集的大小
-
關鍵性質:
-
線性分類器的VC維度 = 特征維度 + 1
-
有限VC維度 ? 可學習性
-
VC維度越大,模型擬合能力越強,但泛化風險越高
-
二? Shattering
? ? ?
? ??打散(Shattering):如果對于任意標簽分配方式,假設類H都能完美分離樣本點,則稱H打散了該點集。
? ? 我們期望的規律: G(x)??
?代表真實的規律
? ? 如果輸入的是x,那么 P(y=G(x))=1 ,我們不知道這個G(x)
? ? 所以我們在各種假設空間里面,找到假設的函數,來對真實規律的猜測
模型 假設空間類型 表達能力 過擬合風險 適用場景 線性回歸 線性函數集合 低 低 線性關系數據(如簡單回歸) 邏輯回歸 線性分類器集合 中 中 二分類問題(如垃圾郵件檢測) 決策樹 離散樹結構集合 高 高 多特征交互數據(如用戶畫像) SVM(線性核) 線性決策邊界集合 中 中 線性可分數據(如文本分類) SVM(RBF 核) 高維線性決策邊界集合 高 高 復雜非線性數據(如圖像分類) 神經網絡 無限維非線性函數集合 極高 極高 復雜模式識別(如語音、圖像) ? ?
? ?
? ? ? 1: N=2 兩個點的情況(則共有種組合)
? ? ??
? ? ? ?我們可以看到這些組合都可以被線性分類器Shattering
? ? ? ? ? A line can shatter 2 points on?
? ? ? ? 2? ?N=3?(則共有種組合)
? 但是這種情況可以被線性分類器shatter,但是同樣N=3 下面這種情況,如果共線就不能被shatter,所以shatter 并不是shatter 所有組合,只要shatter 其中一個組合就可以
? 3? ?N=4?(則共有種組合)
? ??
? ? ? ?這個時候我們發現我們找不到一個線性分類器(特征個數為2) 能夠shatter 上面的集合,
所以其VC 維=d(特征個數+1=3
? ?所以上面能夠shatter 最大的點的個數是N=3?
? ?N= d+1(其中d 是特征個數,為2維度)
??
??
三? ?機器學習VC維
? ? ? ?在機器學習領域,模型的復雜度與性能之間存在著微妙的平衡,即欠擬合與過擬合的權衡。欠擬合指的是模型過于簡單,無法捕捉數據中的復雜模式,導致在訓練和測試數據上表現均不佳。而過擬合則是模型過于復雜,過度擬合了訓練數據中的噪聲,雖然在訓練數據上表現優異,但在測試數據上表現糟糕。
? ? ? ?模型的表示能力,即其學習或表示數據復雜模式的能力,是影響模型性能的關鍵因素。表示能力越強的模型,越能夠捕捉數據中的復雜關系,但同時也可能更容易過擬合。因此,在選擇模型時,需要根據具體問題的復雜度來權衡模型的表示能力。
? ? ?為了量化模型的表示能力,機器學習領域引入了VC維(Vapnik-Chervonenkis維度)這一概念。VC維提供了模型能夠分類的最大點集數量的一個指標,VC維越高,模型的表示能力通常也越強。然而,高VC維也意味著模型更容易過擬合,因此在實際應用中,需要結合具體問題和數據特征來選擇合適的模型復雜度。
總之,在機器學習中,理解欠擬合與過擬合的權衡、模型的表示能力以及VC維等概念,對于選擇和優化模型具有重要的指導意義。
3.1??機器學習中的風險與經驗風險
? ? ? 在機器學習中,我們通常假設訓練數據是從某個分布?p(x)?中獨立同分布采樣得到的。為了評估模型的性能,我們引入了兩個重要概念:風險和經驗風險。
風險(R(θ))代表了模型的“長期”測試誤差,即模型在未見過的數據上的預期表現。其數學表達式為:
其中,δ?是指示函數,當條件滿足時取值為1,否則為0;? c?是真實標簽,c^(x;θ)?是模型預測的標簽。
經驗風險(Remp(θ))則是我們在訓練數據上觀察到的誤差,也稱為訓練誤差。其數學表達式為:
其中,m?是訓練樣本的數量,c(i)?和?x(i)?分別是第?i?個樣本的真實標簽和特征。
風險與經驗風險之間的關系反映了模型的過擬合程度:
- 在欠擬合領域,風險與經驗風險非常相似,意味著模型在訓練和測試數據上的表現相近,但都可能不夠理想。
- 在過擬合領域,經驗風險可能很低(模型在訓練數據上表現很好),但風險卻可能很高(模型在測試數據上表現糟糕)。
3.2? 跟VC dimension 的關系
3.3??? shattering
? ? ? 假設我們特征的個數是2 ,我們可以看到其可以正確分類所有2個點的集合
常見機器學習模型的VC維度:
--------------------------------------------------
? 線性分類器 (d維空間) → d+1
? 決策樹 (k個葉子節點) → k
? 神經網絡 (含L層,W個參數) → O(WL)
? 支持向量機 (RBF核) → ∞ (理論上)
? k近鄰算法 (k=1) → ∞
? 簡單閾值函數 → 1
四? ?使用VC維度理論選擇模型
? ? 在機器學習中,避免過擬合和選擇合適復雜度的模型至關重要。除了常用的交叉驗證(Cross-Validation)外,VC 維度(Vapnik-Chervonenkis Dimension)?提供了一種基于理論的方法來指導模型選擇。
? ? ?核心思想:結構風險最小化 (SRM)
-
衡量模型復雜度:?VC 維度 (
h
) 量化了一個模型類(例如,所有可能的線性分類器、所有特定深度的決策樹)的“擬合能力”或復雜度。VC 維度越高的模型類,擬合復雜模式的能力越強,但也更容易過擬合。 -
泛化誤差邊界:?統計學習理論提供了基于 VC 維度的泛化誤差邊界。這個邊界通常具有以下形式:
測試誤差 ≤ 訓練誤差 + 懲罰項(VC維度 h, 樣本量 N, 置信度 δ)
這個懲罰項隨著模型 VC 維度 (h
) 的增加而增大,隨著訓練樣本量 (N
) 的增加而減小。 -
模型選擇流程 (SRM):
-
定義一組具有不同 VC 維度的候選模型結構(例如,不同次數的多項式、不同層數的神經網絡、不同最大深度的樹)。
-
對于每個候選結構:
-
在訓練數據上找到該結構下表現最好的模型(最小化訓練誤差)。
-
計算該模型的訓練誤差。
-
計算基于該結構 VC 維度 (
h
) 和樣本量 (N
) 的懲罰項。 -
計算泛化誤差上界?= 訓練誤差 + 懲罰項。
-
-
?選擇那個給出最小泛化誤差上界的模型結構。
-
?[VC Dimension]https://www.youtube.com/watch?v=puDzy2XmR5c&t=833s
[Model Complexity and VC Dimension]https://www.youtube.com/watch?v=8yWG7fhCpTw
[Understanding VC Dimension(Vapnik Chervonenkis Dimension) - Simplified Explanation for?]
[]https://www.youtube.com/watch?v=7O7RL5jHHNM
Machine Learning 15: VC-Dimension
[]https://www.youtube.com/watch?v=7O7RL5jHHNM
https://www.youtube.com/watch?v=XxPB9GlJEUk
https://www.youtube.com/watch?v=EmSVek5QMnE
-
Vapnik, V. N., & Chervonenkis, A. Y. (1971). On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities.
-
Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding Machine Learning: From Theory to Algorithms.
-
Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of Machine Learning (2nd ed.).