序言
在深度學習中,正則化技術是防止模型過擬合、提升泛化能力的關鍵策略。隨著模型復雜度的增加,過擬合風險也隨之上升。正則化通過引入額外約束或信息,調整模型訓練過程,旨在簡化模型結構,使其學習到數據中的本質特征而非噪聲,從而在保證訓練效果的同時,提高模型對新數據的適應能力。這一技術對于推動深度學習在實際應用中的成功至關重要。
深度學習中的正則化技術
- 設計不僅在訓練數據上表現好,并且能在新輸入上泛化好的算法是機器學習中的一個核心問題。在機器學習中許多策略通過明確設計,以增大訓練誤差為代價來減少測試誤差。這些策略統稱為正則化(regularization)。正如我們將看到的, 深度學習工作者可以使用許多形式的正則化。事實上,開發更有效的正則化策略已成為本領域的主要研究工作之一。
- 我們在以往篇章:應用數學與機器學習基礎系列中,介紹了泛化、欠擬合、過擬合、偏差、方差和正則化的基本概念。如果還不熟悉這些概念,請回顧本文末尾的往期內容加以復習鞏固。
- 在本文中,我們會更詳細地描述正則化,重點描述深度模型(或組成深度模型的模塊)的正則化策略,以及某些節涉及機器學習中的標準概念。如果你已經熟悉了這些概念,可以隨意跳過相關章節。然而,本文的大多數內容涉及這些基本概念在特定神經網絡中的擴展。
- 在應用數學與機器學習基礎 - 容量、過擬合和欠擬合篇中,我們將正則化義為“對學習算法的修改——旨在減少泛化誤差而不是訓練誤差”。目前有許多正則化策略。
- 有些向機器學習模型添加額外的約束,如增加對參數的限制。
- 有些向目標函數增加額外項,對應于參數值的軟約束。
- 如果仔細選擇,這些額外的約束和懲罰可以改善模型在測試集上的表現。
- 有時,這些約束和懲罰設計為編碼特定類型的先驗知識。
- 其他時候,這些約束和懲罰的目的是表達對簡單模型的一般偏好,以便提高泛化能力。
- 有時候,懲罰和約束對于確定欠定的問題是必要的。其他形式的正則化(如集成方法)結合多個假說來解釋訓練數據。
- 在深度學習的背景下,大多數正則化策略都對估計進行正則化。 估計的正則化以偏差的增加換取方差的減少。一個有效的正則化是有利的”交易“,也就是能顯著減少方差而不過度增加偏差。我們在篇章:應用數學與機器學習基礎系列中討論泛化和過擬合時,主要側重模型族訓練的3個情形:
- (1)不包括真實的數據生成過程——對應于欠擬合和偏差引入
- (2)匹配真實數據生成過程
- (3)除了包含真實的數據生成過程,還包含了許多其他可能的生成過程——方差(而不是偏差)主導的過擬合。 正則化的目標是使模型從第三種情況進入到第二個情況。
- 在實踐中,過于復雜的模型族不一定包括目標函數或真實數據生成過程,甚至近似的過程都不包含。
- 我們幾乎從來無法知曉真實數據的生成過程,所以我們永遠不知道被估計的模型族是否包括生成過程。
- 然而,深度學習算法的大多數應用都是針對這樣的領域,其中真實數據的生成過程幾乎肯定在模型族之外。
- 深度學習算法通常應用于極為復雜的領域,如圖像、音頻序列和文本,本質上這些領域的真正生成過程涉及模擬整個宇宙。
- 從某種程度上說,我們總是持方枘(拼音:fāng ruì)(數據生成過程)而欲內圓鑿(拼音:yuán záo)(我們的模型族)。
- 這意味著控制模型的復雜性不是找到合適規模的模型(帶有正確的參數個數)這樣一個簡單的事情。相反,我們可能會發現,或者說在實際的深度學習場景中我們幾乎總是會發現,最好的擬合模型(最小化泛化誤差的意義上)是一個適當正則化的大型模型。
- 現在,我們將在后續篇章中回顧幾種創建這些大型深度正則化模型的策略。
總結
深度學習中的正則化技術通過約束模型復雜度、調整訓練策略等方式,有效解決了過擬合問題,顯著提升了模型的泛化能力。無論是L1/L2正則化、Dropout、早停法還是數據增強,都從不同角度促進了模型對本質特征的學習,使深度學習模型在復雜任務中展現出強大的性能。正則化技術已成為深度學習不可或缺的一部分,推動著人工智能領域的持續發展。
往期重要內容回顧
應用數學與機器學習基礎 - 學習算法篇
應用數學與機器學習基礎 - 容量、過擬合和欠擬合篇
應用數學與機器學習基礎 - 超參數和驗證集篇
應用數學與機器學習基礎 - 估計、偏差和方差篇
應用數學與機器學習基礎 - 最大似然估計篇
應用數學與機器學習基礎 - 貝葉斯統計篇
應用數學與機器學習基礎 - 監督學習算法篇
應用數學與機器學習基礎 - 無監督學習算法篇
應用數學與機器學習基礎 - 隨機梯度下降算法篇
應用數學與機器學習基礎 - 構建機器學習算法篇
應用數學與機器學習基礎 - 深度學習的動機與挑戰篇