前一節我們描述了過擬合的問題,本節我們將介紹一些正則化模型的技術。 我們總是可以通過去收集更多的訓練數據來緩解過擬合。 但這可能成本很高,耗時頗多,或者完全超出我們的控制,因而在短期內不可能做到。 假設我們已經擁有盡可能多的高質量數據,我們便可以將重點放在正則化技術上。
回想一下,在多項式回歸的例子中, 我們可以通過調整擬合多項式的階數來限制模型的容量。 實際上,限制特征的數量是緩解過擬合的一種常用技術。 然而,簡單地丟棄特征對這項工作來說可能過于生硬。 我們繼續思考多項式回歸的例子,考慮高維輸入可能發生的情況。 多項式對多變量數據的自然擴展稱為單項式(monomials), 也可以說是變量冪的乘積。 單項式的階數是冪的和。 例如, x 1 2 x 2 x_{1}^{2}x_{2} x12?x2?和 x 3 x 5 2 x_{3}x_{5}^{2} x3?x52?都是 3 3 3次單項式。
在前面, 我們已經描述了 L 1 L_{1} L1?范數和 L 2 L_{2} L2?范數, 它們是更為一般的 L p L_{p} Lp?范數的特殊情況。
-
正則化是處理過擬合的常用方法:在訓練集的損失函數中加入懲罰項,以降低學習到的模型的復雜度。
-
保持模型簡單的一個特別的選擇是使用 L 2 L_{2} L2?懲罰的權重衰減。這會導致學習算法更新步驟中的權重衰減。
-
權重衰減功能在深度學習框架的優化器中提供。
-
在同一訓練代碼實現中,不同的參數集可以有不同的更新行為。