【連續學習之SSL算法】2018年論文Selfless sequential learning

1 介紹

年份：2018

期刊： arXiv preprint
Aljundi R, Rohrbach M, Tuytelaars T. Selfless sequential learning[J]. arXiv preprint arXiv:1806.05421, 2018.

本文提出了一種名為SLNID（Sparse coding through Local Neural Inhibition and Discounting）的正則化算法，其核心原理是通過模擬大腦中的側抑制機制，在神經網絡中鼓勵表示稀疏性，即在網絡層級上抑制同時激活的神經元，從而實現對新任務學習時保留網絡容量以減少對先前任務的遺忘，并提高序列學習的性能。本文算法屬于基于正則化的算法，因為它通過引入一個新的正則化項來鼓勵神經網絡在表示層面上保持稀疏性，同時考慮了神經元的重要性，以減少對先前任務的干擾。

2 創新點

自less序列學習（Selfless Sequential Learning）概念：
- 提出了自less序列學習的概念，強調在學習過程中不僅要考慮當前任務，還要為未來任務預留模型容量。
基于側抑制的正則化策略：
- 受到大腦中側抑制機制的啟發，提出了一種新的正則化方法，通過懲罰同時激活的神經元來鼓勵表示稀疏性。
局部神經抑制（Local Neural Inhibition）：
- 為了適應復雜任務，提出了局部神經抑制的概念，即只在局部鄰域內抑制其他神經元的活動，而不是在整個層級上。
神經元重要性權重（Neuron Importance for Discounting Inhibition）：
- 引入了神經元重要性的概念，用于調整正則化項，以避免對先前任務中重要的神經元施加抑制，從而減少對舊任務的干擾。
稀疏編碼通過局部神經抑制和折扣（SLNID）：
- 結合了上述概念，提出了SLNID正則化方法，該方法在保持表示稀疏性的同時，允許對先前任務重要的神經元進行折扣處理。
實驗驗證：
- 在多個數據集（包括Permuted MNIST、CIFAR和Tiny Imagenet）上驗證了所提方法的有效性，并與現有的終身學習（Lifelong Learning, LLL）方法進行了比較，顯示出一致的性能提升。
與現有LLL方法的兼容性：
- 展示了SLNID正則化方法可以與現有的基于重要參數保持的LLL方法（如EWC和MAS）結合使用，并且能夠提升這些方法的性能。

3 算法

3.1 算法原理

表示稀疏性（Representation Sparsity）：
- 算法強調在神經網絡的激活（即神經元的輸出）層面上實現稀疏性，而不是在參數層面上。這樣做的目的是減少新任務學習時對舊任務的干擾，因為稀疏的表示意味著大部分神經元在任何給定時間都是不活躍的，從而為新任務留出更多的網絡容量。
局部神經抑制（Local Neural Inhibition）：
- 算法通過局部神經抑制來實現表示稀疏性。這意味著算法會抑制在同一局部區域內同時激活的神經元，模仿大腦中的側抑制過程。這種局部抑制通過一個高斯權重函數實現，該函數根據神經元之間的距離來調整它們之間的相互抑制強度。
神經元重要性（Neuron Importance）：
- 算法引入了神經元重要性的概念，用于衡量神經元在先前任務中的重要性。這是通過計算神經元輸出對損失函數梯度的絕對值累積來實現的。重要的神經元在新任務中不會被抑制，以避免對舊任務的性能造成影響。
正則化項（Regularization Term）：
- 算法在訓練目標函數中加入了一個正則化項，用于懲罰那些同時激活的神經元。這個正則化項考慮了神經元的重要性，并使用高斯函數來實現局部抑制。
折扣抑制（Discounting Inhibition）：
- 對于那些對先前任務重要的神經元，算法會減少或“折扣”對它們的抑制，以保護舊任務的性能不受學習新任務的影響。
結合現有方法（Combination with Existing Methods）：
- SLNID正則化項可以與現有的終身學習（Lifelong Learning, LLL）方法結合使用，如EWC（Elastic Weight Consolidation）和MAS（Memory Aware Synapses）。這些方法通過懲罰對先前任務重要參數的改變來減少災難性遺忘。
訓練過程（Training Process）：
- 在訓練過程中，算法會優化一個包含數據損失、參數重要性懲罰項和表示稀疏性正則化項的組合目標函數。這有助于在保持對新任務的學習的同時，保留對舊任務的記憶。

3.2 算法步驟

初始化網絡參數 $\theta$ 和網絡容量。
對于序列中的每個新任務 $T_n$ ，執行以下步驟：

a. 使用當前任務的數據集訓練網絡，同時最小化以下目標函數：

$\min_{\theta} \frac{1}{M} \sum_{m=1}^{M} L(y_m, f(x_m, \theta_n)) + \lambda_{\Omega} \sum_{k} \Omega_k (\theta_{n_k} - \theta_{n-1_k})^2 + \lambda_{SSL} R_{SSL}(H_l)$

其中， $L$ 是損失函數， $f$ 是網絡預測函數， $\theta_{n-1}$ 是之前任務學習到的最優參數， $\lambda_{\Omega}$ 和 $\lambda_{SSL}$ 是權衡參數， $R_{SSL}$ 是稀疏表示正則化項。
b. 計算每個神經元的重要性權重 $\alpha_i$ ，通過累積每個神經元輸出對損失函數梯度的絕對值來實現：

$\alpha_i = \frac{1}{M} \sum_{m=1}^{M} |g_i(x_m)|, \quad g_i(x_m) = \frac{\partial (L(y_m, f(x_m, \theta_n)))}{\partial n_{i}}$

其中， $n_i$ 是第 $i$ 個神經元的輸出。

c. 應用局部神經抑制和折扣抑制，更新正則化項 $R_{SSL}(H_l)$ ：

$R_{SLNID}(H_l) = \frac{1}{M} \sum_{i,j} e^{-(\alpha_i + \alpha_j)} e^{-\frac{(i-j)^2}{2\sigma^2}} \sum_{m} h_{m_i} h_{m_j}, \quad \text{for } i \neq j$

其中， $h_{m_i}$ 是第 $m$ 個輸入在隱藏層的激活值， $\sigma^2$ 是高斯函數的方差，控制局部鄰域的范圍。它通過考慮神經元的重要性和它們之間的空間距離來調整相互間的抑制強度。

d. 更新網絡參數 $\theta$ ，通過梯度下降或其他優化算法最小化目標函數。

重復步驟 2，直到所有任務都已學習。
在新任務學習時，通過保留未使用的神經元和減少對重要神經元的干擾，減少對先前任務的遺忘，并提高新任務的學習效率。

4 實驗分析

圖1展示了參數稀疏（a）與表示稀疏（b）在簡單雙任務案例中的區別，其中參數稀疏導致第二層及更深層的激活在新任務學習時發生改變，而表示稀疏通過限制激活的神經元數量減少了這種干擾。實驗結論表明，表示稀疏（如SLNID方法所采用的）相比于參數稀疏，在序列學習中能更有效地減少新任務對舊任務的干擾，從而提高了模型在連續任務學習中的性能和穩定性。

圖2展示了在5個排列MNIST序列上不同正則化技術的比較，其中基于表示的正則化技術（實心條形）表現優于基于參數的正則化（帶線條的條形）和激活函數（點狀條形），特別是SLNID正則化在最后兩個任務上表現最佳，表明其在保留網絡容量以學習后續任務方面更為有效。實驗結論表明，基于表示的正則化方法，尤其是SLNID，能夠在序列學習中更好地維持性能，特別是在學習序列中較晚出現的任務時，這表明這些方法在保留網絡容量以適應新任務方面更為有效。

5 思考

（1）參數稀疏與表示稀疏分別是什么意思？有哪些代表性算法？

參數稀疏（Parameter Sparsity）：
- 定義：參數稀疏指的是網絡中的權重參數本身是稀疏的，即許多權重值為零或接近零。這意味著網絡中只有少數連接是活躍的，而大部分連接可以被忽略。
- 代表性算法：
  - 權重衰減（Weight Decay）：通過在損失函數中添加L1或L2正則化項來實現參數的稀疏性，L1正則化傾向于產生更稀疏的解。
  - Pruning：這是一種后訓練技術，通過移除那些對輸出影響最小的權重來減少網絡的復雜度。
  - Sparse Coding：在信號處理和機器學習中，通過優化使得編碼向量中只有少數非零元素，用于特征提取和壓縮。
表示稀疏（Representation Sparsity）：
- 定義：表示稀疏指的是網絡在處理輸入時產生的激活模式是稀疏的，即在任何給定時間，只有少數神經元處于激活狀態，而大多數神經元的激活值接近零。
- 代表性算法：
  - ReLU激活函數：由于ReLU函數將負值置為零，它自然傾向于產生稀疏的激活。
  - L1正則化應用于激活：通過對激活值施加L1正則化，鼓勵模型學習到更稀疏的表示。
  - 自編碼器（Autoencoders）：特別是稀疏自編碼器，它們通過正則化項強制編碼表示為稀疏形式。
  - 文章中提到的SLNID：通過局部神經抑制和折扣抑制來實現表示稀疏，減少新任務學習時對舊任務的干擾。