文章目錄
- 參數化狀態空間模型
- 狀態空間模型變種
????Transformer 模型自問世以來,在自然語言處理、計算機視覺等多個領域得到了廣泛應用,并展現出卓越的數據表示與建模能力。然而,Transformer 的自注意力機制在計算每個詞元時都需要利用到序列中所有詞元的信息,這導致計算和存儲復雜度隨輸入序列長度的平方級別增長。在處理長序列時,這種復雜性會消耗大量的計算資源與存儲空間。為了解決這個問題,研究人員致力于新型模型架構的設計。這些新型模型大多基于參數化狀態空間模型(State Space Model, SSM)進行設計,在長文本建模效率方面相比 Transformer 有了大幅改進,同時也保持了較好的序列建模能力。

參數化狀態空間模型
????狀態空間模型是一種動態時域模型,在控制系統、經濟學等多個領域都有著廣泛應用。近年來,深度學習領域也開始引入參數化狀態空間模型對于序列數據進行建模。通俗來說,參數化狀態空間模型可以看作是循環神經網絡和卷積神經網絡的“結合體”。一方面,該模型可以利用卷積計算對輸入進行并行化編碼。另一方面,該模型在計算中不需要訪問前序的所有詞元,僅僅利用前一個詞元就可以自回歸地進行預測。因此,該模型在解碼時展現出了更高的計算效率。由于自然語言文本本質上是離散型序列