文章目錄
- 編碼器-解碼器架構
- 因果解碼器架構
- 前綴解碼器架構
????在預訓練語言模型時代,自然語言處理領域廣泛采用了預訓練 + 微調的范式,并誕生了以 BERT 為代表的編碼器(Encoder-only)架構、以 GPT 為代表的解碼器(Decoder-only)架構和以 T5 為代表的編碼器-解碼器(Encoder-decoder)架構的大規模預訓練語言模型。隨著 GPT 系列模型的成功發展,當前自然語言處理領域走向了生成式大語言模型的道路,解碼器架構已經成為了目前大語言模型的主流架構。進一步,解碼器架構還可以細分為三個變種架構,包括因果解碼器(Causal Decoder)架構和前綴解碼器(Prefix Decoder)架構。值得注意的是,學術界所提 到解碼器架構時,通常指的都是因果解碼器架構。下圖針對這三種架構進行了對比。

編碼器-解碼器架構
????編碼器-解碼器架構是自然語言處理領域里一種經典的模型結構,廣泛應用于如機器翻譯等多項任務。原始的 Transformer 模型也使用了這一架構,組合了兩個分別擔任編碼器和解碼器的 Transformer 模塊。如上圖所示,此架構在編碼器端采用了雙向自注意力機制對輸入信息進行編碼處理