在預訓練語言模型主流架構

文章目錄

- 編碼器-解碼器架構
- 因果解碼器架構
- 前綴解碼器架構

????在預訓練語言模型時代，自然語言處理領域廣泛采用了預訓練 + 微調的范式，并誕生了以 BERT 為代表的編碼器（Encoder-only）架構、以 GPT 為代表的解碼器（Decoder-only）架構和以 T5 為代表的編碼器-解碼器（Encoder-decoder）架構的大規模預訓練語言模型。隨著 GPT 系列模型的成功發展，當前自然語言處理領域走向了生成式大語言模型的道路，解碼器架構已經成為了目前大語言模型的主流架構。進一步，解碼器架構還可以細分為三個變種架構，包括因果解碼器（Causal Decoder）架構和前綴解碼器（Prefix Decoder）架構。值得注意的是，學術界所提到解碼器架構時，通常指的都是因果解碼器架構。下圖針對這三種架構進行了對比。

圖片名稱 — 三種主流架構的注意力模式比較示意圖（藍色、綠色、黃色和灰色的圓角矩形分別表示前綴詞元之間的注意力、前綴詞元和目標詞元之間的注意力、目標詞元之間的注意力以及掩碼注意力）

編碼器-解碼器架構

????編碼器-解碼器架構是自然語言處理領域里一種經典的模型結構，廣泛應用于如機器翻譯等多項任務。原始的 Transformer 模型也使用了這一架構，組合了兩個分別擔任編碼器和解碼器的 Transformer 模塊。如上圖所示，此架構在編碼器端采用了雙向自注意力機制對輸入信息進行編碼處理

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/37375.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/37375.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/37375.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！