檢索模型預訓練方法:RetroMAE

論文title:https://arxiv.org/pdf/2205.12035RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
論文鏈接:https://arxiv.org/pdf/2205.12035

摘要

1.一種新的MAE工作流,編碼器和解器輸入進行了不同的掩碼。編碼器編碼的句子向量和解碼器的掩碼輸入通過語言模型進行重構問句。
2.非對稱的模型結構,編碼器擁有像BERT一樣全尺寸的transformer,解碼器只有一層的transformer。
3.非對稱的掩碼比例,編碼器:15%-30%,解碼器:50%-70%。

retroMAE這樣設計的原因:

1.auto-encoding對于編碼質量的要求更高,傳統的自回歸更關注前綴,傳統的MLM只掩蓋一小部(15%)的輸入。retroMAE掩蓋了更多的輸入用于解碼,因此重構不僅依賴解碼器的輸入,更加取決于句子嵌入,所以它迫使編碼器捕捉更深層次的句子語義
2.保證了訓練信號來自于大多數的句子輸入。另外解碼器只有一層transformer,所以使用了雙流注意力和特定位置注意掩碼的增強解碼。這樣所有token都被用于了重建。

方法

編碼器
? ? ? ? 編碼器使用像bert一樣12層transformer和768維度的向量輸出,能夠很好地捕捉句子的深層語義。問句輸入中token的掩碼比例為15%-30%,最終使用 [CLS]token的向量作為句子的嵌入表示。

解碼器
? ? ? ? 解碼器的結構為一層transformer,它的句子輸入中token的掩碼比例為50%-70%,會將編碼器生成的嵌入向量和掩碼token(位置編碼)連接輸入解碼器。由于解碼器的transformer層數較淺,句子掩碼比例又高,所以重構任務更加依賴于編碼器生成高質量的嵌入向量。

增強解碼
????????解碼過程的一個限制是訓練信號,即交叉熵損失,只能從掩碼標記導出。此外,每個掩碼標記總是基于相同的上下文重構。所以解碼增強希望1.從句子中獲得更多的訓練信號。2.重建任務可以基于更多樣的上下文。所以提出了雙流注意力和特定位置注意掩碼的增強解碼

實驗結果見論文

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/18105.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/18105.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/18105.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為OD機試【計算最接近的數】(java)(100分)

1、題目描述 給定一個數組X和正整數K,請找出使表達式X[i] - X[i1] … - X[i K 1],結果最接近于數組中位數的下標i,如果有多個i滿足條件,請返回最大的i。 其中,數組中位數:長度為N的數組,按照元…

軟件性能測試有哪些測試類型和方法?

軟件性能測試是一種通過模擬真實用戶使用情況,評估軟件系統在各種壓力和負載下的表現的測試方法。在今天這個講究效率的時代,軟件性能測試是不可或缺的一環。它能幫助開發人員和企業發現潛在的性能問題,提前優化改進,保證軟件系統…

Flutter 中的 SizeChangedLayoutNotifier 小部件:全面指南

Flutter 中的 SizeChangedLayoutNotifier 小部件:全面指南 在 Flutter 中,SizeChangedLayoutNotifier 是一種特殊的小部件,它用于監聽其子組件尺寸的變化。當子組件的大小發生變化時,SizeChangedLayoutNotifier 可以通知其他組件…

動態內存管理—C語言通訊錄

目錄 一,動態內存函數的介紹 1.1 malloc和free 1.2 calloc 1.3 realloc 1.4C/C程序的內存開辟 二,通訊錄管理系統 動態內存函數的介紹 malloc free calloc realloc 一,動態內存函數的介紹 1.1 malloc和free void* malloc (…

回文鏈表(快慢指針解法之在推進過程中反轉)

歸納編程學習的感悟, 記錄奮斗路上的點滴, 希望能幫到一樣刻苦的你! 如有不足歡迎指正! 共同學習交流! 🌎歡迎各位→點贊 👍 收藏? 留言?📝抱怨深處黑暗,不如提燈前行…

進程間通信IPC機制

進程間通信(IPC,InterProcess Communication)是指在不同進程之間傳播或交換信息。IPC機制有多種方式,每種方式都有其特定的工作原理、應用場景以及優缺點。以下是對幾種主要IPC方式的詳細解釋: 管道(Pipe&a…

數據結構算法題day04

數據結構算法題day04 題目分析算法思想代碼完整運行代碼如下: 題目 對長度為n的順序表L,編寫一個時間復雜度為O(n)、空間復雜度為O(1)的算法 該算法刪除線性表中所有值為X的數據元素。分析 O(n) -> 掃描一次順序表 O(1) -> 申請常數個輔助空間 1…

代碼隨想錄算法訓練營day14|二叉樹的遞歸遍歷、二叉樹的迭代遍歷、二叉樹的統一迭代法

二叉樹的遞歸遍歷 首先需要明確的一點是,前序中序和后序在二叉樹的遞歸遍歷中的區別僅在于遞歸函數中操作的順序,前序是在遍歷一個節點的左右子樹前進行操作,中序是在遍歷一個節點的左子樹后進行操作再遍歷右子樹,而后序是在遍歷…

C++算術運算和自增自減運算

一 引言 表示運算的符號稱為運算符。 算術運算; 比較運算; 邏輯運算; 位運算; 1 算術運算 算術運算包括加、減、乘、除、乘方、指數、對數、三角函數、求余函數,這些都是算術運算。 C中用、-、*、/、%分別表示加、減…

【AI】AI框架項目OpenWebUI如何追加模型

【背景】 openWebUI是一個非常好用的AI框架項目,既可以用API形式連接各類外部AI模型,也可以直接連接服務器硬盤上部署的離線大模型。 簡單來說,OpenWebUI可以用來方便地把你的本地模型變為可供所有內網人員使用的SAAS服務站點,并…

《當微服務遇上Ribbon:一場負載均衡的華麗舞會》

在微服務的廚房里,如何確保每一道服務都恰到好處?揭秘Spring Cloud Ribbon如何像大廚一樣精心調配資源,讓負載均衡變得像烹飪藝術一樣簡單! 文章目錄 Spring Cloud Ribbon 詳解1. 引言微服務架構中的負載均衡需求Spring Cloud Rib…

【算法實戰】每日一題:設計一個算法,用最少數量的矩形覆蓋一系列寬度為d、高度為w的矩形,且使用矩形不能超出邊界

題目 設計一個算法,用最少數量的矩形覆蓋一系列寬度為d、高度為w的矩形建筑物側墻,且矩形不能超出邊界。 核心思路 考慮這種結構 前面遞增后面一個與前面的某個高度一致,這時候考慮最下面的覆蓋(即都是從最下面向上覆蓋&#…

redis數據類型set,zset

華子目錄 Set結構圖相關命令sdiff key1 [key2]sdiffstore destination key1 [key2...]sinter key1 [key2...]sinterstore destination key1 [key2...]sunion key1 [key2...]sunionstore destination key1 [key2...]smove source destination memberspop key [count]sscan key c…

Java GC問題排查的一些個人總結和問題復盤

個人博客 Java GC問題排查的一些個人總結和問題復盤 | iwts’s blog 是否存在GC問題判斷指標 有的比較明顯,比如發布上線后內存直接就起飛了,這種也是比較好排查的,也是最多的。如果單純從優化角度,看當前應用是否需要優化&…

探索旅行的優惠之選,千益暢行旅游卡讓旅程更省心省力!

在旅行的道路上,一張旅游卡往往能為您帶來意想不到的便利與優惠。那么,對于千益暢行旅游卡,您是否好奇如何輕松擁有它呢? 首先,千益暢行旅游卡作為旅行者的貼心伴侶,為您提供了多樣化的獲取渠道。您可以通…

Unity實現首行縮進兩個字符

效果 在Unity中如果想實現首行縮進兩個字符&#xff0c;你會發現按空格是沒法實現的。 實現原理&#xff1a;用空白的透明的字替代原來的位置。 代碼&#xff1a; <color#FFFFFF00>XXX</color> 趕緊去試試吧&#xff01;

備戰秋招—模擬版圖面試題來了

隨著暑期的腳步逐漸臨近&#xff0c;電子工程和集成電路設計領域的畢業生們&#xff0c;也將迎來了另一個求職的黃金期——秋招。我們總說機會是留給有準備的人。對于有志于投身于模擬版圖設計的學子們來說&#xff0c;為了在眾多求職者中脫穎而出&#xff0c;充分備戰模擬版圖…

C# 工商銀行缺少infosecapiLib.infosec

搜索Tlbimp.exe 這里使用4.8.1下的處理&#xff0c;以管理員身份打開powershell cd "C:\Program Files (x86)\Microsoft SDKs\Windows\v10.0A\bin\NETFX 4.8.1 Tools".\TlbImp.exe "G:\CSharp\icbc-api-sdk-cop-c#\sdk-cop\sdk-cop\dll\infosecapi.dll" …

PCIe協議之-DLLP詳解

?前言&#xff1a; &#x1f31f;數據鏈路層的功能 數據鏈路層將從物理層中獲得報文&#xff0c; 并將其傳遞給事務層&#xff1b; 同時接收事務層的報文&#xff0c; 并將其轉發到物理層; 核心的功能有以下三點 1.保證TLP在 PCIe 鏈路中的正確傳遞; 2.數據鏈路層使用了容錯…

頁面導出PDF,非可視區域如何解決

const exportToPDF () > {const element document.getElementById(chart-container);if (!element) return;const originalScrollHeight element.scrollHeight;// 臨時解除滾動條限制&#xff0c;確保所有內容都可見element.style.height ${originalScrollHeight}px;// …