VAPO：視覺-語言對齊預訓練（對象級語義）詳解

簡介

多模態預訓練模型（Vision-Language Pre-training, VLP）近年來取得了飛躍發展。在視覺-語言模型中，模型需要同時理解圖像和文本，這要求模型學習二者之間的語義對應關系。早期方法如 VisualBERT、LXMERT 等往往使用預先提取的圖像區域特征和文本詞嵌入拼接輸入，通過 Transformer 融合后在下游任務上微調。這類方法雖然有效，但對跨模態對齊依賴隱式的注意力機制，模型需要從零學習圖像區域與文本片段的關聯。隨著數據和模型規模增長，如何充分利用大規模圖文數據進行自監督預訓練成為研究熱點。

對象級語義對齊被認為是提升多模態模型性能的關鍵之一。例如，微軟研究院提出的 OSCAR 模型通過在圖像中引入檢測到的對象標簽（如圖像中有“dog”、文本中有“dog”）作為錨點，大大簡化了跨模態語義對齊的學習。這些對象標簽將視覺區域和文本單詞顯式對應起來，使模型更容易地將圖像中的具體物體與文本語義對上號。OSCAR 等方法在圖文檢索、問答等任務上刷新了當時的最佳成績。隨后，CLIP等對比學習框架利用上億對圖文數據對齊全局圖像和整句文本表示，獲得了出色的零樣本能力，但由于只對齊全局信息，缺乏細粒度的對象級對應&#x

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/81631.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/81631.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/81631.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！