簡介
多模態預訓練模型(Vision-Language Pre-training, VLP)近年來取得了飛躍發展。在視覺-語言模型中,模型需要同時理解圖像和文本,這要求模型學習二者之間的語義對應關系。早期方法如 VisualBERT、LXMERT 等往往使用預先提取的圖像區域特征和文本詞嵌入拼接輸入,通過 Transformer 融合后在下游任務上微調。這類方法雖然有效,但對跨模態對齊依賴隱式的注意力機制,模型需要從零學習圖像區域與文本片段的關聯。隨著數據和模型規模增長,如何充分利用大規模圖文數據進行自監督預訓練成為研究熱點。
對象級語義對齊被認為是提升多模態模型性能的關鍵之一。例如,微軟研究院提出的 OSCAR 模型通過在圖像中引入檢測到的對象標簽(如圖像中有“dog”、文本中有“dog”)作為錨點,大大簡化了跨模態語義對齊的學習。這些對象標簽將視覺區域和文本單詞顯式對應起來,使模型更容易地將圖像中的具體物體與文本語義對上號。OSCAR 等方法在圖文檢索、問答等任務上刷新了當時的最佳成績。隨后,CLIP等對比學習框架利用上億對圖文數據對齊全局圖像和整句文本表示,獲得了出色的零樣本能力,但由于只對齊全局信息,缺乏細粒度的對象級對應&#x