論文閱讀：BLIPv1 2022.2

論文題目：BLIP: Bootstrapping Language-Image Pre-training for
Unified Vision-Language Understanding and Generation
論文鏈接：https://arxiv.org/pdf/2201.12086

本文主要針對現有多模態的來個兩個缺點展開。

模型層面：大多數視覺 - 語言預訓練（VLP）模型要么基于編碼器（如 CLIP），適合理解任務但難以直接用于文本生成；要么基于編碼器 - 解碼器架構，在圖像 - 文本檢索等理解任務上表現不佳。
數據層面：現有方法依賴從網絡收集的圖像 - 文本對，這些數據含有大量噪聲，影響模型學習視覺 - 語言對齊的效率。

提出一個能同時處理理解與生成任務的統一 VLP 框架，并有效利用噪聲網絡數據。

Multimodal mixture of Encoder-Decoder

三種功能模式：
- 單模態編碼器(unimodal encoder)：分別編碼圖像和文本，通過圖像 - 文本對比損失（ITC）對齊特征空間。
- 基于圖像的文本編碼器（image-grounded text encoder）：插入交叉注意力層建模視覺 - 語言交互，通過圖像 - 文本匹配損失（ITM）區分正負樣本。
- 基于圖像的文本解碼器(image-grounded text decoder)：將雙向自注意力替換為因果自注意力，通過語言建模損失（LM）生成圖像描述。

該模型與三個視覺語言目標共同進行預訓練，即圖像-文本對比學習（image-text contrastive learning）, 圖像-文本匹配（image-text learning）, 圖像-條件語言建模（image-conditional language modeling）。

三個任務相關的算法模型框架圖：
在這里插入圖片描述

一種新的數據集 bootstrapping 的方法。可以用于從噪聲圖像-文本對中學習。將預訓練的 MED 微調為兩個模塊：一個是給定網絡圖像產生合成標題的 captioner, 另一個是去除原始網絡文本和合成文本中噪聲標題的 Filter.

流程：
- 標題生成器（Captioner）：基于 MED 解碼器，為網絡圖像生成合成標題。
- 過濾器（Filter）：基于 MED 編碼器，移除原始網絡文本和合成標題中的噪聲樣本。
優勢：通過自舉提升數據質量，生成更多樣化的標題，增強模型對視覺 - 語言對齊的學習。

數據清洗框架圖：
在這里插入圖片描述

預訓練數據：包含 COCO、Visual Genome 等人工標注數據集，以及 Conceptual Captions、LAION 等網絡數據集，總計 14M 至 129M 圖像。
模型配置：基于 ViT-B/16 和 ViT-L/16 視覺編碼器，文本編碼器基于 BERT。

CapFilt 的有效性：同時使用標題生成器和過濾器可顯著提升下游任務性能。例如，在 COCO 圖像 - 文本檢索中，平均召回率 @1 提升 2.7%，圖像標題生成的 CIDEr 分數提升 2.8%。
合成標題的多樣性：采用核采樣（nucleus sampling）生成的多樣化標題比波束搜索更有效，盡管噪聲率更高，但引入了更多新信息。
參數共享的影響：文本編碼器與解碼器共享非自注意力層可優化性能，而標題生成器與過濾器共享參數會因確認偏差降低效果。

圖像 - 文本檢索：在 COCO 和 Flickr30K 上，BLIP 以更少的預訓練數據（14M）超越 ALBEF、CLIP 等方法，零樣本遷移至視頻 - 文本檢索時性能顯著優于現有模型。
圖像標題生成：在 NoCaps 和 COCO 上，BLIP 的 CIDEr 和 SPICE 分數超過 VinVL、LEMON 等方法，且無需預訓練目標檢測器。
視覺問答（VQA）與自然語言視覺推理（NLVR2）：BLIP 在 VQA 測試集上比 ALBEF 提升 1.6%，在 NLVR2 上接近最優性能。
零樣本視頻 - 語言任務遷移：直接將圖像訓練的模型應用于視頻 - 文本檢索和視頻問答，性能超越專門針對視頻設計的模型。

BLIP 通過統一的 MED 架構和 CapFilt 數據自舉方法，實現了視覺 - 語言理解與生成任務的高性能統一，在多個下游任務上達到 state-of-the-art。

論文提供了預訓練模型、代碼和自舉數據集，支持后續研究。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/87088.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/87088.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/87088.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！