論文閱讀：Instruct BLIP (2023.5)

InstructBLIP：邁向通用視覺語言模型的指令微調研究總結

論文題目：InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

論文鏈接：https://arxiv.org/pdf/2305.06500

挑戰
視覺-語言任務因視覺輸入的多樣性和任務復雜性，難以通過單一模型實現通用化。現有方法中，多任務學習缺乏指令引導導致泛化能力弱，基于圖像描述數據訓練的視覺組件難以支撐復雜任務。
目標
提出 InstructBLIP 框架，通過視覺-語言指令微調，使模型能通過統一自然語言接口解決多種視覺-語言任務，實現零樣本泛化和下游任務微調的最優性能。

指令數據：
在這里插入圖片描述

在這里插入圖片描述

基于 BLIP-2 的模塊化設計，包含凍結的圖像編碼器、LLM（如 FlanT5、Vicuna）和可微調的 Query Transformer（Q-Former）。
創新點：引入指令感知的視覺特征提取，將文本指令輸入 Q-Former，使其提取與指令相關的視覺特征，增強任務適配性。

平衡采樣：按數據集大小的平方根比例采樣，避免小數據集過擬合、大數據集欠擬合，并手動調整特定數據集權重（如降低 A-OKVQA、提高 OKVQA 權重）。
$pd=Sd∑i=1DSip_d = \frac{\sqrt{S_d}}{\sum_{i=1}^{D} \sqrt{S_i}}$
微調僅更新 Q-Former，凍結圖像編碼器和 LLM，減少訓練參數，提升效率。

在 13 個 held-out 數據集上全面超越 BLIP-2 和 Flamingo，例如 InstructBLIP FlanT5 XL 相對 BLIP-2 平均提升 15.0%，4B 參數模型性能超過 80B 參數的 Flamingo，平均提升 24.8%。
在未訓練過的任務（如視頻 QA）上表現優異，MSRVTT-QA 相對最優結果提升 47.1%。

在這里插入圖片描述

核心貢獻：
- 系統研究視覺-語言指令微調，驗證其對零樣本泛化的有效性。
- 提出指令感知特征提取和平衡采樣策略，提升模型適應性和訓練穩定性。
- 開源基于 FlanT5 和 Vicuna 的 InstructBLIP 模型，為通用多模態 AI 研究提供基礎。
優勢：兼顧零樣本泛化能力和下游任務微調效率，在多樣化視覺-語言任務中表現出通用性和優越性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/89785.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/89785.shtml
英文地址，請注明出處：http://en.pswp.cn/web/89785.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！