【論文閱讀】Qwen2.5-VL Technical Report

Arxiv:https://arxiv.org/abs/2502.13923

Source code:https://github.com/QwenLM/Qwen2.5-VL

Author’s Institution：Alibaba

背景

多模態大模型

多模態大模型MultiModal Large Language Models (MM-LLMs) 的發展可以通過一篇綜述了解：MM-LLMs: Recent Advances in MultiModal Large Language Models.

現在先以一個小白的視角看一下所謂的多模態大模型是什么樣的，包括模型的輸入、輸出能夠解決什么問題等等。從上面提到的綜述上看，多模態大模型的模型結構一般如下：

多模態大模型的輸入、輸出可以是圖片、視頻、語音等。結構上主要分為兩個模塊：多模態理解、多模態生成。
多模態理解主要有以下模塊：

Modality Encoder（模態編碼器）：提取多模態的特征為embedding，模態編碼器通常是單獨針對對應模態的數據進行了預訓練。
Input Projector（輸入投影）：將模態編碼器的輸出映射到LLM的輸入特征空間的適配層，即不同模型數據空間信息模態對齊（將其他模態數據對齊到文本域空間）。
LLM Backbone（LLM主干網絡）：這里的輸入通常有text模態數據（人們發布指令或者希望大模型做什么事情還是通過文本描述的形式以讓大模型給出預期結果）和其他對齊到text模型空間的模態數據。LLM是經過預訓練的語言模型，用來理解輸入的模態數據。
多模態生成主要有以下模塊：
Output Projector（輸出投影）：LLM主干網絡根據自身對輸入數據的理解輸出一系列數據。該模塊則是將LLM輸出的數據映射成Modality Generator可理解的特征空間。
Modality Generator（模態生成器）：根據輸出投影的結果生成最后的結果。

QwenVL

Qwen-VL模型則是一系列視覺+文本多模態理解模型Large vision-language models ( LVLMs )，主要處理文本和視覺特征，即"Text、Image、Video" in，“Text” out。系列模型也在不斷更新，先后發布了：Qwen-VL、Qwen2-VL、Qwen2.5-VL(2025年2月更新)。
截止目前，現有的視覺大語言模型主要遇到的問題或者瓶頸：計算復雜性、有限的上下文理解、較差的細粒度視覺感知以及不同序列長度的不一致性能等問題。Qwen2.5-VL在不斷迭代和優化中解決了一些問題。

方法論

模型結構

Qwen2.5VL的模型結構如下：

Qwen2.5VL系列模型結構主要包含三個模塊：

LLM: 語言模型是多模態大模型非常基礎的模塊，有類似于“大腦”的功能，使用的語言模型是Qwen2.5 LLM，為了能夠更好的理解多模態，作者修改了1D RoPE(Rotary Position Embedding，旋轉位置編碼)為于絕對時間對齊的多模態旋轉位置嵌入。
視覺編碼器：使用的是重新設計的Vision Transformer（ViT）結構。
MLP-based的視覺-語言融合器：使用基于多層感知機來將vit輸出特征做進一步壓縮以及對齊到text域中。

不同參數的模型配置如下：

補充：qwen2.5vl-32b的模型也在2025年5月開源。

視覺編碼器

在視覺編碼器的主要創新點：

實施窗口注意力機制：將窗口注意力引入視覺編碼器以優化推理效率。
引入動態FPS采樣：將動態分辨率擴展到時域維度，使模型能夠全面理解不同采樣率下的視頻。
升級MRoPE：在時域上對齊至絕對時間，從而促進更加復雜的序列學習。
具體如何實現的后續繼續研讀代碼。

預訓練

預訓練語料大約4T的token。相關數據分別在模型訓練階段使用情況：

視覺編碼器模塊的ViT先使用DataComp以及內部的數據進行初始化，使用預訓練的qwen2.5語言模型初始化LLM模塊。預訓練過程分為三個階段：

只訓練ViT模塊去對齊(alignment)視覺和語言模塊，訓練過程凍結語言模塊，為多模態里面打下基礎。
視覺模塊和語言模型全部參與訓練，數據更加復雜。通過該階段的訓練，增加了模型的建立視覺和語言鏈接的能力以能夠進一步應對推理的需求；
該階段通過增加比較長的訓練數據，進一步增強模型的推理能力。

可參考qwenvl訓練流程：
在這里插入圖片描述

后訓練

這部分主要使用SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)方式。SFT監督微調旨在通過目標指令優化彌合預訓練表示和下游任務需求之間的差距，本質上來說是進一步提升指令跟隨能力。
大量的工作關注于：收集和過濾出高質量的訓練數據。例如構建了數據過濾的pipeline，使用了多種策略過濾，例如：基于規則的、基于模型的以及Rejection Sampling（拒絕采樣）。
然后使用這些精心收集的數據進行后訓練(SFT和DPO)，后訓練過程中，視覺編碼器ViT的參數是被凍結的。

實驗

相比于當時的開源、閉源的模型在主要的評測數據集的效果如下：

總得來看，qwen2.5vl-72b在很多數據集的效果是sota的。同時作者也驗證了，多模態大模型維持了語言模型的性能，如下表：

但在我們的實際場景中可能更加關注具體的領域業務，例如文檔理解和OCR效果，可以參見下表：

整體來說效果還是不錯的，如果在自己的業務數據做進一步的微調的話，應該是可以達到落地標準的。
此外還有視頻理解還有Agent的功能，具體可參見原文。

總結

文章優點

本文提出了一種名為Qwen2.5-VL的視覺語言模型系列，該模型在多模態理解和交互方面取得了顯著進展。其增強的視覺識別能力、對象定位能力、文檔解析能力和長視頻理解能力使其在靜態和動態任務中表現出色。此外，它具有原生的動態分辨率處理和絕對時間編碼功能，可以高效地處理各種輸入，并通過減少計算開銷而不犧牲分辨率精度來降低計算負擔。Qwen2.5-VL適用于從邊緣AI到高性能計算的各種應用。旗艦版本Qwen2.5-VL-72B與領先的模型如GPT-4o和Claude3.5 Sonnet相比，在文檔和圖表理解方面匹配或超過它們，同時保持純文本任務的良好性能。較小的Qwen2.5-VL-7B和Qwen2.5-VL-3B變體優于相應大小的競爭者，提供效率和靈活性。Qwen2.5-VL為視覺語言模型樹立了新的基準，展示了在跨領域的任務執行和一般化方面的卓越表現，為更智能和互動系統的發展鋪平了道路，實現了感知和現實世界應用之間的橋梁。

方法創新點

本文的主要貢獻在于以下幾個方面：

實施窗口注意力機制：將窗口注意力引入視覺編碼器以優化推理效率。
引入動態FPS采樣：將動態分辨率擴展到時域維度，使模型能夠全面理解不同采樣率下的視頻。
升級MRoPE：在時域上對齊至絕對時間，從而促進更加復雜的序列學習。
數據集構建：致力于高質量數據的收集和整理，進一步擴大預訓練語料庫規模。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/909818.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/909818.shtml
英文地址，請注明出處：http://en.pswp.cn/news/909818.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！