BLIP、InternVL Series（下）

一、InternVL1.5

1、改進

二、InternVL2

1、漸進式擴展

2、多模態擴展

三、InternVL2.5

1、方法

2、數據優化

四、InternVL3

2、方法

3、訓練后處理

4、測試時擴展

五、BLIP-3o

一、InternVL1.5

1、改進

? ? ? ? InternVL1.5在InternVL基礎上，優化了QLLaMA中間件，轉而采用簡單的MLP作為圖文對齊的橋梁。

? ? ? ? 視覺編碼器：將InternViT-6B的層數從48層優化到45層，并且通過連續學習策略提升視覺理解能力，在高質量圖文數據上微調，處理高分辨率圖像（448x448）

? ? ? ? 動態高分辨率：根據輸入圖像寬高比和分辨率，將圖像分割為1到40個448x448的圖塊，最高支持4K分辨率輸入。（低分辨率用于場景描述，高分辨率用于文檔理解）。訓練過程中先使用224x224的分辨率進行訓練，再使用448x448分辨率訓練。

? ? ? ? Pixel Shuffle：為提升高分辨率的擴展性，將像素隨機排列為visual tokens數量降低到原來的四分之一。

? ? ? ? 訓練過程包含預訓練+微調兩步，預訓練數據采用海量互聯網公開數據集弱標注圖文對，采用雙語數據，數億級別，只訓練InternViT-6B和MLP。微調部分數據包含文檔解析、數學推理、多輪對話多任務，百萬級別數據量，對所有260億參數進行全參數調整，確保模態對齊。上下文均為4096tokens。

?????????在InternVL1.2與LLaVA-NeXT對比中提到，二者的LLM部分參數量一致均為34B，vision encoder部分InternVL1.2采用InternViT-6B的6B參數量，LLAVA-NeXT采用CLIP-ViT約300M。由于LLAVA-NeXT訓練數據集未公開，所以自己做了一個相似數據集，但由于框架本身問題，LLaVA-NeXT采用了672x672的分辨率，InternVL采用448x448的分辨率。經過作者的訓練過后，InternVL1.2在更多的Benchmark下更優，證明了大的vision encoder 參數量可以支撐更復雜的推理的特征信息。

? ? ? ? InterVL1.5在OCR任務中效果可以與GPT-4V，Qwen-VL-Max，Gemini ultra1.0這些方法競爭，在多模態評估問題上，還是站不太住。

二、InternVL2

? ? ? ? InternVL2在InternVL1.5架構基礎上，針對更多模態，更多任務，更大參數量進行了擴展。InternVL2系列也是從2B參數量到108B參數量適應不同的場景應用。

1、漸進式擴展

? ? ? ? 采用從小模型到大模型漸進訓練，數據從粗到精迭代的策略。通過這種方式顯著降低了大模型訓練成本，并且在有限資源下實現高性能。具體來說，先用小規模語言模型（20B參數）訓練視覺編碼器InternViT，之后將視覺編碼器遷移到大規模LLM上，通過這種機制訓練效率提升十倍，參數量更大。（這一部分在InternVL2.5論文才提到）

? ? ? ? 另外提到InternVL2首次實現視覺基礎模型與大語言模型的原生對齊。（由于沒有論文只有一個technical log不太懂）

2、多模態擴展

? ? ? ? 支持文本、圖像、視頻、醫療數據統一輸入，并且在以往1.5版本聚焦圖文雙模態的基礎上，增加了視頻理解和醫療數據解析。

? ? ? ? 支持下游任務泛化，通過VisionLLMv2框架鏈接下游任務解碼器支持圖像生成、檢測框、分割掩碼等多樣化輸出。VisionLLMv2框架圖如下。

? ? ? ? InternVL2的訓練第一階段應該是凍結了InternViT，只訓練MLP，第二階段依然是全參數微調。?

三、InternVL2.5

? ? ? ? InternVL2.5的架構如出一轍，他的改進在于訓練過程和數據。

1、方法

? ? ? ? 訓練過程：由于InternVL2采用的漸進式訓練，所以已經預訓練了InternViT。第一部分訓練MLP，第二部分訓練InternViT+MLP，第三部分訓練所有參數。

?????????測試時擴展：test-time scaling，在推理階段動態調整模型行為，通過多次生成結果優化最終輸出。通過CoT+Majority Voting實現。通過這種方式，多步驗證降低大模型illusion，尤其是在復雜數學問題，長文檔分析上。

? ? ? ? ?思維鏈推理：CoT，Chain-of-Thought，通過多步邏輯推理生成答案，并模擬人類逐步分析問題的過程。在提示詞中要求模型先解釋推理步驟，再給出最終答案。

2、數據優化

? ? ? ? 盡管CoT在推理階段執行，但是其效果高度依賴訓練數據的質量，低質量的數據會導致模型在CoT推理過程中陷入循環錯誤。?以往推理循環的表現如下。

? ? ? ? InternVL2.5解決辦法，文本數據通過嚴格過濾訓練數據，使用LLM評分來剔除低質量樣本，多模態數據采用啟發式規則+人工審核的方式。

? ? ? ? 圖像數據

（1）動態切片機制：根據輸入圖像的寬高比和分辨率，動態劃分為448x448的像素切片，范圍在1-40，每一張圖片根據最接近的最優寬高比進行最小化失真，最優寬高比為預定義的35種組合（1:1，2:1，3:2等）

（2）多模態數據統一：由于在對話中可以輸入單圖，多圖，視頻數據，所以進行了統一，對于單圖數據，多圖數據均進行動態切片劃分，單圖分割為12個切片+全局縮略圖，多圖分割為總切片12個切片。視頻數據簡化操作，固定每幀分辨率448x448保證顯存承受壓力，由于幀數過多，放棄動態切片，用全局理解替換犧牲細節。

? ? ? ? 數據量從v1.5到v2.5是逐漸增長的。

? ? ? ? 通過這一設計InternVL2.5，OCR，多圖片理解，多模態理解和幻覺處理，視覺定位，多模態多語言性能，視頻理解等任務均達到SOTA。

? ? ? ? 另外InternViT2.5在圖像分類，圖像分割指標上也超過以往的1.0,1.2,1.5,2.0，主要是因為參數量，訓練數據量擴展。

四、InternVL3

1、概述

? ? ? ? 以往的InternVL系列都是先訓練LLM模塊，再將LLM改造成可以支持輸入多模態信息的MLLM的“先純文本預訓練->后多模態對齊”的分階段流程。而InternVL3是通過單階段聯合訓練范式的原生預訓練，解決了以往MLLM訓練后處理的視覺和語言一致性和復雜性挑戰，提升了性能和擴展性。這也是第一個原生多模態模型。

? ? ? ? 創新：可變視覺位置編碼，以適應更長的多模態上下文。后訓練策略SFT+MPO，test-time縮放原則提升了性能和效率。

? ? ? ? InternVL3不僅在原有的多學科推理，文檔理解，圖像視頻理解，現實場景理解，幻覺檢測，視覺定位，多語言能力中領先InternVL2.5，同時在工具使用，空間推理，工業圖像分析，圖形用戶界面代理上也取得了新的進展。性能上與開源項目Qwen2.5-VL不相上下，與閉源項目Chatgpt-4o,Gemini-2.5 Pro，Claude3.5-sonnet旗鼓相當。

????????OpenCompass多模態學術排行榜上不同MLLMs的比較。

2、方法

? ? ? ? 整體架構

? ? ? ? 仍然沿用ViT-MLP-LLM的三階段架構。

? ? ? ? 視覺編碼器：采用兩種預訓練視覺模型作為基礎，InternViT-300M用于輕量級模型InternVL3-1B；InternViT-6B用于大型模型InternVL3-78B。采用高分辨率優化，Pixel Unshuffle將圖像分割成448x448像素圖塊，并編碼為256個tokens，顯著降低計算開銷。（這一波方法跟之前相同）

? ? ? ? 語言模型：基于開源LLM初始化，預訓練Qwen2.5-72B或InternLM3-8B。

? ? ? ? MLP：兩層全連接網絡，隨機初始化權重，并將ViT輸出的視覺嵌入投影到LLM嵌入空間中，實現模態對齊。

? ? ? ? 變量視覺位置編碼（V2PE)

? ? ? ? 由于MLLM中的傳統位置編碼對視覺令牌使用固定增量+1，導致長序列視頻，超出模型的位置窗口限制。V2PE中設置動態增量，對文本token仍然+1，視覺token+ $\delta$ ，其中 $\delta$ 在訓練中從離散數據集中隨機采樣。

? ? ? ? 具體來說，MLLM中一組token記錄為 $x=(x_1,x_2,...x_L)$ ，位置編碼記錄為 $p_i$ 。

?????????????????????????????????????????????????????????????????????????????????????????????????? $p_i=\left\{\begin{matrix} 0\qquad \qquad if \ i=1\\ f_{pos}(p_{i-1,x_i}) if \ i\neq 1 \end{matrix}\right.$

? ? ? ?? $f_{pos}$ 函數關系在V2PE中滿足：

???????????????????????????????????????? $p_i=p_{i-1}+\left\{\begin{matrix} 1,\quad if \ x_i \ is \ a \ textual \ token \\ \delta,\quad if \ x_i \ is \ a \ visual \ token \end{matrix}\right.$