BLIP、InternVL Series(下)

目錄

一、InternVL1.5

1、改進

二、InternVL2

1、漸進式擴展

2、多模態擴展

三、InternVL2.5

1、方法

2、數據優化

四、InternVL3

2、方法

3、訓練后處理

4、測試時擴展

五、BLIP-3o


一、InternVL1.5

1、改進

? ? ? ? InternVL1.5在InternVL基礎上,優化了QLLaMA中間件,轉而采用簡單的MLP作為圖文對齊的橋梁。

? ? ? ? 視覺編碼器:將InternViT-6B的層數從48層優化到45層,并且通過連續學習策略提升視覺理解能力,在高質量圖文數據上微調,處理高分辨率圖像(448x448)

? ? ? ? 動態高分辨率:根據輸入圖像寬高比和分辨率,將圖像分割為1到40個448x448的圖塊,最高支持4K分辨率輸入。(低分辨率用于場景描述,高分辨率用于文檔理解)。訓練過程中先使用224x224的分辨率進行訓練,再使用448x448分辨率訓練。

? ? ? ? Pixel Shuffle:為提升高分辨率的擴展性,將像素隨機排列為visual tokens數量降低到原來的四分之一。

? ? ? ? 訓練過程包含預訓練+微調兩步,預訓練數據采用海量互聯網公開數據集弱標注圖文對,采用雙語數據,數億級別,只訓練InternViT-6B和MLP。微調部分數據包含文檔解析、數學推理、多輪對話多任務,百萬級別數據量,對所有260億參數進行全參數調整,確保模態對齊。上下文均為4096tokens。

?????????在InternVL1.2與LLaVA-NeXT對比中提到,二者的LLM部分參數量一致均為34B,vision encoder部分InternVL1.2采用InternViT-6B的6B參數量,LLAVA-NeXT采用CLIP-ViT約300M。由于LLAVA-NeXT訓練數據集未公開,所以自己做了一個相似數據集,但由于框架本身問題,LLaVA-NeXT采用了672x672的分辨率,InternVL采用448x448的分辨率。經過作者的訓練過后,InternVL1.2在更多的Benchmark下更優,證明了大的vision encoder 參數量可以支撐更復雜的推理的特征信息。

? ? ? ? InterVL1.5在OCR任務中效果可以與GPT-4V,Qwen-VL-Max,Gemini ultra1.0這些方法競爭,在多模態評估問題上,還是站不太住。

二、InternVL2

? ? ? ? InternVL2在InternVL1.5架構基礎上,針對更多模態,更多任務,更大參數量進行了擴展。InternVL2系列也是從2B參數量到108B參數量適應不同的場景應用。

1、漸進式擴展

? ? ? ? 采用從小模型到大模型漸進訓練,數據從粗到精迭代的策略。通過這種方式顯著降低了大模型訓練成本,并且在有限資源下實現高性能。具體來說,先用小規模語言模型(20B參數)訓練視覺編碼器InternViT,之后將視覺編碼器遷移到大規模LLM上,通過這種機制訓練效率提升十倍,參數量更大。(這一部分在InternVL2.5論文才提到)

? ? ? ? 另外提到InternVL2首次實現視覺基礎模型與大語言模型的原生對齊。(由于沒有論文只有一個technical log不太懂)

2、多模態擴展

? ? ? ? 支持文本、圖像、視頻、醫療數據統一輸入,并且在以往1.5版本聚焦圖文雙模態的基礎上,增加了視頻理解和醫療數據解析。

? ? ? ? 支持下游任務泛化,通過VisionLLMv2框架鏈接下游任務解碼器支持圖像生成、檢測框、分割掩碼等多樣化輸出。VisionLLMv2框架圖如下。

? ? ? ? InternVL2的訓練第一階段應該是凍結了InternViT,只訓練MLP,第二階段依然是全參數微調。?

三、InternVL2.5

? ? ? ? InternVL2.5的架構如出一轍,他的改進在于訓練過程和數據。

1、方法

? ? ? ? 訓練過程:由于InternVL2采用的漸進式訓練,所以已經預訓練了InternViT。第一部分訓練MLP,第二部分訓練InternViT+MLP,第三部分訓練所有參數。

?????????測試時擴展:test-time scaling,在推理階段動態調整模型行為,通過多次生成結果優化最終輸出。通過CoT+Majority Voting實現。通過這種方式,多步驗證降低大模型illusion,尤其是在復雜數學問題,長文檔分析上。

? ? ? ? ?思維鏈推理:CoT,Chain-of-Thought,通過多步邏輯推理生成答案,并模擬人類逐步分析問題的過程。在提示詞中要求模型先解釋推理步驟,再給出最終答案。

2、數據優化

? ? ? ? 盡管CoT在推理階段執行,但是其效果高度依賴訓練數據的質量,低質量的數據會導致模型在CoT推理過程中陷入循環錯誤。?以往推理循環的表現如下。

? ? ? ? InternVL2.5解決辦法,文本數據通過嚴格過濾訓練數據,使用LLM評分來剔除低質量樣本,多模態數據采用啟發式規則+人工審核的方式。

? ? ? ? 圖像數據

(1)動態切片機制:根據輸入圖像的寬高比和分辨率,動態劃分為448x448的像素切片,范圍在1-40,每一張圖片根據最接近的最優寬高比進行最小化失真,最優寬高比為預定義的35種組合(1:1,2:1,3:2等)

(2)多模態數據統一:由于在對話中可以輸入單圖,多圖,視頻數據,所以進行了統一,對于單圖數據,多圖數據均進行動態切片劃分,單圖分割為12個切片+全局縮略圖,多圖分割為總切片12個切片。視頻數據簡化操作,固定每幀分辨率448x448保證顯存承受壓力,由于幀數過多,放棄動態切片,用全局理解替換犧牲細節。

? ? ? ? 數據量從v1.5到v2.5是逐漸增長的。

? ? ? ? 通過這一設計InternVL2.5,OCR,多圖片理解,多模態理解和幻覺處理,視覺定位,多模態多語言性能,視頻理解等任務均達到SOTA。

? ? ? ? 另外InternViT2.5在圖像分類,圖像分割指標上也超過以往的1.0,1.2,1.5,2.0,主要是因為參數量,訓練數據量擴展。

四、InternVL3

1、概述

? ? ? ? 以往的InternVL系列都是先訓練LLM模塊,再將LLM改造成可以支持輸入多模態信息的MLLM的“先純文本預訓練->后多模態對齊”的分階段流程。而InternVL3是通過單階段聯合訓練范式的原生預訓練,解決了以往MLLM訓練后處理的視覺和語言一致性和復雜性挑戰,提升了性能和擴展性。這也是第一個原生多模態模型。

? ? ? ? 創新:可變視覺位置編碼,以適應更長的多模態上下文。后訓練策略SFT+MPO,test-time縮放原則提升了性能和效率。

? ? ? ? InternVL3不僅在原有的多學科推理,文檔理解,圖像視頻理解,現實場景理解,幻覺檢測,視覺定位,多語言能力中領先InternVL2.5,同時在工具使用,空間推理,工業圖像分析,圖形用戶界面代理上也取得了新的進展。性能上與開源項目Qwen2.5-VL不相上下,與閉源項目Chatgpt-4o,Gemini-2.5 Pro,Claude3.5-sonnet旗鼓相當。

????????OpenCompass多模態學術排行榜上不同MLLMs的比較。

2、方法

? ? ? ? 整體架構

? ? ? ? 仍然沿用ViT-MLP-LLM的三階段架構。

? ? ? ? 視覺編碼器:采用兩種預訓練視覺模型作為基礎,InternViT-300M用于輕量級模型InternVL3-1B;InternViT-6B用于大型模型InternVL3-78B。采用高分辨率優化,Pixel Unshuffle將圖像分割成448x448像素圖塊,并編碼為256個tokens,顯著降低計算開銷。(這一波方法跟之前相同)

? ? ? ? 語言模型:基于開源LLM初始化,預訓練Qwen2.5-72B或InternLM3-8B。

? ? ? ? MLP:兩層全連接網絡,隨機初始化權重,并將ViT輸出的視覺嵌入投影到LLM嵌入空間中,實現模態對齊。

? ? ? ? 變量視覺位置編碼(V2PE)

? ? ? ? 由于MLLM中的傳統位置編碼對視覺令牌使用固定增量+1,導致長序列視頻,超出模型的位置窗口限制。V2PE中設置動態增量,對文本token仍然+1,視覺token+\delta,其中\delta在訓練中從離散數據集中隨機采樣。

? ? ? ? 具體來說,MLLM中一組token記錄為x=(x_1,x_2,...x_L),位置編碼記錄為p_i

??????????????????????????????????????????????????????????????????????????????????????????????????p_i=\left\{\begin{matrix} 0\qquad \qquad if \ i=1\\ f_{pos}(p_{i-1,x_i}) if \ i\neq 1 \end{matrix}\right.

? ? ? ??f_{pos}函數關系在V2PE中滿足:

????????????????????????????????????????p_i=p_{i-1}+\left\{\begin{matrix} 1,\quad if \ x_i \ is \ a \ textual \ token \\ \delta,\quad if \ x_i \ is \ a \ visual \ token \end{matrix}\right.

? ? ? ? 其中\delta=\left \{1,\frac{1}{2}, \frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{32},\frac{1}{64},\frac{1}{128},\frac{1}{256} \right \}

? ? ? ? 原生多模態預訓練方法

? ? ? ? 數據混合

(1)多模態數據:圖像-文本對,視頻幀序列,跨膜態文檔(醫學,圖標,GUI)

(2)純文本數據:開源語料,數學文本,知識文本

? ? ? ? 數據比例為純文本 vs 多模態=1:3(共200B tokens),平衡模態對齊與語言能力。所有輸入統一為序列x=(x_1,x_2,...x_L)。僅僅通過token計算自回歸損失,迫使視覺token編碼為語言預測的有效信號。

?????????由于token輸入中對于長文本或者短文本保證一定的理解,所以以往的方法設計了token平均(偏向長文本)或樣本平均(偏向短文本),從而存在梯度偏差,而本文采用了平方平均加權。權重定義為w_i=\frac{1}{l^{0.5}}l為樣本token數。

? ? ? ? 訓練過程中ViT+MLP+LLM同步更新,突破傳統凍結策略的限制,并全局采用text-only loss。

3、訓練后處理

? ? ? ? 原生多模態訓練之后,采用兩階段的后處理訓練策略提升模型性能。

? ? ? ? 監督微調??? ?

? ? ? ? 對數據采用隨機JPEG壓縮,模擬真實場景下圖像退化的問題,并繼續沿用平方平均加權,數據采用圖像、視頻、文本混合輸入,并且將訓練樣本數據量再一次提高(1630w->2170w)?,新增GUI操作,3D場景理解,科學圖標解析等數據領域。

? ? ? ? 混合偏好優化

? ? ? ? 由于SFT的訓練過程中訓練時采用真實標簽,推理時依賴模型自生成內容,會造成曝光偏差(exposure bias),所以基于300K的偏好對信息(覆蓋科學推理,科學問答,OCR復雜場景),并在正例中包含CoT,反例加入錯誤模式。

? ? ? ? 損失采用偏好損失(學習人類偏好),質量損失(獨立評估響應的絕對質量),生成損失三重融合(以往的LM loss,維持文本生成流暢性)。

4、測試時擴展

? ? ? ? 提升復雜任務的魯棒性,引入動態推理優化機制。

? ? ? ? 采用Best-of-N采樣策略,選用VisualPRM視覺過程獎勵模型作為評估模型,利用最優響應完成推理和評估任務。

? ? ? ? Best-of-N工作流程:對同一問題生成 ??N 個候選響應??(默認 N=8);用 ??VisualPRM 獎勵模型?? 對每個響應評分;選擇 ??最高分響應?? 作為最終輸出。

五、BLIP-3o

????????

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/915323.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/915323.shtml
英文地址,請注明出處:http://en.pswp.cn/news/915323.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構】二維差分數組

題目鏈接 【模板】二維差分_牛客題霸_牛客網 牛客網 - 找工作神器|筆試題庫|面試經驗|實習招聘內推,求職就業一站解決_牛客網 描述 給定一個 nmnm 的整數矩陣 bb,矩陣的下標從 11 開始記作 bi,jbi,j?。現在需要支持 qq 次操作,第 tt 次…

【JDK內置工具】常用工具和實戰指令

作者:唐叔在學習 專欄:唐叔的Java實踐 關鍵詞: #JDK工具 #Java性能調優 #JVM調優 #內存泄漏排查 #線程死鎖分析 #Java開發工具 #線上問題排查 #Java診斷工具 Hello,大家好,我是愛學習的唐叔。作為Java開發者,JDK內置工…

一站式PDF轉Markdown解決方案PDF3MD

簡介 什么是 PDF3MD ? PDF3MD 是一個現代化、用戶友好的網絡應用程序,旨在將 PDF 文檔轉換為干凈、格式化的 Markdown 文本。它提供了高效的轉換工具,支持多種文件格式之間的轉換。 主要特點 PDF 轉 Markdown:能夠將 PDF 文檔轉…

RocketMQ學習系列之——MQ入門概念

一、什么是MQMQ(Message Queue,消息隊列)是一種能夠實現跨進程消息傳輸,并且消息緩存符合隊列特性的組件。二、MQ的作用異步:消息發送方無需等待消息接收方收到消息,發送方將消息成功發送到 MQ 之后即可無阻…

血條識別功能實現及原理

從零開始學Python圖像處理 - 血條識別 從實際問題中能快速的學習特定技能,通過完成一個能自動刷怪的工具,達成快速學習python圖像處理和識別。 自動刷怪需要先識別怪物,在游戲中怪物類型很多,同時在移動中形態會一直發生變化&…

網絡地址和主機地址之間進行轉換的類

#pragma once #include "Common.hpp" // 網絡地址和主機地址之間進行轉換的類class InetAddr { public:InetAddr(){}InetAddr(struct sockaddr_in &addr) : _addr(addr){// 網絡轉主機_port ntohs(_addr.sin_port); // 從網絡中拿到的!網絡序列// _i…

《Python 項目 CI/CD 實戰指南:從零構建自動化部署流水線》

??《Python 項目 CI/CD 實戰指南:從零構建自動化部署流水線》 一、引言:為什么 Python 項目需要 CI/CD? 在現代軟件開發中,CI/CD(持續集成 / 持續部署)已成為不可或缺的工程實踐。它不僅提升了開發效率,還顯著降低了部署風險。對于 Python 項目而言,CI/CD 的價值尤…

AJAX 技術

AJAX全稱是 Asynchronous JavaScript and XML ( 異步的JavaScript 和 XML ),使用該技術后,可以實現不刷新整個網頁,與服務器進行異步通信并更新部分網頁。一)為什么需要AJAX?傳統網頁在與服務器通信時,需要刷新整個頁…

Python爬蟲實戰:研究NLTK庫相關技術

1. 引言 1.1 研究背景與意義 隨著互聯網的快速發展,網絡新聞已成為人們獲取信息的主要來源之一。每天產生的海量新聞文本蘊含著豐富的信息和知識,但也給信息獲取和分析帶來了挑戰。如何從大量非結構化的新聞文本中自動提取有價值的信息,識別熱點話題和趨勢,成為當前自然語…

ARM 學習筆記(二)

參考文獻:《ARM ArchitectureReference Manual ARMv7-A and ARMv7-R edition》1、MMU 1.1 背景早期的內存是比較小的,一般是幾十k,不過相應的程序也是比較小的,這時程序可以直接加載到內存中運行。后來為了支持多個程序的并行&…

Github 貪吃蛇 主頁設置

自動化腳本頂部元信息觸發條件(on:)作業(jobs:)步驟(steps:)1. 生成 SVG2. 推送到 output 分支Commit & Push在 README 里引用參考:https://github.com/Platane/Platane/tree/master 首先寫…

關于Spring RestTemplate

? 一、概述RestTemplate 是 Spring Framework 提供的一個同步 HTTP 客戶端工具,用于簡化與 RESTful API 的交互。它封裝了底層 HTTP 通信細節,提供了統一的 API 來發送各種 HTTP 請求(GET、POST、PUT、DELETE 等),并自…

異步解決一切問題 |消息隊列 |減少嵌套 |hadoop |rabbitmq |postsql

設計準則“為什么要考慮這個問題”The forward logic is only about 10% of your code, everything else is 90%.主流邏輯 10%保障擴容和穩健的代碼設計90%同步代碼就是綁在一個繩上的螞蚱異步就是實現了解耦這個異步或許有點類似于--一些分布式數據的處理 設計如何實現的呢?…

Spring AI 項目實戰(十八):Spring Boot + AI + Vue3 + OSS + DashScope 實現高效語音識別系統(附完整源碼)

系列文章 序號 文章名稱 1 Spring AI 項目實戰(一):Spring AI 核心模塊入門 2 Spring AI 項目實戰(二):Spring Boot + AI + DeepSeek 深度實戰(附完整源碼) 3 Spring AI 項目實戰(三):Spring Boot + AI + DeepSeek 打造智能客服系統(附完整源碼) 4

指針數組和數組指針的應用案例

1. 指針數組應用&#xff1a;查找最長字符串用指針數組存儲若干字符串&#xff0c;編寫函數找出其中最長的字符串&#xff08;若有多個&#xff0c;返回第一個&#xff09;。#include <stdio.h> #include <string.h>// 函數原型&#xff1a;找出最長字符串 const c…

MCU進入低功耗模式前的引腳處理原則和方法 --> 以最小化低功耗電流

在MCU進入低功耗模式(如Sleep, Stop, Standby, Deep Sleep等)前,精心處理每一個GPIO引腳的狀態是最大限度降低功耗電流的關鍵一步。懸空或配置不當的引腳是導致“漏電”的常見原因。以下是處理引腳以達到最小低功耗電流的原則和方法: ?? 核心原則 避免浮空輸入: 浮空(…

張 關于大語言模型(LLM)置信度研究的經典與前沿論文 :溫度縮放;語義熵;自一致性;事實與反思;檢索增強;黑盒引導;

關于大語言模型(LLM)置信度研究的經典與前沿論文 :溫度縮放;語義熵;自一致性;事實與反思;檢索增強;黑盒引導; 目錄 關于大語言模型(LLM)置信度研究的經典與前沿論文 :溫度縮放;語義熵;自一致性;事實與反思;檢索增強;黑盒引導; 一、校準方法:讓模型概率更貼近真實正確…

ICT測試原理之--什么是假短

ICT測試原理之–什么是假短 文章目錄ICT測試原理之--什么是假短一、假短的由來防止假短二、無法檢測的短路示例解決無法檢測的短路調試短路文件調試意外斷路調試意外短路三、調試假短報告短路和斷路報告假短報告短路設備/引腳功能性短路測試功能性短路測試的語法一、假短的由來…

三種深度學習模型(LSTM、CNN-LSTM、貝葉斯優化的CNN-LSTM/BO-CNN-LSTM)對北半球光伏數據進行時間序列預測

代碼功能 該代碼實現了一個光伏發電量預測系統&#xff0c;采用三種深度學習模型&#xff08;LSTM、CNN-LSTM、貝葉斯優化的CNN-LSTM&#xff09;對北半球光伏數據進行時間序列預測&#xff0c;并通過多維度評估指標和可視化對比模型性能。 算法步驟 1. 數據預處理 數據導入&am…

Typecho+阿里云CDN完整配置:防止DDoS攻擊與IP暴露

文章目錄 Typecho使用阿里云CDN保護網站真實IP地址的完整指南 背景與問題分析 技術選型與方案設計 詳細實施步驟 第一步:阿里云CDN基礎配置 第二步:DNS解析設置 第三步:源站服務器防護配置 Nginx服務器配置 防火墻配置(以Ubuntu為例) 第四步:Typecho配置調整 高級防護措施…