FastVLM:高效視覺編碼助力視覺語言模型突破高分辨率效率瓶頸

?想要掌握如何將大模型的力量發揮到極致嗎?葉梓老師帶您深入了解 Llama Factory —— 一款革命性的大模型微調工具。

1小時實戰課程,您將學習到如何輕松上手并有效利用 Llama Factory 來微調您的模型,以發揮其最大潛力。

CSDN教學平臺錄播地址:https://edu.csdn.net/course/detail/39987

視頻號(直播分享):sphuYAMr0pGTk27? 抖音號:44185842659

現有視覺語言模型(VLMs)在提升輸入圖像分辨率以優化文本密集型圖像理解任務性能時,面臨視覺編碼器效率低下的核心問題:主流視覺編碼器(如 ViTs)在高分辨率下會產生大量 tokens,導致編碼延遲顯著增加,同時過多 tokens 還會延長大模型的預填充時間,最終使得模型的首 token 生成時間(TTFT)大幅上升,難以平衡分辨率、延遲與精度三者關系。為解決這一問題,Apple 團隊提出?FastVLM?模型,其核心創新在于引入新型混合視覺編碼器?FastViTHD,通過優化視覺編碼流程與 token 生成機制,在無需額外 token 修剪操作的前提下,僅通過縮放輸入圖像即可實現分辨率、延遲與精度的最優權衡。

FastVLM 的設計圍繞視覺編碼器與大模型的協同優化展開。在視覺編碼器層面,團隊首先探索了 FastViT 混合架構在 VLM 中的應用,發現其憑借卷積組件的原生分辨率縮放能力與 Transformer 塊的高質量 token 生成特性,展現出顯著優勢。如?表 1?所示,當 FastViT 輸入分辨率縮放至 768×768 時,能生成與 ViT-L/14(336×336 分辨率)相同數量的視覺 tokens,但在 TextVQA、DocVQA 等文本密集型基準測試中性能更優,且編碼速度更快 —— latency 僅為 34.5ms,遠低于 ViT-L/14 的 127.4ms,同時參數規模僅為 ViT-L/14 的 1/8.7。為進一步提升高分辨率場景下的效率,團隊對 FastViT 進行架構優化,提出 FastViTHD:通過增加額外下采樣階段,使自注意力層在 32 倍下采樣的張量上運行(而非現有模型的 16 倍),最終生成的 tokens 數量比 FastViT 減少 4 倍,比 ViT-L/14(336 分辨率)減少 16 倍。表 3?數據顯示,FastViTHD 雖參數規模僅 125M(為 ViT-L/14 的 1/2.4),但在 38 項多模態零樣本任務中平均性能與 ViT-L/14 持平,且編碼 latency 僅 6.8ms,是 ViT-L/14 的 1/6.9,同時在檢索任務上的平均性能還優于混合架構 ViTamin-L。

在模型性能與效率的平衡驗證中,圖 1?通過對比 FastViTHD 與 ViT-L/14、SigLIP-SO400M 等主流視覺編碼器在不同大模型(Qwen2-0.5B、Vicuna-7B)下的表現,直觀展現了 FastVLM 的優勢:在 Qwen2-0.5B 大模型搭配下,FastViTHD 對應的 Avg-5 VLM 評估分數達 62%,而 TTFT 僅約 400ms,是 ViT-L/14(TTFT 約 800ms,分數 52%)的 1/2,同時參數規模更小(標記尺寸對應參數數量,FastViTHD 標記顯著小于 ViT-L/14)。圖 4?則進一步通過帕累托最優曲線對比 FastViTHD 與 FastViT 的性能 - 延遲關系:在相同 TTFT 預算下,FastViTHD 對應的 Avg-5 分數比 FastViT 高 2.5 個百分點以上;若目標性能一致,FastViTHD 可實現最高 3 倍的 TTFT 加速,且這一優勢在不同分辨率與大模型規模組合下均穩定存在。

FastVLM 在靜態與動態分辨率策略的選擇上也有明確結論。圖 6?顯示,當輸入分辨率未達到極端值(如 1536×1536)時,直接將模型輸入分辨率設置為目標分辨率的靜態策略,比 AnyRes 動態分塊策略(如 768×768 拆分為 2×2、3×3 塊)更優 —— 相同 TTFT 下靜態策略的 Avg-5 分數更高,僅在 1536×1536 分辨率且分塊數量較少(2×2)時,動態策略才展現出一定競爭力,這主要源于極端分辨率下的內存帶寬限制。此外,表 5?對比 FastViTHD 與現有 token 修剪方法(如 ViT-L/14 M3、VisionZip)發現,FastViTHD 無需復雜的 token 修剪機制,僅通過降低輸入分辨率(如 256×256)即可生成低至 16 個的視覺 tokens,且在 GQA(60.6)、TextVQA(53.1)等基準測試中分數高于多數修剪方法(如 ViT-L/14 M3 16 個 tokens 時 GQA 僅 58.0),驗證了其架構設計的高效性。

在與現有主流 VLM 的對比中,FastVLM 展現出顯著的性能 - 效率優勢。表 6?顯示,與 LLaVA-OneVision(使用相同 0.5B Qwen2 大模型,1152×1152 分辨率)相比,FastVLM(1024×1024 分辨率)在 SeedBench、MMMU、DocVQA 等關鍵基準測試中性能更優(如 SeedBench I 達 69.2,LLaVA-OneVision 為 65.5),同時 TTFT 僅 166ms,是前者(14124ms)的 1/85,視覺編碼器參數規模也僅為前者(SigLIP-SO400M,430M)的 1/3.4。與 ConvLLaVA(Vicuna-7B 大模型,768×768 分辨率)相比,FastVLM 在 TextVQA(67.5 vs 59.1)、DocVQA(57.3 vs 44.8)上分數更高,TTFT 卻從 496ms 降至 387ms,參數規模從 200M 縮減至 125M。即使面對多視覺編碼器模型(如 Cambrian-1,使用 ViT-L/14、ConvNeXt-XXL 等多個編碼器),FastVLM 單編碼器設計仍更高效 ——表 10?顯示 Cambrian-1 的 TTFT 約 5085ms,而 FastVLM(1024×1024 分辨率,Qwen2-7B 大模型)僅 641ms,是前者的 1/7.9,同時?表 11?中文本密集型任務(如 DocVQA 82.7 vs 77.8)性能更優。

FastVLM 的訓練流程采用多階段優化策略,表 8?與?表 9?詳細列出了 2 階段與 4 階段訓練的參數設置:2 階段訓練中,Stage-1 僅訓練投影層(學習率 1e-3,batch size 256),Stage-2 微調全模型(學習率 2e-5,batch size 128);4 階段訓練則新增 Stage-1.5(分辨率適應預訓練,使用 15M 樣本)與 Stage-3(高質量指令微調,如 MammothVL 數據集),進一步提升模型在高分辨率與復雜任務上的性能。表 7?顯示,隨著訓練數據規模擴大(如指令微調數據從 1.1M 增至 23.1M),FastVLM 在 ChartQA(71.4)、InfoVQA(43.3)等任務上的分數持續提升,驗證了其數據擴展性。

https://www.arxiv.org/pdf/2412.13303

https://github.com/apple/ml-fastvlm

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95772.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95772.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95772.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【HarmonyOS】一步解決彈框集成-快速彈框QuickDialog使用詳解

【HarmonyOS】一步解決彈框集成-快速彈框QuickDialog使用詳解 一、集成的應用背景介紹 最近比較忙,除了工作節奏調整,有重點項目需要跟。業務時間,也因為參加了25年創新大賽,我們網友,組成了鴻蒙超新星研發團隊&#x…

當公司在你電腦上安裝了IP-guard,你必須知道的事

保護公司機密的同時,你的隱私權何在?在現代企業中,為了保護敏感數據和知識產權,很多公司會選擇在員工電腦上安裝監控軟件,IP-guard 就是其中常見的一款。如果你發現公司電腦安裝了IP-guard,以下幾點是你需要…

拆分TypeScript項目的學習收獲:避免緩存問題,peerDependencies,引用本地項目

最近需要將工作中的一個TS包拆出一部分代碼,以便在多個團隊和項目中共享。原以為這會是一項特別簡單的工作,但是也花了兩天才大致拆成功。因此記錄一下,也給有類似需求的同學一點經驗。 所拆項目的大致功能:整個項目的結構大致分為…

無人機各種接頭焊接方法

無人機接頭的焊接直接關系到設備可靠性和飛行安全,以下是常見接頭的焊接方法及注意事項:一、焊接通用原則工具準備恒溫焊臺(推薦溫度:$350 \pm 20^{\circ}\text{C}$)含松芯焊錫絲(直徑0.8mm)助焊…

[Linux] Linux標準塊設備驅動詳解:從原理到實現

Linux標準塊設備驅動詳解:從原理到實現 在Linux系統中,塊設備是存儲系統的核心組成部分,涵蓋了硬盤、固態硬盤(SSD)、U盤、SD卡等各類持久化存儲介質。與字符設備不同,塊設備以固定大小的“塊”為單位進行數…

什么是壓力測試,有哪些方法

壓力測試(Stress Testing)是性能測試的一種,旨在評估系統在極端負載條件下的表現,驗證其穩定性、可靠性和容錯能力。通過模擬超出正常范圍的并發用戶、數據量或請求頻率,發現系統在高負載下的瓶頸(如內存泄…

lua腳本在redis中執行是否是原子性?

lua腳本在redis中執行是否是原子性?以及是否會阻塞其他腳本的執行【客戶端的請求】?先解答第二個問題:是的,保持原子執行。這也是redis中支持lua腳本執行的原因。Lua 腳本在 Redis 中是以原子方式執行的,在 Redis 服務器執行EVAL命…

DeepSeek文獻太多太雜?一招制勝:學術論文檢索的“核心公式”與提問藝術

如果我們想要完成一次學術論文檢索,那我們可以把它想象成一次精準的“學術尋寶”。你不是在漫無目的地閑逛,而是一名裝備精良的“學術尋寶獵人”,你的目標是找到深藏在浩瀚文獻海洋中的“珍寶”(高價值論文)。1 你的尋…

Linux內存管理章節一:深入淺出Linux內存管理:從物理內存到ARM32的用戶與內核空間

引言 如果說操作系統是計算機的心臟,那么內存管理就是它的靈魂脈絡。它默默地工作在Linux內核的最底層,卻決定著整個系統的穩定性、安全性和性能。今天,我們將撥開迷霧,深入探索Linux內存管理的核心概念,并結合熟悉的A…

ECMAScript (5)ES6前端開發核心:國際化與格式化、內存管理與性能

好的,我將根據【國際化與格式化】和【內存管理與性能】這兩個主題,為你生成詳細的課件內容,涵蓋概念、應用和實例。 📗 前端開發核心:國際化與格式化、內存管理與性能 1. 國際化與格式化 (Internationalization & …

3D 可視化數字孿生運維管理平臺:構建 “虛實協同” 的智慧運維新范式

3D 可視化數字孿生運維管理平臺通過 “物理空間數字化建模 實時數據動態映射 智能分析決策”,將建筑、園區、工業設施等物理實體 1:1 復刻為虛擬孿生體,打破傳統運維 “信息割裂、依賴經驗、響應滯后” 的痛點,實現從 “被動搶修” 到 “主…

DP-觀察者模式代碼詳解

觀察者模式: 定義一系列對象之間的一對多關系;當一個對象改變狀態,它的依賴都會被通知。 主要由主題(Subject)和觀察者(Observer)組成。 代碼實現 package com.designpatterns.observer;/*** 定…

1983:ARPANET向互聯網的轉變

一、ARPANET早期1969年誕生的ARPANET最初還算不上互聯網,不過在ARPANET構建之初就已經考慮了分組交換:1970年代的ARPANET:其實這個時候我就有疑問,TCP/IP是1983年1月1日更新到ARPANET的,但是1970年代的ARPANET已經連接全美的重要單…

自動化運維-ansible中的變量運用

自動化運維-ansible中的變量運用 一、變量命名規則 組成:字母、數字、下劃線。必須以字母開頭。 合法: app_port, web_1, varA非法: 2_var (以數字開頭), my-var (包含其他字符), _private (以下劃線開頭) 避免使用內置關鍵字:例如 hosts, tasks, name…

深入學習并發編程中的volatile

volatile 的作用 保證變量的內存可見性禁止指令重排序1.保證此變量對所有的線程的可見性,當一個線程修改了這個變量的值,volatile 保證了新值能立即同步到主內存,其它線程每次使用前立即從主內存刷新。 但普通變量做不到這點,普通…

使用Java獲取本地PDF文件并解析數據

獲取本地文件夾下的PDF文件要獲取本地文件夾下的PDF文件,可以使用Java的File類和FilenameFilter接口。以下是一個示例代碼片段:import java.io.File; import java.io.FilenameFilter;public class PDFFileFinder {public static void main(String[] args…

吳恩達機器學習補充:決策樹和隨機森林

數據集:通過網盤分享的文件:sonar-all-data.csv 鏈接: https://pan.baidu.com/s/1D3vbcnd6j424iAwssYzDeQ?pwd12gr 提取碼: 12gr 學習來源:https://github.com/cabin-w/MLBeginnerHub 文末有完整代碼,由于這里的代碼和之前的按…

Shell腳本一鍵監控平臺到期時間并釘釘告警推送指定人

1. 監控需求客戶側有很多平臺需要定期授權,授權后管理后臺才可正常登錄,為避免授權到期,現撰寫腳本自動化監控平臺授權到期時間,在到期前15天釘釘或其他媒介提醒。2. 監控方案2.1 收集平臺信息梳理需要監控的平臺地址信息&#xf…

華為HCIE數通含金量所剩無幾?考試難度加大?

最近網上很火的一個梗——法拉利老了還是法拉利,這句話套在華為HCIE數通身上同樣適用,華為認證中的華為數通和云計算兩大巨頭充斥著大家的視野里面,也更加廣為人知,但隨著時代的發展,華為認證體系的調整,大…

#數據結構----2.1線性表

在數據結構的學習中,線性表是最基礎、最核心的結構之一 —— 它是后續棧、隊列、鏈表等復雜結構的 “基石”。今天從 “是什么”(定義)到 “怎么用”(基本操作),徹底搞懂線性表的核心邏輯。 一、先明確&…