清華大學視覺空間智能新突破!Spatial-MLLM:提升多模態大語言模型的視覺空間智能能力

  • 作者:Diankun Wu, Fangfu Liu, Yi?Hsin Hung, Yueqi Duan

  • 單位:清華大學

  • 論文標題:Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

  • 論文鏈接:https://arxiv.org/pdf/2505.23747

  • 項目主頁:https://diankun-wu.github.io/Spatial-MLLM/

  • 代碼鏈接:https://github.com/diankun-wu/Spatial-MLLM

主要貢獻

  • 提出了Spatial-MLLM,一種能夠顯著提升現有視頻多模態大語言模型(MLLM)在基于視覺的空間智能方面的能力的方法,無需任何3D或2.5D數據輸入,即可實現強大的空間理解和推理能力。

  • 設計了雙編碼器架構和連接器,有效整合了標準2D視覺編碼器提取的語義信息和空間編碼器提取的結構信息,空間編碼器是基于前饋視覺幾何基礎模型初始化的。

  • 充分利用前饋視覺幾何模型提供的額外信息,設計了一種空間感知的幀采樣策略,在輸入長度受限的情況下,能夠選擇具有空間信息的幀,從而提升模型性能。

  • 構建了Spatial-MLLM-120k數據集,并采用兩階段訓練流程對其進行訓練。大量實驗表明,該方法在一系列基于視覺的空間理解和推理任務中均取得了最先進的性能。

研究背景

  • 多模態大語言模型(MLLM)在處理多模態輸入以生成上下文相關且語義連貫的響應方面取得了顯著進展,尤其在2D視覺任務上表現出色。然而,它們在空間智能方面,即對3D場景的感知、理解和推理能力仍然有限。

  • 現有的3D MLLM通常依賴額外的3D或2.5D數據(如點云、相機參數或深度圖)來增強空間感知能力,這限制了它們在只有2D輸入(如圖像或視頻)的場景中的應用。

  • 視頻MLLM的視覺編碼器主要在圖像-文本數據上進行預訓練,遵循CLIP范式,擅長捕捉高級語義內容,但在只有2D視頻輸入時缺乏結構和空間信息,導致其在空間推理任務上的表現不如在其他任務上,且與人類能力仍有較大差距。

研究方法

Spatial-MLLM架構

Spatial-MLLM的架構基于Qwen2.5-VL-3B模型,通過引入雙編碼器架構和連接器來增強其空間理解能力。

雙編碼器架構
  • 2D編碼器(E2D):采用Qwen2.5-VL的視覺編碼器,負責從輸入視頻幀中提取語義豐富的特征。它將輸入幀編碼為2D特征,這些特征在空間和時間維度上對齊,以便與3D特征進行融合。

  • 空間編碼器(ESpatial):基于VGGT模型的特征提取器,從2D視頻輸入中恢復隱含的3D結構信息。它通過交替的幀內自注意力和全局自注意力,聚合不同幀之間的空間信息,生成密集的3D特征。

  • 連接器(Connector):將2D特征和3D特征融合為統一的視覺標記。通過兩個輕量級的多層感知機(MLP),將2D和3D特征相加,生成最終的視覺標記,供大型語言模型(LLM)使用。

空間感知幀采樣策略

由于GPU內存限制,視頻MLLM通常只能處理有限的幀數。因此,論文提出了一種空間感知的幀采樣策略,以選擇最具空間信息的幀。

  • 預處理:從原始視頻中均勻采樣一定數量的候選幀(例如128幀)。

  • 特征提取:利用空間編碼器提取這些幀的3D特征和相機特征。

  • 體素化和覆蓋計算:將場景的3D點云離散化為體素,并計算每個幀覆蓋的體素。

  • 最大覆蓋問題:將幀選擇問題轉化為最大覆蓋問題,即選擇覆蓋最多獨特體素的幀。通過貪婪算法加速求解,最終選擇出最具空間信息的幀(例如16幀)。

訓練

為了訓練Spatial-MLLM,論文構建了一個新的數據集Spatial-MLLM-120k,并采用兩階段訓練流程。

數據集構建
  • 數據集包含約12萬對問答,涵蓋多種空間理解和推理任務。

  • 數據來源包括ScanQA、SQA3D以及自創建的問答數據。

  • 問答對的生成基于ScanNet的場景和語義注釋,覆蓋了目標計數、目標尺寸、房間尺寸、絕對距離、出現順序、相對距離和相對方向等任務。

訓練流程
  • 監督微調(SFT):在Spatial-MLLM-120k數據集上進行監督微調,凍結2D和空間編碼器,訓練連接模塊和LLM骨干網絡。采用標準的交叉熵損失函數,優化模型對空間任務的理解和推理能力。

  • 冷啟動(Cold Start):在強化學習訓練之前,通過生成少量的推理路徑和答案,篩選出正確的推理路徑,幫助模型適應正確的推理格式。

  • 強化學習(RL)訓練:采用組相對策略優化(GRPO)訓練,增強模型的長鏈推理能力。通過設計任務相關的獎勵函數,確保模型的預測結果與真實答案盡可能接近。

實驗

實現細節

  • Spatial-MLLM基于Qwen2.5-VL和VGGT構建,總參數量約為4B。

  • 訓練時,視頻幀的分辨率為640×480,輸入幀數限制為16幀。

  • 在SFT階段,使用Adam優化器訓練一個epoch,學習率峰值為1e-5。

  • 在RL階段,進行8次rollout,學習率為1e-6,訓練1000步。

VSI-Bench基準測試對比

  • 基準測試介紹:VSI-Bench包含超過5000對問答,涵蓋多種任務類型,包括多項選擇題和數值題。

  • 對比結果:Spatial-MLLM在VSI-Bench上的表現顯著優于其他專有和開源MLLM,包括參數量更大的模型。例如,與Gemini-1.5 Pro相比,Spatial-MLLM在平均準確率上高出3.0%,盡管其輸入幀數較少。

ScanQA和SQA3D基準測試對比

  • 基準測試介紹:ScanQA和SQA3D是基于ScanNet構建的3D問答基準測試,包含大量的問答對,涉及空間關系理解和3D場景中的目標識別。

  • 對比結果:Spatial-MLLM在ScanQA和SQA3D上均取得了優異的成績,顯著優于所有僅使用視頻輸入的模型,甚至超過了部分依賴額外3D或2.5D輸入的模型。

消融研究與分析

  • 強化學習訓練的有效性:通過對比監督微調版本和最終版本的Spatial-MLLM,驗證了強化學習訓練對提升模型性能的作用。

  • 空間感知幀采樣策略的有效性:通過對比不同幀采樣策略下的性能,證明了空間感知幀采樣策略在有限輸入幀數下優于均勻采樣。

  • 架構的有效性:通過在相同數據集上訓練Qwen2.5-VL模型,驗證了Spatial-MLLM架構在提升空間推理能力方面的優勢。

結論與未來工作

  • 結論
    • Spatial-MLLM通過結合語義2D編碼器和結構感知的空間編碼器,能夠從純2D視覺輸入中有效實現空間理解和推理。

    • 其雙編碼器設計能夠捕捉語義和空間線索,空間感知幀采樣策略在輸入受限的情況下進一步提升了性能。

    • 在多個基準測試中,Spatial-MLLM均取得了最先進的結果。

  • 未來工作
    • 盡管Spatial-MLLM在視覺空間智能方面取得了顯著進展,但仍存在擴展模型規模和訓練數據的潛力。

    • 此外,未來工作可以探索將空間結構信息整合到更廣泛的視頻理解和推理任務中,以進一步提升模型的性能和泛化能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84852.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84852.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84852.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI與機器學習ML:利用Python 從零實現神經網絡

自線性回歸以來,我們已經涵蓋了很多領域。在本期中,我們將開始了解神經網絡內部工作原理的旅程*。* 如果一個人試圖了解任何使用生成式 AI 的工具、應用程序、網站或其他系統的內部工作原理,那么掌握神經網絡的架構至關重要。在這個故事中&a…

Vim 匹配跳轉與搜索命令完整學習筆記

Vim 匹配跳轉與搜索命令完整學習筆記 文章目錄 Vim 匹配跳轉與搜索命令完整學習筆記1. 括號/結構匹配% - 括號匹配跳轉[[ / ]] - 函數定義跳轉[{ / ]} - 代碼塊邊界跳轉 2. 精確單詞搜索* - 向下精確搜索# - 向上精確搜索 3. 模糊單詞搜索g* - 向下模糊搜索g# - 向上模糊搜索 4…

安卓9.0系統修改定制化____系列 ROM解打包 修改 講解 導讀篇

專欄系列前言: 💝💝💝本專欄作者從事rom系統修改以及手機維修 刷機多年。從當年山寨機開始。歷經安卓4.--至目前的安卓15.合作伙伴遍及各類工作室以及PDA商家 私人玩友等。在廣告機 平板 pda設備 會議機 車機的rom修改中略有經…

Vue3本地存儲實現方案

在 Vue 3 中實現本地存儲(如用戶配置數據),主要通過瀏覽器提供的 localStorage 或 sessionStorage API。以下是詳細實現方案: 基礎實現(原生 API) javascript 復制 下載 // 存儲數據 localStorage.set…

計算機視覺與深度學習 | 2024年至2025年圖像匹配算法總結(原理,公式,代碼,開源鏈接)

圖像匹配算法 一、核心算法分類與技術路線1. **傳統局部特征 + 匹配優化**(魯棒性強,適合資源受限場景)2. **端到端密集匹配網絡**(高精度,適合復雜形變/弱紋理)3. **基于光流思想的匹配網絡**4. **2024-2025年新趨勢**二、核心開源工具庫匯總三、典型代碼流程(以LoFTR為…

瑞芯微 MIPI D-PHY 接收器(RX)驅動學習筆記

驅動文件位置 driver/phy/rockchip/phy-rockchip-mipi-rx.c 1 重要結構體 struct mipidphy_priv {struct device *dev;//表示與驅動程序關聯的設備。它用于設備管理,如設備注冊、注銷等。struct regmap *regmap_grf;//用于映射和訪問通用寄存器文件(Gen…

MySQL從入門到DBA深度學習指南

目錄 引言 MySQL基礎入門 數據庫基礎概念 MySQL安裝與配置 SQL語言進階 數據庫設計與規范化 數據庫設計原則 表結構設計 MySQL核心管理 用戶權限管理 備份與恢復 性能優化基礎 高級管理與高可用 高可用與集群 故障診斷與監控 安全與審計 DBA實戰與運維 性能調…

多個機器人同時加載在rviz及gazebo同一個場景中

1. 配置launch文件 gazebo的加載相對容易,但rviz中加載,需要構建完整的tf樹(world → map(或map_merged)→ odom → base_footprint → base_link → base_scan)才能正常顯示,launch文件主要是…

Text2SQL、Text2API基礎

你有一個能力超強但“不太懂行”的助手(大語言模型LLM)。它能說會道,知識淵博,但它: 不懂你的數據庫: 不知道你的數據庫里有哪些表,表里有哪些字段,這些字段代表什么意思。不懂你的…

JDK 8u231安裝教程 - Windows 64位下載安裝及環境變量配置指南

下載安裝包 把jdk-8u231-windows-x64.exe這個文件下載下來,下載鏈接:https://pan.quark.cn/s/a610ca7e5e9d,隨便放哪兒,比如桌面或者下載文件夾。 雙擊運行安裝 找到下載好的那個exe文件,直接雙擊打開。可能會彈個窗口…

LatentSync V8版 - 音頻驅動視頻生成數字人說話視頻 更新V1.6版模型 支持50系顯卡 支持批量 一鍵整合包下載

LatentSync 是字節跳動開源的一款"AI口型同步神器",簡單來說就是能讓視頻里的人物嘴巴動得和聲音完美匹配的工具。比如你給一段配音,它能自動調整視頻人物的嘴型,按照配音里的聲音說出來,就像真人說話一樣自然。簡單說就…

從一組線段中得出四邊形的算法

原始的需求是使用OpenCV的直線檢測算法(例如LSD)之后,得到一組線段。然后需要從這些線段得到類似矩形的四邊形,用于檢測經過透視變換的矩形物體。這些線段不一定首尾相接,彼此之間可能相交或有一定距離。 以下是需求圖…

提示詞Prompts(2)

摘要: 本文介紹了langchain.prompts中基礎的提示詞模板的高級用法,包括利用PipelinePrompt組合Prompt使用,多模態場景、動態占位符的使用等進行了介紹。 文章目錄 1. 背景2. PipelinePrompt2.1 組合兩個Prompt模板2.2 多模態模板 3. 聊天提示…

服務器代碼知識點補充

目錄 UdpServer: 觀察者模式: remove_if算法 管道補充: 文件的標準輸出 ,標準輸入,標準錯誤 UdpServer: 數據接收模塊關心Adduser 和Deleuser 兩個模塊 線程池關心Route模塊 將這三個方法注冊進服務器 ,但是有臨界區問題(線程池與數據接受模塊可能同時訪問用戶管理模塊,所…

R語言緩釋制劑QBD解決方案之二

藥物層優化研究 在藥物層工藝中水溶劑蒸發起到重要的作用。濕的環境會使丸子聚集,而干的環境影響藥物與MCC的粘合。輸入變量如氣流量,噴霧速率,霧化壓力,和產品溫度對MCC沉著和包衣溶劑蒸發的平衡有影響。進行了帶3個中心點的24-…

Html實現圖片上傳/裁剪/馬賽克/壓縮/旋轉/縮放

cropper下載 https://download.csdn.net/download/dongyan3595/90970115 前端代碼 <!doctype html> <html lang"en"> <head><base href"/aishop/"><meta name"viewport" content"widthdevice-width, initial…

springboot項目中整合高德地圖

一&#xff1a;高德開放平臺的使用 高德開放平臺 | 高德地圖API 注冊高德地圖賬號 認證填寫個人信息&#xff1a; 認證方式選擇“個人認證開發者”即可&#xff0c;然后完善信息 認證成功之后&#xff0c;再次進入控制臺&#xff0c;創建關于地圖的應用 創建Key&#xff08;y…

鴻蒙開發-視頻學習及實用中的一些小結

1.extend 和 styles extend是在styles基礎上進行了升級 使用的時候extend是全局的。 styles不加function 局部 加了就是全局。 2.builder 中要引用comp組件 需要在外層嵌套布局 3.ability之間的跳轉 want需要加&#xff1b; 4. as 類型斷言 &#xff01;跟在xxx! 表示…

網盤直鏈解析網頁版

不支持百度網盤、阿里網盤。 123&#xff0c;藍奏云&#xff0c;可道云什么的都可以 源碼下載地址&#xff1a;https://www.123865.com/s/X91lVv-3l90v

AXI4-Stream Clock Converter IP

一、參考說明 1.沒有專門對AXI4-Stream Clock Converter IP說明的文檔&#xff1b; 2.可以參考PG085文檔&#xff1b; 3.可以參考PG035文檔&#xff1b; 二、IP的作用 1.用于stream數據流再不同的時鐘域之間的可靠性傳輸&#xff1b; 2.支持跨時鐘域的場景&#xff1b; 3.內部…