AI的“空間盲癥“

<------最重要的是訂閱“魯班模錘”------>

當我們看到一張照片時,大腦會自動分析其中的空間關系——哪個物體在前,哪個在后,左邊是什么,右邊是什么。但對于當今最先進的AI系統來說,這種看似簡單的空間理解卻是一個巨大的挑戰。Meta FAIR和香港中文大學的研究團隊最近發布的Multi-SpatialMLLM項目,正在試圖解決這個根本性問題。

現有的多模態大語言模型雖然在圖像識別和文本理解方面表現出色,但在空間推理上卻存在嚴重缺陷。這些模型往往連最基本的左右區分都會出錯,更不用說理解復雜的3D空間關系了。造成這種現象的根本原因在于,絕大多數AI訓練都基于單張圖像,就像讓一個人只通過一扇窗戶觀察整個世界一樣,視野必然受限。

隨著AI在機器人技術、自動駕駛、增強現實等領域的應用需求日益增長,空間理解能力的缺失成為了制約其發展的關鍵瓶頸。機器人需要準確理解環境中物體的位置關系才能有效執行任務,自動駕駛系統必須精確判斷道路、車輛和行人的空間分布才能安全行駛。

空間理解的技術突破

Multi-SpatialMLLM的核心創新在于將AI的視覺理解從單張圖像擴展到多張圖像的協同分析。這種方法模仿了人類的視覺系統——我們通過雙眼產生立體視覺,通過頭部和身體的移動獲得不同視角,然后大腦整合這些信息形成完整的空間認知。

  • 深度感知(Depth Perception):理解物體離鏡頭的遠近;

  • 視覺對應(Visual Correspondence):識別同一物體在不同圖像中的位置對應;

  • 動態感知(Dynamic Perception):推斷相機或物體的運動方向和幅度。

研究團隊設計了一個包含三個核心組件的框架:深度感知、視覺對應和動態感知。深度感知讓AI能夠判斷物體距離的遠近,視覺對應使AI能在不同視角間建立像素點的對應關系,動態感知則賦予AI捕捉相機和物體運動信息的能力。這三個組件的協同工作,使AI首次具備了真正的多幀空間理解能力。

MultiSPA

為了訓練AI系統,團隊構建了MultiSPA數據集,這是一個包含超過2700萬樣本的大規模空間理解數據集。數據集的構建過程體現了研究團隊的匠心獨運。

  • 數據來自真實世界的3D/4D圖像集,不是合成或模擬數據;

  • 自動采樣圖像對,確保畫面有足夠重疊與變化;

  • 利用點云反投影技術建立像素級別的對應關系,實現空間和時間的精準對齊;

  • 借助GPT-4o自動生成問題與答案模板,涵蓋定性描述與定量坐標、向量等多種形式;

  • 支持用像素點、語義標簽、坐標等多種方式描述問題答案。

相機運動感知任務設計了從粗粒度到細粒度的九種不同難度級別,從簡單的方向判斷到復雜的位移向量預測。物體運動感知任務則要求AI跟蹤特定物體在不同幀間的運動軌跡。最具挑戰性的物體尺寸感知任務需要AI整合多張圖像的信息來推斷物體的真實尺寸。

數據生成過程充分利用了真實世界的3D場景數據,包括室內場景數據集ScanNet和動態場景數據集ADT、Panoptic Studio等。通過精密的3D-2D投影算法,研究團隊確保生成的訓練數據符合真實的幾何約束。他們還設計了巧妙的圖像對選擇策略,選擇重疊度在6%到35%之間的圖像對進行訓練,既保證了足夠的空間關聯性,又維持了視角的多樣性。

精妙的技術架構

Multi-SpatialMLLM基于InternVL2-8B模型構建,這個選擇經過了仔細考量。相比其他流行的多模態模型,InternVL2在遵從指令方面表現更為出色,為后續的空間理解訓練奠定了良好基礎。

訓練策略采用了高效的LoRA(Low-Rank Adaptation)微調方法,只更新語言模型骨干網絡的參數,而保持圖像編碼器和投影層凍結。這種設計既減少了訓練成本,又避免了災難性遺忘問題,確保模型在獲得空間理解能力的同時保持原有的通用視覺理解能力。

數據格式遵循標準的多模態大語言模型訓練范式,采用問答對的形式。為了處理多樣化的輸出格式,團隊設計了統一的答案提取機制,支持從定性描述到精確坐標的各種回答類型。像素坐標的歸一化處理解決了不同分辨率圖像的兼容性問題,確保模型能夠處理各種尺寸的輸入圖像。

Multi-SpatialMLLM在MultiSPA基準測試中展現出了令人矚目的性能提升。相比基礎模型,該系統在所有空間理解任務上都實現了顯著改進,平均準確率提升了36%。在相對簡單的定性任務上,模型達到了80-90%的準確率,而基礎模型僅能達到50%左右。

更為重要的是,在極具挑戰性的相機運動向量預測任務上,Multi-SpatialMLLM達到了18%的準確率,而其他基線模型的表現幾乎為零。這種定量的空間推理能力對于實際應用具有重要意義,為機器人導航、自動駕駛等應用提供了技術基礎。

為了驗證模型的泛化能力,研究團隊在外部基準BLINK上進行了零樣本評估。結果顯示,Multi-SpatialMLLM在從未見過的數據上仍然保持了優異性能,平均準確率比基礎模型提升26.4%,甚至超越了GPT-4o、Claude-3.5等大型商業模型。這表明模型學到的空間理解能力具有良好的可遷移性。

同時,在標準的視覺問答基準測試中,Multi-SpatialMLLM保持了與原始模型相當的性能,證明專業化訓練并沒有損害模型的通用能力。這種平衡對于實際部署至關重要,用戶既需要專業的空間理解能力,也需要保持AI助手的全面性。

可擴展性與頓悟現象

研究團隊通過系統性實驗驗證了Multi-SpatialMLLM的可擴展性。隨著訓練數據從50萬樣本增加到250萬樣本,26B參數模型在相機運動向量預測任務上的準確率從0.67%大幅提升至44%。這種線性的性能提升表明,更大規模的數據訓練有望帶來進一步的性能改進。

更有趣的是,研究發現了類似大語言模型的頓悟現象。在多選視覺對應任務中,只有26B參數的大型模型能夠有效學習困難樣本,而8B和13B的模型即使在困難樣本上訓練也無法獲得提升。這種現象表明,某些高級的空間推理能力可能需要足夠大的模型容量才能頓悟。

多任務學習的協同效應也得到了驗證。當將相機運動任務與其他任務的數據混合訓練時,模型在相機運動預測上的表現從9.3%提升到18%。類似地,物體運動預測任務在加入其他任務數據后,準確率從17.5%提升到22.04%。這種跨任務的正向遷移表明,不同類型的空間理解能力之間存在內在聯系,多樣化的訓練任務能夠相互促進。

真實世界應用驗證

研究團隊通過實際的機器人場景驗證了Multi-SpatialMLLM的實用性。

在一個涉及機械臂堆疊積木的任務中,當被問及靜態藍色積木的移動情況時,GPT-4o和基礎模型都給出了錯誤答案,而Multi-SpatialMLLM準確識別出積木并未移動。這種準確的空間感知能力對于機器人的安全操作至關重要。

Multi-SpatialMLLM的成功不僅僅是一個技術指標的提升,更代表了AI理解世界方式的根本性變革。Multi-SpatialMLLM通過多幀協同分析,實現了從"看圖識物"到"立體思維"的跨越。這種技術突破的意義在于,它首次讓AI具備了類似人類的空間認知能力。人類的視覺系統天然具備整合多視角信息的能力,這種能力是我們在3D世界中導航和操作的基礎。

Multi-SpatialMLLM通過技術手段復現了這種能力,為AI在現實世界的廣泛應用鋪平了道路。在自動駕駛領域,這種多幀空間理解能力對于環境感知和路徑規劃具有重要價值。傳統的自動駕駛系統主要依賴激光雷達等專用傳感器獲取3D信息,而Multi-SpatialMLLM展示了僅通過攝像頭就能實現復雜空間理解的可能性,有望降低自動駕駛系統的成本和復雜度。

在增強現實和虛擬現實應用中,精確的空間理解能力是實現自然交互的關鍵。Multi-SpatialMLLM能夠幫助AR系統更準確地在現實場景中放置虛擬物體,為VR系統提供更真實的空間感知。

醫療影像領域也是一個重要的應用方向。Multi-SpatialMLLM的多視角整合能力可以幫助醫生從多個2D影像重建3D解剖結構,為手術規劃和導航提供更精確的空間信息。

更多專欄請看:

  • LLM背后的基礎模型

  • 如何優雅的談論大模型

  • 體系化的通識大模型

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81594.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81594.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81594.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據擬合實驗

實驗類型&#xff1a;●驗證性實驗 ○綜合性實驗 ○設計性實驗 實驗目的: 進一步熟練掌握最小二乘多項式擬合算法&#xff0c;提高編程能力和解決擬合問題的實踐技能。 實驗內容&#xff1a; 1 對下列數據&#xff0c;求解最小二乘拋物線f(x)Ax2BxC x -3 -1 1 3 y 15 5 …

系統思考:心智模式與業務創新

在最近的項目交付討論中&#xff0c;我頻繁聽到一個詞&#xff1a;“缺合適的人”。這讓我陷入了深思&#xff1a;我們是否還在傳統的生產力概念&#xff1f;納瓦爾提出的三種杠桿&#xff1a;勞動力、資本、零邊際成本產品。在當今這個信息化、全球化的商業世界中&#xff0c;…

python分步合并處理excel數據

文章目錄 概要整體架構流程技術名詞解釋技術細節小結概要 客戶需求 1. 背景與目標 用戶需要將三個包含農業實驗數據的Excel表格(AK、AN、AP)合并為一個結構化數據集,用于后續分析。每個表格包含相同類型的字段(如對照組與PSB處理組的樣本數、均值、標準差),但需通過字…

Python爬蟲實戰:研究PyQuery庫相關技術

1. 引言 1.1 研究背景與意義 隨著互聯網的快速發展,網絡上的數據量呈爆炸式增長。如何高效地從海量的網頁數據中提取有價值的信息,成為當前信息技術領域的一個重要研究方向。網絡爬蟲作為一種自動獲取網頁內容的程序,能夠按照一定的規則,自動地抓取萬維網信息,在搜索引擎…

深度學習---注意力機制(Attention Mechanism)

一、核心概念與發展背景 注意力機制是深度學習中模擬人類注意力選擇能力的關鍵技術&#xff0c;旨在從海量信息中篩選關鍵特征&#xff0c;解決長序列信息處理中的瓶頸問題&#xff08;如RNN的梯度消失&#xff09;。其核心思想是&#xff1a;對輸入序列的不同部分分配不同權重…

Jenkins分配對應項目權限與用戶管理

在日常開發過程中經常會出現用戶和權限管理問題&#xff0c;沒有配置trigger時&#xff0c;通常需要我們手動構建&#xff0c;但此時前端和后端的朋友沒有build權限&#xff0c;導致每次dev環境測試都需要麻煩我們手動去構建&#xff0c;消息傳達不及時則會降低開發效率。 現有…

XCTF-web-file_include

解析 <?php highlight_file(__FILE__); // 高亮顯示當前PHP文件源代碼 include("./check.php"); // 包含檢查文件&#xff08;可能包含安全過濾邏輯&#xff09;if(isset($_GET[filename])) { // 檢查是否傳入filename參數$filename $_GET[f…

matlab全息技術中的菲涅爾仿真成像

matlab全息技術中的菲涅爾仿真成像程序。 傅里葉法&#xff08;重建距離得大&#xff09;/Fresnel.m , 545 傅里葉法&#xff08;重建距離得大&#xff09;/FresnelB.m , 548 傅里葉法&#xff08;重建距離得大&#xff09;/Fresnel_solution.m , 1643 傅里葉法&#xff08;重…

CS144 - LAB0

CS144 - Lab 0 telnet 發送請求 如圖&#xff0c;很簡單&#xff0c;但是注意輸入時間太久會超時 發郵箱 首先我們需要用命令行去發郵箱&#xff0c;這里我用企業微信郵箱給自己的 qq 郵箱發送~ 整個命令如下&#xff01; 對于其中的參數&#xff0c;其實從英文就可以看出來…

kafka SASL/PLAIN 認證及 ACL 權限控制

一、Zookeeper 配置 SASL/PLAIN 認證&#xff08;每個zookeeper節點都要做&#xff09; 1.1 在 zookeeper 的 conf 目錄下&#xff0c;創建 zk_server_jaas.conf 文件&#xff0c;內容如下 Server {org.apache.kafka.common.security.plain.PlainLoginModule requiredusernam…

20250528-C#知識:函數簡介及函數重載

C#知識&#xff1a;函數簡介及函數重載 本文主要介紹函數參數和函數重載相關的知識點 1、函數 函數一般寫在類中 一般函數調用 static int Add(int num, int value){num value;return num;}//一般函數調用&#xff0c;發生值類型參數的復制int num 1;Add(num, 1); //調用…

Vue內置指令與自定義指令

一、前言 在 Vue 開發中&#xff0c;指令&#xff08;Directives&#xff09; 是一種非常強大的特性&#xff0c;它允許我們以聲明式的方式操作 DOM。Vue 提供了一些常用的內置指令&#xff0c;如 v-if、v-show、v-bind、v-on 等&#xff0c;同時也支持開發者根據需求創建自己…

華為AP6050DN無線接入點瘦模式轉胖模式

引言 華為AP6050DN是一款企業級商用的無線接入點。由于產品定位原因,其默認工作在瘦模式下,即須經AC統一控制和管理,是不能直接充當普通的無線路由器來使用的。 而本文的目的,就是讓其能脫離AC的統一控制和管理,當作普通無線路由器來使用。 硬件準備 華為AP6050DN無線接…

程序員出海之英語-使用手冊

為什么現在實時翻譯工具這么牛逼了&#xff0c;AI轉譯這么準確了&#xff0c;我還在這里跟老古董一樣吭哧吭哧學英語呢&#xff1f; 這是因為我們始終是和人打交道&#xff0c;不僅僅是為了考試&#xff0c;看懂官方文章&#xff0c;聽懂官方視頻。這里為什么說官方&#xff0c…

Java 事務管理:在分布式系統中實現可靠的數據一致性

Java 事務管理&#xff1a;在分布式系統中實現可靠的數據一致性 在當今的軟件開發領域&#xff0c;分布式系統逐漸成為主流架構。然而&#xff0c;這也給事務管理帶來了巨大的挑戰。本文將深入探討 Java 事務管理在分布式系統中的關鍵要點&#xff0c;并通過詳細代碼實例展示如…

微信小程序關于截圖、錄屏攔截

1.安卓 安卓&#xff1a; 在需要禁止的頁面添加 onShow() {if (wx.setVisualEffectOnCapture) {wx.setVisualEffectOnCapture({visualEffect: hidden,complete: function(res) {}})}},// 頁面隱藏和銷毀時需要釋放防截屏錄屏設置onHide() {if (wx.setVisualEffectOnCapture) {w…

使用 PySpark 從 Kafka 讀取數據流并處理為表

使用 PySpark 從 Kafka 讀取數據流并處理為表 下面是一個完整的指南&#xff0c;展示如何通過 PySpark 從 Kafka 消費數據流&#xff0c;并將其處理為可以執行 SQL 查詢的表。 1. 環境準備 確保已安裝: Apache Spark (包含Spark SQL和Spark Streaming)KafkaPySpark對應的Ka…

第十天的嘗試

目錄 一、每日一言 二、練習題 三、效果展示 四、下次題目 五、總結 一、每日一言 哈哈&#xff0c;十天缺了兩天&#xff0c;我寫的文章現在質量不高&#xff0c;所以我可能考慮&#xff0c;應該一星期或者三四天出點高質量的文章&#xff0c;同時很開心大家能夠學到知識&a…

mediapipe標注視頻姿態關鍵點(基礎版加進階版)

前言 手語視頻流的識別有兩種大的分類&#xff0c;一種是直接將視頻輸入進網絡&#xff0c;一種是識別了關鍵點之后再進入網絡。所以這篇文章我就要來講講如何用mediapipe對手語視頻進行關鍵點標注。 代碼 需要直接使用代碼的&#xff0c;我就放這里了。環境自己配置一下吧&…

Redis數據遷移方案及持久化機制詳解

#作者&#xff1a;任少近 文章目錄 前言Redis的持久化機制RDBAOF Redis save和bgsave的區別redis數據遷移redis單機-單機數據遷移redis 主從-主從數據遷移redis 單機-cluster數據遷移redis cluster –redis cluster數據遷移 前言 Redis數據遷移是常見需求&#xff0c;主要包括…