EmbodiedSAM:在線實時3D實例分割,利用視覺基礎模型實現高效場景理解

2025-02-12,由清華大學和南洋理工大學的研究團隊開發 一種名為 EmbodiedSAM(ESAM)的在線3D實例分割框架。該框架利用2D視覺基礎模型輔助實時3D場景理解,解決了高質量3D數據稀缺的難題,為機器人導航、操作等任務提供了高效、準確的視覺感知能力。

一、研究背景

隨著機器人技術和人工智能的發展,機器人在復雜環境中執行任務(如導航、操作和交互)的能力越來越依賴于對三維(3D)場景的實時、準確理解。這種能力被稱為“具身感知”,它要求機器人能夠實時處理連續的RGB-D視頻流,并生成對場景中物體的細粒度、高泛化的3D實例分割結果。

目前遇到的困難和挑戰

1、高質量3D數據稀缺:與2D圖像相比,高質量的3D標注數據極為有限,這使得直接在3D中訓練模型變得不切實際。

2、實時性要求:具身任務需要模型在數據采集的同時進行感知,且必須具備高推理速度,以支持機器人的實時規劃和控制。

3、泛化能力不足:現有方法大多依賴于離線處理或手工設計的策略,難以在不同場景和傳感器參數下保持一致的性能。

二、讓我們一起來看一下EmbodiedSAM框架

EmbodiedSAM(ESAM)是一種在線3D實例分割框架,目的利用2D視覺基礎模型的強大能力,實現對3D場景的實時、細粒度分割。該框架的核心思想是將2D分割掩碼提升為3D查詢,并通過雙層查詢解碼器進行迭代優化,最終生成準確的3D實例掩碼。ESAM的主要模塊包括:

1、幾何感知查詢提升模塊:

該模塊將SAM生成的2D掩碼轉化為3D感知的查詢,通過點云特征提取和超點(superpoints)聚合,保留細粒度 形狀信息。

2、雙層查詢解碼器:

通過掩碼交叉注意力和前饋網絡,該解碼器迭代優化查詢,生成點級3D掩碼,同時支持超點級和點級特征的高效交互。

3、快速查詢合并策略:

利用幾何、對比和語義相似性輔助任務,ESAM通過矩陣運算快速計算掩碼之間的相似度,并通過二分圖匹配合并實例掩碼,實現高效的在線更新。

ESAM概述

我們的高效查詢合并策略的詳細信息。我們提出了三種具有代表性的輔助任務,它們以向量的形式生成幾何、對比和語義表示。然后可以通過矩陣乘法有效地計算相似性矩陣。我們進一步修剪了相似性矩陣,并采用二分匹配來合并實例。

不同 3D 實例分割方法在 ScanNet200 數據集上的可視化結果。如紅框所示,SAM3D 預測有噪聲的掩模,而 SAI3D 傾向于將實例過度分割為多個部分。

合并策略的輔助任務可視化。(a) 幾何相似性的 3D 框預測。我們可視化對象在不同時間 moment 的邊界框。(b) 對比相似性的實例特異性表示的 t-SNE 可視化。不同的顏色表示不同的實例,不同的點表示不同幀的實例特征。(c) 語義相似性的查詢式語義分割。

三、EmbodiedSAM應用場景

比如在工廠里,有一個機器人機械臂,它的任務是從傳送帶上抓取各種形狀和大小的零件,然后把它們精確地安裝到一臺正在組裝的機器上。這個任務聽起來好像挺簡單的,但實際上,傳送帶上的零件擺放得亂七八糟,有的歪著,有的躺著,還有的可能被別的零件遮擋了一部分。而且,零件的種類也不止一種,每種零件的形狀和尺寸都不一樣。

這時候,ESAM就派上大用場了!

首先,工廠里安裝了一個RGB-D攝像頭,它會實時拍攝傳送帶上的畫面,并且把彩色圖像和深度信息一起傳送給機器人。ESAM就像是機器人的眼睛和大腦,它能夠快速地處理這些圖像和深度數據。

具體來說,ESAM的工作是這樣的:

1、實時識別和分割:當傳送帶上的零件進入攝像頭的視野時,ESAM會在不到一秒鐘的時間內,把傳送帶上的每個零件都識別出來,并且用3D的方式把它們分割開來。比如,傳送帶上有一個圓形的齒輪和一個方形的金屬塊,ESAM不僅能準確地分辨出這是兩個不同的物體,還能把它們的形狀、大小和位置都精確地“畫”出來。

2、提供3D信息:ESAM不僅告訴機器人“這里有東西”,還會告訴機器人這些零件具體在3D空間里的位置。比如,它會告訴機器人:“嘿,那個齒輪在傳送帶的左邊,離你大概50厘米遠,直徑是10厘米。”這樣,機器人就可以根據這些精確的信息,調整自己的機械臂,準確地移動到齒輪的上方。

3、機械臂抓取和操作:有了ESAM提供的3D信息,機械臂就可以輕松地調整自己的姿態和抓取動作。比如,它會根據齒輪的形狀和位置,調整抓手的角度和力度,然后穩穩地把齒輪抓起來,再把它送到指定的位置安裝上去。如果遇到被遮擋的零件,ESAM也能通過3D信息幫助機器人判斷零件的完整形狀,從而讓機械臂找到最佳的抓取點。

在整個過程中,ESAM就像一個超級聰明的助手,讓機器人能夠快速、準確地完成任務。而且,不管傳送帶上的零件怎么變,ESAM都能實時處理,讓機器人始終保持高效的工作狀態。這樣一來,工廠的生產效率就能大大提高,而且出錯率也會大大降低。

論文中提到數據集

數據集:ScanNet

數據集介紹:ScanNet是一個包含數千個室內場景的三維點云數據集,用于三維視覺研究。

數據集地址:ScanNet|三維視覺數據集|室內場景重建數據集

數據集:ScanNet200

數據集介紹:ScanNet200數據集包含了200個自然類別不平衡的3D場景。

數據集地址:ScanNet200|三維場景分割數據集|增量學習數據集

數據集:SceneNN

數據集介紹:一個由 100 多個室內場景組成的 RGB-D 場景數據集。

數據集地址:SceneNN:帶有注釋的場景網格數據集,RGB-D 場景數據集|3D視覺數據集|計算機視覺數據集

數據集:3RScan

數據集介紹:3RScan數據集用于訓練和評估三元組網絡,從所有RGB相機圖像中選擇適合訓練的圖像,并根據不同的標準組合成三元組(錨點、正樣本、負樣本)

數據集地址:3RScan|深度學習數據集|圖像識別數據集

更多經典數據集,請打開:遇見數據集

經典數據集從千萬數據集中千里挑一,經過了時間和應用的考研,已成為算法和模型性能評估的基準,是各個領域的數據集代表https://www.selectdataset.com/classics

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73082.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73082.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73082.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

信創-人大金倉數據庫創建

一. 官文 資源下載地址 https://download.kingbase.com.cn/xzzx/index.htm 下載安裝文件 下載授權文件 產品文檔地址:https://help.kingbase.com.cn/v8/index.html 二. 概念 2.1 體系結構 ? 實例結構 ?:由數據庫文件和 KingbaseES 實例組成。數據…

C++第三種異質集合 std::any方式實現

#include <type_traits> #include <any> #include <functional> #include <iomanip> #include <iostream> #include <typeindex> #include <typeinfo> #include <unordered_map> #include <vector> //any是編譯期的異質…

Springboot實現使用斷點續傳優化同步導入Excel

springboot實現使用斷點續傳優化同步導入Excel 需求前言斷點續傳前端實現后端實現完結撒花&#xff0c;如有需要收藏的看官&#xff0c;順便也用發財的小手點點贊哈&#xff0c;如有錯漏&#xff0c;也歡迎各位在評論區評論&#xff01; 需求前言 在跨境電商系統中&#xff0c…

mysql 對json的處理?

MySQL從5.7版本開始支持JSON數據類型&#xff0c;并提供了多種函數來查詢和處理JSON數據。以下是一些基本的操作和函數&#xff1a; 創建包含JSON列的表&#xff1a; 可以直接在表定義中指定某列為JSON類型。 CREATE TABLE my_table (id INT NOT NULL AUTO_INCREMENT,data JSON…

Nexus L2 L3基本配置

接口基本配置 N7K上所有端口默認處于shutdown狀態; N5K上所有端口默認處于no shutdown狀態(所有端口都是switchport) 默認所有接口都是三層route模式, 只有當線卡不支持三層的時候, 接口才會處于二層switchport模式 show run all | in “system default” 創建SVI口需要提前打…

HCIA-AI人工智能筆記3:數據預處理

統講解數據預處理的核心技術體系&#xff0c;通過Python/Pandas與華為MindSpore雙視角代碼演示&#xff0c;結合特征工程優化實驗&#xff0c;深入解析數據清洗、標準化、增強等關鍵環節。 一、數據預處理技術全景圖 graph TD A[原始數據] --> B{數據清洗} B --> B1[缺…

G-Star 校園開發者計劃·黑科大|開源第一課之 Git 入門

萬事開源先修 Git。Git 是當下主流的分布式版本控制工具&#xff0c;在軟件開發、文檔管理等方面用處極大。它能自動記錄文件改動&#xff0c;簡化合并流程&#xff0c;還特別適合多人協作開發。學會 Git&#xff0c;就相當于掌握了一把通往開源世界的鑰匙&#xff0c;以后參與…

MySQL錯誤 “duplicate entry ‘1‘ for key ‘PRIMARY‘“ 解決方案

文章目錄 1. 錯誤原因分析2. 快速解決方法場景1:手動插入重復值場景2:自增主鍵沖突場景3:批量插入沖突3. 長期預防策略4. 高級排查技巧該錯誤通常由主鍵沖突引起,表示嘗試插入或更新的主鍵值已存在于表中。以下是分步排查和解決方法: 1. 錯誤原因分析 主鍵唯一性約束:表…

WEB攻防-PHP反序列化-字符串逃逸

目錄 前置知識 字符串逃逸-減少 字符串逃逸-增多 前置知識 1.PHP 在反序列化時&#xff0c;語法是以 ; 作為字段的分隔&#xff0c;以 } 作為結尾&#xff0c;在結束符}之后的任何內容不會影響反序列化的后的結果 class people{ public $namelili; public $age20; } var_du…

把生產隊的大模型Grok 3 beta用來實現字帖打磨

第一個版本&#xff0c;就是簡單的田字格&#xff0c;Grok 3 beta 思考了15s就得到了html前端代碼&#xff0c;javascript; 然而還不完美&#xff1b; 第二個版本&#xff0c;進一步&#xff0c;通過pinyin項目給漢字加上注音&#xff0c;米字格和四線格&#xff1b;&#xff…

windows+ragflow+deepseek實戰之一excel表查詢

ragflows平臺部署參考文章 Win10系統Docker+DeepSeek+ragflow搭建本地知識庫 ragflow通過python實現參考這篇文章 ragflow通過python實現 文章目錄 背景效果1、準備數據2、創建知識庫3、上傳數據并解析4、新建聊天助理5、測試會話背景 前面已經基于Win10系統Docker+DeepSeek+…

OpenCV圖像處理基礎2

接著上一篇OpenCV圖像處理基礎1繼續說。 圖像閾值處理 1、簡單閾值處理 ret, thresholded_image = cv2.threshold(image, thresh, maxval, cv2.THRESH_BINARY)thresh 是閾值,maxval 是最大值。 2、自適應閾值處理 thresholded_image = cv2.adaptiveThreshold(image, maxv…

go安裝lazydocker

安裝 先安裝go環境 https://blog.csdn.net/Yqha1/article/details/146430281?fromshareblogdetail&sharetypeblogdetail&sharerId146430281&sharereferPC&sharesourceYqha1&sharefromfrom_link 安裝lazydocker go install github.com/jesseduffield/laz…

【架構】單體架構 vs 微服務架構:如何選擇最適合你的技術方案?

文章目錄 ?前言?一、架構設計的本質差異&#x1f31f;1、代碼與數據結構的對比&#x1f31f;2、技術棧的靈活性 ?二、開發與維護的成本博弈&#x1f31f;1、開發效率的階段性差異&#x1f31f;2、維護成本的隱形陷阱 ?三、部署與擴展的實戰策略&#x1f31f;1、部署模式的本…

C#實現分段三次Hermite插值

目錄 一、Hermite插值介紹 1、功能說明 2、數學方法 二、代碼實現 1、CubicHermiteInterpolator類封裝 2、應用示例 三、導數值的獲取方式 1、數學方法介紹 2、代碼應用示例 四、其它封裝的分段三次Hermite插值類 1、方式一 &#xff08;1&#xff09;封裝代碼 &…

重要重要!!fisher矩陣元素有什么含義和原理; Fisher 信息矩陣的形式; 得到fisher矩陣之后怎么使用

fisher矩陣元素有什么含義和原理 目錄 fisher矩陣元素有什么含義和原理一、對角線元素( F i , i F_{i,i} Fi,i?)的含義與原理二、非對角線元素( F i , j F_{i,j} Fi,j?)的含義與原理Fisher 信息矩陣的形式矩陣的寬度有位置權重數量決定1. **模型參數結構決定矩陣維度**2.…

【STM32】uwTick在程序中的作用及用法,并與Delay函數的區別

一、uwTick 的作用 1.系統時間基準 uwTick 是一個全局變量&#xff08;volatile uint32_t&#xff09;&#xff0c;記錄系統啟動后的毫秒級時間累計值。默認情況下&#xff0c;它由 SysTick 定時器每 ?1ms 自動遞增一次&#xff08;通過 HAL_IncTick() 函數。例如&#xff0…

docker速通

docker 鏡像操作搜索鏡像拉取鏡像查看鏡像刪除鏡像 容器操作!查看容器運行容器run命令詳細介紹 啟動容器停止容器重啟容器查看容器狀態查看容器日志刪除容器進入容器 保存鏡像提交保存加載 分享社區登錄命名推送 docker存儲目錄掛載卷映射查看所有容器卷創建容器卷查看容器卷詳…

OpenCV旋轉估計(5)圖像拼接的一個函數waveCorrect()

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 waveCorrect 是OpenCV中用于圖像拼接的一個函數&#xff0c;特別適用于全景圖拼接過程中校正波浪形失真&#xff08;Wave Correction&#xff09…

Python、MATLAB和PPT完成數學建模競賽中的地圖繪制

參加數學建模比賽時&#xff0c;很多題目——諸如統計類、數據挖掘類、環保類、建議類的題目總會涉及到地理相關的情景&#xff0c;往往要求我們制作與地圖相關的可視化內容。如下圖&#xff0c;這是21年亞太賽的那道塞罕壩的題目&#xff0c;期間涉及到溫度、降水和森林覆蓋率…