2025-02-12,由清華大學和南洋理工大學的研究團隊開發 一種名為 EmbodiedSAM(ESAM)的在線3D實例分割框架。該框架利用2D視覺基礎模型輔助實時3D場景理解,解決了高質量3D數據稀缺的難題,為機器人導航、操作等任務提供了高效、準確的視覺感知能力。
一、研究背景
隨著機器人技術和人工智能的發展,機器人在復雜環境中執行任務(如導航、操作和交互)的能力越來越依賴于對三維(3D)場景的實時、準確理解。這種能力被稱為“具身感知”,它要求機器人能夠實時處理連續的RGB-D視頻流,并生成對場景中物體的細粒度、高泛化的3D實例分割結果。
目前遇到的困難和挑戰
1、高質量3D數據稀缺:與2D圖像相比,高質量的3D標注數據極為有限,這使得直接在3D中訓練模型變得不切實際。
2、實時性要求:具身任務需要模型在數據采集的同時進行感知,且必須具備高推理速度,以支持機器人的實時規劃和控制。
3、泛化能力不足:現有方法大多依賴于離線處理或手工設計的策略,難以在不同場景和傳感器參數下保持一致的性能。
二、讓我們一起來看一下EmbodiedSAM框架
EmbodiedSAM(ESAM)是一種在線3D實例分割框架,目的利用2D視覺基礎模型的強大能力,實現對3D場景的實時、細粒度分割。該框架的核心思想是將2D分割掩碼提升為3D查詢,并通過雙層查詢解碼器進行迭代優化,最終生成準確的3D實例掩碼。ESAM的主要模塊包括:
1、幾何感知查詢提升模塊:
該模塊將SAM生成的2D掩碼轉化為3D感知的查詢,通過點云特征提取和超點(superpoints)聚合,保留細粒度 形狀信息。
2、雙層查詢解碼器:
通過掩碼交叉注意力和前饋網絡,該解碼器迭代優化查詢,生成點級3D掩碼,同時支持超點級和點級特征的高效交互。
3、快速查詢合并策略:
利用幾何、對比和語義相似性輔助任務,ESAM通過矩陣運算快速計算掩碼之間的相似度,并通過二分圖匹配合并實例掩碼,實現高效的在線更新。
ESAM概述
我們的高效查詢合并策略的詳細信息。我們提出了三種具有代表性的輔助任務,它們以向量的形式生成幾何、對比和語義表示。然后可以通過矩陣乘法有效地計算相似性矩陣。我們進一步修剪了相似性矩陣,并采用二分匹配來合并實例。
不同 3D 實例分割方法在 ScanNet200 數據集上的可視化結果。如紅框所示,SAM3D 預測有噪聲的掩模,而 SAI3D 傾向于將實例過度分割為多個部分。
合并策略的輔助任務可視化。(a) 幾何相似性的 3D 框預測。我們可視化對象在不同時間 moment 的邊界框。(b) 對比相似性的實例特異性表示的 t-SNE 可視化。不同的顏色表示不同的實例,不同的點表示不同幀的實例特征。(c) 語義相似性的查詢式語義分割。
三、EmbodiedSAM應用場景
比如在工廠里,有一個機器人機械臂,它的任務是從傳送帶上抓取各種形狀和大小的零件,然后把它們精確地安裝到一臺正在組裝的機器上。這個任務聽起來好像挺簡單的,但實際上,傳送帶上的零件擺放得亂七八糟,有的歪著,有的躺著,還有的可能被別的零件遮擋了一部分。而且,零件的種類也不止一種,每種零件的形狀和尺寸都不一樣。
這時候,ESAM就派上大用場了!
首先,工廠里安裝了一個RGB-D攝像頭,它會實時拍攝傳送帶上的畫面,并且把彩色圖像和深度信息一起傳送給機器人。ESAM就像是機器人的眼睛和大腦,它能夠快速地處理這些圖像和深度數據。
具體來說,ESAM的工作是這樣的:
1、實時識別和分割:當傳送帶上的零件進入攝像頭的視野時,ESAM會在不到一秒鐘的時間內,把傳送帶上的每個零件都識別出來,并且用3D的方式把它們分割開來。比如,傳送帶上有一個圓形的齒輪和一個方形的金屬塊,ESAM不僅能準確地分辨出這是兩個不同的物體,還能把它們的形狀、大小和位置都精確地“畫”出來。
2、提供3D信息:ESAM不僅告訴機器人“這里有東西”,還會告訴機器人這些零件具體在3D空間里的位置。比如,它會告訴機器人:“嘿,那個齒輪在傳送帶的左邊,離你大概50厘米遠,直徑是10厘米。”這樣,機器人就可以根據這些精確的信息,調整自己的機械臂,準確地移動到齒輪的上方。
3、機械臂抓取和操作:有了ESAM提供的3D信息,機械臂就可以輕松地調整自己的姿態和抓取動作。比如,它會根據齒輪的形狀和位置,調整抓手的角度和力度,然后穩穩地把齒輪抓起來,再把它送到指定的位置安裝上去。如果遇到被遮擋的零件,ESAM也能通過3D信息幫助機器人判斷零件的完整形狀,從而讓機械臂找到最佳的抓取點。
在整個過程中,ESAM就像一個超級聰明的助手,讓機器人能夠快速、準確地完成任務。而且,不管傳送帶上的零件怎么變,ESAM都能實時處理,讓機器人始終保持高效的工作狀態。這樣一來,工廠的生產效率就能大大提高,而且出錯率也會大大降低。
論文中提到數據集
數據集:ScanNet
數據集介紹:ScanNet是一個包含數千個室內場景的三維點云數據集,用于三維視覺研究。
數據集地址:ScanNet|三維視覺數據集|室內場景重建數據集
數據集:ScanNet200
數據集介紹:ScanNet200數據集包含了200個自然類別不平衡的3D場景。
數據集地址:ScanNet200|三維場景分割數據集|增量學習數據集
數據集:SceneNN
數據集介紹:一個由 100 多個室內場景組成的 RGB-D 場景數據集。
數據集地址:SceneNN:帶有注釋的場景網格數據集,RGB-D 場景數據集|3D視覺數據集|計算機視覺數據集
數據集:3RScan
數據集介紹:3RScan數據集用于訓練和評估三元組網絡,從所有RGB相機圖像中選擇適合訓練的圖像,并根據不同的標準組合成三元組(錨點、正樣本、負樣本)
數據集地址:3RScan|深度學習數據集|圖像識別數據集
更多經典數據集,請打開:遇見數據集
經典數據集從千萬數據集中千里挑一,經過了時間和應用的考研,已成為算法和模型性能評估的基準,是各個領域的數據集代表https://www.selectdataset.com/classics