點擊關注gongzhonghao【計算機sci論文精選】
1.導讀
1.1
論文基本信息
論文標題:ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors
作者:Haifeng Huang, Xinyi Chen, Hao Li, Xiaoshen Han, Yilun Chen, Tai Wang, Zehan Wang, Jiangmiao Pang,Zhou Zhao
作者單位:浙江大學、上海人工智能實驗室
發表會議:CVPR(計算機視覺與模式識別會議)
論文鏈接:https://arxiv.org/abs/2504.21530
圖靈學術論文輔導
2.論文概述
2.1
核心問題與背景
現有的模仿學習方法通常局限于特定場景,而大型視覺-語言-動作模型雖有進步,但在沒有大量特定數據和微調的情況下,仍難以泛化。
研究背景表明,通過引入中間表示可以為策略網絡提供指導。然而,現有的中間表示存在局限性:語言指令過于粗糙,缺乏空間精度;而目標圖像等細粒度表示則需要大量數據和計算資源。基于此,該論文通過引入一種兼具精細空間指導和強大泛化潛力的“接地掩碼”作為中間表示,來彌補現有方法的不足,從而構建一種更具魯棒性和泛化能力的機器人操縱策略。
2.2
主要貢獻
文章首先提出ROBOGROUND策略:一種新穎的、基于接地掩碼的機器人操縱策略,顯著提升了機器人的泛化能力 ;其次,團隊創建了大規模多樣化數據集:提出了一種自動化數據生成流水線,生成包含24K個演示和112K個多樣化指令的復雜數據集,涵蓋物體外觀、空間關系和常識知識。此外,團隊還通過廣泛的實驗證明了接地掩碼作為中間指導的有效性,驗證了該方法在泛化到新穎設置時的優越性能 。
2.3
關鍵技術與創新點
ROBOGROUND創造性地引入了“接地掩碼”作為中間表示,它兼具兩者優勢。掩碼能夠提供精確的像素級空間信息,同時通過與預訓練視覺-語言模型的結合,具備強大的泛化潛力。
接地視覺-語言模型:該模型基于GLaMM架構,能夠根據圖像和語言指令,為后續的策略網絡提供了高精度的空間指導。
接地感知器:為了高效利用掩碼信息,論文設計了接地感知器。它通過在注意力機制中引入掩碼引導,確保模型將注意力集中在關鍵的物體和區域上,顯著提升了策略網絡的性能。
指令多樣性:利用GPT-4等大型語言模型,生成了需要進行外觀、空間關系和常識推理的多種復雜指令,有效提高模型的學習能力。
3.研究背景及相關工作
3.1
現有機器人策略的泛化局限性
早期的機器人操縱策略主要依賴于從收集的演示中進行模仿學習,專注于在預定義場景中學習特定技能,因此泛化能力有限。近期VLA模型雖然通過大規模訓練數據和預訓練VLM來提升泛化能力,但它們仍然難以在沒有大量數據集和額外微調的情況下泛化到新穎環境中,而這些都成本高昂 。
3.2
中間表示的研究現狀
為了解決泛化問題,研究者們提出了使用中間表示來為策略網絡提供結構化指導。這些方法通常分為兩類:
易于獲取但粒度粗糙的表示:例如語言指令,雖然易于生成,但往往缺乏精細物體操縱所需的空間精度 。
粒度精細但資源密集型表示:例如目標圖像或點流,雖然提供了詳細的空間指導,但需要大量的訓練數據和計算資源,限制了其可擴展性。
3.3
相關工作對比
與本文方法密切相關的現有工作主要集中在兩個方面:中間表示和大型視覺-語言模型。
中間表示方法:許多方法探索了不同的中間表示,如語言指令、2D軌跡、點流、目標圖像等。與本文方法最接近的是MOO,它使用預訓練的VLM生成粗糙的邊界框。本文方法與之不同之處在于,它專注于獲取精細的物體掩碼,并引入了高效的Grounded Perceiver來更好地利用基于掩碼的中間指導,從而提高操縱性能 。
大型視覺-語言模型:本文,利用GLaMM模型生成目標物體和放置區域的接地掩碼,為低級策略網絡提供結構化指導。
4.實驗設計和方法
4.1
總體架構設計
論文提出的ROBOGROUND框架旨在通過將接地掩碼作為中間表示來增強機器人操縱策略的泛化能力。
接地視覺-語言模型:
基礎模型:模型以圖像和文本指令作為輸入,使用CLIP視覺編碼器獲取視覺特征,并通過MLP投影到LLM的嵌入空間。LLM結合視覺特征和文本指令生成文本輸出 。
像素級接地:團隊使用一個微調過的SAM編碼器和一個類似SAM的解碼器。一個特殊的標記被引入LLM的詞匯表中,用于提取與接地相關的特征。
接地策略網絡:
基礎模型:網絡遵循GR-1模型架構,處理歷史圖像觀察、機器人狀態和語言指令序列來預測未來的機器人動作 。
掩碼整合機制:對于每個輸入圖像,其對應的掩碼Mo和Mp通過通道拼接的方式整合進來。拼接后的圖像輸入通過一個線性層投影回3個通道,然后輸入到預訓練的ViTMAE編碼器中。
接地感知器:感知器接收來自視覺編碼器的補丁特征,并引入兩組額外的查詢token,分別對應目標物體和放置區域,它們在注意力層與補丁特征交互時,通過掩碼進行引導 。
5. 實驗結果分析
5.1
仿真環境與基線模型
實驗在RoboCasa仿真環境中進行,該環境提供了自動化的場景生成流水線。研究團隊將原始RoboCasa數據集歸類為“簡單”任務,并生成了包含“外觀”、“空間”和“常識”三類指令的復雜拾取-放置任務,以及開/關門、按按鈕等基本操縱技能任務。
5.2
主要結果與分析
在所有任務中,ROBOGROUND方法均顯著優于所有基線模型 。
在復雜任務上的表現:ROBOGROUND在“外觀”、“空間”和“常識”任務上的成功率均有大幅提升,這表明接地掩碼的引入對于處理語義豐富的指令至關重要 。
接觸率與成功率的差距:實驗觀察到,接觸率顯著高于成功率,這表明模型的抓取能力仍有待提升。
5.3
零樣本泛化評估
團隊為了評估模型的泛化能力,實驗設計了兩種零樣本設置:
未見實例:在訓練數據中已存在的類別中的新物體上進行評估。
未見類別:在訓練數據中未出現過的全新類別中的物體上進行評估 。
6.論文總結展望
6.1
論文總結
這篇論文成功地提出了ROBOGROUND這一新穎的機器人操縱策略,通過將“接地掩碼”作為中間表示,顯著增強了機器人策略的泛化能力。作者認為,接地掩碼能夠有效地平衡空間指導的精度和泛化潛力,為機器人策略網絡提供了關鍵的結構化信息。為了驗證這一方法的有效性,研究團隊設計了一套自動化數據生成流水線,構建了一個包含大規模、高復雜度和多樣化指令的仿真數據集。通過在這一挑戰性數據集上與多個基線模型進行廣泛對比實驗,以及在零樣本設置和消融研究中的深入分析,論文有力地證明了該方法在處理復雜、新穎場景和指令時的優越性。
6.2
論文展望
團隊認為,盡管ROBOGROUND取得了顯著成果,但論文也指出了未來的研究方向:
提升抓取精度:實驗結果顯示接觸率與成功率之間存在差距,這表明模型的抓取能力仍有提升空間。
探索更復雜的任務:當前的研究主要集中在拾取和放置任務以及一些基本技能上。未來的工作可以擴展到更復雜的、需要多步驟規劃和更精細操縱的機器人任務。
真實世界部署:當前工作主要在仿真環境中進行。將該方法泛化并部署到真實世界機器人上,將是未來的一個重要研究方向,需要解決仿真與現實之間的差距問題。
更高效的接地模型:未來可以探索更輕量級或更高效的接地模型,以加快推理速度并降低計算資源需求。
本文選自gongzhonghao【計算機sci論文精選】