論文閱讀筆記——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

RoboGround 論文
一類中間表征是語言指令,但對于空間位置描述過于模糊(“把杯子放桌上”但不知道放桌上哪里);另一類是目標圖像或點流,但是開銷大;由此 GeoDEX 提出一種兼具二者的掩碼。

相比于 GR-1,通過分割算法,提出了局部 Mask,以及相應的坐標,增強了空間理解。

現有的語言條件下的仿真數據集常常存在物體和環境多樣性不足,或者缺乏廣泛的指令和復雜場景,基于 RoboCasa 引入一種自動化數據生成流程。
在這里插入圖片描述

數據集

在 Objaverse 中借助 GPT-4o,篩選并識別出1)適合桌面使用的物品;2)與廚房相關的物品;3)排除多件物品組合;再經過人工審核,挑選出 1017 個高質量桌面操作物體。
原有的語言條件數據集:指令格式固定——模型只需要學習指令到任務的映射,無需深入理解指令,導致泛化能力差。

  • Appearance——從 4 個視角(正面、背面、左側和右側)渲染每個物體,由此組合成一張綜合圖像,再用 GPT-4 提取特征(顏色、材質、形狀等),隨機選取一個作為物體特征并過濾掉場景中包含該特征的其他物體。然后通過 CLIP 選擇干擾物。(選取一組代表物,通過他們學習別的特征混合的物體)
  • Spatial——指定物體以及位置坐標的指令。
  • Commonsense——使用 GPT-4 為每個任務提供機器人的視角圖像(左側、右側和手部視角),以及目標物體及其預期位置的詳細信息。(傳統:把紅色的杯子從桌子上拿起來;常識:把杯子從桌子上拿起來)

在這里插入圖片描述

定位視覺語言模型

  • y t = L ( f v ( C L I P ( x v ) ) , x t ) y_t=L(f_v(CLIP(x_v)),x_t) yt?=L(fv?(CLIP(xv?)),xt?) 模型通過一個提示來感知圖像,提示的格式為:“The <IMAGE> provides an overview of the picture”。其中 <IMAGE> 標記被替換為投影后的視覺特征,表示為256個標記的序列。
  • 在定位頭中,采用預訓練的 SAM 編碼器,解碼器類似 SAM 解碼器架構。在 LLM 的詞匯表中引入 <SEG> 提取與定位相關特征。由此生成二進制掩碼: M = D ( f s ( F s e g , E ( x v ) ) ) M=D(f_s(F_{seg},E(x_v))) M=D(fs?(Fseg?,E(xv?)))
    其中 f v , f s f_v,f_s fv?,fs? 為投影器, F s e g F_{seg} Fseg?<SEG> 標記對應的最后一層嵌入。

采用 GR-1 架構。

掩碼為機器人的策略提供了有用的空間引導。與其要求明確地將語義描述定位到具體物體上,策略網絡可以專注于利用這種結構化信息來改進物體定位和動作執行。
視覺特征 Z v ∈ R 197 × D v Z_v \in \mathbb{R}^{197×D_v} Zv?R197×Dv? Z v = V i T M A E ( L i n e a r ( C o n c a t ( x v , M o , M p ) ) ) Z_v=ViTMAE(Linear(Concat(x_v,M_o,M_p))) Zv?=ViTMAE(Linear(Concat(xv?,Mo?,Mp?))) M o M_o Mo? 為目標物體掩碼, M p M_p Mp? 為放置區域掩碼。同時 Z v Z_v Zv? 還包含 CLS 特征 Z C L S v ∈ R 1 × D v Z_{CLS}^v\in R^{1×D_v} ZCLSv?R1×Dv? ,一組局部 patch Z v P ∈ R 196 × D Z_v^P \in R^{196×D} ZvP?R196×D
語言輸入通過 CLIP 編碼為 Z t Z_t Zt?,機器人狀態 x t x_t xt? 通過 MLP 投影為 Z s Z_s Zs?,以及一個可學習的動作標記 Z a c t Z_{act} Zact?
在 GR-1 中,Perceiver 作為一個標記重組器,通過在一組可學習的查詢標記和初始視覺特征之間進行迭代注意力層來減少從初始視覺特征中派生的特征數量。本文將注意力引導至掩碼所在的區域,引入兩組額外標記: Q o Q_o Qo? 用于目標物體, Q p Q_p Qp? 用于放置物體,在每個注意力層中,他們與 Z v P Z_v^P ZvP? 相互作用,注意力通過掩碼 M o M_o Mo? M p M_p Mp? 引導。

實驗結果

在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78700.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78700.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78700.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

K8S的使用(部署pod\service)+安裝kubesphere圖形化界面使用和操作

master節點中通過命令部署一個tomcat 查看tomcat被部署到哪個節點上 在節點3中進行查看 在節點3中進行停止容器&#xff0c;K8S會重新拉起一個服務 如果直接停用節點3&#xff08;模擬服務器宕機&#xff09;&#xff0c;則K8S會重新在節點2中拉起一個服務 暴露tomcat訪…

紛析云開源財務軟件:重新定義企業財務自主權

痛點直擊&#xff1a;傳統財務管理的三大桎梏 “黑盒”困局 閉源商業軟件代碼不可見&#xff0c;企業無法自主調整功能&#xff0c;政策變化或業務升級依賴廠商排期&#xff0c;響應滯后。 數據托管于第三方平臺&#xff0c;存在泄露風險&#xff0c;合規審計被動受限。 成本…

mybatis 的多表查詢

文章目錄 多表查詢一對一一對多 多表查詢 一對一 開啟代碼片段編寫 專注于 SQL的 編寫 JDBC 的寫法&#xff0c;注重于 SQL mybatis 在 一對一查詢時&#xff0c;核心在于 建立每個表對應的實體類主鍵根據 主鍵 id 進行查詢&#xff0c;副標根據 設定外鍵進行查詢 在 SQL編寫…

Scrapy爬蟲實戰:如何用Rules實現高效數據采集

Scrapy是一個強大的Python爬蟲框架&#xff0c;而其中的Rules類則為爬蟲提供了更高級的控制方式。本文將詳細介紹如何在Scrapy中使用Rules&#xff0c;以及各個參數的具體作用&#xff0c;并結合實際場景說明Rules的必要性。 為什么需要Rules&#xff1f; 在Web爬取過程中&…

ActiveMQ 性能優化與網絡配置實戰(一)

一、引言 在當今分布式系統和微服務架構盛行的時代&#xff0c;消息中間件作為實現系統間異步通信、解耦和削峰填谷的關鍵組件&#xff0c;其重要性不言而喻。ActiveMQ 作為一款廣泛應用的開源消息中間件&#xff0c;憑借其對多種消息協議的支持、靈活的部署方式以及豐富的功能…

免費視頻壓縮軟件

一、本地軟件&#xff08;支持離線使用&#xff09; 1. HandBrake 平臺&#xff1a;Windows / macOS / Linux 特點&#xff1a;開源免費&#xff0c;支持多種格式轉換&#xff0c;提供豐富的預設選項&#xff08;如“Fast 1080p”快速壓縮&#xff09;&#xff0c;可自定義分…

消除AttributeError: module ‘ttsfrd‘ has no attribute ‘TtsFrontendEngine‘報錯輸出的記錄

#工作記錄 嘗試消除 消除“模塊ttsfrd沒有屬性ttsfrontendengine”的錯誤的記錄 報錯摘錄&#xff1a; Traceback (most recent call last): File "F:\PythonProjects\CosyVoice\webui.py", line 188, in <module> cosyvoice CosyVoice(args.model_di…

Acrel-EIoT 能源物聯網云平臺在能耗監測系統中的創新設計

摘要 隨著能源管理的重要性日益凸顯&#xff0c;能耗監測系統成為實現能源高效利用的關鍵手段。本文詳細介紹了基于安科瑞Acrel-EIoT能源物聯網云平臺的能耗監測系統的設計架構與應用實踐。該平臺采用分層分布式結構&#xff0c;涵蓋感知層、網絡層、平臺層和應用層&#xff0…

計算機網絡-同等學力計算機綜合真題及答案

計算機網絡-同等學力計算機綜合真題及答案 &#xff08;2003-2024&#xff09; 2003 年網絡 第二部分 計算機網絡&#xff08;共 30 分&#xff09; &#xff08;因大綱變動因此 2004 年真題僅附真題&#xff0c;不作解析。&#xff09; 一、填空題&#xff08;共 10 分&#…

PyTorch常用命令詳解:助力深度學習開發

&#x1f4cc; 友情提示&#xff1a; 本文內容由銀河易創AI&#xff08;https://ai.eaigx.com&#xff09;創作平臺的gpt-4-turbo模型生成&#xff0c;旨在提供技術參考與靈感啟發。文中觀點或代碼示例需結合實際情況驗證&#xff0c;建議讀者通過官方文檔或實踐進一步確認其準…

深度學習:梯度下降法的數學原理

梯度下降法——是一種最優化算法,用于找到函數的局部極小值或全局最小值。它基于函數的梯度(或偏導數)信息來更新參數,目標是通過逐漸調整參數值來最小化目標函數的值。在機器學習算法中,梯度下降是最常采用的方法之一,尤其是在深度學習模型中,BP反向傳播方法的核心就是…

刷leetcodehot100返航版--哈希表5/5、5/6

回顧一下之前做的哈希&#xff0c;貌似只有用到 unordered_set&#xff1a;存儲無序元素unordered_map&#xff1a;存儲無序鍵值對 代碼隨想錄 常用代碼模板2——數據結構 - AcWing C知識回顧-CSDN博客 1.兩數之和5/5【30min】 1. 兩數之和 - 力扣&#xff08;LeetCode&am…

openwrt 使用quilt 打補丁(patch)

1,引入 本文簡單解釋如何在OpenWRT下通過quilt命令打補丁--patch&#xff0c;也可查看openwrt官網提供的文檔 2&#xff0c;以下代碼通過編譯net-snmp介紹 ① 執行編譯命令之后&#xff0c;進入build_dir的net-snmp-5.9.1目錄下&#xff0c;改目錄即為snmp最終編譯的目錄了 /…

【開發工具】Window安裝WSL及配置Vscode獲得Linux開發環境

筆者面試時需要本地IDE手撕代碼并測試&#xff0c;但是windows開發環境用不習慣&#xff0c;Min64和json配置也比較麻煩&#xff0c;因此采用WSLvscode的方式快速配置Linux開發環境 WSL安裝 直接在微軟商店搜索WSL即可 系統設置 開始菜單搜索啟用或關閉 Windows 功能&…

【C語言】初階數據結構相關習題(一)

&#x1f386;個人主頁&#xff1a;夜晚中的人海 今日語錄&#xff1a;人的生命似洪水在奔流&#xff0c;不遇著島嶼、暗礁&#xff0c;難以激起美麗的浪花。——奧斯特洛夫斯基 文章目錄 ?一、判定是否互為字符重排&#x1f389;二、 回文排列&#x1f680;三、字符串壓縮&am…

MySQL----數據庫的操作

1. 查看數據庫 語法&#xff1a;show databases; 示例展示&#xff1a; 2. 創建庫 語法&#xff1a; CREATE DATABASE [IF NOT EXISTS] database_name[CHARACTER SET charset_name][COLLATE collation_name]; 注意&#xff1a;[] 為可選項 {} 為必選項 database_name 為數據…

Dagger中編譯import報找不到ProvideClientFactory,initialize中ProvideClientFactory爆紅

解決方案&#xff1a;將對應Module移到主模塊&#xff0c;可能是依賴循環使用導致或者是模塊之間無法訪問及通信導致 為了重現問題&#xff0c;我還遠了此操作

Nacos源碼—4.Nacos集群高可用分析四

大綱 6.CAP原則與Raft協議 7.Nacos實現的Raft協議是如何寫入數據的 8.Nacos實現的Raft協議是如何選舉Leader節點的 9.Nacos實現的Raft協議是如何同步數據的 10.Nacos如何實現Raft協議的簡版總結 8.Nacos實現的Raft協議是如何選舉Leader節點的 (1)初始化RaftCore實例時會開…

擬南芥T2T基因組-文獻精讀127

A near-complete assembly of an Arabidopsis thaliana genome 擬南芥基因組的近乎完整組裝 擬南芥&#xff08;Arabidopsis thaliana&#xff09;基因組序列作為廣泛應用的模式物種&#xff0c;為植物分子生物學研究提供了巨大的推動力。在基因組序列首次發布后的20多年&…

一個關于fsaverage bem文件的說明

MNE文檔&#xff1a;基于模板 MRI 的 EEG 前向算子 Head model and forward computation 在了解了腦圖譜發展的過程之后&#xff0c;對腦的模版有了更深的認識&#xff0c;所以&#xff0c;對于之前使用的正向的溯源文件&#xff0c;進行一下解析&#xff0c;查看包含的信息&a…