VidBot:從野外 2D 人體視頻中學習可泛化的 3D 動作,實現零樣本機器人操控

25年3月來自慕尼黑工大、瑞士 ETH 和微軟的論文“VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation”。

未來的機器人被設想為能夠執行各種家務的多功能系統。最大的問題仍然是,如何在盡量減少機器人物理學習的同時彌合具身之間的差距,因為物理學習從根本上來說擴展性不強。從自然人類視頻中學習,為機器人操作任務提供了一個有前途的解決方案,因為互聯網上已經存在大量相關數據。這項工作提出 VidBot,一個實現零樣本機器人操作的框架,使用從自然單目 RGB 人類視頻中學習的 3D affordance。VidBot 利用一個流水線提取顯式表征,即來自視頻的 3D 手部的軌跡,結合深度基礎模型和運動結構技術來重建與具身無關、時間一致、度量-尺度的 3D affordance 表征。其引入一種由粗到細的 affordance 學習模型,該模型首先從像素空間中識別粗略動作,然后利用擴散模型生成細粒度的交互軌跡。該模型以粗略動作為條件,并由測試時間約束引導,用于上下文-覺察的交互規劃,從而能夠大規模泛化到新的場景和具身。大量實驗證明 VidBot 的有效性,它在零樣本環境下的 13 項操作任務中顯著優于其他同類模型,并且可以在現實環境中無縫部署到機器人系統中。VidBot 為利用日常人類視頻提高機器人學習的可規模化鋪平道路。

如圖所示 VidBot:

請添加圖片描述

人工智能的進步正在加速個性化設備的開發,例如為用戶提供虛擬指導的智能眼鏡 [13, 22, 28, 62]。在不久的將來,機器人也將成為類似于智能手機或智能眼鏡的個性化系統,旨在為人類提供物理幫助。然而,機器人形態的多樣性和新穎性,對在開放式環境中部署人工智能執行開放式任務構成重大挑戰。

目前最先進的學習機器人操作技能方法,仍然嚴重依賴于人類專家的遙操作演示,這些演示用于在模仿學習 (IL) 范式下訓練機器人策略 [35, 37, 64, 95]。然而,這一過程仍然成本高昂、耗時且勞動密集。雖然近期的努力已經收集用于日常操作任務的大規模機器人演示,例如 Open X-Embodiment [59] 和 DROID [39],但由于機器人實例、任務和環境的組合爆炸式增長,數據收集仍然具有挑戰性。

人類視頻提供一個有前途的可解決方案:目前有大量的網絡視頻捕捉到人類在各種環境中執行各種任務的場景。之前已有幾種方法探索人-機技能遷移 [2, 3, 65, 73, 78, 79, 88, 97]。然而,它們面臨著某些限制,例如需要靜態攝像機或場景、深度傳感器、動作捕捉系統等。這些限制通常導致實驗室環境缺乏場景、照明或視點的多樣性。有一系列研究探索利用具有豐富場景背景的互聯網真人視頻,來提升機器人學習任務,重點是學習視覺運動策略的視覺表征 [52, 57, 67, 85]。然而,一個主要的限制是依賴于人類在每個新環境中用每個新實例收集特定于任務的遙控數據來微調預訓練的模型。最近,像 [4] 這樣的工作通過明確提取與智體無關的交互軌跡取得進展。然而,這些提取出的運動被簡化為像素空間中的二維矢量,限制它們直接部署到機器人上。除了局限于二維圖像平面的視覺表征或像素級動作提示之外,三維 affordance ——具體來說,具有空間感知的接觸點和交互軌跡——對于統一不同的實例以從感知中解釋動作至關重要。然而,從日常人類視頻中提取一般的 3D 舞蹈數據仍然是一個巨大的挑戰,阻礙了機器人通過觀察人類來學習操縱技能。

視覺 affordance 學習。核心在于確定智體應在何處以及如何與給定場景進行交互。一項研究使用手動注釋的數據集回歸 affordance [16, 19, 20, 55]。然而,收集 affordance 標簽的成本非常高昂。因此,最近的一項研究通過在模擬環境中部署智體來探索有效交互來解決這一挑戰 [12, 24, 54, 58, 83]。盡管這些方法提供一種無需人工干預的數據收集替代方案,但它們通常會受到獲取各種虛擬資產的成本限制。相比之下,人類視頻作為 affordance 先驗的更通用來源而備受關注。一些方法 [4, 27, 48, 56] 利用人類視頻中的手與物體接觸標簽來預測每像素 affordance 得分。然而,這些流程通常僅識別接觸區域或模擬圖像平面內的交互動作,缺乏空間感知。近期的研究 [7, 92] 嘗試利用流作為空間感知的 affordance 表征來解決這一限制。然而,這些方法需要在測試時提供目標圖像或初始接觸區域。

機器人向人類學習。先前的研究已經探索利用人類視頻來輔助機器人學習任務。一種方法是從人類視頻中學習視覺表征,并使用預訓練的視覺編碼器來訓練策略網絡 [6, 52, 57, 67, 82, 85, 89]。另一類研究則側重于從人類視頻中學習獎勵函數 [3, 10, 11, 43, 47, 75, 78, 86, 88]。此外,一些研究還使用從視頻中提取的運動屬性,例如估計 3D 手勢或跟蹤手腕軌跡 [5, 61, 65, 73, 74, 78, 79, 91]。然而,這些方法通常僅限于實驗室設置和/或需要人類專家進行進一步的遙操作演示。[4] 使用日常人類視頻來提取與具身無關的動作。然而,其推斷的二維像素級運動過于簡單且模糊,限制了其直接部署到機器人上。

機器人中的擴散模型。擴散模型是一種強大的學習范式,它通過迭代去噪過程來近似復雜的數據分布。近年來,它們已在各種生成式建模應用中取得了成功[15, 23, 31, 32, 40, 68–70, 81, 96]。在機器人領域,擴散模型已被證明是強大的策略學習框架[1, 14, 36, 38, 45, 46, 51, 84]。擴散策略[14]引入一個通用框架,用于通過條件去噪擴散過程生成多模態機器人軌跡。擴散器[36]通過結合獎勵函數增強引導軌跡采樣。后續研究[46, 51, 84]提出更具因式分解的策略學習框架,使擴散模型能夠在關鍵步驟之間生成平滑的動作。然而,這些方法側重于回歸極其有限的域內遙操作數據,且在測試過程中不存在模態或具身方面的差距。

本文采用一種原則性方法,利用運動恢復結構(SfM)進行機器人學習,開發一種基于梯度的優化流水線,從野外視頻中提取 3D 手部軌跡。同時引入一個由粗到細的 affordance 學習框架,以便從提取的各種訓練數據中學習豐富的動作。

目標是從日常人類視頻中學習一個分解的 affordance 模型 a = π({I ?, D ?}, l),其中 {I ?, D ?} 是 RGB-D 幀(圖像 ?I,深度 D ?),l 是語言指令。注意,深度幀可以從深度傳感器或度量-深度基礎模型獲得 [8, 90]。由于 affordance 表征預計與具身無關,按照先前的研究 [4, 48] 將最終輸出 affordance 表示 a 公式化為接觸點 c 和交互軌跡 τ,同時將此公式擴展到 3D 空間。具體而言,a = {c, τ}。N_c 是接觸點的數量,H 是軌跡范圍。注意,a 在觀察相機的幀中表征。

從人體視頻中獲取 3D Affordance

首先設計一個流程,用于從移動單目相機記錄的日常人體視頻中提取 3D 手部軌跡,其中每幀的姿態和位置均未知。

數據準備:給定一段包含彩色圖像的視頻 {?I_0,…,?I_T } 和語言描述 l,首先使用 SfM 系統 [71] 估計相機內參 K、每幀尺度未知的姿態 {T_WC_0,…,T_WC_T} 以及在世界坐標系中表達的稀疏特征點 {wl_0,…,wl_N_l}。利用度量-深度基礎模型 [8, 33, 90] 來預測每幀的稠密深度 {D?_0,…,D?_T}。進一步利用手部-物體檢測模型 [72] 和分割模型 [41, 94] 來獲取每幀手部和接觸物體的掩碼,即 {M_0h,…,M_Th}、{M_0o,…,M_T^o}。

利用提供的手部掩碼,進一步收集 I_0 之前的幀及其手部掩碼,使用視頻修復模型 [44] 獲得無手的幀 { ?I_0 , …, ?I_T}。

一致性姿態優化。首要目標是將相機姿態校正到度量空間尺度。為了實現這一目標,利用相機內參及其姿態,將稀疏特征點投影到每個圖像平面,從而優化所有幀的全局尺度 s_g。然后,優化所有幀的姿態 T_WC_i 和尺度 s_i,以補償由于手部-物體動態運動導致的 SfM 重建誤差,同時使預測的深度在不同視圖之間更加一致。

Affordance 提取。獲取每一幀的手部中心點,并將其變換到具有精確姿勢和尺度的第一幀,以計算交互軌跡τ?。在第一幀中均勻地下采樣手部點以獲取接觸點 c?,并從最后一幀中獲取目標點 g?,以監督 affordance 模型的中間預測。語言描述 l、來自[90]的修復顏色? I_0 及其深度? D_0,以及使用 M_0o 裁剪的修復目標圖像? I_0^o 被用作模型輸入。利用EpicKitchens-100 Videos數據集[18]及其由EpicFields[76]提供的SfM結果來展示流程的有效性。如圖展示了提取的結果:

請添加圖片描述

從粗到精的 affordance 學習

Affordance 模型概覽如圖所示。在設計模型時考慮兩個關鍵因素:(1)它應該能夠從大量自然人類 affordance 數據中捕捉基于觀察和指令的動作分布。(2)它應該在測試期間利用上下文信息來緩解由于訓練數據不完善而導致的具身差距和潛在的噪聲預測,從而提高生成的 affordance 質量。

請添加圖片描述

為了解決第一個因素,將 affordance 模型 π 分解為粗略模型 π_c 和精細模型 π_f。在粗略階段,π_c 進行高級場景理解,以 RGB-D 幀 { ?I, D ?} 和指令 l 為條件推斷出一組目標點 g 和接觸點 c,即 {g, c} = π_c({ ?I, D ? }, l), a_c = {g, c}。給定粗的階段輸出和任務輸入,π_f 在低層規劃細粒度的交互軌跡,τ = π_f({ ?I, D ? }, l, a_c)。為了實現第二個因素,為 π_f 集成多個分析成本函數,并在測試期間融入場景上下文和智體具身。這些約束指導軌跡生成過程,從而生成更合理、更能上下文-覺察的交互軌跡。

接觸點 c 和交互軌跡 τ 將成為最終的 affordance 輸出 a = {c, τ}。

在粗略階段,粗略 affordance 模型旨在從高維圖像空間中提取宏觀可操作信息。為了實現這一點,通過學習粗略affordance 的概率及其對應的深度(適用的時候)在像素空間中表示粗略操作點。

精細 affordance 模型用于推斷由接觸點和目標點引導的細粒度交互軌跡。受[36]啟發,精細階段建模一個條件擴散去噪過程。

成本-引導軌跡生成

如果條件目標點 g ? 存在偏移,推斷出的軌跡可能會出錯。這是預料之中的,因為 π_f 本質上充當了接觸點 c ? 和目標點 g ? 之間的間隙填充器。用于調節的最佳目標點并非總是基于預測分數來選擇,而來自目標集 g 的多個目標點可以產生更多樣化、更穩健的預測。然而,通過采樣不同的目標配置來多次查詢 affordance 模型在計算上效率低下。因此,將多目標調節轉換為成本函數,以在測試期間引導軌跡生成。此外,成本函數還包括場景避撞引導和接觸點法線引導。

其采用了 [32, 69] 中的重建引導。在軌跡生成過程中引入測試-時引導,有幾個優點:1)軌跡可以更好地捕捉目標分布,而無需通過精細 affordance 模型進行大量的前向傳遞。2)可以考慮新具身的形態和以前未見過的物體幾何,從而提供無碰撞的手部軌跡,并可輕松集成到下游全身規劃中。3)每個軌跡的最終成本值 J 是智體選擇最佳交互規劃的參考標準。

Affordance 模型訓練

為了訓練粗略的 affordance 模型,即 π_cgoal 和 π_c^cont,將提取的目標點 g? 和接觸點 c? 投影到圖像平面,并通過擬合高斯混合模型獲得真實概率,最終得到 H?_g 和 H?_c。目標深度 D?_g,還通過 π_goal 進行回歸,其是目標點的中值深度。引入一個輔助向量場回歸損失 L_v,用于粗略的可供性模型訓練。

模擬器環境。使用 IsaacGym [53] 作為基準測試的模擬平臺,并基于 [43] 開發環境。從三個廣泛使用的基準測試集(FrankaKitchen [30]、PartManip [24] 和 ManiSkill [29])中選擇 13 項日常家務任務。這些任務包含打開、推動、滑動等基本動作,以及櫥柜、抽屜和水壺等各種物體。每個任務從三個不同的視角進行評估。每個模型為每個視角生成五條軌跡,每個模型每個任務總共進行 15 次試驗。評估方案使用先前研究中常用的成功率 (%) 來量化性能,其中成功的交互定義,為使任務目標的自由度 (DoF) 超過預先指定的閾值,并且不與場景中的其他物體發生碰撞。

基線模型。將模型與幾個公開的代表性基線模型進行比較。具體來說,GAPartNet [25] 和 Where2Act [54] 是使用在模擬器中收集(并與之交互)的虛擬鉸接體資產進行訓練的。Octo [59] 在大規模遙控數據集 [60] 上進行了預訓練,并使用收集的數據集進行進一步微調。VRB [4]、GFlow [92] 和模型都使用人類視頻進行訓練,而 GFlow [92] 可以訪問 [50] 中的真值深度、相機參數和物體姿態。因此,VRB [4] 和模型可以在更多的野外環境中運行。遵循 [42] 中的策略,使用物體法線聚類作為線索,將像素級軌跡從 VRB [4] 提升到 3D。VRB [4] 和 GFlow [92] 等基線無法準確推斷接觸區域。為了確保公平比較,使用自己的模型來推斷和標準化接觸配置。因此,基準測試的重點是預測準確的交互軌跡,這比接觸區域更具挑戰性。

真實機器人。在兩個現實世界的移動機器人平臺上驗證框架的有效性:Hello Robot Stretch 3 和 Boston Dynamics Spot(參見下圖)。這兩個機器人都配備用于感知的機載 RGB-D 攝像頭,并接收用于操作任務的語言指令。在三種不同的適合人類的環境中測試機器人物理能力范圍內的幾項家務任務,例如推抽屜、打開櫥柜和拿紙巾。總體而言,機器人在 55 次試驗中取得 80.0% 的成功率,證明該框架的具身不可知性和零樣本可遷移性。

請添加圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/77273.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/77273.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/77273.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux 日常運維命令大全

Linux 作為一種開源操作系統,在服務器運維中扮演著重要角色。掌握常用的 Linux 命令對于運維人員而言至關重要。本文將整理一份 Linux 服務器運維常用命令大全,幫助你在日常工作中提高效率和準確性。 1. 基礎命令 基礎命令是Linux操作的起點&#xff0…

編程規范之枚舉

編程規范之枚舉 1.1 初始化枚舉項 枚舉平時用的也沒有很頻繁,今天看代碼規范提到枚舉類型初始化枚舉項。并對初始化枚舉項進行了歸納。包括下面三個 不進行顯示初始化,交由編譯器完成。 對第一個枚舉項的顯式初始化,這樣可以強制整數值的…

《軟件設計師》復習筆記(12.1)——范圍管理、進度管理

目錄 一、范圍管理 1. 核心概念 2. 范圍管理過程 WBS(工作分解結構)示例 真題示例: 二、進度管理 1. 核心過程 2. 關鍵工具與技術 真題示例: 一、范圍管理 1. 核心概念 項目范圍:為交付產品必須完成的工作…

過去十年前端框架演變與技術驅動因素剖析

一、技術演進脈絡(2013-2023) 2013-2015:結構化需求催生框架雛形 早期的jQuery雖然解決了跨瀏覽器兼容性問題(如IE8兼容性處理),但其松散的代碼組織方式難以支撐復雜應用開發。Backbone.js的出現首次引入M…

中華傳承-醫山命相卜-梅花易數

梅花易數 靈活起卦(如數字、聲音、外應等)和象數結合,準確率可達96.8%。其起卦方式擺脫傳統龜殼、蓍草的繁瑣,強調直覺與靈活性。 個人決策、事件預測等 尤其在短期、具體問題上表現突出。

如何用Brower Use WebUI實現網頁數據智能抓取與分析?

作者:算力魔方創始人/英特爾創新大使劉力 Browser-use是一款能讓AI智能體像人類一樣操作網頁的創新工具,與傳統網絡爬蟲技術相比,Browser-use能模擬人瀏覽并操作網頁,在采集網站數據時,不會被網站反爬機制識別和封禁&…

LIMS引領綜合質檢中心數字化變革,賦能質量強國戰略

在質量強國戰略的深入推進下,我國綜合質檢機構迎來了前所未有的發展機遇,同時也面臨著諸多嚴峻挑戰。隨著檢測領域從傳統的食品藥品監督向環境監測、新材料檢測等新興領域不斷拓展,跨領域協同管理的復雜度呈指數級增長。作為提升產品質量的關…

簡單好用的在線工具

用AI寫了一些在線工具,簡介好用,推薦給大家,歡迎大家使用并提議意見。 網址:https://www.bittygarden.com/ 目前已有以下功能: MD5SM3SHAUnicode 編碼Unicode 解碼Base32 編碼Base32 解碼Base64 編碼Base64 解碼URL …

阿里云服務器搭建開源版禪道

一,下載地址:禪道11.5版本發布,主要完善細節,修復bug,新增動態過濾機制 - 禪道下載 - 禪道項目管理軟件 下載地址二: 禪道21.6.stable 實現舊編輯器撰寫的文檔無感升級至新版編輯器 - 禪道下載 - 禪道項目…

leetcode 309. Best Time to Buy and Sell Stock with Cooldown

目錄 題目描述 第一步,明確并理解dp數組及下標的含義 第二步,分析并理解遞推公式 1.求dp[i][0] 2.求dp[i][1] 3.求dp[i][2] 第三步,理解dp數組如何初始化 第四步,理解遍歷順序 代碼 題目描述 這道題與第122題的區別就是賣…

嵌入式硬件常用總線接口知識體系總結和對比

0.前言 在嵌入式工程實現中,多多少少我們都使用過總線,各種各樣的總線應用于不同場合,不同場景有不同的優勢,但是我們在作為工程師過程中在如何選擇項目合適的總線,根據什么來選?需要我們對項目全局和總線特征有所了解,本文目的就是對比多種總線的關鍵特征 我們在聊到…

數據分析處理庫Pandas常用方法匯總

目錄 一、基礎操作 1.1 創建df對象 1.1.1 讀入表格數據 1.1.2 手動創建df 1.2 .info() 1.3 df.index 1.4 df.columns 1.5 df.dtypes 1.6 df.values 1.7 .set_index() 1.8 df[xxx] 1.9 .describe() 1.10 .isin() 1.12 .where() 1.13 .query() 1.14 Series類型運算…

智慧大屏系統

延凡智慧大屏系統旨在打破數據壁壘,將海量、復雜的數據轉化為直觀易懂的可視化圖形和信息,廣泛應用于城市管理、企業運營、交通指揮、能源監控等多個領域,為管理者、決策者提供全面、實時、精準的信息展示和分析工具,助力高效決策…

樹莓派超全系列教程文檔--(32)config.txt常用音頻配置

config.txt常用音頻配置 板載模擬音頻(3.5mm耳機插孔)audio_pwm_modedisable_audio_ditherenable_audio_ditherpwm_sample_bits HDMI音頻 文章來源: http://raspberry.dns8844.cn/documentation 原文網址 板載模擬音頻(3.5mm耳機…

23種設計模式全面解析

設計模式是解決軟件設計中常見問題的經典方案。根據《設計模式:可復用面向對象軟件的基礎》(GoF),23種設計模式分為以下三類: 一、創建型模式(5種) 目標:解耦對象的創建過程&#x…

AI 推理框架詳解,包含如COT、ReAct、LLM+P等的詳細說明和分類整理,涵蓋其原理、應用場景及對比分析

AI 推理引擎 以下是關于 AI 推理引擎 的詳細說明,涵蓋其定義、類型、核心組件、技術實現、應用場景及挑戰: 1. 推理引擎的定義 推理引擎(Inference Engine)是 AI系統的核心組件,負責根據輸入數據、知識庫或預訓練模…

《探秘鴻蒙分布式軟總線:開啟無感發現與零等待傳輸新時代》

在數字化浪潮中,設備之間的互聯互通成為構建智能生態的關鍵。鴻蒙系統中的分布式軟總線技術,宛如一座橋梁,讓各種智能設備緊密相連。尤其是其實現的設備間無感發現和零等待傳輸功能,更是為用戶帶來了前所未有的便捷體驗&#xff0…

JDBC 與 MyBatis 詳解:從基礎到實踐

目錄 一、JDBC 介紹 二、使用 JDBC 查詢用戶信息 三、ResultSet 結果集 四、預編譯 SQL - SQL 注入問題 五、預編譯 SQL - 性能更高 六、JDBC 增刪改操作 插入數據: 更新數據: 刪除數據: 七、MyBatis 介紹 八、MyBatis 入門程序 引…

基于SpringBoot成績管理系統設計與實現(源碼+文檔+部署講解)

技術范圍:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬蟲、數據可視化、小程序、安卓app、大數據、物聯網、機器學習等設計與開發。 主要內容:免費功能設計、開題報告、任務書、中期檢查PPT、系統功能實現、代碼編寫、論文編寫和輔導、論文…

<sql>、<resultMap>、<where>、<foreach>、<trim>、<set>等標簽的作用和用法

目錄 一. sql 代碼片段標簽 二. resultMap 映射結果集標簽 三. where 條件標簽 四. set 修改標簽 五. trim 標簽 六. foreach 循環標簽 一. sql 代碼片段標簽 sql 標簽是 mybatis 框架中一個非常常用的標簽頁,特別是當一張表很有多個字段多,或者要…