港科大開放世界長時域具身導航!LOVON:足式機器人開放詞匯目標導航

  • 作者:Daojie Peng1^{1}1, Jiahang Cao1,2^{1,2}1,2, Qiang Zhang1,2^{1,2}1,2, Jun Ma1,3^{1,3}1,3
  • 單位:1^{1}1香港科技大學(廣州),2^{2}2北京人形機器人創新中心,3^{3}3香港科技大學
  • 論文標題:LOVON: Legged Open-Vocabulary Object Navigator
  • 論文鏈接:https://arxiv.org/pdf/2507.06747
  • 項目主頁:https://daojiepeng.github.io/LOVON/
  • 代碼鏈接:https://github.com/DaojiePENG/LOVON

主要貢獻

  • 提出統一框架LOVON,整合了LLMs、開放詞匯視覺檢測和L2MM,用于規劃和執行復雜的開放世界長時域導航任務。
  • 開發了基于拉普拉斯方差的運動模糊過濾方法,解決了動態模糊問題,提高了系統的魯棒性。同時,引入了機器人執行邏輯,確保對各種環境的適應性。
  • 通過仿真和多種足式機器人平臺(Unitree Go2、B2和H1-2)的實驗驗證了系統的有效性,結果表明LOVON能夠在非結構化環境中成功執行開放詞匯對象搜索和導航任務。

研究背景

  • 近年來,LLMs在自然語言理解、推理和任務分解方面取得了顯著進展,被廣泛應用于機器人領域的高級任務規劃。
  • 開放詞匯視覺感知技術也取得了突破性進展,使機器人能夠識別和理解超出預定義類別的多樣化對象。
  • 足式機器人因其出色的地形適應能力,在復雜環境中展現出巨大潛力。然而,大多數研究集中在單一任務上,如行走、跳躍、攀爬和短距離導航,缺乏對復雜長時域任務的全面考慮。

問題表述

  • 任務描述:機器人需要在任意開放世界環境中執行長時域任務,搜索不同目標。長時域任務 TlT_lTl? 被定義為一系列子任務的集合 Tl={Ti∣T1,T2,…?}T_l = \{T_i|T_1, T_2, \dots\}Tl?={Ti?T1?,T2?,},每個子任務對應搜索特定目標 OiO_iOi?。任務描述是靈活的,允許不同的任務目標。
  • 核心挑戰:機器人需要自主地搜索和識別不同的子目標(目標),根據任務指令以不同速度導航至這些目標。這些子目標在任務過程中可能會發生變化,要求機器人能夠動態適應。
  • 目標:開發一個雙系統模型:
    • 高級策略:能夠將復雜的任務指令 TlT_lTl? 分解為具體的子任務指令 Iins={Ii∣I1,I2,…?}I_{ins} = \{I_i|I_1, I_2, \dots\}Iins?={Ii?I1?,I2?,} 并執行任務規劃。
    • 低級策略:基于具體的子任務指令 IiI_iIi? 和視頻流輸入 IRGBI_{RGB}IRGB?,生成運動向量 Vm∈R3V_m \in \mathbb{R}^3Vm?R3 以實現精確的運動控制。該模型應能夠適應各種足式機器人,確保在實際應用中的多功能性。

方法

  • 最初,LLM將人類的長時域任務重新配置為基本任務指令。這些指令隨后傳遞給指令對象提取器(IOE)以識別目標對象。
  • 檢測模型處理捕獲的視頻流,輸入圖像使用拉普拉斯濾波器進行預處理。
  • 最后,將任務指令、目標對象、邊界框、任務狀態和搜索狀態結合起來作為提出的L2MM的輸入,L2MM生成機器人的控制向量和反饋狀態,以逐步完成所有任務。

多模態輸入處理

  • LOVON整合了兩個預訓練模型:用于視覺輸入處理的對象檢測模型和用于長時域任務管理的LLM。LLM的輸入包括系統描述 IsysI_{sys}Isys?、用戶的長序列任務描述 TlT_lTl? 和來自L2MM的反饋 OfO_fOf?。利用這些輸入,LLM生成具體任務指令 IiI_iIi?,使LOVON能夠通過產生實現任務目標所需的指令來執行長序列任務:
    Iins=fLLM(Isys,Tl,Of) I_{ins} = f_{LLM}(I_{sys}, T_l, O_f) Iins?=fLLM?(Isys?,Tl?,Of?)
  • 接著,提出的IOE將指令映射到檢測類別。IOE使用兩層Transformer和感知層來預測對象類別:
    Iobject=fIOE(Im)∈C I_{object} = f_{IOE}(I_m) \in C Iobject?=fIOE?(Im?)C
    其中 CCC 表示檢測模型能夠識別的類別集合。
  • 關于視覺處理,對象檢測模型以RGB圖像 IRGBI_{RGB}IRGB?IobjectI_{object}Iobject? 作為輸入,并輸出所需的檢測信息如下:
    Om,Cp,Oxy,Owh=fdet(IRGB,Iobject) O_m, C_p, O_{xy}, O_{wh} = f_{det}(I_{RGB}, I_{object}) Om?,Cp?,Oxy?,Owh?=fdet?(IRGB?,Iobject?)
    使用歸一化格式表示檢測結果,預測的對象記為 OmO_mOm?,置信度分數為 CpC_pCp?,邊界框中心位置為 Oxy=[xn,yn]O_{xy} = [x_n, y_n]Oxy?=[xn?,yn?]。邊界框的寬度和高度分別表示為 Owh=[wn,hn]O_{wh} = [w_n, h_n]Owh?=[wn?,hn?]。此外,還應用移動平均濾波器對對象檢測模型的輸出邊界框進行平滑處理,進一步提高穩定性。

基于拉普拉斯方差的運動模糊過濾

  • 當足式機器人處于運動狀態時,由此產生的波動會導致捕獲的幀出現運動模糊。尤其是在機器人動態運動的最初幾幀,模糊現象更為嚴重,這對視覺模型來說是一個挑戰。
  • 為了解決這個問題,提出了一種基于拉普拉斯方差的方法,用于檢測和過濾運動模糊的幀。這一預處理步驟通過減輕機器人運動和振動引起的運動模糊和失真,提高了輸入到基于對象檢測的視覺語言管道的魯棒性。
  • 具體來說,首先將RGB幀 IRGBI_{RGB}IRGB? 轉換為灰度圖像 IgrayI_{gray}Igray?。然后,應用拉普拉斯算子以增強高頻分量,得到拉普拉斯響應。計算拉普拉斯響應的方差以評估幀的清晰度。如果方差低于閾值 TblurT_{blur}Tblur?,則將該幀歸類為模糊幀,并用上一個清晰的幀替換它。閾值 TblurT_{blur}Tblur? 是針對機器人場景進行經驗校準的。

語言到運動模型(L2MM)

  • 提出的L2MM是負責預測運動和提供反饋的核心模塊。L2MM采用編碼器 - 解碼器架構。編碼器接收由以下組件組成的輸入序列:前一個任務指令 Im0I_{m0}Im0?、當前任務指令 Im1I_{m1}Im1?、預測的對象 OpO_pOp?、預測的置信度 CpC_pCp?、中心位置 OxyO_{xy}Oxy?、歸一化邊界框的寬度和高度 OwhO_{wh}Owh?、當前任務狀態 SmS_mSm? 以及當前搜索狀態 SsS_sSs?。這些輸入通過特殊標記 [SEP] 分隔后進行拼接,即 Iencoder={Im0,Im1,Op,Cp,Oxy,Owh,Sm,Ss}I_{encoder} = \{I_{m0}, I_{m1}, O_p, C_p, O_{xy}, O_{wh}, S_m, S_s\}Iencoder?={Im0?,Im1?,Op?,Cp?,Oxy?,Owh?,Sm?,Ss?}。編碼器處理該序列并輸出潛在狀態 lel_ele?

  • 該架構使模型能夠同時預測運動向量、任務狀態和搜索狀態,從而使機器人不僅能夠精確控制其運動,還能夠理解長任務序列并提供相關反饋。

損失函數

根據任務的不同,模型使用不同的損失函數進行訓練:

  • 運動向量損失:對于運動向量頭 DmotionD_{motion}Dmotion?,使用均方誤差損失,并使用系數 β\betaβ 來衡量預測運動向量與實際運動向量之間的差異:
    LMSE=1N∑i=1Nβ(Vipred?Vitrue)2 L_{MSE} = \frac{1}{N} \sum_{i=1}^{N} \beta (V_{i}^{pred} - V_{i}^{true})^2 LMSE?=N1?i=1N?β(Vipred??Vitrue?)2
  • 任務和搜索狀態損失:對于任務和搜索狀態頭 DmissionD_{mission}Dmission?DsearchD_{search}Dsearch?,使用交叉熵損失來比較預測狀態與真實標簽:
    LCE=?∑i=1Nyilog?(pi) L_{CE} = -\sum_{i=1}^{N} y_i \log(p_i) LCE?=?i=1N?yi?log(pi?)
    其中 yiy_iyi? 是真實標簽,pip_ipi? 是每個類別的預測概率。

機器人任務執行的功能邏輯

  • 執行新任務:機器人將當前任務指令與上一個任務指令進行比較,如果發現它們不同,機器人就會開始執行新的任務。
  • 奔向目標對象:一旦機器人檢測到任務目標,它就會根據運動向量和檢測結果向該目標移動。
  • 搜索丟失的目標對象:如果機器人失去了對任務目標的跟蹤,它會自動切換到搜索狀態,并調整其運動以重新找到目標。
  • 保持當前狀態:機器人會根據實時視覺輸入保持其當前狀態,直到觸發狀態轉換,確保任務執行的一致性。
  • 完成任務:機器人會持續監測任務目標,一旦目標的邊界框大小達到成功閾值,機器人就會停止并切換到成功狀態。

數據集準備

數據集生成流程包括三個主要部分:

  • 檢測類別同義詞擴展:使用LLM為預定義的對象類別生成同義詞,豐富對象類別,提高模型在不同對象描述下的泛化能力。
  • 指令變體生成:為了增強語言模塊,使用LLM生成任務指令的釋義。這使得模型能夠處理多樣化的句子結構,同時保留核心信息,提高其適應性。
  • 對象類別的閾值生成:根據初始示例定義對象檢測的成功閾值,然后使用LLM為其他類別調整這些閾值,確保模型能夠處理不同大小的對象。
  • 數據集生成特點:在生成過程中,生成的數據會反饋到LLM中,以迭代地優化數據集,避免冗余,提高數據集的多樣性。數據集生成過程快速且易于擴展,使用CPU Intel i9-12900KF在不到15分鐘內就可以生成100萬條數據。

實驗

實驗設置

  • 模型細節:使用YOLO-11作為對象檢測模型,DeepSeek R1作為任務規劃器和數據生成助手。L2MM是一個基于Transformer的模型,具有256維特征、4層、8個注意力頭、1024維前饋層和一個線性頭層。IOE具有類似的架構,但特征維度較小。
  • 訓練設置:收集了100萬樣本的數據集,分為訓練集和測試集,比例為4:1。使用NVIDIA RTX 3080 Ti GPU進行訓練。L2MM模型的訓練參數包括0.1的dropout率、10^-4的學習率、512的批量大小、64的最大序列長度和10的運動損失系數β。使用AdamW優化器訓練25個周期,總訓練時間約為1小時。

  • 機器人設置:LOVON可以應用于多種足式機器人。在實驗中,評估了Unitree Go2、B2和H1-2三種模型。計算平臺使用Jetson Orin,視覺平臺包括機器人的內置攝像頭和Realsense D435i攝像頭。

運動模糊幀過濾的性能

研究運動模糊對目標檢測性能的影響,并驗證提出的運動模糊幀過濾方法的有效性。

  • 實驗方法:讓機器人以0.3、0.5或0.7 m/s的固定速度接近背包、椅子或人。計算每個幀的拉普拉斯方差,并將其輸入目標檢測模型以獲得預測置信度分數。

  • 實驗結果:發現拉普拉斯方差與YOLO置信度之間存在顯著波動。通過設置模糊閾值,可以過濾掉運動模糊嚴重的幀。實驗結果表明,當閾值設置為Tblur = 150時,所有數據集的合格幀率提高了約15%。將過濾方法整合到目標檢測流程中后,合格幀率總體提高了25%。

在仿真環境中的評估

  • 基準和評估指標:在Gym-Unreal基準的四個場景(UrbanCity、SnowVillage、ParkingLot和UrbanRoad)中進行評估。使用兩個指標:集數長度(EL)和成功率(SR)。

  • 性能比較:LOVON在大多數環境中的表現優于基線方法,例如在ParkingLot環境中,LOVON的平均集數長度為500,成功率為1.00,而EVT的平均集數長度為484,成功率為0.92。與TrackVLA相比,LOVON在訓練時間上更高效,僅需1.5小時,而TrackVLA需要360小時。

在現實世界實驗中的評估

  • 開放世界適應性:LOVON能夠處理日常生活中常見的各種大小和類型的物體,包括大型物體(如汽車)、中型物體(如人)和小型物品(如包)。
  • 多目標跟蹤:通過LLM規劃器實現長時域目標導航,使機器人能夠高效地跟蹤多個目標。
  • 動態跟蹤:LOVON能夠在動態環境中成功跟隨移動目標,例如在平坦道路、螺旋樓梯和野草中行走。
  • 抗干擾能力:即使目標物體被移動或機器人受到干擾(如被踢),機器人也能快速重新定位并繼續搜索。

消融研究

  • 模型參數的消融研究:研究了模型大小、數據集大小Nds、運動損失權重β和特殊標記[SEP]的包含與否對模型性能的影響。結果表明,中等大小的模型表現最佳,數據集大小對模型穩定性有影響,運動損失權重β對性能至關重要,特殊標記[SEP]對于區分不同輸入組件(尤其是語言)是必要的。
  • 過濾方法和狀態數量的消融研究:評估了搜索狀態的數量和幀過濾技術對目標丟失時導航效率的影響。實驗結果表明,使用四個狀態和幀過濾技術的配置(Case 3)在導航效率方面表現最佳。

結論與未來工作

  • 結論:
    • LOVON通過整合LLMs、開放詞匯視覺檢測和L2MM,有效地解決了足式機器人在開放世界環境中執行長時域任務的挑戰。
    • 通過拉普拉斯方差幀過濾和平均置信度平滑濾波器,顯著提高了模型在實際應用中的性能。
  • 未來工作:
    • 在未來的工作中,論文計劃進一步優化LOVON的架構,增強其與最新視覺語言模型的集成,以進一步提升其在具身智能導航任務中的能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/95147.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/95147.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/95147.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【前端教程】JavaScript 數組對象遍歷與數據展示實戰

在前端開發中,處理數組和對象是日常工作的基礎。無論是篇文章將通過一個具體案例,詳細講解如何使用JavaScript遍歷包含對象的數組,并將數據以清晰的格式展示在頁面上。我們會從基礎語法開始,逐步優化代碼,最終實現一個…

無重復字符的最長子串,leetCode熱題100,C++實現

題目來源&#xff1a;leetCode 3. 無重復字符的最長子串 - 力扣&#xff08;LeetCode&#xff09; 給定一個字符串 s &#xff0c;請你找出其中不含有重復字符的 最長 子串 的長度。 解法 class Solution { public:int lengthOfLongestSubstring(string s) {unordered_set<…

卷積神經網絡中1×1卷積的作用

part I &#xff1a;來源part II &#xff1a;應用part III &#xff1a;作用&#xff08;降維、升維、跨通道交互、增加非線性&#xff09;part IV &#xff1a;從fully-connected layers的角度理解一、來源&#xff1a;[1312.4400] Network In Network &#xff08;如果11…

VMware設置Ubuntu虛擬機橋接模式完整教程

VMware 設置 Ubuntu 虛擬機橋接模式完整教程 下面是一個詳細的、避免出錯的 VMware Ubuntu 橋接模式設置教程&#xff0c;包含常見問題的解決方案。 準備工作 確保宿主機&#xff08;Windows 11&#xff09;已連接到網絡&#xff08;有線或無線&#xff09;確認您有管理員權限關…

淺析NVMe協議:DIF

文章目錄概述DIF數據格式盤片支持DIFFormatPILPIMSETLBAF協議命令DIF支持PRACTPRACT0PRACT1PRCHK相關參考概述 NVMe協議將DIF信息作為元數據的一部分進行攜帶。 DIF數據格式 DIF的PI由多個字段組成&#xff0c;包括&#xff1a; Guard字段&#xff1a;基于邏輯塊數據計算的C…

【觀成科技】蔓靈花User下載者加密通信分析

概述2025年5月7日&#xff0c;蔓靈花&#xff08;BITTER&#xff09;組織針對巴基斯坦電信公司工作人員發起釣魚郵件攻擊&#xff0c;投遞偽裝為安全簡報的惡意郵件&#xff0c;附件為IQY類型的Web查詢文件。該文件在用戶執行后通過HTTP協議獲取遠程CMD指令并執行&#xff0c;進…

Redis 保證數據不丟失

Redis 保證數據不丟失&#xff08;或最大限度減少丟失&#xff09;的核心是通過 持久化機制 結合 合理的配置策略 實現的。具體方案如下&#xff1a;一、核心&#xff1a;開啟 Redis 持久化&#xff08;防止進程崩潰丟失數據&#xff09;Redis 提供兩種持久化方式&#xff0c;可…

NUMA/SNC 4種組合下Stream+MLC性能對決:雙路服務器BIOS調優全攻略

關于調整 BIOS NUMA 與 SNC 選項的 Stream / MLC 性能測試總結一、測試背景與目的在現代多路 Intel Xeon 服務器上&#xff0c;NUMA&#xff08;Non-Uniform Memory Access&#xff09;與 SNC&#xff08;Sub-NUMA Clustering&#xff09;是兩項決定內存訪問延遲與帶寬的關鍵 B…

Java-113 深入淺出 MySQL 擴容全攻略:觸發條件、遷移方案與性能優化

點一下關注吧&#xff01;&#xff01;&#xff01;非常感謝&#xff01;&#xff01;持續更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持續更新中&#xff01;&#xff08;長期更新&#xff09; AI煉丹日志-31- 千呼萬喚始出來 GPT-5 發布&#xff01;“快的…

Kafka Connect + Streams 用到極致從 CDC 到流處理的一套落地方案

關鍵目標&#xff1a; 零丟失&#xff1a;端到端 Exactly Once&#xff08;Source 端事務 Streams exactly_once_v2 Sink DLQ&#xff09;。低延遲&#xff1a;Producer 端批量壓縮 Streams 緩存 合理 poll/commit 間隔。可恢復&#xff1a;Connect/Streams 的 rebootstrap…

# `std::basic_istream`總結

std::basic_istream總結 文章目錄std::basic_istream總結概述常用類型定義全局對象核心成員函數1. 格式化輸入2. 非格式化輸入3. 流定位4. 其他功能繼承的功能來自 std::basic_ios狀態檢查狀態管理來自 std::ios_base格式化標志流打開模式特點說明例子std::basic_istream全面用…

人工智能——課程考核

課程考核包括平時測驗&#xff08;75%&#xff09;和討論&#xff08;25%&#xff09;兩個環節&#xff0c;測驗采用線上隨堂考試&#xff08;2-3次&#xff0c;具體會在本課堂發布&#xff09;重點考核&#xff1a;A*算法、極大極小過程&#xff08;α-β剪枝&#xff09;、不…

機器學習-時序預測1

最近面試過程中&#xff0c;Predict-then-Optimize是運籌優化算法工程師未來的發展方向。就像我之前寫過的運籌優化&#xff08;OR&#xff09;-在機器學習&#xff08;ML&#xff09;浪潮中何去何從&#xff1f;-CSDN博客&#xff0c;機器學習適合預測、運籌優化適合決策。我研…

vim-plugin AI插件

文章目錄一、vim 插件管理vim-plug二、如何使用和配置 vim-plug第 1 步&#xff1a;安裝 vim-plug第 2 步&#xff1a;配置你的 .vimrc / init.vim第 3 步&#xff1a;安裝插件常用 vim-plug 命令三、配置vim-aivim-aivim-deepseekvim升級四、配置 AI 插件GitHub Copilot第 1 步…

Adobe Photoshop 2025 最新下載安裝教程,附PS2025下載

點擊獲取&#xff1a;Adobe Photoshop 2025 安裝教程&#xff1a; 1、安裝包下載后&#xff0c;鼠標右鍵解壓安裝包 添加圖片注釋&#xff0c;不超過 140 字&#xff08;可選&#xff09; 2、雙擊打開解壓后的安裝包文件夾 3、打開setup文件夾 添加圖片注釋&#xff0c;不超過…

LeetCode算法日記 - Day 27: 計算右側小于當前元素的個數、翻轉對

目錄 1. 計算右側小于當前元素的個數 1.1 題目解析 1.2 解法 1.3 代碼實現 2. 翻轉對 2.1 題目解析 2.2 解法 2.3 代碼實現 1. 計算右側小于當前元素的個數 315. 計算右側小于當前元素的個數 - 力扣&#xff08;LeetCode&#xff09; 給你一個整數數組 nums &#xf…

基于SamOut的音頻Token序列生成模型訓練指南

通過PyTorch實現從音頻特征到語義Token的端到端序列生成&#xff0c;適用于語音合成、游戲音效生成等場景。&#x1f9e0; 模型架構與核心組件 model SamOut(voc_sizevoc_size, # 詞匯表大小&#xff08;4098目錄名特殊Token&#xff09;hidden_sizehidden_size, …

AWD攻防總結

基本防守策略 1、改用戶密碼和服務密碼 1&#xff09;改linux用戶密碼&#xff1a; #passwd 如果有權限就刪除用戶&#xff1a; #userdel -r [用戶名] 2&#xff09;改mysql密碼&#xff1a; #update mysql.user set passwordpassword(密碼) where userroot; 刪除匿名用戶&…

Android14 基于Configfs的USB動態配置init.usb.configfs.rc

1 Android14 USB子系統啟動以及動態切換的init.usb.rc 2 Android14 基于Configfs的USB動態配置init.usb.configfs.rc 3 Android14 高通平臺的USB子系統啟動和動態配置init.qcom.usb.rc 1. 什么是ConfigFS ConfigFS 是 Linux 內核提供的一種用戶空間可配置的偽文件系統在Linu…

2025年KBS SCI1區TOP,矩陣差分進化算法+移動網絡視覺覆蓋無人機軌跡優化,深度解析+性能實測

目錄1.摘要2.系統模型和問題表述3.矩陣差分進化算法4.結果展示5.參考文獻6.算法輔導應用定制讀者交流1.摘要 本文提出了一種面向無人機&#xff08;UAV&#xff09;新型軌跡優化方法&#xff0c;以實現對地面移動節點的高效視覺覆蓋。與傳統方法不同&#xff0c;該方法顯式考慮…