(CVPR 2024)SLAM卷不動了,機器人還有哪些方向能做?

關注gongzhonghao【CVPR頂會精選

眾所周知,機器人因復雜環境適應性差、硬件部署成本高,對高效泛化一直需求迫切。再加上多傳感器協同難題、真實場景數據獲取不易,當下對遷移學習 + 機器人智能融合的研究也就更熱烈了。不過顯然,這方向的創新也基本圍繞以上問題展開,比如環境魯棒遷移、軟硬協同優化、跨場景知識適配、人機交互動態適配等等。如果想發論文,建議先從這些切入點著手。

今天小圖給大家精選3篇CVPR有機器人方向的論文,請注意查收!

論文一:Hierarchical Diffusion Policy?for Kinematics-Aware Multi-Task Robotic Manipulation

方法:

文章首先將操作策略分解為分層結構,包括用于預測下一個最佳末端執行器姿態的高層任務規劃代理和用于生成最優運動軌跡的低層目標條件擴散策略。接著,通過可微運動學將準確但缺乏運動學感知的末端執行器姿態軌跡提煉為運動學感知的關節位置軌跡,避免了逆運動學求解器常見的問題。最后,在多個挑戰性的操作任務中進行了實驗驗證,證明了所提方法在模擬和現實世界中的優越性能。

圖片

創新點:

  • 提出了分層策略,使機器人能夠同時處理長時域任務規劃和精細的低層次動作。

  • 引入了機器人運動學擴散器,通過可微運動學將末端執行器姿態軌跡轉換為關節位置軌跡,確保運動學約束。

  • 在廣泛的模擬和現實世界任務中展示了顯著高于現有方法的成功率,證明了其在復雜操作任務中的有效性和泛化能力。

圖片

論文鏈接:

https://arxiv.org/abs/2403.03890

圖靈學術論文輔導

論文二:ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

方法:

文章首先采用注入適配器的方式對MLLM進行微調,通過設計包括物體類別識別、操作先驗推理和操作感知姿態預測等任務,逐步引導模型學習物體的操作知識。在推理階段,利用鏈式思考策略使模型按照訓練時的邏輯逐步生成末端執行器的初始姿態,并通過深度信息將其投影到三維空間。此外,為了適應現實世界的復雜情況,還設計了主動阻抗適應策略,通過力反饋調整運動方向,確保操作的平滑性和適應性。

圖片

創新點:

  • 提出了一種新穎的訓練范式,保留了MLLM的常識和推理能力,同時賦予其操作能力。

  • 設計了鏈式思考推理策略,增強了模型的泛化能力和穩定性。

  • 引入了主動阻抗適應策略,確保操作的平滑性和適應性,進一步提升了模型在復雜環境中的表現。

圖片

論文鏈接:

https://arxiv.org/abs/2312.16217

圖靈學術論文輔導

論文三:JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking?Robotic Dataset in Crowded Human Environments

方法:

文章首先構建了一個包含20,000張圖像的數據集,這些圖像從54個視頻中以1Hz的頻率采樣,并提供了428K全景分割和27K跟蹤注釋。其次,引入了OSPA評估指標,用于更準確地評估多標簽場景下的分割和跟蹤性能。最后,基于該數據集,提出了閉世界和開放世界的全景分割與跟蹤基準測試,并對現有的先進方法進行了廣泛的評估,結果表明該數據集具有獨特的挑戰性,強調了開發更魯棒方法的必要性。

圖片

創新點:

  • 提供了涵蓋室內外擁擠場景的多樣化數據,包括2D和3D同步數據模態,支持視覺和機器人應用。

  • 提出了基于最優子模式匹配的評估指標,解決了現有評估方法的局限性。

  • 設計了閉世界和開放世界的基準測試,包含多類別注釋和OSPA基礎評估指標,以促進泛化能力的研究。

圖片

論文鏈接:

https://arxiv.org/abs/2404.0168

本文選自gongzhonghao【CVPR頂會精選

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94396.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94396.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94396.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go語言 延 遲 語 句

延遲語句(defer)是Go 語言里一個非常有用的關鍵字,它能把資源的釋放語句與申請語句放到距離相近的位置,從而減少了資源泄漏的情況發生。延遲語句是什么defer 是Go 語言提供的一種用于注冊延遲調用的機制:讓函數或語句可…

【go 】數組的多種初始化方式與操作

在 Go 語言中,數組是一種固定長度的數據結構,用于存儲相同類型的元素。以下是 Go 中數組的多種初始化方式,結合搜索結果整理如下: (一)使用 var 關鍵字聲明并初始化數組 使用 var 關鍵字聲明數組時&#xf…

基于Java+MySQL 實現(Web)網上商城

悅桔拉拉商城1. 課設目的可以鞏固自己之前所學的知識,以及學習更多的新知識。可以掌握業務流程,學習工作的流程。2. 開發環境硬件環境:Window11 電腦、Centos7.6 服務器軟件環境:IntelliJ IDEA 2021.1.3 開發工具JDK 16 運行環境M…

高并發搶單系統核心實現詳解:Redisson分布式鎖實戰

一、方法整體流程解析 #mermaid-svg-MROZ2xF7WaNPaztA {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-MROZ2xF7WaNPaztA .error-icon{fill:#552222;}#mermaid-svg-MROZ2xF7WaNPaztA .error-text{fill:#552222;strok…

Android12 User版本開啟adb root, adb remount, su, 關閉selinux

開啟adb root 直接看adb源碼: __android_log_is_debuggable就是判斷ro.debuggable屬性值,感興趣可以在 源碼下grep下實現看看。auth_required :在adb源碼下定義的全局變量,默認等于true,。看名字就是是否需要用戶授權的flag, 這里不再繼續跟…

金融專業高分簡歷撰寫指南

一、金融求職簡歷原則:深度與亮點并存在金融行業求職時,一份出色的簡歷需突出經歷深度與亮點。01 教育背景需如實填寫畢業院校、專業、GPA及所學課程。金融行業不少公司對求職者學校和學歷有嚴格標準,如“985”“211”院校或碩士以上學歷等。…

專題:2025生命科學與生物制藥全景報告:產業圖譜、投資方向及策略洞察|附130+份報告PDF、原數據表匯總下載

原文鏈接:https://tecdat.cn/?p43526 過去一年,全球生命科學VC融資回暖至1021.5億美元,并購交易雖下滑23%卻聚焦關鍵賽道,創新藥管線中GLP-1受體激動劑以170億美元市場規模領跑,AI技術將研發周期縮短60%……這些數據背…

Compose筆記(四十)--ClickableText

這一節主要了解一下Compose中的ClickableText,在Jetpack Compose中,ClickableText是用于創建可點擊文本的組件,其核心功能是通過聲明式語法將文本設置為交互式元素,用戶點擊時可觸發特定操作。簡單總結如下:API含義 text&#xff…

面試必刷的數組三連:原地刪除與合并

堅持用 清晰易懂的圖解 多語言代碼,讓每道題變得簡單! 呆頭個人主頁詳情 呆頭個人Gitee代碼倉庫 呆頭詳細專欄系列 座右銘: “不患無位,患所以立。” 面試必刷的數組三連:原地刪除與合并前言目錄1.移除元素2.刪除有序…

力扣經典算法篇-41-旋轉圖像(輔助數組法,原地旋轉法)

1、題干 給定一個 n n 的二維矩陣 matrix 表示一個圖像。請你將圖像順時針旋轉 90 度。 你必須在 原地 旋轉圖像,這意味著你需要直接修改輸入的二維矩陣。請不要 使用另一個矩陣來旋轉圖像。 示例 1:輸入:matrix [[1,2,3],[4,5,6],[7,8,9]]…

譯|用戶增長策略如何使用因果機器學習的案例

來自上傳文件中的文章《[Causal Machine Learning for Growth: Loyalty Programs, LTV, and What to Do When You Can’t Experiment | by Torty Sivill | Towards AI]》 本文探討了當 A/B 測試不可行時,如何利用因果推斷從歷史數據中獲取洞察。技術亮點在于通過構建…

java~final關鍵字

final關鍵字final基本介紹final的使用細節final基本介紹 final是最終的意思,可以修飾類,屬性,方法,局部變量什么時候會要使用到final呢? 1.想要類不被繼承時 2.不希望類的某個屬性的值被改變時 3.不想父類的某個方法被…

Node.js(四)之數據庫與身份認證

數據庫與身份認證 目錄 數據庫與身份認證 十三、數據庫的基本概念 13.1 什么是數據庫 13.2 常見的數據庫及分類 13.3 傳統型數據庫的數據組織結構 1. Excel 的數據組織結構 2. 傳統型數據庫的數據組織結構 3. 實際開發中庫、表、行、字段的關系 十四、安裝并配置MySQ…

SpringBoot+SpringMVC常用注解

文章目錄發展歷程項目創建項目結構入門案例配置文件的兩種方式:只能使用一種創建項目二入門案例常用知識及注解Controller:類上面加,SpringMVC的注解GetMapping:方法上面加Spring框架的兩項核心功能Component:組件。控制反轉,加在業務類上面&…

標準GS相位恢復算法

標準GS相位恢復算法詳解與MATLAB實現 Gerchberg-Saxton (GS) 算法是一種經典的相位恢復方法,廣泛應用于光學成像、衍射成像和全息技術等領域。該算法通過迭代過程從未知相位的強度測量中恢復相位信息。 算法原理 GS算法的核心思想是利用傅里葉變換關系在空間域和頻率…

【Linux網絡編程基礎--socket地址API】

一、主機字節序和網絡字節序主機字節序(Host Byte Order):你當前電腦的內存字節順序(比如 x86 是小端)網絡字節序(Network Byte Order):統一規定為大端序(高位字節在高位…

Linux路徑MTU發現(Path MTU Discovery, PMTU)

Linux路徑MTU發現(Path MTU Discovery, PMTU)機制是TCP/IP協議棧中確保數據包高效傳輸的核心技術。其核心目標是動態探測源主機到目的主機路徑上的最小MTU(Maximum Transmission Unit),從而避免IP分片,提升…

【MySQL進階】------MySQL程序

MySQL程序簡介 MySQL安裝完成通常會包含如下程序: Linux系統程序?般在 /usr/bin?錄下,可以通過命令查看: windows系統?錄:你的安裝路徑\MySQL Server 8.0\bin,可以通過命令查看: 每個 MySQL 程序都有許…

Linux大頁內存導致服務內存不足

Linux大頁內存導致服務內存不足的解決方法 大頁內存(Huge Pages)是Linux內核提供的一種機制,用于減少TLB(轉換后備緩沖區)的壓力,提高內存訪問性能。然而,如果配置不當,大頁內存可能…

超寬帶測距+測角+無線通信一體化模組:智能門鎖、智能遙控器、AR頭戴、智能穿戴

超寬帶測距測角無線通信一體化模組:智能門鎖、智能遙控器、AR頭戴、智能穿戴UWB測距測角技術,因其高精度、低延遲、抗干擾能力,正廣泛應用于“人-物-設備”的空間感知場景,成為構建智能空間和精準互動的重要底層技術。代表廠商與產…