RSS 2025|從說明書學習復雜機器人操作任務:NUS邵林團隊提出全新機器人裝配技能學習框架Manual2Skill

視覺語言模型(Vision-Language Models, VLMs),為真實環境中的機器人操作任務提供了極具潛力的解決方案。
盡管 VLMs 取得了顯著進展,機器人仍難以勝任復雜的長時程任務(如家具裝配),主要受限于人類演示數據和訓練樣本的稀缺性。
為解決這一問題,研究團隊提出 Manual2Skill,一種基于 VLMs 的創新框架,使機器人能通過高級視覺說明書自主理解并執行家具裝配任務,模仿人類學習裝配的過程。該方法彌合了抽象指令與物理執行之間的鴻溝,顯著提升了機器人在真實操作場景中的實用性。
目前,該論文已被機器人領域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。

論文標題:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models論文鏈接:https://arxiv.org/abs/2502.10090項目主頁:https://owensun2004.github.io/Furniture-Assembly-Web/
研究背景
家具裝配是一項復雜的長時程任務,要求機器人:(A) 理解所有零件的拼接關系和順序;(B) 估計每一步拼接時部件的位姿;? 生成物理可行的動作以完成部件組裝。
盡管許多計算機視覺方法通過幾何或語義技術在部件位姿預測(B)方面取得顯著成果,但它們大多忽視了同樣關鍵的拼接順序理解(A)和動作生成(C)環節 [1, 2]。
現有的端到端機器人裝配系統通常依賴模仿學習或強化學習。雖然在某些場景下有效,但這些方法需要大規模數據集和大量計算資源,難以推廣至真實環境中的通用長時程操作任務 [3, 4]。
近年來,視覺語言模型(VLMs)在高層規劃、環境理解甚至直接機器人控制方面展現出潛力。部分研究嘗試整合這些能力用于機器人裝配,但多局限于簡單幾何物體且在真實裝配場景中魯棒性不足 [5]。
關鍵問題在于,現有 VLM 方法(乃至多數當前方法)缺乏對結構化外部指導(如人工設計的說明書)的利用。這種缺失限制了它們在依賴抽象符號指令的復雜裝配任務中的表現。
相比之下,人類能夠從抽象的說明書中提取信息并學習操作技能,這揭示了機器人能力的一個重要缺口:從抽象的、為人類設計的指導信息中學習物體操作技能。
憑借強大的視覺與語言推理能力,VLMs 為彌合這一缺口提供了獨特機遇。通過挖掘說明書中的結構化知識,VLMs 可使機器人更高效可靠地完成復雜多步驟裝配任務。
Manual2Skill:基于 VLM 的說明書引導式機器人裝配框架
為解決復雜長時程裝配的局限性,研究團隊開發了 Manual2Skill —— 一種創新框架,利用 VLMs 將基于說明書的視覺指令轉化為機器人裝配技能。
Manual2Skill 包含三個核心階段:
層級化裝配圖生成:通過 VLM 解析說明書圖像,構建描述家具部件結構關系的層級化裝配圖。分步驟位姿估計:預測每個裝配步驟中涉及的家具部件的精確 6D 位姿。動作生成與執行:將位姿信息轉化為可執行的機器人軌跡。

圖 1:Manual2Skill 框架
該框架解決了現有機器人裝配方法的兩大核心限制:
通過將人類理解的抽象示意圖轉化為結構化裝配層級圖與部件位姿,使機器人能從說明書提取可操作信息,避免了對大規模高質量演示數據集的依賴。將裝配層級圖作為結構化裝配信息的核心表征,為真實裝配任務提供通用解決方案,適用于所有多步驟復雜裝配問題。

階段 I: 層級化裝配圖生成
Manual2Skill 的首階段將人類可理解的說明書轉化為機器人可執行的任務規劃。通過視覺語言模型(GPT-4o)對說明書示意圖和預裝配場景圖像進行聯合推理,生成編碼家具部件與子組件結構關系的層級化裝配圖。
在此圖中:
葉節點代表原子部件。非葉節點表示通過連接部件/子組件形成的復合結構。從葉節點向根節點遍歷可獲得完整的逐步裝配流程。
為構建該圖,Manual2Skill 通過整合多模態輸入,特別是多張圖像的視覺信息與文本指令組成的多輪提示序列,完成兩個關鍵子階段:
跨域視覺理解:通過視覺提示技術(如 Set-Of-Marks 和 GroundingDINO)和幾何視覺推理,GPT-4o 將預裝配場景圖片中的物理部件與其說明書圖示進行語義關聯,從而解析每個部件的作用與位置。
結構化信息提取:基于已識別的部件信息,使用鏈式思維(Chain-of-Thought)、由簡至繁(Least–To–Most)和上下文學習(In-Context Learning)等提示技術,判斷說明書中每個步驟涉及的特定部件。
該結構化圖表征為下游位姿估計與運動規劃奠定基礎,確保復雜裝配任務的精準順序執行。
階段 II: 分步驟裝配位姿估計
在層級化裝配圖確定部件組合與裝配順序后,本階段預測每個裝配步驟中所有部件的 6D 位姿,實現部件間的精確物理對齊。
與過往方法通常一次預測整個裝配過程中所有零件的位姿不同,這里我們對每個裝配步驟,預測這一步中涉及到的所有部件/子組件的位姿,這一設置既更貼合真實世界中的拼裝過程,也能使模型避免單次輸入部件數量過多引起的性能下降。
同時我們還發現,盡管家具的形態有很大差別,但其基本部件的連接方式(比如板和棍的連接)較為固定,這種分步預測的方法能使模型更好地學習到這種基本連接方式,從而對測試集的物體實現更高的預測精度。
為實現此目標,跨模態位姿估計模型對說明書圖像與家具部件 3D 點云進行聯合推理。模型架構包含四個核心組件:
圖像編碼器(E_I):從說明書圖像提取語義特征,捕獲部件關系與朝向的視覺線索。點云編碼器(E_P):編碼各部件的點云數據。跨模態融合(E_G):使用圖神經網絡(GNN)整合圖像與點云特征。位姿回歸器(R):從融合特征預測各部件的 SE(3) 位姿。
給定說明書圖像 I_i 和涉及部件的點云集合,處理流程如下:

在這里插入圖片描述

為確保預測的魯棒性與準確性,模型采用復合損失函數:
SE(3) 變換誤差(旋轉測地距離 + 平移 MSE)點云對齊損失(Chamfer 距離)可互換部件的置換不變損失(評估所有有效排列并選擇最小損失方案)
該設計使模型能夠處理可變數量的輸入部件,適應視覺相似/對稱部件,以及泛化到訓練集上未見過的新物體。
階段 III: 機器人裝配動作生成與執行
最終階段將預測位姿轉化為真實世界的機器人動作,實現裝配計劃的自主執行。我們在這一階段使用基于啟發式的抓取策略和穩健的運動規劃算法,讓機械臂抓取對應部件,并將其放置在預測位姿。
抓取規劃與部件操控
我們使用 FoundationPose 與 SAM 估計場景中所有部件的初始位姿。根據部件幾何特征應用啟發式抓取策略:
棒狀部件:沿主軸在質心處抓取。扁平薄片部件:使用夾具/平臺固定后沿邊界穩定抓取。
運動規劃與執行
抓取后,機器人使用 RRT-Connect(基于采樣的運動規劃器)計算從當前位姿到目標位姿的無碰撞軌跡。所有其他物體被視為避障點云。通過錨定位姿在軌跡中段重新評估抓取部件位置,確保精確跟蹤與控制。
裝配插入
最終部件插入是涉及精確對齊與力反饋的接觸密集型任務。由于閉環插入的復雜性,目前由人類專家完成。我們會在未來的研究中,整合觸覺與力傳感器實現自主插入。
實驗結果與分析
實驗在仿真與真實環境中對多款宜家家具進行,驗證 Manual2Skill 的魯棒性與有效性。
層級化裝配圖生成
圖 2:層級化裝配圖生成結果
我們在 102 本真實宜家家具說明書上測試了我們提出的層級化裝配圖生成方法的表現,可以看出,對于簡單和中等復雜程度的家具(部件數 ≤ 6),我們的方法能比較準確地生成裝配圖,同時在所有復雜程度的家具上,我們的方法表現均顯著優于基線方法。盡管所有方法在復雜家具上表現受限,但隨著 VLM 性能的提升,我們方法的表現會隨之提升。在這里插入圖片描述

圖 3:層次化裝配圖可視化
位姿估計
我們從 PartNet 數據集中選取了三類物體(椅子、臺燈、桌子),每類物體各 100 個,并且在 Blender 中渲染出這些物體部件組合的示意圖作為說明書圖片。
在這里插入圖片描述

圖 4:位姿估計實驗結果
實驗結果表明,憑借多模態特征融合與 GNN 空間關系建模,本方法在全部四個評價指標上超越基線方法。
在這里插入圖片描述

圖 5:位姿估計可視化在這里插入圖片描述

仿真測試
在 50 件簡單至中等難度家具的仿真測試中,Manual2Skill 達成 58% 成功率,顯著超越現有啟發式方法,驗證了層級化裝配圖、位姿估計與運動規劃結合的有效性。
實物實驗
我們在四款真實宜家家具(Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱)上測試了我們整套框架,體現了我們的框架在真實機器人裝配任務中的可行性和出色表現。
圖 6:真實世界家具裝配過程可視化
在這里插入圖片描述

零樣本擴展
本方法可零樣本推廣至輪軸、玩具飛機甚至機械臂等手冊引導式裝配任務,成功率 100%,彰顯 VLM-based 方案相比其他方法的泛化優勢。
圖 7:零樣本擴展可視化
結論與展望
本文提出 Manual2Skill,一種開創性框架,通過 VLMs 使機器人能解析人工設計的視覺說明書并自主執行復雜家具裝配任務。通過引入層級化圖式指令解析與魯棒位姿估計,Manual2Skill 有效彌合了抽象說明書與物理執行之間的鴻溝。
Manual2Skill 提出了一種新的機器人學習范式,機器人可以從為人類設計的說明書中學習復雜長程的操作技能,相比起收集大量人工示范數據做模仿學習,顯著降低了復雜操作技能獲取的成本和復雜度。同時,說明書通過抽象圖表和符號表示傳達操作知識,這種抽象化的表達方式捕獲了操作過程的底層結構和核心邏輯,而非僅僅記錄表面的動作序列。這種深層次的理解使得獲得的技能能夠在不同的物體配置、環境條件和機器人實體間實現有效泛化。
參考文獻[1] Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, and Animesh Garg. 「Neural shape mating: Self-supervised object assembly with adversarial shape priors」. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12724–12733, 2022. [2] Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vladimir G Kim, and Adriana Schulz. 「Automate: A dataset and learning approach for automatic mating of cad assemblies」. ACM Transactions on Graphics (TOG), 40(6):1–18, 2021. [3] Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, and Hao Dong. 「Roboassembly: Learning generalizable furniture assembly policy in a novel multi-robot contact-rich simulation environment」. arXiv preprint arXiv:2112.10143, 2021. [4] Zuyuan Zhu and Huosheng Hu. 「Robot learning from demonstration in robotic assembly: A survey」. Robotics, 7(2):17, 2018. [5] Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, and Ken Goldberg. 「Blox-net: Generative design-for-robot-assembly using vlm supervision, physics simulation, and a robot with reset」. arXiv preprint arXiv:2409.17126, 2024.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908886.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908886.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908886.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

NPOI Excel用OLE對象的形式插入文件附件以及插入圖片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("輸出完成"); }static void XlsWithObjData() {// 創建工作簿和單元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…

企業數字化轉型實戰:某行業研究院如何通過SD-WAN技術優化網絡架構?

一、引言 隨著企業數字化轉型的深入推進,傳統網絡架構在靈活性、可靠性和管理效率方面逐漸暴露不足。SD-WAN(軟件定義廣域網)技術憑借其智能化、自動化和高效的特點,逐漸成為企業網絡架構優化的首選方案。本文以某研究院數字化基…

數字證書_CA_詳解

目錄 一、數字證書簡介 二、 CA(證書頒發機構) (一) 證書鏈(信任鏈) 1. 根證書 2. 中間證書 3. 網站證書 (二) 抓包軟件的證書鏈與信任機制 1. 抓包通信流程 2. 證書鏈偽造與信任驗證流程 (三) 關于移動設備的CA 一、數…

Android協程學習

目錄 Android上的Kotlin協程介紹基本概念與簡單使用示例協程的高級用法 結構化并發線程調度器(Dispatchers)自定義調度器并發:同步 vs 異步 異步并發(async 并行執行)同步順序執行協程取消與超時 取消機制超時控制異步數據流 Flow協程間通信 使用 Channel使用 StateFlow /…

統計學(第8版)——假設檢驗學習筆記(考試用)

一、假設檢驗核心框架 (一)解決的核心問題 判斷樣本與總體 / 樣本與樣本的差異是由抽樣誤差還是本質差異引起 典型場景: 產品合格率是否達標(比例檢驗)工藝改進后均值是否顯著變化(均值檢驗&#xff09…

Java求職者面試:微服務技術與源碼原理深度解析

Java求職者面試:微服務技術與源碼原理深度解析 第一輪:基礎概念問題 1. 請解釋什么是微服務架構,并說明其優勢和挑戰。 微服務架構是一種將單體應用拆分為多個小型、獨立的服務的軟件開發方法。每個服務都運行在自己的進程中,并…

c# 局部函數 定義、功能與示例

C# 局部函數:定義、功能與示例 1. 定義與功能 局部函數(Local Function)是嵌套在另一個方法內部的私有方法,僅在包含它的方法內可見。 ? 作用:封裝僅用于當前方法的邏輯,避免污染類作用域,提升…

ava多線程實現HTTP斷點續傳:原理、設計與代碼實現

一、引言 在當今互聯網環境下,大文件下載需求日益增長。傳統單線程下載方式效率低下,且一旦下載中斷,需要重新開始。斷點續傳技術通過將文件分塊并利用多線程并行下載,顯著提升了下載效率,同時支持中斷后繼續下載。本…

vla學習 富

# 基于diffusion # π0 ## 架構 其核心思想是在預訓練好的視覺語言模型(VLM)基礎上添加一個“動作專家”(action expert),通過流匹配(flow matching)的方式生成連續的高頻控制指令。整個架構可以…

降雨預測系統(機器學習)

這是一個基于Python開發的降雨預測系統,使用機器學習算法對指定月份的降雨概率進行預測。該系統提供了友好的圖形用戶界面(GUI),支持數據可視化和交互式操作。 ## 功能特點 - ?? 生成歷史降雨數據(2015-2024年) - ?? 使用邏輯回歸模型進行降雨預測 - ?? 可視化…

邏輯回歸與Softmax

Softmax函數是一種將一個含任意實數的K維向量轉化為另一個K維向量的函數,這個輸出向量的每個元素都在(0, 1)區間內,并且所有元素之和等于1。 因此,它可以被看作是某種概率分布,常用于多分類問題中作為輸出層的激活函數。這里我們以拓展邏輯回歸解決多分類的角度對Softmax函…

基于PSO與BP神經網絡分類模型的特征選擇實戰(Python實現)

說明:這是一個機器學習實戰項目(附帶數據代碼文檔),如需數據代碼文檔可以直接到文章最后關注獲取。 1.項目背景 在機器學習建模過程中,特征選擇是提升模型性能、降低計算復雜度的重要環節。尤其在高維數據場景下&…

深度學習之模型壓縮三駕馬車:基于ResNet18的模型剪枝實戰(1)

一、背景:為什么需要模型剪枝? 隨著深度學習的發展,模型參數量和計算量呈指數級增長。以ResNet18為例,其在ImageNet上的參數量約為1100萬,雖然在服務器端運行流暢,但在移動端或嵌入式設備上部署時&#xf…

uni-app學習筆記二十四--showLoading和showModal的用法

showLoading(OBJECT) 顯示 loading 提示框, 需主動調用 uni.hideLoading 才能關閉提示框。 OBJECT參數說明 參數類型必填說明平臺差異說明titleString是提示的文字內容,顯示在loading的下方maskBoolean否是否顯示透明蒙層,防止觸摸穿透,默…

【大模型RAG】六大 LangChain 支持向量庫詳細對比

摘要 向量數據庫已經成為檢索增強生成(RAG)、推薦系統和多模態檢索的核心基礎設施。本文從 Chroma、Elasticsearch、Milvus、Redis、FAISS、Pinecone 六款 LangChain 官方支持的 VectorStore 出發,梳理它們的特性、典型應用場景與性能邊界&a…

【MySQL】數據庫三大范式

目錄 一. 什么是范式 二. 第一范式 三. 第二范式 不滿足第二范式時可能出現的問題 四. 第三范式 一. 什么是范式 在數據庫中范式其實就是一組規則,在我們設計數據庫的時候,需要遵守不同的規則要求,設計出合理的關系型數據庫,…

Coze工作流-語音故事創作-文本轉語音的應用

教程簡介 本教程將帶著大家去了解怎么樣把文本轉換成語音,例如說我們要做一些有聲故事,我們可能會用上一些語音的技術,來把你創作的故事朗讀出來 首先我們創建一個工作流 對各個模塊進行編輯,如果覺得系統提示詞寫的不好&#xf…

5.子網劃分及分片相關計算

某公司網絡使用 IP 地址空間 192.168.2.0/24,現需將其均分給 市場部 和 研發部 兩個子網。已知: 🏢 市場部子網 🖥? 已分配 IP 地址范圍:192.168.2.1 ~ 192.168.2.30🌐 路由器接口 IP:192.16…

三體問題詳解

從物理學角度,三體問題之所以不穩定,是因為三個天體在萬有引力作用下相互作用,形成一個非線性耦合系統。我們可以從牛頓經典力學出發,列出具體的運動方程,并說明為何這個系統本質上是混沌的,無法得到一般解…

機器學習算法時間復雜度解析:為什么它如此重要?

時間復雜度的重要性 雖然scikit-learn等庫讓機器學習算法的實現變得異常簡單(通常只需2-3行代碼),但這種便利性往往導致使用者忽視兩個關鍵方面: 算法核心原理的理解缺失 忽視算法的數據適用條件 典型算法的時間復雜度陷阱 SV…