【CVPR2025】FlowRAM:用區域感知與流匹配加速高精度機器人操作策略學習

文章目錄

  • FlowRAM:用區域感知與流匹配加速高精度機器人操作策略學習
    • 一、問題出在哪里?
    • 方法部分:從結構到機制,詳解 FlowRAM 的內部設計邏輯
      • 1. 動態半徑調度器:自適應注意力機制在 3D 感知中的實現
      • 2. 多模態編碼器與序列融合模塊(Mamba)
      • 3. 條件流匹配策略生成器:一步式動作生成如何實現?
      • 4. 推理流程:從噪聲動作到最終執行動作
      • 5. 總結方法特點與優勢
    • 三、實驗驗證:任務泛化 + 高精度執行雙優
      • 多任務泛化能力
      • 高精度任務性能
      • 推理速度分析
    • 四、真實機器人實驗
    • 五、總結與展望

在這里插入圖片描述

FlowRAM:用區域感知與流匹配加速高精度機器人操作策略學習

在機器人操作任務中,“又快又準”一直是關鍵挑戰,尤其是在需要亞毫米級精度的插拔、擰螺絲等場景中。然而,當下流行的策略學習范式(如擴散模型)雖然在生成多模態動作方面表現優秀,卻面臨計算效率低、任務感知不精確等痛點。

我們在最近的研究中提出了一個全新的框架 FlowRAM(Flow-based Region-Aware Mamba),融合了條件流匹配(Conditional Flow Matching, CFM)和區域感知機制,打破擴散式方法低效、粗感知的壁壘,在 RLBench 多任務和高精度任務上均取得了SOTA 性能。本博客將系統介紹 FlowRAM 的設計思路、關鍵模塊與實驗表現。


一、問題出在哪里?

現有方法面臨以下兩大瓶頸:

  • 低效率的推理過程:擴散模型在推理階段需進行幾十到上百次去噪采樣,推理速度慢,難以滿足實時機器人控制需求;
  • 感知不聚焦:很多方法使用全局感知機制(如 voxel grid、FPS),導致模型無法準確識別并關注于任務關鍵區域(如 USB 插口的位置或螺孔的細節),限制了高精度執行能力。

為解決這些問題,我們設計了 FlowRAM,一個結合“精細局部感知”與“流式一跳生成”的通用策略學習框架。


在這里插入圖片描述

很好,下面我將進一步擴展博客中“方法部分”的內容,使其從介紹性的“三大模塊概覽”深化為具備工程/算法視角的逐層細化分析,適用于具備一定技術背景的讀者或論文審閱者。該部分將拆解為五個子節,內容將涵蓋架構設計邏輯、每個組件的技術實現、參數如何動態調度,以及為什么選擇 CFM 和 Mamba 的理論與實踐優勢。


方法部分:從結構到機制,詳解 FlowRAM 的內部設計邏輯

FlowRAM 是一個具備區域感知能力的生成式策略學習框架,融合了現代狀態空間建模(Mamba)和條件流匹配(Conditional Flow Matching, CFM)兩大技術范式,目標是在空間上對操作區域進行高精度建模,在時間上實現高效動作生成。
在這里插入圖片描述

我們將從以下幾個方面展開:


1. 動態半徑調度器:自適應注意力機制在 3D 感知中的實現

在傳統點云策略中,如 Act3D 使用的是全局 Farthest Point Sampling(FPS),每次采樣的都是整個場景中的關鍵點,造成了以下問題:

  • 感知資源被浪費在無關區域;
  • 與操作目標相關的精細幾何結構(如插口、蓋子邊緣)被稀釋或錯過;
  • 在存在遮擋、局部物體形變等情況下缺乏魯棒性。

為此,FlowRAM 提出了一種 Dynamic Radius Schedule (DRS) 感知調度機制,其基本思想是:

隨著時間步的推進(即從粗到細的推理過程),感知區域的半徑從大逐步收縮,使模型逐步聚焦于當前關鍵動作的目標區域。

公式化表示為:

ri=(1?i/N)?(r0?rmin)+rminr_i = (1 - i/N) \cdot (r_0 - r_{min}) + r_{min} ri?=(1?i/N)?(r0??rmin?)+rmin?

  • $i$ 表示當前的時間步;
  • $N$ 為總步數;
  • $r_i$ 為第 $i$ 步的感知半徑;
  • $r_0$ 與 $r_{min}$ 分別為起始與最小半徑。

該機制本質上模擬了“空間注意力自焦點化”的過程,讓模型逐漸從粗糙感知過渡到精確定位。

此外,我們為每個時間步定義了一個 mask 區域 $M_i = {(p_i, r_i)}$,其中 $p_i$ 為當前時間步的擾動位姿位置,作為圓心;最終的點云采樣僅在這個動態球形區域中進行。


2. 多模態編碼器與序列融合模塊(Mamba)

FlowRAM 在感知編碼階段采用的是以下多模態輸入:

  • 點云輸入:使用 PointMamba(基于 SSM 的 PointNet 變體)提取局部幾何特征;
  • RGB 圖像輸入:多視角圖像經由 CLIP + FPN 編碼器提取語義;
  • 語言輸入:任務指令經由 CLIP-Text 模塊得到句向量;
  • 機器人狀態輸入:包括夾爪狀態、擾動初始動作 pose,線性投影后合并進入 token 序列。

所有特征統一嵌入至維度為 $C$ 的向量空間,并拼接成:

Fin=concat(Fgeo,Frgb,Ftext,Fopen)F_{in} = \text{concat}(F_{geo}, F_{rgb}, F_{text}, F_{open}) Fin?=concat(Fgeo?,Frgb?,Ftext?,Fopen?)

接下來,FlowRAM 使用 多層 Mamba 塊 對該多模態 token 序列進行時序建模,其形式如下:

H_1 = LN(F_{in})H_2 = SSM(\text{SiLU}(Conv1D(Linear(H_1))))F_{out} = Linear(H_2 \odot \text{SiLU}(Linear(H_1)))

該模塊實現了:

  • 低復雜度(線性而非平方);
  • 狀態保持(不同模態 token 保留上下文記憶);
  • 高效融合(融合語義與幾何 token 時的注意力壓縮);

最終,$F_{out}$ 被送入動作生成模塊作為條件特征。


3. 條件流匹配策略生成器:一步式動作生成如何實現?

傳統的 Diffusion Policy 在推理階段必須通過 50-100 步的逐步去噪流程才能得到動作,而 FlowRAM 使用 Conditional Flow Matching (CFM),直接回歸目標關鍵幀動作的矢量場導向路徑,一次完成。

基本公式如下:

  • 插值路徑為:$x_t = t x_1 + (1 - t) x_0$
  • 流速場為:$u(x_t) = \frac{d x_t}{dt} = x_1 - x_0$
  • 學習目標為最小化速度場殘差:

LCFM=Ex0,x1,t[∥x1?x0?vθ(xt,t,C)∥2]\mathcal{L}_{\text{CFM}} = \mathbb{E}_{x_0, x_1, t} \left[\|x_1 - x_0 - v_\theta(x_t, t, C)\|^2\right] LCFM?=Ex0?,x1?,t?[x1??x0??vθ?(xt?,t,C)2]

其中 $C$ 為條件信息(即 Mamba 編碼的多模態特征)。

我們用一個帶有 AdaLN 的 SSM 模型作為 $v_\theta$,輸入為 $x_t$, $t$, 和條件 $C$,輸出為預測的矢量場速度。

此外,為了預測夾爪開閉狀態,我們增加了一個 Binary Classifier,監督損失為交叉熵:

Lopen=?xlog?x^?(1?x)log?(1?x^)\mathcal{L}_{\text{open}} = -x \log \hat{x} - (1 - x) \log (1 - \hat{x}) Lopen?=?xlogx^?(1?x)log(1?x^)

最終訓練目標為:

Ltotal=λ1LCFM+λ2Lopen\mathcal{L}_{\text{total}} = \lambda_{1} \mathcal{L}_{\text{CFM}} + \lambda_{2} \mathcal{L}_{\text{open}} Ltotal?=λ1?LCFM?+λ2?Lopen?


4. 推理流程:從噪聲動作到最終執行動作

推理過程非常高效:

  1. 從高斯分布中采樣初始動作 $x_0$;
  2. 通過 DRS 確定當前時間步的感知半徑,提取關鍵區域點云;
  3. 使用 Mamba 提取融合特征 $C$;
  4. 用如下歐拉積分方式前向演化:

xt+Δt=xt+vθ(xt,t,C)?Δtx_{t + \Delta t} = x_t + v_\theta(x_t, t, C) \cdot \Delta t xt+Δt?=xt?+vθ?(xt?,t,C)?Δt

  1. 重復上步 2-4 次,便可得到目標關鍵幀動作 $x_1$,平均推理時間 < 92ms。

5. 總結方法特點與優勢

維度FlowRAM 優勢
感知方式動態注意區域,多尺度幾何采樣
模態融合Mamba 結構替代 Transformer,復雜度線性
動作生成CFM 替代 Diffusion,速度更快,效果更穩定
通用性可適配語言、RGB-D、點云、proprioception 多模態輸入
可部署性已在真實機器人 UR5 上部署成功

三、實驗驗證:任務泛化 + 高精度執行雙優

我們在 RLBench 上進行了系統評估,包括:

多任務泛化能力

在 10 個標準任務上,FlowRAM 平均成功率達到 82.3%,比現有 SOTA 方法(如 RVT-2、3D Diffuser Actor)高出近 4%。在復雜任務(如 Stack Blocks)中更是超出對手近 19%
在這里插入圖片描述

高精度任務性能

我們在 RLBench 中挑選了 7 個對幾何精度極度敏感的任務,如插 USB、擰螺絲等。在這些任務中,FlowRAM 平均成功率高達 52.0%,相比基線模型大幅領先:

  • Insert USB:FlowRAM 成功率 57.3%,RVT-2 僅 21.3%
  • Screw Nail:FlowRAM 54.7%,其他方法均低于 50%
    在這里插入圖片描述

推理速度分析

在相同精度下,FlowRAM(CFM)僅需 2~4 步即可生成動作,遠優于 DDIM、DDPM 等擴散模型(需要 50~100 步)。如下圖所示,速度與精度雙優

在這里插入圖片描述


四、真實機器人實驗

我們將 FlowRAM 部署于真實 UR5 機械臂,配合 Robotiq 夾爪與 Azure Kinect 相機,在 6 個語言條件下的真實任務中表現出色。平均成功率達 81.7%,驗證了該方法在少量示范下的實用性和魯棒性。

任務包括:

  • 插入筆帽
  • 果盤分類
  • 耳機擺放
  • 棋盤布置等

在這里插入圖片描述
在這里插入圖片描述


五、總結與展望

FlowRAM 提供了一種融合區域感知與高效生成的新范式,專為機器人操作中的高精度任務設計。其關鍵優勢包括:

  • 感知局部細節而非全局冗余
  • 快速生成動作而非多輪迭代
  • 高性能與低推理成本并存

未來,我們希望將 FlowRAM 推向更復雜的現實環境,如多機器人協作、非剛體操作以及開源多模態數據集適配。我們也歡迎社區同行一起探索流匹配范式下的策略生成與視覺感知新邊界。


📌 如你感興趣,歡迎閱讀我們完整論文:FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba,或與我們團隊聯系交流合作。

📦 代碼已開源:歡迎訪問我們的 GitHub 倉庫,如果對你有幫助,別忘了點個 star ? 支持我們!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/93578.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/93578.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/93578.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

圖片查重從設計到實現(5)Milvus可視化工具

要通過網頁&#xff08;Web&#xff09;訪問和管理 Milvus 向量數據庫&#xff0c;可以使用官方提供的 Milvus Web UI 工具&#xff0c;這是一款可視化管理界面&#xff0c;支持查看集合、向量數據、執行基本操作等功能。以下是具體的部署和訪問方法&#xff1a; 一、部署 Milv…

Linux-awk與sed

文章目錄一、AWK1. awk 是什么&#xff1f;2. awk 的基礎語法2.1 選項2.2 模式2.3 動作3. awk 的內置變量4. 典型應用場景及示例4.1 打印特定列4.2 條件篩選4.3 使用正則表達式4.4 統計行數4.5 字段操作4.6 使用內置函數4.7 多文件處理4.8 使用自定義變量5. 高級應用&#xff1…

文件加密工具(勒索病毒加密方式)

語言&#xff1a;C# WPF功能&#xff1a;文件加/解密本程序不提供下載&#xff0c;該程序新手操作不當&#xff0c;可能會導致文件加密后無法解密問題&#xff0c;解密需要獨立私鑰private.key文件支持&#xff0c;沒有私鑰加密文件是無法被解密的。更新&#xff1a;2025年7月3…

IOC實現原理源碼解析

Spring三級緩存流程圖singletonObjects&#xff08;一級緩存&#xff09;&#xff1a;緩存經過了完整生命周期的Bean&#xff1b;arlySingletonobjects&#xff08;二級緩存&#xff09;&#xff1a;緩存未經過完整生命周期的Bean&#xff0c;如果某個Bean出現了循環依賴&#…

筆記本電腦磁盤維護指南:WIN11系統磁盤維護完全手冊

1. 引言 在當今數字化時代,筆記本電腦已經成為我們工作、學習和娛樂不可或缺的重要工具。隨著Windows 11操作系統的普及和應用,用戶對于系統性能和穩定性的要求越來越高。然而,許多用戶往往忽視了一個至關重要的方面——磁盤維護。磁盤作為計算機系統中負責數據存儲和讀取的…

李宏毅2025《機器學習》-第九講:大型語言模型評測的困境與“古德哈特定律”**

摘要&#xff1a; 隨著大型語言模型&#xff08;LLM&#xff09;的推理能力日益增強&#xff0c;如何公平、準確地評測其“智力”水平&#xff0c;成了一個極其棘手的問題。本文基于李宏毅教授的最新課程&#xff0c;深入探討了當前LLM評測面臨的困境。文章首先揭示了標準數學和…

Spring Boot集成Chaos Monkey:構建高韌性系統的故障注入實戰指南

Spring Boot集成Chaos Monkey&#xff1a;構建高韌性系統的故障注入實戰指南一、Chaos Engineering核心原理1.1 混沌工程價值矩陣1.2 Chaos Monkey核心攻擊類型二、Spring Boot集成Chaos Monkey2.1 基礎集成配置依賴引入配置文件 - application.yml2.2 高級攻擊策略配置自定義攻…

AtCoder Beginner Contest 416(ABCDE)

A - Vacation Validation 翻譯&#xff1a; 給你一個長度為 N 的字符串 S&#xff0c;它由 o 和 x 以及整數 L 和 R 組成。 請判斷 S 中從第 L 個字符到第 R 個字符的所有字符是否都是 o。 思路&#xff1a; &#xff08;模擬&#xff09; 實現&#xff1a; #include<bits…

【AlphaFold3】網絡架構篇(2)|Input Embedding 對輸入進行特征嵌入

博主簡介&#xff1a;努力學習的22級計算機科學與技術本科生一枚&#x1f338;博主主頁&#xff1a; Yaoyao2024往期回顧&#xff1a;【AlphaFold3】網絡架構篇&#xff08;1&#xff09;|概覽預測算法每日一言&#x1f33c;: 去留無意&#xff0c;閑看庭前花開花落&#xff1b…

秋招Day20 - 微服務 - 概念

什么是微服務&#xff1f;將一個大型的單體項目分割成一個個可以獨立開發和部署的小服務&#xff0c;服務之間松耦合&#xff0c;可以通過輕量級通信機制&#xff08;比如HTTP&#xff09;相互協作微服務帶來了哪些挑戰&#xff1f; 介紹一下一下Dubbo&#xff1f;Dubbo是一個高…

PyTorch 生態四件套:從圖片、視頻到文本、語音的“開箱即用”實踐筆記

寫在前面 當我們談論 PyTorch 時&#xff0c;我們首先想到的是 torch.Tensor、nn.Module 和強大的自動求導系統。但 PyTorch 的力量遠不止于此。為了讓開發者能更高效地處理圖像、文本、音頻、視頻等真實世界的復雜數據&#xff0c;PyTorch 建立了一個強大的官方生態系統。本文…

2023 年 NOI 最后一題題解

問題描述2023 年 NOI 最后一題是一道融合圖論與動態規劃的綜合優化問題&#xff0c;聚焦于帶時間窗約束的多路徑規劃。題目具體要求如下&#xff1a;給定一個有向圖&#xff0c;其中節點代表城市&#xff0c;邊代表交通路線。每條邊具有三個屬性&#xff1a;行駛時間、基礎費用…

Android補全計劃 TextView設置文字不同字體和顏色

1 富文本 1 java中動態加載文本 顏色 String strMsg "今天<font color\"#00ff00\">天氣不錯</font>"; tv_msg.setText(Html.fromHtml(strMsg));字體和顏色 String str2 "今天<font color\"#00ff00\"><big>天氣不…

C語言:詳解單鏈表與例題

C語言&#xff1a;詳解單鏈表與例題 1.單鏈表的實現 2.例題&#xff1a;移除鏈表元素 1.單鏈表的實現 鏈表根據帶頭或不帶頭、單向或雙向、循環或不循環分類為8種&#xff0c;最常用的是單鏈表和雙向鏈表&#xff0c;單鏈表是 不帶頭單向不循環 鏈表。 鏈表由節點組成&#xff…

從0開始學習R語言--Day62--RE插補

對于會有多次測量值的數據&#xff0c;用普通的回歸去插補&#xff0c;往往會忽略掉數據個體本身的特點&#xff0c;畢竟多次的測量值其實就代表了數據個體的不穩定性&#xff0c;存在額外的干擾。而RE的插補原理是結合個體本身的隨機效應和群體的固體效應再加上截距進行插補的…

RESTful API開發指南:使用Spring Boot構建企業級接口

目錄 1. 引言2. RESTful API基礎概念3. Spring Boot環境搭建4. 項目結構設計5. 核心組件開發6. 數據庫集成7. 安全認證8. 異常處理9. API文檔生成10. 測試策略11. 部署與監控12. 最佳實踐 1. 引言 在現代軟件開發中&#xff0c;RESTful API已成為構建分布式系統和微服務架構…

從 Print 到 Debug:用 PyCharm 掌控復雜程序的調試之道

目錄摘要調試工具窗口會話工具欄調試工具欄單步工具欄調試器選項卡調用棧幀&#xff08;Frames&#xff09;變量&#xff08;Variables&#xff09;&#x1f4a1; 表達式求值區域&#xff08;Evaluate expression field&#xff09;&#x1f5b1;? 右鍵菜單&#xff08;Contex…

用于前列腺活檢分級的分層視覺 Transformer:邁向彌合泛化差距|文獻速遞-醫學影像算法文獻分享

Title題目Hierarchical Vision Transformers for prostate biopsy grading: Towardsbridging the generalization gap用于前列腺活檢分級的分層視覺 Transformer&#xff1a;邁向彌合泛化差距01文獻速遞介紹前列腺癌是全球男性中第二常見的確診癌癥&#xff0c;也是第五大致命癌…

Apple基礎(Xcode②-Flutter結構解析)

&#x1f3d7;? 目錄結構速查表&#xff08;your_project/ios/ 下&#xff09;ios/ ├── Runner/ ← 原生 iOS 工程根目錄&#xff08;Xcode 打開它&#xff09; │ ├── AppDelegate.swift ← App 入口&#xff08;類似 Android 的 MainActivity&…

X00229-基于深度強化學習的車聯網資源分配python完整

X00229-基于深度強化學習的車聯網資源分配python完整