OpenVLA-OFT

TL;DR

  • 2025 年斯坦福提出的 OpenVLA 工作的續作 OpenVLA-OFT,優化 VLA 能夠有效適應新的機器人平臺和任務,優化的技術主要有并行解碼、動作塊處理、連續動作、L1 回歸和(可選的)FiLM 語言調節

Paper name
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

Paper Reading Note

Paper URL:

  • https://arxiv.org/pdf/2502.19645

Introduction

背景

  • 為了在新型機器人和新任務中順利部署,微調仍然是關鍵步驟
  • 現有方案 OpenVLA 的關鍵限制
    • 推理速度慢(3-5赫茲),不適合高頻控制
    • 在雙臂操作器上執行任務不可靠

本文方案

  • 提出了 OpenVLA-OFT(Optimized Fine-Tuning優化微調配方),結合了并行解碼與動作塊、連續動作表示,以及L1回歸學習目標

    • 通過并行解碼結合動作塊(chunking),不僅大幅提升推理效率,還能提高下游任務的成功率,并帶來更靈活的輸入輸出規格;
    • 連續動作表示相比離散表示進一步提升了模型質量;
    • 采用 L1 回歸目標微調 VLA,與基于擴散的微調方法在性能上相當,但訓練收斂速度更快,推理速度也更高效。
  • 微調的效果和模型推理效率都有提升

    • 在標準的 LIBERO 仿真基準測試和真實雙臂 ALOHA 機器人精細操作任務上進行了實驗。在 LIBERO 中,OpenVLA-OFT 在四個任務組中達到了平均 97.1% 的成功率,超過了微調后的 OpenVLA 策略(76.5%)和 π0 策略
    • 在 8 步動作塊設置下實現了 26 倍的動作生成速度提升
    • 真實 ALOHA 任務中,結合 FiLM 方法強化了語言指令理解,稱為 OFT+。OpenVLA-OFT+ 成功執行了諸如折疊衣物、根據用戶指令操作食材等復雜雙臂任務。平均成功率上,超越了微調后的VLA(π0 和 RDT-1B)和主流從零訓練的模仿學習策略(Diffusion Policy 和 ACT)多達15%(絕對值)
      在這里插入圖片描述

Methods

OpenVLA 回顧

  • 在 Open X-Embodiment數據集的 100 萬集數據上微調 Prismatic 視覺語言模型(VLM)而創建的 70 億參數的操作策略

  • 每個時間步預測 7 個離散的機器人動作標記:3 個用于位置控制,3 個用于方向控制,1 個用于夾爪控制。

  • 采用下一個標記預測作為學習目標,并使用交叉熵損失,類似于語言模型

  • 動作分塊

    • 先前的研究表明,動作分塊——即預測并執行一系列未來動作而不進行中間重規劃——可以提高許多操作任務中策略的成功率。然而,OpenVLA 的自回歸生成方案使得動作分塊不切實際,因為即使生成單個時間步的動作在 NVIDIA A100 GPU 上也需要 0.33 秒。對于大小為 K 個時間步的動作分塊和動作維度 D,OpenVLA 需要 KD 次順序解碼器前向傳播,而不是沒有分塊時的 D 次傳播。這種 K 倍的延遲增加使得在原始公式下,動作分塊對于高頻機器人不切實際。本文將介紹一種并行生成方案,以實現高效的動作分塊。

VLA 微調設計優化

模型結構及訓練策略優化
  • 并行解碼:利用雙向 attention,一次性生成所有 actions
    • 以空動作嵌入作為輸入,并用雙向注意力替換因果注意力掩碼,從而使解碼器能夠同時預測所有動作。從 D 次順序傳播減少到單次傳播,其中 D 是動作維度
    • 并行解碼自然擴展到動作分塊:要預測多個未來時間步的動作,我們只需在解碼器的輸入中插入額外的空動作嵌入,這些嵌入隨后被映射為一系列未來動作。對于大小為K的分塊,模型在一次前向傳播中預測KD個動作,吞吐量增加了K倍,同時幾乎不影響延遲。并行解碼在理論上可能不如自回歸方法具有表現力,但本文的實驗表明,在各種任務中并沒有性能下降。
  • 離散 action token 改為連續的 action 設計,對比以下兩種設計
    • 基于softmax的標記預測處理的離散動作:每個動作維度被歸一化到[?1, +1]并均勻離散化為256個bin。語言模型解碼器的最終隱藏狀態被線性投影為logits,然后通過softmax操作形成動作標記的概率分布
    • 由多層感知機(MLP)動作頭直接生成的連續動作:最終隱藏狀態則通過一個單獨的動作頭MLP直接映射為歸一化的連續動作
  • 學習目標,對比以下:
    • 離散動作:next-token prediciton
    • 連續動作:L1 回歸,最小化預測動作和真實動作之間的平均 L1 差異
    • 連續動作:diffusion (和 diffusion policy 文章類似),策略通過逆向擴散逐漸去除噪聲動作樣本以產生真實動作
      在這里插入圖片描述
  • 采用了特征線性調制(FiLM)增強語言跟隨能力:將語言嵌入注入到視覺表示中,使模型更多地關注語言輸入
    • 計算任務描述中的語言嵌入 x 的平均值,并將其投影以獲得縮放和偏移向量 γ 和 β。這些向量通過仿射變換對視覺特征F進行調制:FiLM(F|γ, β) = F? = (1 + γ) ⊙ F + β
      在這里插入圖片描述

Experiments

LIBERO 實驗

  • 使用四個任務套件:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long,每個套件在 10 個任務中各提供 500 個專家演示,以評估策略在不同空間布局、物體、目標和長程任務上的泛化能力
    在這里插入圖片描述

  • 實驗配置

    • 為非擴散方法訓練 5 萬至 15 萬次梯度更新,擴散方法(由于收斂較慢)訓練 10萬至25萬次,批量大小為 64-128,使用 8 張 A100 或 H100 GPU。
    • 每隔 5萬步測試一次模型,并報告每次運行的最佳表現。
    • 策略的輸入為一張第三人稱圖像和一條語言指令。
    • 使用動作分塊(action chunking)的方法,分塊大小 K=8
  • 模型效果評測

    • 并行解碼(Parallel Decoding, PD)和動作分塊(Action Chunking, AC) 是實現高頻率控制(25-50+ Hz)的必要條件。并行解碼和動作分塊不僅提高了吞吐量,還顯著提升了性能,相比自回歸 OpenVLA 策略,平均成功率提高了 14%(絕對值)。在 LIBERO-Long 套件上提升尤為明顯,表明動作分塊有助于捕捉時間依賴性并減少累積誤差,從而使任務執行更加平滑和可靠。
    • 連續動作變體比離散動作變體的成功率又提高了 5%(絕對值),這可能是因為連續動作預測具有更高的精度。
    • L1 回歸和擴散變體性能相當,說明高容量的 OpenVLA 模型即便使用簡單的 L1 回歸,也能有效建模多任務動作分布。
      在這里插入圖片描述
  • 模型性能評估

    • 在 NVIDIA A100 GPU 上對每種模型變體進行 100 次查詢,測量平均延遲(生成一個動作或動作塊的時間)和吞吐量(每秒生成的動作數)。輸入是一張 224x224 像素的圖像和一條示例語言指令(例如:“撿起字母湯罐頭放進籃子里”)。
    • 并行解碼將 7 次順序前向傳遞合并為一次,從而使延遲減少、吞吐量提高了 4 倍。
      增加動作分塊(K=8)雖然使延遲增加了 17%(因為解碼器的注意力序列更長),但結合并行解碼后,總體吞吐量提升達 26 倍。
    • 連續動作(L1 回歸)變體效率變化微小,而擴散變體由于需要 50 次去噪步驟,導致延遲是其他方法的 3 倍,但通過并行解碼和分塊,仍然實現了 2 倍以上的吞吐量提升。這意味著盡管動作塊之間的暫停更長,但擴散變體仍比原始自回歸 (OpenVLA) 更快完成機器人任務。
    • 在 OpenVLA 中引入額外輸入(如機器人本體感知狀態和腕部攝像頭圖像)進行驗證,使視覺 patch 嵌入數從 256 翻倍到 512。盡管輸入序列長度大幅增加,微調后的 OpenVLA 策略仍保持了高吞吐量(71.4 Hz)和低延遲(0.112 秒)
      在這里插入圖片描述

真實機器人平臺測試

  • ALOHA 是一個真實的雙臂操作平臺,具有高頻控制能力。包含兩只 ViperX 300 S 機械臂、三個攝像頭視角(一個俯視,一個安裝在每只手腕上)以及機器人狀態輸入(14 維關節角)組成。控制頻率為 25 Hz(從原始的 50 Hz 降低,以加快訓練速度,同時保持平滑控制),動作表示為目標絕對關節角。這種設置與 OpenVLA 的預訓練條件有顯著差異,后者只包括單臂數據、單一第三人稱攝像視角、無機器人狀態輸入、低頻率控制(3-10 Hz)以及相對末端執行器位姿動作。這種分布變化對模型適應性提出了挑戰。

  • 設計了四個任務,用于測試可變形物體操作、長時間技能、工具使用和基于語言的控制能力

    • “fold shorts”(疊短褲):在桌子上進行連續兩次雙臂折疊,將白色短褲疊好
    • “fold shirt”(疊T恤):通過多次同步雙臂折疊,將白色 T 恤疊好,考驗接觸豐富的長時操作。
    • “scoop X into bowl”(把 X 舀入碗中):左臂將碗移動到桌子中央,右臂用金屬勺舀指定的配料(葡萄干、杏仁和綠 M&M 糖,或椒鹽卷餅)。
    • “put X into pot”(把 X 放入鍋中):左臂打開鍋蓋,右臂放入指定物品(青椒、紅椒或黃玉米),然后合上鍋蓋。
  • 微調后能取得最優效果,需要注意的是 FiLM 在這里的重要性非常大
    在這里插入圖片描述

在這里插入圖片描述

Conclusion

  • OpenVLA 的續作,主要優化 VLA 能夠有效適應新的機器人平臺和任務,優化的技術主要有
    • 并行解碼、動作塊處理、連續動作、L1 回歸和(可選的)FiLM 語言調節
  • 本文的實驗主要是在微調任務中做的,尚不清楚 OFT 的優勢能否有效擴展到預訓練階段
  • 仿真平臺和實際平臺中對模型有不同的需求
    • 在 ALOHA 平臺的實驗中,發現 OpenVLA 在沒有 FiLM 的情況下表現出較差的語言理解能力,盡管在 LIBERO 仿真基準測試中并未出現此類問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/78773.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/78773.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/78773.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringBoot 接口國際化i18n 多語言返回 中英文切換 全球化 語言切換

介紹 Spring Boot通過MessageSource接口來實現國際化,它可以加載不同的消息資源文件,通常是.properties格式。通過定義不同的語言文件(例如:messages_en.properties、messages_zh.properties等),可以根據用…

一個crackme例子

文件下載地址:https://download.csdn.net/download/m0_37567738/90713354 將cipher.txt文件內容解密后: 恭喜你解出了這一關,flag為 zjwa{36_23121136a28d0d15} 好了現在告訴你最后一層的獲取方式, 在系統內找到 手機鏡像的 ra…

賬戶解封無望?3步高效申訴取回亞馬遜凍結資金

近年來,隨著全球跨境電商市場的飛速擴張,亞馬遜(Amazon)作為其中的巨頭,持續強化其平臺治理力度。然而,隨之而來的是賣家賬戶因各種原因被凍結、關閉的事件頻頻發生。根據Marketplace Pulse發布的2024年第一…

【C++ Qt】快速上手 顯?類控件(Label、LCDNumber、ProcessBar、CalendarWidget)

每日激勵:“不設限和自我肯定的心態:I can do all things。 — Stephen Curry” 緒論?: 本文圍繞Qt中常用的顯示類控件展開,重點講解了 QLabel(文本/圖片顯示)、QLCDNumber(數字顯示&#xff0…

從困局到破局的AI+數據分析

從困局到破局的AI數據分析 困局:數據分析的四道高墻破局:AI賦能全流程數據分析遠見:AI數據分析的革命性意義 數據是新時代的石油,人工智能是煉油廠。當兩者強強聯合,一場數據分析的革命正悄然發生。 多少次你面對Excel…

IGH 匯川SV660N調試

EoE 目前的方式是將eoe 關閉, 這需要重新配置編譯ec_master sudo ./configure --disable-8139too --enable-generic --enable-r8169 --disable-eoe --enable-coe[426163.348589] EtherCAT 0: Master thread exited. [426163.348592] EtherCAT 0: Stopping EoE thread. [426163.…

Java基礎361問第16問——枚舉為什么導致空指針?

我們看一段代碼 public enum Color {RED, BLUE, YELLOW;public static Color parse(String color) {return null;} }public static void main() {Color color Color.parse("");// 極具迷惑性,大家日常開發肯定這么寫過switch (color) {case RED:break;c…

10.Excel:快速定位目標值

一 批量刪除 1.如何使用 快捷鍵 CTRLG 補充:直接選擇定位條件。 2.作用 1.批量刪除工作表中的圖片 補充:無法通過框選的方式選中這些圖片進行刪除。 這樣只框選了表格,無法框選圖片。因為圖片在excel中被認為是一個對象,對象無法通…

快樂數(雙指針解法)

題目鏈接202. 快樂數 - 力扣(LeetCode) 題目拆解 1 取一個正整數每一位的平方和為,如果為1那么直接可以判定為快樂數,如果不為1,就重復這個過程,直到出現1 2 實際上,這道題只有兩種情況&#xf…

進程控制的學習

進程控制(Process Control)是指操作系統對進程的創建、執行、暫停、恢復、終止等一系列狀態變化進行管理和協調的過程。 簡單說,就是系統讓各個程序能有序地運行,合理地使用CPU和資源,而不會互相沖突或者出錯。 主要包…

818協議知識筆記

一、概念 Fibre CHannel-Audio Vedio standard;FC-AV FC-FS:Fibre channel framing and signaling interface; FC-PI:fibre channel physical interfaces 二、術語 VGA,SVGA,XGA,WXGA,SXGA,SXGA,WSXGA,UXGA,1440P; ICD:interface control document接口控制文檔 CRC對幀頭和數據…

AI大模型學習十二:?嘗鮮ubuntu 25.04 桌面版私有化sealos cloud + devbox+minio對象存儲測試和漫長修改之路

一、說明 前面已經安裝完成,這里我們測試對象存儲 AI大模型學習十一:?嘗鮮ubuntu 25.04 桌面版私有化sealos cloud devboxminio,實戰運行成功-CSDN博客https://blog.csdn.net/jiangkp/article/details/147424823?spm1011.2415.3001.5331 二…

SpringBoot的自動掃描特性-筆記

1.Spring Boot 的自動掃描特性介紹 Spring Boot 的自動掃描(Component Scanning)是其核心特性之一。通過注解SpringBootApplication 簡化了 Bean 的管理,允許框架自動發現并注冊帶有特定注解的類為 Spring 容器中的 Bean(特定注解…

基于nodeJS代碼的通過爬蟲方式實現tiktok發布視頻(2025年4月)

1、將真實的tiktokstudio平臺的cookie填到代碼里的cookie變量里,修改python代碼里的ticket,ts, privateKey,以及videoPath,timing等變量的值,最后運行python腳本即可; 2、運行之前根據import提示安裝一些常見依賴,比如node-fetch等; 3、運行時候可能系統需要科學上網…

數據一致性問題剖析與實踐(四)——競態條件競爭導致的一致性問題

一、前言 之前我們討論了幾種場景的一致性問題 冗余數據存儲中的一致性問題分布式共識中的一致性問題單機事務中的一致性問題分布式事務中的一致性問題 本文將圍繞競態條件競爭中的一致性問題展開討論分析。 二、 問題定義 競態條件(Race Condition&#xff09…

PCL點云處理之基于FPFH特征的SAC-IA全局配準算法 (二百四十六)

提示: 有相關點云需求的可以私信 PCL 點云處理之基于 FPFH 特征的 SAC - IA 全局配準算法 一、前言二、相關概念介紹2.1 點云2.2 FPFH 特征2.3 SAC - IA 算法三、SAC - IA 全局配準算法原理3.1 FPFH 特征提取3.2 SAC - IA 配準過程四、代碼實現與分析4.1 完整代碼4.2 代碼分析…

JavaScript性能優化實戰:從瓶頸定位到極致提速

JavaScript作為現代Web應用的核心,其性能直接影響用戶體驗。本文將從性能瓶頸定位、高頻優化場景、現代API利用三個維度,結合代碼示例和Chrome DevTools實戰,為你構建完整的性能優化體系。 一、性能分析:精準定位瓶頸 1.1 Chrome…

JavaScript 頁面刷新:從傳統到現代的全面解析

在 Web 開發中,"刷新"是一個基礎但極其重要的功能。本文將全面探討頁面刷新的實現方式,從傳統方法到現代最佳實踐,深入解析每一種方案的原理和適用場景,并給出實用代碼示例。 一、理解頁面刷新的本質 在 Web 開發中&am…

NLP高頻面試題(五十五)——DeepSeek系列概覽與發展背景

大型模型浪潮背景 近年來,大型語言模型(Large Language Model, LLM)領域發展迅猛,從GPT-3等超大規模模型的崛起到ChatGPT的橫空出世,再到GPT-4的問世,模型參數規模和訓練數據量呈指數級增長。以GPT-3為例,參數高達1750億,在570GB文本數據上訓練,顯示出模型規模、數據…

鴻蒙系統應用開發全棧指南

一、開發環境搭建與工具鏈配置 1. DevEco Studio深度解析 作為鴻蒙生態的官方IDE,DevEco Studio 4.2版本已集成ArkTS 3.0編譯器與AI代碼助手功能。安裝過程需注意: 系統要求:Windows 10 21H2或macOS Monterey以上環境依賴:Node…