OpenVLA (2) 機器人環境和環境數據

文章目錄

    • @[TOC](文章目錄)
  • 前言
  • 1 BridgeData V2
    • 1.1 概述
    • 1.2 硬件環境
  • 2 數據集
    • 2.1 場景與結構
    • 2.2 數據結構
      • 2.2.1 images0
      • 2.2.2 obs_dict.pkl
      • 2.2.3 policy_out.pkl
  • 3 close question
    • 3.1 英偉達環境
    • 3.2 LIBERO 環境更適合仿真
    • 3.3 4090 運行問題

前言

按照筆者之前的行業經驗, 數據集的整理是非常重要的, 因此筆者這里增加原文中出現的幾個數據集和環境的學習


1 BridgeData V2

在這里插入圖片描述

1.1 概述

在這里插入圖片描述
skill 例如:抓取(pick), 放置(place), 推動(pushing), 清掃(sweeping), 堆疊(stacking), 折疊(folding)
trajectories 就是action集合:
在這里插入圖片描述
其中數據集合結構圖如下:

圖像分辨率:640×480

1.2 硬件環境

BridgeData的整體環境如圖:
在這里插入圖片描述

其中所有的硬件(包括支架, 導軌,工件 等等)描述鏈接如下:
https://docs.google.com/document/d/1si-6cTElTWTgflwcZRPfgHU7-UwfCUkEztkH3ge5CGc/edit?pli=1&tab=t.0
在這里插入圖片描述
該平臺主要的內容:
一個固定視角(over-the-shoulder) 的RGBD(Intel D435),
一個固連在機器人腕部的RGB(custom Raspberry Pi),
兩個可變視角RGB(Logitech C920),在數據采集過程中會被更改。

我們關心的機械臂和攝像頭參數如下:
在這里插入圖片描述在這里插入圖片描述

在這里插入圖片描述在這里插入圖片描述
但是要注意的是openVLA沒有用腕部攝像頭(原因是方便 PK 其他工作), 因此只用了第三人視角的攝像頭
在這里插入圖片描述

2 數據集

2.1 場景與結構

可以看到數據集合總共有兩種
在這里插入圖片描述

類型說明
Human demonstrations人類通過遙操作(如鼠標/VR 手柄)控制機器人執行任務,系統記錄圖像、指令和動作
Scripted policies開發者用 Python/控制代碼編寫一套“規則程序”,在給定場景中自動執行任務,比如:“如果檢測到杯子在桌面中心,則移動 gripper 到目標點并下降”

數據結構如下圖, 其中每個traj_group 都是相同場景,固定部分擺件,然后制造數據
在這里插入圖片描述
再升一級目錄,我們可以看到 相同的場景,不同的拍攝時間對應不同的 擺件,而不是控制部分不同的擺件
在這里插入圖片描述

我們, 再進入raw 數據,可以看到bridge_data的場景結構
在這里插入圖片描述
其中這里作者還為數據的正確性做了驗證放了一張diagnostics.png 圖片以顯示當前 通過腳本給定數據的正確性.
在這里插入圖片描述

名稱意義數據來源
xpos實際執行到的位置通過機器人反饋采集,每一幀記錄
despos計劃中的目標位置來自控制策略(如 scripted policy)或人類操作輸入

2.2 數據結構

每一組數據里都包含三個文件:

在這里插入圖片描述

2.2.1 images0

images0 是用于ViT的一組圖片, obj_dict 是場景信息
在這里插入圖片描述
可以看出就是完成一個 trajetory的過程.

2.2.2 obs_dict.pkl

在這里插入圖片描述

鍵名含義
joint_effort每個關節的施加力矩(關節力)
qpos關節位置(Joint Position)
qvel關節速度(Joint Velocity)
full_state完整狀態向量(包含位姿、關節等)
state簡化狀態(可能是觀測空間狀態)
desired_state控制器期望狀態(即 despos 源)
time_stamp每幀時間戳
eef_transform End-Effector的變換矩陣(即 gripper 位姿)
high_bound / low_bound狀態空間上下界
env_done當前幀是否終止(布爾)
t_get_obs獲取觀測時耗(調試用)

其中
eef_transform代表的是 gripper 的六自由度位姿變換矩陣(通常是 4x4),可以從中提取出:
(1) 平移向量(x, y, z) 即我們要的 xpos
(2) 旋轉矩陣 , 可進一步轉為歐拉角(roll, pitch, yaw)

2.2.3 policy_out.pkl

索引含義示例值說明
[0:3]Δx, Δy, Δz-0.012, 0.037, 0.004空間位置變化向量(平移動作)
[3:6]Δroll, Δpitch, Δyaw0.0043, -0.0037, -0.8251歐拉角空間的姿態微調(旋轉動作)
[6]gripper_open1 or 0夾爪開閉指令(1 表示張開,0 表示閉合)

在這里插入圖片描述
我這條case 共計49組,這張圖是記錄了 xyz的運動軌跡
在這里插入圖片描述
這張圖分析了 爪子夾取東西的時間分布圖.在這里插入圖片描述

3 close question

3.1 英偉達環境

Can anyone provide a tutorial on how to use OpenVLA to control a robotic arm?
在這里插入圖片描述

3.2 LIBERO 環境更適合仿真

In SimplerENV, select google robot or WidowX, unnorm_key=bridge_orig, the effect is not good, can not complete the task.
Status: Closed (completed).
#84 In openvla/openvla;· by zhou-pig was closed on Sep 5, 2024
在這里插入圖片描述

3.3 4090 運行問題

Unable to Reproduce 6 Actions/s Inference on RTX4090 #66

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83430.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83430.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83430.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深度學習(第3章——亞像素卷積和可形變卷積)

前言: 本章介紹了計算機識別超分領域和目標檢測領域中常常使用的兩種卷積變體,亞像素卷積(Subpixel Convolution)和可形變卷積(Deformable Convolution),并給出對應pytorch的使用。 亞像素卷積…

大模型在腰椎間盤突出癥預測與治療方案制定中的應用研究

目錄 一、引言 1.1 研究背景 1.2 研究目的與意義 二、腰椎間盤突出癥概述 2.1 定義與病因 2.2 癥狀與診斷方法 2.3 治療方法概述 三、大模型技術原理與應用基礎 3.1 大模型的基本原理 3.2 大模型在醫療領域的應用現狀 3.3 用于腰椎間盤突出癥預測的可行性分析 四、…

Vue3學習(組合式API——ref模版引用與defineExpose編譯宏函數)

目錄 一、ref模版引用。 &#xff08;1&#xff09;基本介紹。 &#xff08;2&#xff09;核心基本步驟。(以獲取DOM、組件為例) &#xff08;3&#xff09;案例&#xff1a;獲取dom對象演示。 <1>需求&#xff1a;點擊按鈕&#xff0c;讓輸入框聚焦。 &#xff08;4&…

公鏈開發及其配套設施:錢包與區塊鏈瀏覽器

公鏈開發及其配套設施&#xff1a;錢包與區塊鏈瀏覽器的技術架構與生態實踐 ——2025年區塊鏈基礎設施建設的核心邏輯與創新突破 一、公鏈開發&#xff1a;構建去中心化世界的基石 1. 技術架構設計的三重挑戰 公鏈作為開放的區塊鏈網絡&#xff0c;需在性能、安全性與去中心…

Kotlin 作用域函數(let、run、with、apply、also)對比

Kotlin 的 作用域函數&#xff08;Scope Functions&#xff09; 是簡化代碼邏輯的重要工具&#xff0c;它們通過臨時作用域為對象提供更簡潔的操作方式。以下是 let、run、with、apply、also 的對比分析&#xff1a; 一、核心區別對比表 函數上下文對象引用返回值是否擴展函數…

14、Python時間表示:Unix時間戳、毫秒微秒精度與time模塊實戰

適合人群&#xff1a;零基礎自學者 | 編程小白快速入門 閱讀時長&#xff1a;約5分鐘 文章目錄 一、問題&#xff1a;計算機中的時間的表示、Unix時間點&#xff1f;1、例子1&#xff1a;計算機的“生日”&#xff1a;Unix時間點2、答案&#xff1a;&#xff08;1&#xff09;U…

AI日報 - 2024年5月17日

&#x1f31f; 今日概覽 (60秒速覽) ▎&#x1f916; 大模型前沿 | OpenAI推出自主編碼代理Codex&#xff1b;Google DeepMind發布Gemini驅動的編碼代理AlphaEvolve&#xff0c;能設計先進算法&#xff1b;Meta旗艦AI模型Llama 4 Behemoth發布推遲。 Codex能并行處理多任務&…

DriveMM:用于自動駕駛的一體化大型多模態模型——論文閱讀

《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》2024年12月發表&#xff0c;來自中山大學深圳分校和美團的論文。 大型多模態模型&#xff08;LMM&#xff09;通過整合大型語言模型&#xff0c;在自動駕駛&#xff08;AD&#xff09;中表現出卓越的理解…

C++_STL_map與set

1. 關聯式容器 在初階階段&#xff0c;我們已經接觸過STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、 forward_list(C11)等&#xff0c;這些容器統稱為序列式容器&#xff0c;因為其底層為線性序列的數據結構&#xff0c;里面 存儲的是元素本身。那什么是…

【嵌入式開發-RGB 全彩 LED】

嵌入式開發-RGB 全彩 LED ■ RGB 全彩 LED簡介■ 電路設計■ ■ RGB 全彩 LED簡介 RGB 全彩 LED 模塊顯示不同的顏色。 ■ 電路設計 全彩 LED 使用 PA5、 藍色&#xff08;B&#xff09; TIM2_CHN3 PA1、 綠色&#xff08;G&#xff09;TIM2_CHN2 PA2、 紅色&#xff08;R&am…

計算機網絡:手機和基站之間的通信原理是什么?

手機與基站之間的通信是無線通信技術的核心應用之一,涉及復雜的物理層傳輸、協議交互和網絡管理機制。以下從技術原理、通信流程和關鍵技術三個層面深入解析這一過程: 一、蜂窩網絡基礎架構 1. 蜂窩結構設計 基本原理:將服務區域劃分為多個六邊形“蜂窩小區”,每個小區由*…

【Docker】Docker安裝RabbitMQ

目錄 1.拉取鏡像 2. 創建掛載目錄 3.創建和啟動 4.登錄管理端 1.拉取鏡像 推薦使用帶 Web 管理界面的官方鏡像&#xff08;management&#xff09; # 拉取docker鏡像 docker pull rabbitmq:management響應內容&#xff1a; 2. 創建掛載目錄 創建掛載目錄和日志目錄 #rabb…

交叉編譯源碼的方式移植ffmpeg-rockchip

獲取ffmpeg源碼 git submodule add -f https://github.com/FFmpeg/FFmpeg.git thirdparty/FFmpeg 瑞芯微ffmpeg-rk git clone https://github.com/jjm2473/ffmpeg-rk/tree/enc# 參考的一位博主的說法 使用 ffmpeg-rochip 的好處 傳統的使用硬件編解碼的開發思路是&#xf…

9.0 C# 調用solidworks介紹1

一、C# 與 SolidWorks 聯合開發概述 SolidWorks 提供了完整的 API(應用程序接口),允許開發者使用 C# 等編程語言進行二次開發,實現自動化設計、定制功能等。 主要技術要點包括: 1. API 結構:SolidWorks API 是基于 COM 的接口,包含數百個對象和數千個方法…

AD 多層線路及裝配圖PDF的輸出

裝配圖的輸出&#xff1a; 1.點開‘智能PDF’ 2. 設置顯示頂層&#xff1a; 設置顯示底層&#xff1a; 多層線路的輸出 同樣使用‘智能PDF’

SpringBoot + Shiro + JWT 實現認證與授權完整方案實現

SpringBoot Shiro JWT 實現認證與授權完整方案 下面博主將詳細介紹如何使用 SpringBoot 整合 Shiro 和 JWT 實現安全的認證授權系統&#xff0c;包含核心代碼實現和最佳實踐。 一、技術棧組成 技術組件- 作用版本要求SpringBoot基礎框架2.7.xApache Shiro認證和授權核心1.…

PCIe數據采集系統詳解

PCIe數據采集系統詳解 在上篇文章中&#xff0c;廢了老大勁兒我們寫出了PCIe數據采集系統&#xff1b;其中各個模塊各司其職&#xff0c;相互配合。完成了從數據采集到高速存儲到DDR3的全過程。今天我們呢就來詳細講解他們之間的關系&#xff1f;以及各個模塊的關鍵點&#xff…

2025云智算技術白皮書

1. 云智算的演進背景 傳統云計算面臨三大挑戰&#xff1a; 算力需求激增&#xff1a;AI大模型訓練需十萬卡級GPU集群&#xff0c;資源調度能力不足。網絡性能瓶頸&#xff1a;TB級參數同步對低時延、高吞吐要求遠超傳統網絡架構。服務形態單一&#xff1a;IaaS/PaaS無法覆蓋A…

C語言編程中的時間處理

最簡單的time 在C語言編程中&#xff0c;處理時間最簡單的函數就是time了。它的原型為&#xff1a; #include <time.h> time_t time(time_t *_Nullable tloc);返回自從EPOCH&#xff0c;即1970年1月1日的零點零時零分&#xff0c;到當前的秒數。 輸入參數可以是NULL。…

適應性神經樹:當深度學習遇上決策樹的“生長法則”

1st author: Ryutaro Tanno video: Video from London ML meetup paper: Adaptive Neural Trees ICML 2019 code: rtanno21609/AdaptiveNeuralTrees: Adaptive Neural Trees 背景 在機器學習領域&#xff0c;神經網絡&#xff08;NNs&#xff09;憑借其強大的表示學習能力&…