OpenVLA: 論文閱讀 -- 開源視覺-語言-行動模型

更多內容：XiaoJ的知識星球

OpenVLA：開源視覺-語言-行動模型
1. 介紹
2. 相關工作
- 1）視覺條件語言模型（Visually-Conditioned Language Models）
- 2）通用型機器人策略（Generalist Robot Policies）
- 3）視覺-語言-行動模型（Vision-Language-Action Models）
3. OpenVLA 模型
- 1）視覺語言模型VLM
- 2）OpenVLA 訓練流程
- 3）訓練數據
- 4）OpenVLA 設計決策
- - （1）VLM主干模型
  - （2）圖像分辨率
  - （3）微調視覺編碼器
  - （4）訓練輪數（Training Epochs）
  - （5）學習率（Learning Rate）
- 5）訓練與推理基礎設施
4. OpenVLA 代碼庫
5. 實驗
- 1）多機器人平臺上直接評估
- - （1）機器人設置與任務
  - （2）對比
- 2）數據高效地適應新的機器人設置
- - （1）機器人設置與任務
  - （2）對比方法
- 3）參數高效微調
- 4）通過量化實現內存高效的推理
6. 討論與局限

OpenVLA：開源視覺-語言-行動模型

在這里插入圖片描述

圖1：提出OpenVLA，7B的開源視覺-語言-動作模型（VLA）

摘要

在互聯網規模視覺語言數據與多樣化機器人演示相結合的大型策略預訓練，有潛力改變教機器人新技能的方式：無需從零開始訓練新行為，而是通過對這類視覺-語言-動作（VLA）模型進行微調，獲得用于視覺運動控制的魯棒且可泛化的策略。

然而，VLA模型廣泛應用面臨挑戰：

現有VLA模型大多閉源；
先前研究缺乏對VLA模型高效微調方法的探索，以適應新任務。

為此，本文推出OpenVLA：7B開源VLA模型，基于Llama 2和融合DINOv2與SigLIP的視覺編碼器。

OpenVLA憑借增強的數據多樣性和新穎模型結構，在29項通用操作任務上超越閉源RT-2-X模型16.5%成功率，參數量僅為其七分之一。
OpenVLA支持高效微調，在多物體多任務場景中泛化性強，語言理解能力優，性能上比從頭訓練的先進模仿學習方法（如Diffusion Policy）高出20.4%。
OpenVLA通過LoRA方法，可在消費級GPU上高效微調，并通過量化技術實現高效部署。

本文開源了模型 checkpoints、微調代碼、基于 PyTorch 的代碼庫，并內置支持在 Open X-Embodiment 數據集上大規模訓練 VLA。

1. 介紹

現有機器人操作策略的主要弱點是無法泛化至訓練數據集之外的場景。相比之下，CLIP、SigLIP、Llama 2等視覺語言基礎模型得益于互聯網規模的預訓練，具備更強的泛化能力。由此，利用現成的視覺語言基礎模型作為核心組件，構建可泛化至新物體、場景和任務的機器人策略。

已有探索將預訓練語言和視覺語言模型用于機器人表征學習，或作為模塊化系統組件用于任務規劃與執行。更進一步，直接用于訓練視覺-語言-動作模型（VLA）以實現控制。VLA通過微調基于互聯網規模數據訓練的視覺語言模型（如PaLI），使其輸出機器人動作，顯著提升了對新物體和新任務的泛化能力。

然而，現有VLA的廣泛應用仍受限于兩點：

模型閉源，架構、訓練方法和數據構成不透明；
缺乏在通用硬件（如消費級GPU）上部署和適配新機器人、環境與任務的有效方法。

為此推出OpenVLA，樹立了通用機器人操作策略的新標桿。

2. 相關工作

1）視覺條件語言模型（Visually-Conditioned Language Models）

視覺條件語言模型（VLM）利用互聯網規模數據，根據圖像和語言提示生成自然語言，已廣泛應用于視覺問答、目標定位等任務。其核心進展在于將預訓練視覺編碼器（如CLIP、SigLIP、DINOv2）與語言模型（如Llama、PaLM）結合，構建強大的多模態系統。

早期方法多采用復雜的跨模態注意力結構，而近期開源VLM（如Kosmos、Flamingo、PaLI）趨向“圖像塊即token”的簡化架構，將視覺Transformer的圖像塊特征視為語言模型的輸入token，便于復用大規模語言模型訓練工具。

OpenVLA中采用此類架構，以VLM為預訓練骨干，其融合DINOv2的低層級的空間信息（low-level spatial information）與SigLIP的高層級的語義信息（higher-level semantics），支持多分辨率輸入，增強視覺泛化能力，為VLA訓練奠定基礎。

2）通用型機器人策略（Generalist Robot Policies）

近年來，機器人領域趨向于在大規模、多樣化的機器人數據集上訓練多任務“通用型”策略，覆蓋多種機器人形態。例如Octo訓練出可直接控制多種機器人的通用策略，并支持靈活微調。

與這類方法的關鍵區別在于，OpenVLA采用更端到端的架構：不額外拼接從零訓練的模塊，而是直接將機器人動作視為語言模型詞匯中的token，對預訓練視覺語言模型（VLM）進行微調以輸出動作。實驗表明，這一簡單且可擴展的范式顯著提升了性能與泛化能力，優于以往通用策略。

3）視覺-語言-行動模型（Vision-Language-Action Models）

已有研究探索將視覺語言模型（VLM）用于機器人，如視覺表征、目標檢測、高層規劃或反饋生成。部分工作將其融入端到端控制策略，但常依賴特定架構或標定相機，限制了通用性。

近期一些研究與作者思路相近，直接微調大型VLM以預測機器人動作，這類模型稱為視覺-語言-動作模型（VLA），將動作融入VLM主干。其優勢在于：

利用互聯網規模數據完成視覺與語言組件的預對齊；
通用架構便于復用現有VLM訓練基礎設施，輕松擴展至十億參數模型；
使機器人可直接受益于VLM的快速進展。

然而，現有VLA研究多局限于單一機器人或仿真環境，泛化性不足，或為閉源模型，缺乏對新機器人配置的高效微調支持。

最接近的是RT-2-X在Open X-Embodiment數據集上訓練了550億參數的VLA模型，實現了當前最優的通用操作性能。相比之下，OpenVLA與RT-2-X的關鍵不同：

OpenVLA采用更強的開源VLM主干和更豐富的機器人預訓練數據，在模型規模小一個數量級的情況下性能超越RT-2-X；
OpenVLA在新場景下有微調能力，而RT-2-X未探討此問題；
首次驗證了現代參數高效微調（如LoRA）和量化技術在VLA上的有效性；
是首個開源的通用VLA模型，支持未來在訓練方法、數據組合、目標函數和推理等方面的開放研究。

3. OpenVLA 模型

OpenVLA是一個基于Open X-Embodiment數據集97萬條機器人演示訓練的70億參數視覺-語言-動作模型（VLA）。當前VLA模型在主干網絡、數據集和超參數等最佳實踐方面仍存在諸多未充分探索的問題。

本文詳細介紹了OpenVLA的構建方法與關鍵經驗：

首先簡述作為其主干的現代視覺語言模型（VLM）；
然后介紹基礎訓練方案與數據集）；
討論關鍵設計選擇；
最后，說明訓練與推理所用的基礎設施。

在這里插入圖片描述
圖2：OpenVLA 模型架構

1）視覺語言模型VLM

大多數最新視覺語言模型（VLM）的架構由三個主要部分組成（見圖2）：

視覺編碼器，將圖像輸入轉換為多個“圖像塊嵌入（image patch embeddings）”；
投影器，將視覺編碼器的輸出嵌入映射到語言模型的輸入空間；
大語言模型（LLM）主干。

訓練時，模型在來自互聯網的配對或交錯的視覺-語言數據上，以預測下一個文本token（即語言模型能識別的最小文本單位）為目標進行端到端訓練。

OpenVLA基于Prismatic-7B視覺語言模型（VLM）構建。Prismatic包含：

視覺編碼器：6億參數的DinoV2+SigLIP 雙分支視覺編碼器；
投影器：兩層MLP；
LLM主干：Llama2 7B語言模型主干。

其顯著特點是，采用SigLIP和DINOv2模型雙分支視覺編碼器：輸入圖像塊分別通過兩個編碼器處理，輸出的特征向量在通道維度上拼接。相比常用的CLIP或單一SigLIP編碼器，添加 DinoV2 特征有助于提升空間推理能力。

2）OpenVLA 訓練流程

為訓練OpenVLA，對預訓練的Prismatic-7B進行微調，使其能預測機器人動作。具體來說，將動作預測問題轉化為"視覺-語言"任務：輸入一張觀察圖和一條語言指令，模型輸出對應的機器人動作序列。

為讓語言模型能處理這些動作，將機器人動作轉換為離散的token。對每個動作維度單獨進行離散化處理：

將一個N維機器人動作轉換為N個范圍在[0, 255]的離散整數。
區間范圍根據訓練數據中該動作，排除最小的1%和最大的1%的極端值。可有效避免異常動作數據導致的區間過寬問題，從而保證動作預測的精度。

OpenVLA采用的語言模型Llama的分詞器僅保留了100個“特殊token”用于微調時新增的token，不足以容納所需的256個動作token。為此沿用前人方案：直接用動作token覆蓋Llama分詞器詞表中使用頻率最低的末尾256個token。

動作序列轉化為token后，OpenVLA采用標準的下一token預測目標進行訓練，僅對動作token部分計算交叉熵損失。

3）訓練數據

構建OpenVLA訓練數據的目標是覆蓋多樣化的機器人形態、場景和任務，以實現開箱即用的多機器人控制與高效微調。基于Open X-Embodiment（OpenX）數據集，整合了70多個、超200萬條軌跡的機器人數據。為提升訓練可行性，進行了多步數據整理。

整理目標包括：

（1）確保所有訓練數據集的輸入輸出空間的一致性；
（2）平衡最終數據中機器人形態、任務和場景的分布。

針對（1）僅保留含第三人稱視角相機且使用單臂末端執行器控制的操作數據。針對（2）采用Octo的數據混合權重，對多樣性高的數據集增權，低多樣性的降權或剔除。

此外，還嘗試加入Octo發布后新增的數據集（如DROID），但混合權重設為保守的10%。訓練中發現其動作token準確率始終偏低，表明需更大模型或權重才能充分學習。為避免影響最終性能，我們在最后三分之一訓練階段移除了DROID。

4）OpenVLA 設計決策

開發OpenVLA時，先在小規模實驗中探索了多種設計選擇，再啟動最終的大規模訓練。具體而言，初期實驗使用BridgeData V2而非完整的OpenX混合數據集進行訓練與評估，以加快迭代速度并降低計算成本。

（1）VLM主干模型

VLM主干模型選擇。最初測試了多種VLM主干，包括IDEFICS-1、LLaVA和 Prismatic，用于機器人動作預測。

實驗發現，在單物體任務中，LLaVA與IDEFICS-1表現相近，但在涉及多物體且需根據語言指令操作特定物體的任務中，LLaVA的語言對齊能力更強，在BridgeData V2水槽環境的五個語言接地任務上，絕對成功率比IDEFICS-1高35%。

而微調后的Prismatic VLM進一步提升性能，在單物體和多物體任務上均優于LLaVA約10%。作者歸因于其融合SigLIP與DINOv2的主干增強了空間推理能力。此外，Prismatic還具備模塊化、易用的代碼庫，因此最終選用Prismatic作為OpenVLA的主干模型。

（2）圖像分辨率

輸入圖像的分辨率顯著影響VLA訓練的計算開銷：更高分辨率會產生更多圖像塊token，導致上下文長度增加，訓練計算量呈平方級上升。

作者對比了輸入分辨率為224×224和384×384的VLA模型，發現性能無顯著差異，但后者訓練耗時高出3倍。因此，OpenVLA最終采用224×224的分辨率。

需注意，在多數VLM基準上，更高分辨率通常能提升性能，但在當前VLA任務中尚未觀察到此趨勢。

（3）微調視覺編碼器

以往VLM研究發現，訓練時凍結視覺編碼器通常能獲得更好性能，因其有助于保留互聯網預訓練學到的魯棒特征。然而，作者發現對VLA訓練而言，微調視覺編碼器至關重要。作者推測，預訓練的視覺主干可能未能充分捕捉場景中關鍵區域的細粒度空間細節，難以支持精確的機器人控制。

（4）訓練輪數（Training Epochs）

典型的LLM或VLM訓練通常僅完成1到2個epoch。相比之下，作者發現VLA訓練需要對數據集進行更多輪迭代，機器人實際性能會持續提升，直到動作token準確率超過95%。最終模型共完成了27個epoch的訓練。

（5）學習率（Learning Rate）

對VLA訓練的學習率進行了多數量級的搜索，發現使用固定的2e-5學習率效果最佳（與VLM預訓練所用學習率相同）。學習率預熱（warmup）未發現帶來明顯收益。

5）訓練與推理基礎設施

最終的OpenVLA模型在64塊A100 GPU集群上訓練14天，總計消耗約 21,500 小時的 A100 計算資源，批量大小為2048。

推理時，OpenVLA在bfloat16精度下（未量化）占用約15GB GPU顯存，在單塊NVIDIA RTX 4090上運行速度約為6Hz（未使用編譯、推測解碼等加速技術）。通過量化可進一步降低推理內存占用，且不影響真實機器人任務性能。

為方便使用，作者實現了一個遠程VLA推理服務器，支持將動作預測實時流式傳輸至機器人，無需本地配備高性能計算設備。該遠程推理方案將隨開源代碼一并發布。

4. OpenVLA 代碼庫

作者隨模型一并發布了OpenVLA代碼庫——一個模塊化的PyTorch代碼庫，用于訓練視覺-語言-動作（VLA）模型（詳見 https://openvla.github.io）。

該代碼庫可靈活擴展，支持從單GPU微調到多節點GPU集群上訓練十億參數級VLA模型，并集成了現代大模型訓練技術，如自動混合精度（AMP，PyTorch）、FlashAttention和完全分片數據并行（FSDP，Zhao等）。

開箱即用，代碼庫原生支持在Open X數據集上訓練，集成HuggingFace的AutoModel類，并支持LoRA微調和量化模型推理。

5. 實驗

本實驗旨在評估OpenVLA作為通用多機器人控制策略的開箱即用能力，以及其作為新任務微調初始化的潛力。具體圍繞以下問題展開：

在多種機器人和不同泛化場景下，OpenVLA相較于以往通用機器人策略表現如何？
OpenVLA能否有效適配新機器人設置和任務？與當前最先進的數據高效模仿學習方法相比如何？
能否通過參數高效微調和模型量化降低OpenVLA的訓練與推理計算成本，使其更加易于使用，以及如何在性能與計算開銷之間取得權衡？

1）多機器人平臺上直接評估

（1）機器人設置與任務

作者在兩種機器人平臺上評估OpenVLA的“開箱即用”性能：

一是BridgeData V2的WidowX機械臂（見圖1左）；
二是RT-1和RT-2中使用的移動操作機器人“Google機器人”（見圖1中）。

這兩種平臺被廣泛用于評估通用機器人策略。

作者為每個環境設計了全面的評估任務，覆蓋多種泛化維度：

視覺泛化（visual generalization）：測試機器人在未見過的背景、干擾物體、物體顏色/外觀變化等情況下的表現；
運動泛化（motion generalization）：評估機器人是否能適應未見過的物體位置/方向；
物理泛化（physical generalization）：考察機器人如何處理不同尺寸和形狀的物體；
語義泛化（semantic generalization）：測試機器人對未見過的目標物體、指令以及來自互聯網的新概念的理解能力。

此外，在包含多個物體的場景中，作者測試模型的語言理解能力，即是否能根據用戶指令操作正確的目標物體。

圖3和圖4底行分別展示了BridgeData V2和Google機器人任務的示例。

在這里插入圖片描述

圖3：BridgeData V2 WidowX機器人評估任務與結果。

在這里插入圖片描述

圖4：Google機器人評估結果。

整體評估共進行230次實驗：BridgeData V2環境下17個任務各10次（共170次），Google機器人環境下12個任務各5次（共60次）。

（2）對比

OpenVLA的性能與三種已有的通用操作策略進行比較：RT-1-X、RT-2-X和Octo。

RT-1-X（3500萬參數）和Octo（9300萬參數）是基于OpenX數據集子集從零開始訓練的Transformer策略
其中Octo是當前最先進的開源操作策略。
RT-2-X（550億參數）是當前最先進的閉源視覺-語言-動作（VLA）模型，其基于互聯網預訓練的視覺與語言主干網絡構建。

結果總結于圖3（BridgeData V2評估）和圖4（Google機器人評估）。RT-1-X和Octo在測試任務中表現不佳，常無法操作正確目標，尤其在存在干擾物時，有時甚至導致機械臂無目的地揮動。

請注意，這里評估測試的泛化程度甚至比之前那些工作中執行的評估更大，以挑戰互聯網預訓練的 VLA 模型。因此，預計沒有互聯網預訓練的模型性能會降低。RT-2-X 的性能明顯優于 RT-1-X 和 Octo，展示了大型預訓練 VLM 對機器人技術的優勢。

值得注意的是：

盡管OpenVLA的參數量（7B）僅為RT-2-X（55B）的七分之一，其在Google機器人上的表現與RT-2-X相當；
OpenVLA在BridgeData V2上的表現則顯著優于后者。
定性分析顯示，與其它模型相比，RT-2-X和OpenVLA行為更為魯棒。

RT-2-X在語義泛化任務上有比OpenVLA更高的性能：這是意料之中的，因為它使用更大規模的互聯網預訓練數據，并與機器人動作數據和互聯網預訓練數據共同微調，以更好地保留預訓練知識，而不是像 OpenVLA 那樣僅根據機器人數據進行微調。

然而，在BridgeData V2和Google機器人的其他所有任務類別中，OpenVLA均達到與RT-2-X相當甚至更優的性能。這一優勢主要歸因于三點：

更大規模的訓練數據：OpenVLA 訓練數據集包含 97 萬條軌跡，遠多于 RT-2-X 的 35 萬條軌跡；
更嚴格的數據清理：對訓練數據進行了更仔細的篩選，例如，過濾掉了 Bridge 數據集中的全零動作；
更好的視覺編碼器：OpenVLA 采用了融合型視覺編碼器（fused vision encoder），結合了預訓練的語義特征和空間特征，提升了模型的感知能力；

2）數據高效地適應新的機器人設置

如何有效微調VLA以適應新任務和新機器人配置仍鮮有探索，這對其廣泛應用至關重要。本節將研究OpenVLA在真實世界中快速適配新機器人設置的能力。（仿真環境中的微調實驗詳見附錄E。）

（1）機器人設置與任務

在實驗中，測試了一種OpenVLA微調方案：在10~150條任務演示的小規模數據集上，對模型所有參數進行全量微調（見圖5）。實驗在兩個Franka機器人平臺上進行：

Franka-Tabletop：固定在桌面上的Franka Emika Panda 7自由度機械臂；
Franka-DROID：來自最新發布的DROID數據集的Franka機械臂，安裝在可升降的站立式工作臺上。

兩個設置分別使用5Hz和15Hz的非阻塞控制器。選擇Franka機械臂作為微調目標，因其在機器人學習社區中被廣泛使用。采用不同控制頻率的設置，旨在驗證OpenVLA在多種應用場景中的適用性。

在這里插入圖片描述

圖5：適應新機器人設置。

（2）對比方法

實驗將OpenVLA與以下方法進行比較：

Diffusion Policy：一種從零開始訓練的最先進、數據高效的模仿學習方法；
Diffusion Policy (matched)：即調整其輸入輸出格式以匹配OpenVLA的版本；
Octo（fine-tuned）：目前支持微調的最佳通用策略，在目標數據集上對其進行微調；
OpenVLA（fine-tuned）：在相同的目標數據集上對 OpenVLA 進行微調，結果模型仍然記作 OpenVLA；
OpenVLA (scratch)：消融實驗，直接在目標機器人上從零開始微調底層的 Prismatic VLM，而不是使用已經在 OpenX 預訓練的 OpenVLA，以評估大規模機器人預訓練的實際收益。

圖5中結果表明：

兩種版本的Diffusion Policy在單一指令的狹窄任務上，表現與通用策略Octo和OpenVLA相當甚至更優。
預訓練模型在更多樣化的微調任務上表現更佳，尤其是那些涉及多個物體并依賴語言條件的任務；
大規模 OpenX 預訓練，使得 Octo 和 OpenVLA 在這些需要語言對齊的復雜任務中更具適應性（更強的泛化能力）。可以從 OpenVLA (scratch) 低于 OpenVLA（fine-tuned）的看出。

總體而言，OpenVLA取得了最高的平均性能。值得注意的是，

大多數現有方法僅在單一指令或多樣化多指令任務中表現良好，性能差異較大。
OpenVLA在所有測試中均達到至少50%成功率，表明其可作為模仿學習任務的強通用基線，尤其適用于涉及多樣化語言指令的場景。
對于操作精度要求極高的狹窄任務，Diffusion Policy仍展現出更流暢、精確的動作軌跡。

未來引入動作分塊（action chunking）和時序平滑等技術（如Diffusion Policy所采用）可能有助于提升OpenVLA的靈巧性，是值得探索的方向。

3）參數高效微調

本節將探索計算和參數效率更高的微調方法。具體地，實驗比較了以下幾種微調方法：

全量微調（Full fine-tuning）：在微調過程中更新模型所有參數；
僅最后一層（Last layer only）：僅微調OpenVLA Transformer主干的最后輸出層和token嵌入矩陣；
凍結視覺編碼器（Frozen vision）：凍結視覺編碼器，僅微調其余所有參數；
三明治微調（Sandwich fine-tuning）：解凍視覺編碼器、token嵌入矩陣和最后一層，僅微調這三部分；
LoRA（Low-Rank Adaptation）：采用低秩適應技術，在模型所有線性層上應用，測試多個秩（r）值。

表1：參數高效微調評估。
在這里插入圖片描述

結果表明：

僅微調網絡最后一層或凍結視覺編碼器時，性能表現較差，表明對目標場景進行視覺特征的進一步適配至關重要。
三明治微調通過解凍視覺編碼器提升了性能，同時因不微調完整的語言模型主干而降低了顯存消耗。
LoRA在性能與顯存占用間取得最佳平衡：僅微調1.4%參數即可超越三明治微調，并達到與全量微調相當的性能。

實驗發現LoRA的秩（rank）對策略性能影響極小，因此推薦默認使用 r=32 。采用LoRA后，可在單塊A100 GPU上10-15小時內完成新任務的微調，相比全量微調計算量減少8倍。

4）通過量化實現內存高效的推理

OpenVLA-7B 在推理時的顯存占用比此前的開源通用模型（如 Octo，參數量 <100M）更高。默認以 bfloat16 精度存儲和加載 OpenVLA，將顯存占用減少一半使其能在 16GB GPU 上運行。

本節，將借鑒 LLM 推理中的量化方法，以更低的精度加載權重，但需要付出推理速度與精度降低的代價；具體地，實驗在8個典型的BridgeData V2任務上評估了以8位和4位精度部署OpenVLA模型的效果。表2報告了顯存占用和任務成功率；圖6展示了在多種消費級和服務器級GPU上的可實現控制頻率。

表2：量化推理的性能
在這里插入圖片描述

圖6：各種GPU上OpenVLA推理速度

實驗發現，8位量化因引入額外計算開銷，導致多數GPU上推理速度變慢；而4位量化通過減少顯存傳輸，抵消了量化開銷，從而實現了更高的推理吞吐量。

由于推理速度下降，8位量化導致性能顯著降低：在的A5000 GPU上，模型僅能以1.2Hz運行，相較于BridgeData V2任務中5Hz非阻塞控制器的訓練數據，系統動態發生明顯變化。

4位量化在顯存占用不到一半的情況下，性能與bfloat16半精度推理相當，且在A5000上可達3Hz，更接近數據采集時的系統動態。

6. 討論與局限

本文提出了OpenVLA，一個先進的開源視覺-語言-動作（VLA）模型，具備出色的跨機器人形態開箱即用控制能力，并可通過參數高效微調輕松適配新機器人系統。

然而，當前OpenVLA模型仍存在若干局限：

輸入模態受限：目前僅支持單張圖像觀測。而真實機器人系統通常具備多樣化的傳感器輸入（如多視角圖像、本體感知數據、歷史觀測序列）。未來工作可探索支持多模態輸入，并研究基于圖文交錯數據預訓練的VLM，以實現更靈活的VLA微調。
推理速度不足：現有推理頻率難以滿足高頻控制需求（如50Hz的ALOHA系統），限制了其在靈巧、雙手機械臂等高動態任務中的應用。未來可通過動作分塊（action chunking）或推測解碼（speculative decoding）等技術提升吞吐量。
性能可靠性有待提升：盡管優于先前通用策略，但OpenVLA在多數任務上的成功率仍低于90%，尚未達到高可靠部署標準。
設計空間探索不足：受限于算力，許多關鍵問題尚未充分研究，例如：基礎VLM模型規模對VLA性能的影響？機器人動作數據與互聯網圖文數據聯合訓練是否顯著提升性能？何種視覺特征最適合VLA？我們期望OpenVLA模型與代碼庫的開源能推動社區共同探索這些問題。