Gemini Robotics: Bringing AI into the Physical World
- 文章概括
- 1. 引言
- 2. Gemini 2.0的具身推理
- 2.1. 具身推理問答(ERQA)基準測試
- 2.2. Gemini 2.0的具身推理能力
- 2.3. Gemini 2.0支持零樣本和少樣本機器人控制
- 3. 使用 Gemini Robotics 執行機器人動作
- 3.1. Gemini Robotics:模型與數據
- 3.2. Gemini Robotics 可直接解決多種靈巧操作任務
- 3.3. Gemini Robotics 能夠精確遵循語言指令
- 3.4. Gemini Robotics 將 Gemini 的泛化能力擴展至物理世界
- 4. 使 Gemini Robotics 專門化并適應靈巧操作、推理及新形態機器人
- 4.1. 長時序靈巧任務
- 4.2. 增強推理能力與泛化能力
- 4.3. 快速適應新任務
- 4.4. 適應新機器人形態
- 5. 負責任的開發與安全性
- 6. 討論
World)
文章概括
引用:
Gemini Robotics Team, Google DeepMind
原文: https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf
代碼、數據和視頻:
系列文章:
請在 《 《 《文章 》 》 》 專欄中查找
近年來,大型多模態模型的進步使其在數字領域展現出卓越的通用能力,然而,將這些能力轉化為物理代理(如機器人)仍然是一個重大挑戰。一般用途的機器人需要能夠理解其周圍的物理世界,并以熟練且安全的方式與之交互。本報告介紹了一類專門為機器人設計的AI模型家族,并建立在Gemini 2.0的基礎之上。我們提出了Gemini Robotics,這是一種先進的視覺-語言-行動(VLA)通用模型,能夠直接控制機器人。Gemini Robotics能夠執行流暢且具備響應性的動作,以應對各種復雜的操作任務,同時能夠適應不同類型和位置的物體,對未知環境具有魯棒性,并能遵循多樣化的開放詞匯指令。我們展示了通過額外的微調,Gemini Robotics可以專門化為具有新能力的模型,包括解決長時序、高度靈巧的任務,例如折疊折紙狐貍或玩紙牌游戲,甚至可以通過少至100次示范學習新的短時序任務。此外,它能夠適應完全新穎的機器人形態,包括雙臂平臺和高自由度的人形機器人。這一切之所以成為可能,是因為Gemini Robotics構建于我們在本研究中引入的第二個模型——Gemini Robotics-ER的基礎之上。Gemini Robotics-ER(Embodied Reasoning,具身推理)擴展了Gemini的多模態推理能力至物理世界,具備增強的空間和時間理解能力。這使其具備了一系列與機器人相關的能力,包括物體檢測、指向、軌跡和抓取預測,以及以多視圖對應和3D包圍框預測形式呈現的3D理解能力。我們展示了這一新穎組合如何支持多種機器人應用,例如零樣本(通過機器人代碼生成)或少樣本(通過上下文學習)。此外,我們還討論并解決了與這類機器人基礎模型相關的重要安全問題。Gemini Robotics家族標志著向通用機器人發展邁出了重要一步,使人工智能在物理世界中的潛力得以實現。
圖1 | Gemini Robotics具身AI模型家族概述。Gemini 2.0已經展現出與機器人相關的能力,例如語義安全理解和長上下文處理。針對機器人的專門訓練以及可選的專門化過程,使Gemini Robotics模型具備多種機器人特定的能力。這些模型能夠生成靈巧且具備響應性的動作,可以快速適應新的機器人形態,并利用先進的視覺-空間推理來指導行動。
1. 引言
現代人工智能(AI)模型的顯著進步——通過大規模數據集的預訓練——重新定義了信息處理,展現出在文本、圖像、音頻和視頻等多種模態上的高超能力和泛化能力。這一突破為數字領域的交互式和輔助系統開辟了廣闊的應用前景,從多模態聊天機器人到虛擬助手。然而,要在物理世界中實現通用自主AI的潛力,需要從數字世界進行重大轉變,在這一過程中,具身AI代理必須具備穩健的類人具身推理能力。這種推理能力涵蓋了世界知識的基本概念,這些概念對于在一個固有的物理世界中操作和行動至關重要。作為人類,我們天生具備具身推理能力,例如感知環境的三維結構、理解復雜的物體間關系以及直覺性地掌握物理規律。然而,這些能力對于任何具身AI代理而言,都是其核心基礎。此外,具身AI代理不僅要具備對現實世界空間和物理概念的被動理解,還必須學會采取能夠直接影響外部環境的行動,以彌合被動感知與主動物理交互之間的鴻溝。
隨著機器人硬件的最新進展,具身AI代理能夠執行高度靈巧任務的可能性變得令人振奮。在這一背景下,我們提出一個關鍵問題:如何賦予最先進的數字AI模型具身推理能力,使其能夠以通用且靈巧的方式與我們的世界交互?
我們的核心論點是利用前沿視覺-語言模型(VLMs)的先進多模態理解和推理能力,例如Gemini 2.0。這些基礎模型所具備的通用理解能力,使其能夠解析視覺輸入和復雜文本指令,為構建具身智能代理提供了強大基礎。要實現這一目標,需要解決兩個關鍵問題。首先,Gemini需要獲取穩健的具身推理能力,使其能夠理解物理世界豐富的幾何和時空細節。其次,我們必須將這種具身推理能力落地,使Gemini能夠掌握物理行動的語言,理解接觸物理學、動力學以及現實世界交互的復雜性。最終,這些能力必須整合在一起,以實現對現實世界機器人快速、安全且靈巧的控制。
為此,我們提出了Gemini Robotics具身AI模型家族,該模型家族基于我們最先進的多模態基礎模型Gemini 2.0構建。首先,我們通過一個新的開源通用具身推理基準ERQA,驗證了Gemini 2.0基礎模型在具身推理能力方面的表現和泛化能力。接著,我們介紹兩個模型:第一個模型是Gemini Robotics-ER,這是一種以強大的具身推理能力為核心的VLM,能夠在廣泛的具身推理任務上實現泛化,同時保留其基礎模型的核心能力。Gemini Robotics-ER在多個理解物理世界的關鍵能力上表現卓越,包括3D感知、精確指向、機器人狀態估計以及通過代碼進行可供性預測等。第二個模型是Gemini Robotics,這是一種最先進的視覺-語言-行動(VLA)模型,它將強大的具身推理先驗與現實世界機器人的靈巧低級控制相結合,以解決復雜的操作任務。作為一種通用VLA模型,Gemini Robotics能夠執行種類繁多、復雜多樣的任務,同時能夠緊密遵循語言指令,并對指令、視覺和運動中的分布變化實現泛化。為了進一步展示Gemini Robotics模型的靈活性和通用性,我們還引入了一個可選的專門化階段,展示Gemini Robotics如何適應極端靈巧任務、在困難的泛化環境下進行高級推理,以及控制全新的機器人形態。最后,我們討論了訓練大規模機器人模型(如Gemini Robotics模型)所涉及的安全問題,并提供了在VLA背景下研究此類挑戰的指南。本報告特別強調以下內容:
- ERQA:一種專門設計用于評估多模態模型具身推理能力的開源基準,解決了當前基準測試僅評估原子能力的局限性,并促進標準化評估和未來研究的發展。
- Gemini Robotics-ER:一種VLM(視覺-語言模型),展現了增強的具身推理能力。
- Gemini Robotics:一種VLA(視覺-語言-行動)模型,通過融合機器人動作數據,實現高頻靈巧控制、穩健的泛化能力以及對多種機器人任務和形態的快速適應。
- 負責任的發展:我們探討并踐行符合Google AI原則的模型開發方式,深入研究我們的模型對社會的潛在益處和風險,并制定相應的風險緩解措施。
Gemini Robotics模型家族代表了朝向更具通用能力的機器人邁出的初步步伐。我們相信,最終通過從互聯網規模數據中提取具身推理能力,并結合現實世界交互中的動作數據進行訓練,能夠使機器人深入理解物理世界并進行高效操作。這種理解將賦予機器人以通用性和復雜性,從而能夠實現迄今為止對機器人系統而言似乎難以企及的目標。
圖2 | Gemini 2.0在具身推理能力方面表現卓越——能夠在2D環境中檢測物體和關鍵點,利用2D指向進行抓取和軌跡預測,并在3D環境中進行點對應和物體檢測。所有結果均由Gemini 2.0 Flash獲得。
2. Gemini 2.0的具身推理
Gemini 2.0是一種視覺-語言模型(VLM),其能力不僅限于視覺理解和語言處理任務。特別是,該模型展現了先進的具身推理(ER)能力。我們將ER定義為視覺-語言模型在現實世界中對物體和空間概念進行落地的能力,以及綜合這些信息以用于后續機器人應用的能力。部分能力示例見圖2。在2.1節,我們首先介紹用于評估廣泛ER能力的基準測試,并展示Gemini 2.0模型在該領域的最先進表現。在2.2節,我們演示Gemini 2.0所具備的一系列具體ER能力。最后,在2.3節,我們展示如何將這些能力應用于機器人系統,而無需對機器人動作數據進行微調,從而支持零樣本代碼生成控制和少樣本的上下文學習機器人控制。
2.1. 具身推理問答(ERQA)基準測試
為了衡量VLMs在具身推理方面的進展,我們引入了ERQA(Embodied Reasoning Question Answering),即具身推理問答基準測試。該基準測試專門關注在物理世界中與環境交互的具身智能代理可能需要的能力。ERQA包含400道多項選擇的視覺問答(VQA)風格問題,覆蓋多個類別,包括空間推理、軌跡推理、動作推理、狀態估計、指向、多視圖推理和任務推理。問題類型的分布見圖3。在400道問題中,28%的問題包含多張圖像——這類問題涉及跨圖像的對應概念,通常比單圖像問題更具挑戰性。
ERQA與現有的VLM基準測試形成互補關系。目前的VLM基準測試主要評估更基礎的能力(如物體識別、計數、定位),但大多數情況下,并未充分考慮在物理世界中執行任務所需的更廣泛能力。圖4展示了一些ERQA的示例問題及其答案。其中一些問題要求VLM在多個幀之間識別并匹配物體,另一些問題則需要推理物體的可供性及其與場景中其他物體的3D關系。完整的基準測試細節可在https://github.com/embodiedreasoning/ERQA找到。
圖3 | ERQA問題類別分布。
表1 | 在多個基準測試上比較VLMs的具身推理能力評估,包括我們提出的新ERQA基準測試。基準測試通過多項選擇題的準確率進行評估。結果采集于2025年2月。
圖4 | 具身推理問答(ERQA)基準測試的示例問題,答案以粗體標出。
我們對ERQA中的所有問題進行了人工標注,以確保其正確性和質量。基準測試中的圖像(而非問題)來自我們自行拍攝的照片,或以下數據集:OXE(O’Neill等,2024)、UMI Data(UMI-Data)、MECCANO(Ragusa等,2021, 2022)、HoloAssist(Wang等,2023)和EGTEA Gaze+(Li等,2021)。在表1中,我們報告了Gemini模型及其他模型在ERQA上的結果,同時也包括兩個廣泛用于衡量空間理解和圖像理解能力的流行基準測試:RealworldQA(XAI-org, 2024)和BLINK(Fu等, 2024)。具體而言,我們報告了Gemini 2.0 Flash(一種高效低延遲的核心模型)和Gemini 2.0 Pro Experimental 02-05(在本文中簡稱Gemini 2.0 Pro Experimental,用于復雜任務的最佳Gemini模型)的結果。Gemini 2.0 Flash和Pro Experimental在各自的模型類別中均在所有三個基準測試上達到了新的最先進水平。我們還注意到,在這三個基準測試中,ERQA是最具挑戰性的,因此其表現尤其值得關注。
Gemini 2.0模型展現了高級推理能力——我們發現,如果使用思維鏈(Chain-of-Thought, CoT)提示(Wei等, 2022),Gemini 2.0在基準測試上的表現可以顯著提升。CoT提示鼓勵模型在選擇多項選擇題答案之前,先輸出推理過程,逐步“思考”問題,而不是直接預測答案。我們在每個問題的末尾附加如下指令作為CoT提示:“逐步推理答案,并在每一步展示你的思考過程。只有在完成所有步驟后,再給出最終答案。” 結果見表2。使用CoT提示后,Gemini 2.0 Flash的表現超越了未使用CoT的Gemini 2.0 Pro Experimental,而CoT進一步提升了Gemini 2.0 Pro Experimental的表現。
表2 | 在ERQA基準測試上使用和不使用思維鏈(CoT)提示的表現對比。
我們在圖5中展示了兩條這樣的推理路徑,這些問題在沒有CoT的情況下,Gemini 2.0 Pro Experimental回答錯誤,但在使用CoT后正確回答。這些推理過程表明Gemini 2.0具備以下能力:
- 精準地將其空間理解能力落地到圖像中的觀測信息上;
- 利用這種落地能力,進行復雜的、逐步的具身推理。
圖5 | 使用Gemini 2.0 Pro Experimental的示例問題及推理過程。紅色答案是在未使用CoT提示的情況下獲得的,綠色答案是在使用CoT提示的情況下獲得的。
2.2. Gemini 2.0的具身推理能力
在本節中,我們更詳細地介紹Gemini 2.0的具身推理能力。同時,我們引入Gemini Robotics-ER,這是Gemini 2.0 Flash的一個版本,具備增強的具身推理能力。這些能力可以直接用于機器人應用,而無需額外的機器人專屬數據或訓練。Gemini 2.0能夠理解圖像中的多種2D空間概念:
- 物體檢測:Gemini 2.0能夠執行開放世界的2D物體檢測,根據查詢提供精確的2D邊界框。這些查詢可以是顯式的(例如,指定物體名稱)或隱式的(如類別、屬性或功能)。
- 指向(Pointing):給定任何自然語言描述,模型可以指向顯式實體(如物體及其部件),也可以指向隱式概念(如可供性——“在哪里抓取”“在哪里放置”),自由空間和空間概念。定量評估見表3。
- 軌跡預測:Gemini 2.0能夠利用指向能力生成基于觀察結果的2D運動軌跡。例如,可以根據物理運動或交互描述生成軌跡。
- 抓取預測:Gemini Robotics-ER引入的新特性,擴展了Gemini 2.0的指向能力,可以預測自上而下的抓取點。
Gemini 2.0 還具備3D空間推理能力。憑借“3D視覺”能力,它能夠更好地理解大小、距離、方向等概念,并利用這些理解推理場景狀態及3D動作:
- 多視圖對應(Multi-View Correspondence):3D信息的自然表達方式是多視圖(如立體視圖)。Gemini 2.0能夠從多視圖圖像中理解3D場景,并預測多個攝像機視角下的2D點對應關系。
- 3D邊界框檢測:Gemini 2.0能夠直接從單目圖像預測3D邊界框。與2D檢測和指向能力類似,Gemini 2.0可以通過開放詞匯描述檢測物體。
盡管可以為每項任務分別創建專用模型,但將這些能力融合到一個基礎模型(如Gemini 2.0)中,使其能夠執行具身推理任務,并基于開放世界的自然語言指令進行交互、響應反饋,并保持多輪對話。特別是,Gemini 2.0可以結合場景理解與推理來解決更復雜的任務,例如生成機器人代碼(見2.3節)。
下面,我們提供Gemini 2.0模型(Flash和Pro Experimental)在這些能力上的定量與定性評估,并與其他VLMs進行對比。對于某些能力,我們還提供Gemini Robotics-ER的評估結果。你可以在這里找到如何提示Gemini 2.0以觸發這些能力的代碼和示例。
物體檢測
Gemini 2.0可以根據自然語言查詢預測2D物體邊界框。在圖6中,我們展示了Gemini 2.0 Flash在機器人可能遇到的圖像上的多個2D檢測示例。Gemini 2.0使用 y 0 , x 0 , y 1 , x 1 y_0, x_0, y_1, x_1 y0?,x0?,y1?,x1? 的坐標約定表示2D邊界框。我們可以提示Gemini 2.0檢測 場景中的所有物體(示例見 圖2 )。此外,模型可以根據描述檢測特定物體,例如,在圖6中,“ 檢測所有廚房用具 ”。這些描述可以 包含空間提示 *——如 “檢測圖像右側的堅果” (見中間示例)。此外,我們可以提示Gemini 2.0 通過可供性(affordance)檢測物體 。在圖6右側示例中,我們讓Gemini 2.0檢測溢出液體及“可用于清理它的物品”,模型正確地檢測到了溢出液體和毛巾*,即便未被顯式指定。這些示例表明,將精準的定位能力與通用VLMs結合,使得Gemini的開放詞匯與開放世界推理能力能實現難以通過專門模型達到的語義泛化水平。
圖6 | Gemini 2.0 Flash的2D檢測示例。左:根據物體類別檢測;中:根據空間描述檢測;右:根據**可供性(affordance)**檢測。為了減少視覺干擾,左圖和中圖未顯示預測的物體標簽。
2D指向(Pointing)
在某些場景下,相比邊界框,點能夠提供更靈活且更精確的圖像理解與機器人控制方式。我們在圖7中展示了Gemini 2.0的指向能力在機器人操作場景中的應用。
圖7 | Gemini 2.0能夠從自然語言查詢預測2D點。示例由Gemini 2.0 Flash生成,預測的點標簽未可視化。
模型使用 y , x y, x y,x 元組表示點坐標。與2D物體檢測類似,Gemini 2.0可以基于開放詞匯語言指向任何描述的物體。
- Gemini 2.0不僅可以定位整個物體,還可以指向物體的特定部分,如勺子的手柄(圖7左側)。
- 它還可以指向空間概念,例如**“鍋左側桌子上的空區域”(圖7左側)或“按照現有八個罐子的排列模式,指向新罐子應放置的位置”**(圖7中間)。
- 此外,Gemini 2.0還可以推理可供性(affordance);例如,當被要求**“指向人類會抓取的位置以拾起此物體”時,模型正確地指向了杯子的手柄**(圖7右側)。
我們在表3中使用三個基準測試對Gemini 2.0的指向能力進行了定量評估:
- Paco-LVIS(Ramanathan等,2023):用于自然圖像上的物體部件指向。
- Pixmo-Point(Deitke等,2024):用于網頁圖像上的開放詞匯指向。
- Where2place(Yuan等,2024):用于室內場景的自由空間指向。
具體如何將指向能力與其他模型進行基準測試的細節見附錄B.2。Gemini 2.0在指向任務上顯著超越了最先進的視覺-語言模型(VLMs),包括GPT和Claude。此外,Gemini Robotics-ER在三個子任務中擊敗了專門用于指向的VLM——Molmo中的兩個任務。
表3 | 2D指向基準測試,評估開放詞匯指向能力。分數為準確率(若預測點在真實值區域內,則得1分,否則為0)。
2D軌跡(2D Trajectories)
Gemini 2.0能夠利用其指向能力來預測2D軌跡,將多個點連接在一起。盡管Gemini 2.0無法執行復雜的運動規劃(例如避障路徑規劃),但它仍然能夠基于觀測圖像生成有意義的軌跡。一些示例展示在圖8中。
- 左圖和中圖:Gemini 2.0從第一視角視頻中的人手推理出合理的軌跡,以連接至其可能抓取的工具。
- 右圖:Gemini 2.0預測了一系列路徑點,如果機器人夾爪沿該路徑點運動,則可以擦拭托盤上溢出的液體。
Gemini 2.0的軌跡預測能力反映出它對運動和動力學的世界知識,這對于機器人而言是基本能力。在4.2節,我們進一步利用這一新興的軌跡理解能力,使行動與視覺和語言能力更加緊密結合。
圖8 | Gemini 2.0能夠通過預測起點和終點來推理2D軌跡。示例由Gemini 2.0 Flash生成,預測的點標簽未可視化。
自上而下抓取(Top-Down Grasps)
Gemini 2.0的語義指向能力可以自然擴展至自上而下的抓取。我們可以提示Gemini 2.0預測自上而下的抓取點,其表示方式為** y , x y, x y,x坐標以及旋轉角度 θ \theta θ**。
這一能力在Gemini Robotics-ER中得到了進一步增強,示例如圖9所示。例如,我們可以讓模型預測抓取香蕉的莖部或香蕉中心(右側示例)。在2.3節,我們展示了如何將這些抓取預測直接用于現實機器人控制。
圖9 | Gemini Robotics-ER能夠利用Gemini 2.0的2D指向能力預測自上而下的抓取點。示例由Gemini Robotics-ER生成。
多視圖對應(Multi-View Correspondence)
Gemini 2.0還具備理解3D世界結構的能力。其中一個例子是多視角3D場景理解。
例如,在初始圖像中標注一組點,然后提供相同場景的另一視角圖像,我們可以詢問Gemini 2.0哪些點在新圖像中仍然可見,并查詢這些點的坐標。
從圖10中的示例可以看出,Gemini 2.0能夠在顯著不同的視角之間執行多視圖對應任務:
- 上方圖像對:模型正確預測了紅色點,并識別出它對應于第一視角圖像中人手持的物體,即便整個場景的視角發生了顯著變化。
- 下方圖像對:模型正確預測了橙色點在第二張圖像中不可見。
這種多視圖理解能力在機器人領域尤為重要。例如,機器人可以利用Gemini 2.0對多個圖像流(如立體相機視圖、頭部攝像頭視圖和腕部攝像頭視圖)進行推理,從而更好地理解其觀測到的3D空間關系。
圖10 | Gemini 2.0能夠通過關聯不同視角的2D點來理解3D場景。對于每對圖像,左側圖像包含標注點坐標,右側圖像不包含坐標。模型的任務是預測哪些點在右側圖像中仍然可見,并給出可見點的坐標。示例由Gemini 2.0 Flash生成。
3D檢測(3D Detection)
Gemini 2.0 還能夠直接從單張圖像預測3D度量邊界框。與其2D檢測能力類似,Gemini 2.0 的3D檢測能力也支持開放詞匯查詢,示例如圖11所示。在表4中,我們報告了 Gemini 2.0 在 SUN-RGBD(Song等, 2015)數據集上的3D檢測表現。SUN-RGBD是一個廣泛用于3D物體檢測和場景理解的主流數據集和基準測試。我們將 Gemini 2.0 的表現與現有的基準專家模型進行了對比,包括ImVoxelNet(Rukhovich等, 2022)、Implicit3D(Zhang等, 2021)和Total3DUnderstanding(Nie等, 2020)。Gemini 2.0 的3D檢測表現可與當前最先進的專家模型相媲美,而Gemini Robotics-ER 在 SUN-RGBD 基準測試上達到了新的最先進水平。值得注意的是,這些基準模型使用的是封閉類別集,而 Gemini 2.0 可以處理開放詞匯查詢,進一步提升其適用性。
表4 | Gemini Robotics-ER 在SUN-RGBD 3D物體檢測基準測試上達到了新的最先進水平。(* ImVoxelNet(Rukhovich等, 2022)的性能是在一個較簡單的10個類別集上測得的)。
圖11 | Gemini 2.0能夠直接預測開放詞匯的3D物體邊界框。示例由Gemini 2.0 Flash生成。
2.3. Gemini 2.0支持零樣本和少樣本機器人控制
Gemini 2.0 的具身推理能力使其能夠控制機器人,即使沒有接受任何機器人動作數據訓練。它能夠一站式完成所有必要的任務,包括感知、狀態估計、空間推理、規劃和控制。
以往的研究通常需要組合多個模型才能實現這些功能(Ahn等, 2022;Kwon等, 2024;Liang等, 2023;Vemprala等, 2023),而 Gemini 2.0 在單個模型中融合了所有必需的能力,極大簡化了機器人控制流程。
在本節中,我們探討兩種不同的機器人控制方法:
- 零樣本(zero-shot)機器人控制——通過代碼生成控制機器人。
- 少樣本(few-shot)控制——通過上下文學習(in-context learning, ICL),基于少量示例適應新行為。
Gemini Robotics-ER 在兩種控制方式下的任務完成率均表現良好,尤其是在零樣本機器人控制方面,其性能與具身理解能力的提升密切相關。Gemini Robotics-ER 經過更全面的訓練,在此方面的任務完成率相比Gemini 2.0 提高了近2倍。
零樣本控制(Zero-shot Control)——通過代碼生成
為了測試 Gemini 2.0 的零樣本控制能力,我們將其代碼生成能力與具身推理能力(2.2節)相結合,并在雙臂機器人ALOHA 2(Team等, 2024;Zhao等, 2025)上進行實驗。
在控制機器人時,Gemini 2.0 可以調用API(Arenas等, 2023;Kwon等, 2024;Liang等, 2023),該API能夠執行以下操作:
- 控制夾爪到指定姿態。
- 打開和關閉夾爪。
- 讀取當前的機器人狀態。
- 進行環境感知(Gemini 2.0 本身負責物體檢測、關鍵點預測和自上而下的抓取姿態生成,無需外部模型調用)。
在 一個控制回合(episode) 中,Gemini 2.0 依次執行以下步驟:
- 接收系統提示(system prompt),包括機器人API的說明和任務指令。
- 逐步接收場景的實時圖像,包含當前環境狀態、機器人狀態和執行反饋。
- 生成代碼,代碼將在機器人環境中執行,以控制機器人的行為。
- 基于執行反饋進行自適應調整和重新規劃(replan),例如圖34所示。
API的整體結構和回合控制流程如圖12所示。
圖12 | 感知與控制API的概覽,以及在一個控制回合中的智能編排。該系統用于零樣本控制。
表5 展示了在模擬環境中執行一組操作任務的結果。這些任務涵蓋了不同難度和物體類型,從簡單的抓取任務(如抬起香蕉)到長時序、多步驟、多任務的操作(如將玩具放入盒子并關閉盒子)。完整的任務描述見附錄B.3.1。
表5 | ALOHA 2模擬任務集(ALOHA 2 Sim Task suite)的成功率。數據為50次隨機初始條件實驗的平均成功率。
Gemini 2.0 Flash 平均成功率為27%,其中對于較簡單的任務,成功率最高可達54%。相比之下,Gemini Robotics-ER 的表現幾乎是Gemini 2.0 Flash的兩倍,其平均任務成功率達到53%。這表明 Gemini Robotics-ER增強的具身推理能力 顯著提高了下游機器人操作任務的表現。
表6 展示了在真實ALOHA 2機器人上的實驗結果。香蕉傳遞任務的成功率相比模擬環境有所下降,這主要是由于校準誤差及真實世界噪聲的影響。對于更復雜的靈巧操作任務(如折疊衣物),Gemini Robotics-ER 目前仍無法完成,主要原因是其抓取精度不夠高。
表6 | Gemini Robotics-ER在真實ALOHA 2機器人任務中的成功率。香蕉傳遞任務的成功率取10次實驗的平均值,折疊衣物和擦拭任務的成功率取9次實驗的平均值。對于需要高度靈巧操作的任務,零樣本成功率仍然較低,但在Gemini Robotics模型(見第3節)中將有顯著提升。
少樣本控制(Few-shot Control)——通過上下文示例(In-Context Learning, ICL)
前述結果證明了 Gemini Robotics-ER 可以完全依賴零樣本(zero-shot)方式解決一系列任務。然而,某些高度靈巧的操作任務仍然超出了 Gemini 2.0 當前的零樣本能力。針對這些挑戰,我們展示了一種少樣本(few-shot)學習方法,即利用少量上下文示例(in-context demonstrations)來對模型進行條件約束,使其能夠快速模仿新行為。與前述示例中使用代碼生成不同,這里我們提示(prompt)模型直接生成機器人末端執行器的軌跡,并使其遵循演示示例中的行為模式。我們擴展了 Di Palo 和 Johns(2024) 提出的方法,該方法將 k k k 條遙操作軌跡 轉換為一系列物體和末端執行器位姿,并將其標記化為文本后添加到模型的提示中(見圖13)。借助 Gemini Robotics-ER 的具身推理能力,我們無需使用外部模型來提取視覺關鍵點和物體位姿(該方法在原始研究中需要依賴額外模型),因為 Gemini Robotics-ER 本身就能完成這些任務。除了觀測信息和動作數據外,我們還在提示中交錯插入任務的語言描述,以引導模型在推理時形成自然語言推理。這種方式使模型能夠更好地理解何時使用哪只機械臂,或更準確地預測與物體交互的位置。使用大型多模態模型的優勢之一是它能夠結合觀察、動作和語言信息,這種多模態組合的效果優于單一模態的信息。
圖13 | 少樣本上下文學習(Few-shot In-Context Learning, ICL)流程概覽。Gemini可以接收觀測信息、語言指令和軌跡示例,并在此基礎上為新任務實例生成新的語言推理和軌跡。
使用這種方法(提供10次演示)的實驗結果見 表5 和 表6。
- Gemini 2.0 Flash 在模擬環境中的成功率達到 51%。
- Gemini Robotics-ER 在模擬環境和真實世界中的成功率均達到了 65%。
相較于零樣本代碼生成方法,這種方法的主要性能提升來源于更復雜的靈巧操作任務,例如:
- 物品傳遞(handover of objects)
- 折疊衣物(folding a dress)
- 玩具包裝(packing a toy)
在這些任務中,示例演示可以約束模型生成更精確的雙臂軌跡,從而提高任務成功率。
這一系列實驗表明,Gemini 2.0 Flash 及其具身推理增強版本 Gemini Robotics-ER 可以直接用于機器人控制,包括:
- 作為感知模塊(如物體檢測);
- 作為規劃模塊(如軌跡生成);
- 通過生成和執行代碼來協調機器人運動。
實驗還表明,模型的具身推理能力與下游機器人控制的性能之間存在強相關性。同時,我們的實驗也證明,該模型能夠利用上下文學習(in-context learning),僅憑少量示例就能提高更復雜的靈巧雙臂任務(如折疊衣物)的執行能力,并能夠直接輸出末端執行器的軌跡以完成任務。
然而,作為VLM(視覺-語言模型),該模型在機器人控制方面仍然存在固有局限性,尤其是在更復雜的靈巧操作任務上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機器人執行動作關聯起來。
在接下來的章節中,我們將介紹Gemini Robotics,這是一種端到端的視覺-語言-行動(Vision-Language-Action, VLA)模型,能夠實現更通用且更靈巧的機器人控制。
3. 使用 Gemini Robotics 執行機器人動作
在本節中,我們介紹 Gemini Robotics,它是 Gemini Robotics-ER 的一個衍生版本,經過微調以直接預測機器人動作。Gemini Robotics 是一個通用模型,能夠在不同環境下解決靈巧任務,并支持不同的機器人形態。
我們首先研究該模型在大規模、多樣化的數據集上訓練后的表現,該數據集包含標注了動作的機器人數據及其他多模態數據。訓練后的模型可以開箱即用地完成多種短時序靈巧任務(見 3.2 節),并且能夠緊密遵循自然語言指令(見 3.3 節)。此外,它繼承了 Gemini Robotics-ER 的泛化能力,在場景視覺變化、物體位置變化和物體實例變化方面表現出魯棒性(見 3.4 節)。
在 第 4 節,我們進一步測試 Gemini Robotics 的極限能力,并針對高難度的長時序靈巧任務(見 4.1 節)及極端泛化場景(見 4.2 節)進行專門化訓練。此外,我們還研究了其對全新靈巧任務的快速適應能力(見 4.3 節),以及對全新形態機器人的適應能力,包括不同的結構形式、動作模式和感知輸入(見 4.4 節)。
3.1. Gemini Robotics:模型與數據
模型(Model)
在大型 VLM(如 Gemini Robotics-ER) 中,推理速度通常較慢,并且需要專用硬件。這可能會影響 VLA(視覺-語言-行動)模型 在機器人實時控制中的可行性。為了應對這些挑戰,Gemini Robotics 采用了雙組件架構:
- VLA主干(Gemini Robotics backbone):托管在云端,負責視覺-語言推理。
- 本地動作解碼器(Gemini Robotics decoder):運行在機器人板載計算機上,負責動作執行。
Gemini Robotics backbone 由 Gemini Robotics-ER 的一個精煉版本(distilled version) 組成,其查詢-響應延遲已優化至小于 160ms(相比原始模型減少了數秒)。
為了補償 VLA 主干的延遲,Gemini Robotics decoder 在本地執行低級控制。
- 當主干和本地解碼器結合時,從原始感知輸入到低級動作塊(action chunks)的端到端延遲約為 250ms。
- 由于每個動作塊可包含多個動作,因此有效控制頻率可達 50Hz。
整體系統不僅能夠在主干延遲的情況下仍然保持流暢、響應迅速的運動,還保留了主干模型的泛化能力。模型架構概覽見 圖14。
圖14 | Gemini Robotics模型的架構、輸入和輸出概覽。Gemini Robotics 是 Gemini Robotics-ER 的一個衍生版本,經過微調以預測機器人動作。該模型接收多模態提示(multimodal prompt),輸入包括:
- 場景當前狀態的一組圖像
- 任務的文本指令
模型的輸出是一系列動作塊(action chunks),由機器人執行。
Gemini Robotics 由兩個主要組件組成:
- VLA主干(Gemini Robotics backbone)——在云端運行的視覺-語言-行動核心網絡。
- 本地動作解碼器(Gemini Robotics decoder)——在機器人板載計算機上運行的動作執行模塊。
數據(Data)
我們在 ALOHA 2 機器人機群(Team等, 2024;Zhao等, 2025)上采集了大規模的遙操作機器人動作數據集,時間跨度超過 12 個月,包含數千小時的真實世界專家機器人演示數據。
該數據集包含數千種不同的任務,涵蓋:
- 多樣化的操作技能
- 不同的物體類型
- 不同的任務難度
- 不同的時間跨度
- 不同的靈巧操作要求
此外,訓練數據還包括非動作數據,如:
- 網頁文檔
- 代碼
- 多模態內容(圖像、音頻、視頻)
- 具身推理數據
- 視覺問答數據(VQA)
這些額外的數據顯著提升了模型對機器人任務的理解、推理和泛化能力。
基線模型(Baselines)
我們將 Gemini Robotics 與兩種最先進的基線模型進行對比:
-
π 0 \pi_0 π0? re-implement
- 該模型是我們對開源最先進的 π 0 \pi_0 π0? VLA 模型(Black等, 2024)的重新實現版本。
- 我們在相同的數據集上訓練該模型,并發現其性能優于原始公開的 π 0 \pi_0 π0? 檢查點,因此我們將其作為最強的 VLA 基線(更多細節見 附錄C.2)。
-
多任務擴散策略模型(Multi-task Diffusion Policy)
- 受 ALOHA Unleashed(Zhao等, 2025)啟發,但進行了任務條件化修改。
- 該模型在多模態演示數據上訓練,被證明在學習靈巧技能方面有效。
所有基線模型均使用相同的數據組合訓練至收斂,以確保公平對比。
Gemini Robotics 主要在云端運行,并結合本地動作解碼器,而兩個基線模型均在本地運行,依賴Nvidia RTX 4090 GPU 進行推理。
所有實驗結果均基于嚴格的真實機器人實驗,并經過 A/B 測試 和 統計分析(更多細節見 附錄C.1)。
3.2. Gemini Robotics 可直接解決多種靈巧操作任務
在我們的第一組實驗中,我們證明了Gemini Robotics 能夠解決廣泛的靈巧操作任務。我們評估該模型在短時序靈巧任務上的表現,并將其與最先進的多任務基線模型進行對比。
所有模型均在開箱即用(out of the box)的條件下進行評測,即不進行任何任務特定的微調或額外提示。測試任務從3.1節的數據集中隨機抽取 20 個任務。
我們選擇了多種不同的場景(部分示例見圖15),包括:
- 洗衣房(例如**“折疊褲子”**);
- 廚房(例如**“堆疊量杯”**);
- 雜亂的辦公桌(例如**“打開粉色文件夾”**);
- 其他日常活動(例如**“打開眼鏡盒”**)。
這些任務的靈巧需求各不相同,從簡單的抓取和放置(如**“從桌子中央拾取鞋帶”),到需要雙手協調的可變形物體操控**(如**“纏繞耳機線”**)。
我們在圖15中展示了 Gemini Robotics 在這些任務上的示例執行過程,完整任務列表見附錄C.1.1。
圖15 | 機器人在復雜環境中執行靈巧操作的示例任務。
從上到下:“打開眼鏡盒”,“倒出豆類”,“解開文件夾”,“纏繞耳機線”。
圖16 總結了我們的模型與基線模型的整體性能。實驗表明,Gemini Robotics在一半的任務中表現出色,成功率超過80%。值得注意的是,我們的模型在可變形物體操控方面表現尤為優異(如**“折疊粉色布料”、“纏繞耳機線”),而基線模型在這些任務上表現不佳**。對于更具挑戰性的任務(如**“打開粉色文件夾”、“插入紅色積木”、“纏繞耳機線”),Gemini Robotics是唯一能夠取得非零成功率的方法。這凸顯了高容量模型架構與多模態(視覺、語言、動作)高質量多樣化數據結合的重要性,這些因素對于多任務策略學習至關重要。然而,我們發現某些 最復雜的靈巧任務仍然較難 ,單純依賴多任務訓練仍難以學習到(如“插入鞋帶”)。在 4.1節 ,我們將探討Gemini Robotics的專門化策略**,以解決這些更長時序的高難度任務。
圖16 | Gemini Robotics能夠直接解決多種任務。我們從數據集中隨機抽取 20 個任務,這些任務的靈巧需求不同,并使用 Gemini Robotics 和基線模型進行對比實驗。結果表明,Gemini Robotics 顯著優于基線模型。
3.3. Gemini Robotics 能夠精確遵循語言指令
第二組實驗測試了模型遵循自然語言指令的能力。我們選取25條語言指令,并在5個不同的評估場景中進行測試,包括訓練場景以及包含未見過物體和容器的全新場景(詳細信息見附錄C.1.2)。本次評估主要關注需要精確執行的語言指令(例如 “將藍色夾子放在黃色便簽的右側”),而非開放式的抽象指令(如 “清理桌子”)。實驗結果的可視化及二元任務成功率見圖17。
實驗表明,高質量的多樣化數據與強大的視覺-語言主干模型相結合,使模型具備了高度可控性(steerability)。Gemini Robotics 和 π 0 \pi_0 π0? re-implement 在分布內場景(in-distribution scenes)下的表現優于擴散基線模型(diffusion baseline),表明強大的語言編碼能力是必要的。然而,在具有挑戰性的場景(例如包含新物體和細粒度指令的任務,如 “將牙膏放入盥洗架底部隔間” ),我們發現 Gemini Robotics 的表現優于所有基線模型 (見 圖17)。
盡管基于 PaliGemma 的 π 0 \pi_0 π0? re-implement 在處理訓練期間見過的物體時表現良好,但在解析描述性語言屬性(如 “頂部黑色容器”、“藍色夾子”)方面存在困難,并且在處理未見過的物體和語言描述時表現不佳。
圖17 | Gemini Robotics能夠在復雜場景中精確執行全新的語言指令,即便這些場景在訓練期間從未見過。
- 左側:場景中包含訓練時見過的物體。
- 中間:場景中包含全新物體。
- 右側:在“拾取(Pick)”和“拾取并放置(Pick and Place)”任務中,針對新物體的詳細指令下的成功率。
3.4. Gemini Robotics 將 Gemini 的泛化能力擴展至物理世界
泛化能力不足是機器人在家庭和工業應用中實現大規模部署的關鍵瓶頸。在最后一組實驗中,我們評估了 Gemini Robotics 在三個重要維度上的泛化能力,這些維度在以往研究(Gao等, 2025)中被認為至關重要:
-
視覺泛化(Visual Generalization)
- 模型應對場景的視覺變化保持不變性,即視覺變化不應影響任務執行的動作。
- 這些變化可能包括:
- 背景變化
- 光照條件變化
- 干擾物體的存在
- 物體的紋理變化
-
指令泛化(Instruction Generalization)
- 模型應理解自然語言指令的等效性和不變性。
- 在超越3.3節研究的精細化可控性的基礎上,模型應具備:
- 對同義改寫(paraphrasing)的理解能力
- 對拼寫錯誤(typos)的魯棒性
- 跨語言理解能力
- 適應不同詳細程度指令的能力
-
動作泛化(Action Generalization)
- 模型應能夠適應已學動作或合成新動作,以泛化到新的初始條件(如物體位置變化)或新的物體實例(如形狀或物理屬性不同的物體)。
我們使用多樣化任務集評估 Gemini Robotics 與基線模型的泛化性能。該基準測試共包含 85 項任務,其中:
- 20% 為訓練分布內任務
- 28% 用于評估視覺泛化
- 28% 用于評估指令泛化
- 24% 用于評估動作泛化
圖18 - 圖20 展示了該任務集中三種不同類型的泛化任務示例。完整的任務分解見附錄C.1.3。
圖18 | 用于評估視覺泛化能力的任務示例。
- 左側:分布內場景(in-distribution scene)。
- 從左至右:場景可能包含新的干擾物、不同的背景或不同的光照條件。
圖19 | 用于評估指令泛化能力的任務示例。
- 左側:分布內指令(in-distribution instruction)。
- 從左至右:任務指令可能包含拼寫錯誤、使用不同語言表達,或以不同句式和詳細程度描述相同任務。
圖20 | 用于評估動作泛化能力的任務示例。
- 左側:顯示與分布內任務不同的初始物體位置。
- 右側:顯示新的物體實例與訓練數據中的物體實例的區別。
- 例如,在“折疊衣服”任務中,我們測試了不同尺寸的衣服(訓練時為S碼,新實例為M碼和XS碼)。
- 對于這兩種變化(初始條件、物體實例),模型需要調整先前學到的動作,例如:
- 調整機械臂的到達路徑以適應新的空間布局。
- 適應不同形狀或尺寸的物體進行操控。
圖21 報告了平均任務進度得分,該指標比二元任務成功率更具連續性,使我們能更細粒度地分析各任務策略的進展,尤其是困難任務(每個任務的進度得分定義見附錄C.1.3.3)。此外,我們在附錄圖40中提供了基于成功率的同類圖表。
圖21 | Gemini Robotics 泛化能力分解。
- Gemini Robotics 在所有三個泛化類別上均優于基線模型,并能更有效地處理各種變化。
- 即使基線模型在某些情況下發生災難性失敗(如遇到新語言的指令或目標物體的視覺變化),Gemini Robotics 仍能取得非零表現。
Gemini Robotics 在所有三種泛化類型上均明顯優于基線模型,并能更有效地適應各種變化(如圖21所示)。即使在基線模型發生災難性失敗(如遇到新語言的指令)的情況下,Gemini Robotics 仍能取得非零成功率。
我們推測這些改進的原因在于:
- 更強大、更高容量的 VLM(視覺-語言模型)主干網絡
- Gemini 2.0 中最先進的視覺編碼器
- 多樣化的訓練數據 共同提升了模型的泛化能力。
4. 使 Gemini Robotics 專門化并適應靈巧操作、推理及新形態機器人
Gemini Robotics 是一個強大的機器人通用模型,能夠完成多種靈巧任務,并在無需微調的情況下表現出非平凡的泛化能力。在本節中,我們進一步測試模型的極限能力,并探索未來可能的優化方向,以進一步增強其通用性。
具體而言,我們研究以下四個方面:
- 測試模型在更具挑戰性的長時序靈巧任務上的能力,并通過專門化使其精通這些任務。
- 優化模型的語義驅動具身推理能力,以增強泛化性。
- 探索快速適應新任務和新環境的可能性。
- 研究如何適應全新的機器人形態,包括不同的機械結構、動作模式和感知輸入。
其中,(1) 和 (2) 提供了未來改進模型的重要信息,而**(3) 和 (4) 是模型在實際部署中所需的重要特性**。
4.1. 長時序靈巧任務
在3.2節,我們展示了 Gemini Robotics 在短時序靈巧任務上的出色表現。在本節中,我們進一步研究:通過在小規模高質量數據集上進行微調,是否能夠使模型專門化,從而解決更具挑戰性的長時序靈巧任務。
我們選擇了六個高難度任務來測試模型在專門化后的能力,示例任務的執行過程見圖22。
圖22 | Gemini Robotics 在 ALOHA 機器人平臺上成功完成多種長時序靈巧任務。從上到下依次為:“折紙狐貍”、“整理午餐盒”、“拼寫字母棋盤游戲”、“玩紙牌游戲”、“用夾子將豌豆夾加入沙拉”、“用勺子將堅果加入沙拉”。
折紙狐貍(Make an origami fox)
- 機器人需要將一張紙折疊成狐貍頭的形狀。
- 該任務需要執行4次精確的折疊,每一步都涉及對齊、彎折、捏合和壓折,并隨著紙層數的增加,難度逐步上升。
- 任務挑戰:
- 雙臂協調的精準性要求極高,即便是微小的誤差都可能導致不可逆的失敗。
整理午餐盒(Pack a lunch-box)
- 機器人需要將多個物品整理進午餐袋:
- 先將一片面包插入塑料袋的狹窄開口,然后拉鏈封口。
- 將封好的塑料袋和能量棒放入午餐袋中。
- 將葡萄轉移到容器中,封好蓋子,再放入午餐袋。
- 最后拉鏈封閉午餐袋。
- 任務挑戰:
- 任務涉及多個復雜子任務(如插入面包、封閉容器蓋、拉鏈開合),需要精確的雙臂協調和夾爪控制。
拼寫字母棋盤游戲(Spelling board game)
- 游戲規則:
- 人類玩家在機器人面前放置或繪制某個物體的圖片。
- 機器人需要識別該物體,并用字母棋盤拼出三字母的單詞來描述該物體。
- 任務挑戰:
- 該任務要求機器人具備視覺識別能力,并能實現緊密的視覺-語言-行動映射。
玩紙牌游戲(Play a game of cards)
- 機器人需要操作自動發牌機,抽取三張紙牌并轉移到另一只手。
- 機器人需要等待人類玩家出牌,然后打出一張手牌,最后整理剩余手牌。
- 任務挑戰:
- 機器人必須能夠精準地傳遞薄紙牌,并具備精細的手部操控能力,以確保正確地抓取和出牌。
用夾子將豌豆夾加入沙拉(Add snap peas to salad)
- 機器人需要使用金屬夾子從碗中夾取豌豆夾,并將其放入另一只碗。
- 任務挑戰:
- 該任務要求機器人具備雙臂協調能力:
- 一只手持夾子
- 另一只手施加壓力以完成抓取和釋放。
- 該任務要求機器人具備雙臂協調能力:
用勺子將堅果加入沙拉(Add nuts to salad)
- 機器人需要使用勺子,從豎立容器中舀取堅果,并將其倒入沙拉碗。
- 任務挑戰:
- 舀取動作需要精確控制,以確保成功地從高容器中取出堅果并倒入目標位置。
這些實驗表明,通過針對特定任務的高質量微調數據,Gemini Robotics 可以擴展其通用靈巧操作能力,在長時序、高難度任務上展現更專業化的表現。
我們為每個任務精選2000至5000個高質量演示數據回合,并使用每個專門化數據集對第3節中的Gemini Robotics檢查點進行微調。我們將這些專門化模型的性能與基線模型的專門化版本(即 π 0 \pi_0 π0? re-implement specialist 和 Multi-task diffusion specialist)進行比較,這些基線模型也在相同數據集上進行了微調。
此外,為了評估第3節中多樣化訓練數據的重要性,我們訓練了兩個對比模型:
- 從零開始訓練的單任務擴散策略模型(Single task diffusion policy)。
- 從零開始訓練的 Gemini Robotics 專門化模型(未使用第3節的檢查點)。
我們在真實環境中對所有模型進行了廣泛評估,并在圖23中報告了任務成功率(進度得分結果見附錄圖42)。
- 每個任務執行20次實驗,
- 僅在拼寫字母棋盤游戲任務上執行12次實驗。
實驗結果
- 我們的專門化模型在所有任務上的平均成功率達到79%。
- 午餐盒整理任務(Lunch-box)成功率達100%,該任務持續超過2分鐘,涵蓋多個子任務。
- 拼寫游戲(Spelling game):
- 能夠正確讀取和拼寫專門化數據集中出現的印刷圖片單詞。
- 在6個從未見過的手繪草圖中,正確拼寫4個。
- 所有基線模型均無法穩定識別圖像并正確拼寫單詞。
對于較簡單的靈巧任務,我們發現:
- 從零開始訓練的單任務擴散模型 在簡單任務上的表現較好,與當前最優研究結果一致(Zhao等, 2025)。
- 但在拼寫游戲、折紙、午餐盒整理等長時序任務上,該模型表現不佳,可能是由于這些任務的復雜性較高。
此外,我們發現:
- Multi-task diffusion 和 π 0 \pi_0 π0? re-implement specialist 在相同數據上的微調后,仍然無法達到Gemini Robotics 的性能水平,這與圖16中的發現一致。
- Gemini Robotics 的關鍵優勢在于其更強大的 Gemini-based 主干網絡,這表明:
- 在復雜任務上取得成功的專門化能力,與通用模型的強大性高度相關。
最后,當我們直接從零開始訓練 Gemini Robotics 專門化模型,僅使用專門化數據集時,發現其無法解決任何任務(所有任務成功率均為0%,因此未在圖23中展示)。
- 這表明:除了高容量模型架構之外,
- 在第3節中通過多樣化機器人動作數據集學習到的表示能力和物理常識,也是模型成功專門化到高難度長時序靈巧任務的關鍵因素。
圖23 | 專門化訓練后在新靈巧長時序任務上的表現。
- Gemini Robotics 是唯一能穩定完成極端挑戰性任務(如“折紙狐貍”和“午餐盒整理”)的模型,午餐盒任務的成功率達到100%,而基線模型在這些任務上均表現不佳。
- 基線模型在較簡單任務(如“舀取堅果”、“玩紙牌”、“放置豌豆”)上表現較為接近。
- 但在拼寫游戲任務上,僅有 Gemini Robotics 成功,不僅能準確拼寫印刷圖片卡片中的單詞,甚至在從未見過的手繪草圖上也能達到超過60%的正確率。
4.2. 增強推理能力與泛化能力
我們現在探討如何充分利用 Gemini Robotics-ER 的新型具身推理能力(如空間理解、物理理解和世界知識),以指導低級機器人動作,適用于比3.4節更需要推理能力和泛化能力的場景。盡管先前研究表明 VLA(視覺-語言-行動)模型 在視覺魯棒性方面取得了一定進展,但目前仍然面臨抽象推理能力保留及其在行為泛化中的應用的重大挑戰(Brohan等, 2023;Kim等, 2025)。為了解決這一問題,我們研究了一種微調過程,該過程利用3.1節機器人動作數據集的重新標注版本,使動作預測更接近新引入的具身推理能力,包括軌跡理解和生成(見2.2節)。此外,我們擴展了 3.1節 的本地動作解碼器,使其能夠將這些推理中間變量轉換為連續的低級動作。
我們將增強推理版本的 Gemini Robotics 與3.1節中的基礎 Gemini Robotics 模型進行了比較,測試場景均為訓練分布外的真實機器人任務(3.1節)。這些具有挑戰性的場景結合了3.4節研究的分布偏移,要求模型同時具備指令泛化、視覺泛化和動作泛化能力。我們在本節概述了高層次評估類別,完整的任務指令和描述見附錄D.2。
評估任務類別
單步推理(One-step Reasoning)
- 任務要求:
- 指令間接指定目標物體或操作方式,如通過屬性或可供性(affordance)。
- 示例任務:“將右下角的鼠標分類至匹配的堆”
- 目標是將右下角的白色玩具鼠標分類至白色鼠標的堆,而不是誤分類至棕色或灰色鼠標的干擾堆。
- 該任務涉及的所有鼠標以及基于顏色的物品分類任務均未出現在訓練分布的動作標簽中。
語義泛化(Semantic Generalization)
- 任務要求:
- 需要超越3.4節所研究的泛化能力,并結合更復雜的語義和視覺理解。
- 示例任務:“將日本魚類 delicacy 放入午餐盒”
- 機器人必須確定壽司是目標物體,并將其放入午餐盒,而不是錯誤地選擇其他干擾物體。
空間理解(Spatial Understanding)
- 任務要求:
- 需要理解相對和絕對空間關系的概念。
- 示例任務:“將最小的可樂放入午餐盒”
- 機器人必須選擇小罐裝可樂,而非其他標準尺寸的可樂,并放入午餐盒。
- 該任務評估的空間概念(如“最小的”)在訓練數據的動作標簽中未曾出現。
實驗結果
圖24 展示了基礎 Gemini Robotics 模型與增強推理版本在真實世界評估任務中的成功率對比。
- 基礎模型仍然表現合理,但在分布外任務上的成功率明顯低于增強推理版本。
- 增強推理版本在需要單步推理、規劃、語義知識和空間理解的任務中,顯著提升了成功率。
- 除了提升模型在新環境中的部署能力,增強推理版本還提高了可解釋性,因為模型能夠輸出類似人類可理解的具身推理過程(如Gemini Robotics-ER 的推理軌跡)。
圖24 | 需要具身推理能力的真實機器人任務的性能表現。
在重新標注的動作數據集上進行微調后,模型的動作預測能力得到了增強,使其能泛化至包含多種分布偏移的新情況。
在圖25中,我們展示了關鍵點軌跡的可視化,該軌跡作為模型內部推理鏈的一部分:
- 軌跡展示了左臂(紅色)和右臂(藍色)在未來1秒內的預測運動路徑。
- 這進一步表明,具身推理能力可以有效用于機器人運動規劃,并為更復雜的推理任務提供了堅實基礎。
圖25 | 增強推理版本的 Gemini Robotics 預測的軌跡可視化,作為模型內部**思維鏈(Chain of Thought)**的一部分。
- 紅色軌跡:左機械臂的預測運動路徑。
- 藍色軌跡:右機械臂的預測運動路徑(未來1秒)。
- 軌跡體現了模型利用具身推理知識進行運動規劃的過程。
4.3. 快速適應新任務
機器人基礎模型 通過利用 預先獲取的機器人動作和物理交互常識,有望實現快速任務學習。4.1節 研究了模型在長時序、高度靈巧任務上的專門化能力,而本節則探討了另一端的任務范圍:我們的通用模型在新短時序任務上的適應速度。
具體而言,我們從先前的長時序任務中選取了八個子任務(詳見附錄D.3.1),并調整用于微調3.1節檢查點的數據量。圖26 展示了每個任務的平均成功率隨示范次數的變化情況。
圖26 | 在有限示范次數下,Gemini Robotics 能夠快速適應新任務。
- 在8個任務中,有7個任務在最多100次示范后成功率超過70%,并且在兩個任務上達到100%成功率。
- 基線模型在較簡單任務上表現良好,但 Gemini Robotics 在更具挑戰性的任務(如“折紙第一折”和午餐盒操作) 上更具優勢,即使示范次數少于100次。
- 在八個任務中,有七個任務在最多100次示范(相當于15分鐘至1小時的示范時間,具體取決于任務復雜度)后,成功率超過70%。
- 值得注意的是,在兩個任務中,Gemini Robotics 達到了100%的成功率。
- 基線模型 在簡單任務上表現較為接近:
- 例如 “倒入生菜” 任務中,基線模型的學習效率更高。
- 在 “添加沙拉醬” 和 “抽取紙牌” 任務中, π 0 \pi_0 π0? re-implement 略微優于 Gemini Robotics。
- 然而,基線模型在 更復雜的任務(如“折紙狐貍的第一折”或午餐盒操作任務) 上表現不佳,尤其是在示范次數有限的情況下。
這一實驗結果再次證明,強大的VLM(視覺-語言模型)主干網絡 對于快速學習新任務至關重要,因為它能夠更有效地將豐富多樣的機器人動作數據轉化為對物理交互的深入理解。
4.4. 適應新機器人形態
在初步實驗中,我們還研究了如何高效地將 Gemini Robotics 模型適應到新的機器人形態。原始模型在 ALOHA 2 機器人上訓練,而本節研究如何在目標平臺上使用少量數據進行微調。
我們測試了兩個新的機器人形態:
- 雙臂 Franka 工業機器人,帶有并聯夾爪。
- Apptronik 的 Apollo 全尺寸人形機器人,配備五指靈巧手。
圖27 展示了這兩種機器人在不同任務中的示例。
圖27 | Gemini Robotics 模型可微調至控制不同機器人。
- 上圖:Apollo 人形機器人執行午餐盒整理任務。
- 下圖:雙臂 Franka 工業機器人組裝工業皮帶輪系統。
微調后,我們發現:
- 在分布內任務上,Gemini Robotics 的成功率與最先進的單任務擴散策略(Single Task Diffusion Policy)相當,甚至略優。
- 例如,在雙臂 Franka 機器人上微調后的 Gemini Robotics 模型,能夠在所有測試任務上取得平均63%的成功率(任務詳情及成功率圖見附錄D.4)。
- 我們進一步研究了該模型在視覺干擾、初始條件變化和物體形狀變化下的魯棒性(見附錄D.4.2)。
圖28 展示了當 Gemini Robotics 適應到新的機器人形態(雙臂 Franka 機器人)后,各項泛化指標的表現。
圖28 | 當 Gemini Robotics 適應到新的機器人形態(雙臂 Franka 機器人)時的泛化能力分解。
- 在視覺泛化和動作泛化測試中,Gemini Robotics 始終優于擴散基線模型。
- 未對比指令泛化能力,因為單任務擴散基線模型不接受語言指令。
- 在視覺泛化和動作泛化測試中,Gemini Robotics 顯著優于單任務擴散基線。
- 這一結果表明,即使經過針對新形態的微調,Gemini Robotics 仍然能夠保留其魯棒性和泛化能力,并成功遷移到不同的機器人形態。
5. 負責任的開發與安全性
我們在本報告中介紹的模型均符合 Google AI 原則(Google, 2025)以及先前發布的 AI 技術標準(Gemini-Team等, 2023;Kavukcuoglu等, 2022)。
確保 AI 被負責任地構建和使用是一個持續迭代的過程,這不僅適用于文本和圖像生成模型,也同樣適用于機器人基礎模型。
由于本報告介紹的模型具有數字-物理混合特性,并且最終使機器人能夠在物理世界中執行操作,因此需要特殊的安全考量。
在 Google DeepMind 責任與安全委員會(RSC) 以及 負責任開發與創新團隊(ReDI) 的指導下,我們識別了使用這些模型的潛在風險,并制定了安全緩解框架,涵蓋**具身推理(embodied reasoning)和動作輸出(action output)**兩種模式。
機器人安全性概述
傳統的機器人安全性 是一個廣泛且多方面的研究領域,涵蓋多個方面:
- 危害緩解(hazard mitigation)——已被編寫成數百頁的 ISO 和 RIA 標準(for Standardization, 2011;Jacobs和Virk, 2014;RIA)。
- 無碰撞運動規劃(collision-free motion planning)(LaValle, 2006)。
- 力調節控制(force modulation)(Villani和De Schutter, 2016)。
- 魯棒控制(robust control)(Ames等, 2019;Zhou和Doyle, 1998)。
傳統上,機器人安全性主要關注物理動作安全,即確保機器人:
- 遵守嚴格的物理約束(如避障、工作空間邊界限制)。
- 具備穩定的運動能力(如步行機器人)。
- 能夠調節接觸力 以保持在安全范圍內。
這些功能通常由控制棧的最底層實現,采用的方法包括:
- 運動規劃(motion planning)
- 模型預測控制(model predictive control, MPC)
- 順應/力控制(compliant/force control)
VLA 模型(Gemini Robotics) 需要與這些關鍵的低級安全控制器進行接口集成,以確保機器人遵守物理安全標準。
我們在先前的研究中(Chiang等, 2025;Varley等, 2024)已探索了此類接口的原型。
此外,本報告描述的 AI 驅動機器人系統 需要對安全研究有更廣泛且不斷發展的視角,因為安全性的新概念也變得日益重要。
Gemini 機器人模型的安全性
Gemini 安全策略(Gemini-Team等, 2023)最初設計用于內容安全性(content safety),防止 Gemini 模型生成有害的對話內容,如:
- 仇恨言論
- 色情內容
- 不適當的醫療建議
- 泄露個人身份信息
由于 Gemini Robotics 繼承了 Gemini 2.0 檢查點,它也繼承了這些安全策略,從而能夠確保安全的“人-機器人對話”。
隨著 具身推理模型(Embodied Reasoning Model) 的引入,新的輸出模式(如指點動作(pointing))也需要額外的內容安全層。
因此,我們對 Gemini 2.0 和 Gemini Robotics-ER 進行了監督微調,以訓練模型避免在圖像內容之外做不適當的泛化。
- 該訓練使模型在偏見誘導的指點查詢上的拒絕率提升至96%(基線拒絕率僅為20%)。
語義動作安全(Semantic Action Safety)
對于通用機器人而言,**語義動作安全(semantic action safety)**同樣至關重要,意味著機器人必須:
- 在開放域、非結構化環境中尊重物理安全約束。
- 避免執行潛在危險的操作。
這些規則難以窮盡列舉,但應涵蓋:
- 軟玩具 不能放在熱爐上。
- 對花生過敏的人 不能被遞送含有花生的食物。
- 紅酒杯 必須保持直立搬運。
- 刀具 不能指向人。
這類安全約束適用于通用機器人,也適用于其他具身智能體。
ASIMOV 數據集與安全性評估
與本技術報告同時發布的ASIMOV 數據集(Sermanet等, 2025a,b),用于評估和改進語義動作安全性。
該數據集包含:
- 視覺安全問答實例(圖29a)。
- 純文本安全問答實例(圖29b)。
Gemini Robotics-ER 在這些數據集上進行了后訓練(post-training),以增強安全性。
圖29c 和 29d 總結了安全性評估結果。
- 對比真實世界的安全性評估數據(如NEISS, 2024),Gemini 2.0 Flash 和 Gemini Robotics-ER 均表現出較強的物理安全語義理解能力。
- 采用憲法式 AI(Constitutional AI)方法(Ahn等, 2024;Bai等, 2022;Huang等, 2024;Kundu等, 2023;Sermanet等, 2025a)后,模型安全性表現進一步提升。
- 通過后訓練和憲法式 AI 機制,可以有效緩解對抗性提示的影響,即當模型被要求顛倒對“安全”與“不安全”的理解時,其性能不會顯著下降。
有關 ASIMOV 基準、數據驅動的憲法生成過程 及全面的實證分析,請參考**Sermanet等(2025a,b)**的論文,該研究與本技術報告同時發布。
未來展望
這些研究結果初步證明,我們嚴格執行的非機器人 AI 模型安全標準同樣適用于新一代具身 AI 和機器人模型。
未來,我們將繼續改進安全性對齊方法,并持續優化我們的機器人基礎模型。
除了安全風險,我們還需要關注機器人部署的社會影響。
我們認為,主動監測和管理這些影響(包括潛在的益處和挑戰)對于風險緩解、負責任的部署和透明報告至關重要。
Gemini Robotics 模型的模型卡(Model Card) 見 附錄A(Mitchell等, 2019)。
6. 討論
在本研究中,我們探討了 Gemini 2.0 的世界知識和推理能力如何通過機器人技術被引入物理世界。對于機器人和其他具身智能體而言,穩健的人類級具身推理能力至關重要。
基于這一認識,我們提出了 Gemini Robotics-ER,這是一種具身視覺-語言模型(VLM),在空間理解、軌跡預測、多視圖對應和精確指點等方面顯著提升了當前技術水平。
我們通過新的開源基準驗證了 Gemini Robotics-ER 的卓越性能。實驗結果表明,我們的訓練方法能夠有效增強 Gemini 2.0 的多模態推理能力,從而為真實世界的機器人應用奠定了堅實基礎,使其能夠高效地進行零樣本(zero-shot)和少樣本(few-shot)適應,應用于感知、規劃和代碼生成等任務以控制機器人。
此外,我們介紹了 Gemini Robotics,這是一種通用視覺-語言-動作(VLA)模型,在 Gemini Robotics-ER 的基礎上進一步縮小了被動感知與主動具身交互之間的差距。作為目前最靈巧的通用機器人模型,Gemini Robotics 在多種復雜操作任務中表現出色,從精細的布料操控到高精度的可動物體處理,均展現了卓越的能力。
我們認為,本方法取得成功的關鍵因素包括:
- 強大的視覺-語言模型,具備增強的具身推理能力。
- 針對機器人任務的特定訓練策略,結合大規模機器人動作數據集與多樣化的非機器人數據。
- 專為低延遲機器人控制設計的獨特架構。
此外,Gemini Robotics 能夠有效遵循開放詞匯指令,并在零樣本泛化方面表現出色,充分利用了 Gemini Robotics-ER 的具身推理能力。
最后,我們展示了可選的微調機制,使 Gemini Robotics 能夠適應新任務和新機器人形態,在極端靈巧操作和復雜泛化場景中取得優異表現。這些結果凸顯了我們的方法在快速將基礎能力轉化為現實應用方面的靈活性和實用性。
局限性與未來研究方向
盡管 Gemini 2.0 和 Gemini Robotics-ER 在具身推理方面取得了重大進展,但仍有提升空間。例如:
- Gemini 2.0 可能難以在長視頻中保持對空間關系的穩定推理。
- 其數值預測(如點和邊界框)可能不夠精確,難以滿足更精細的機器人控制任務。
此外,盡管 Gemini Robotics 的初步實驗結果顯示出良好的泛化能力,但未來研究仍需重點關注以下幾個方面:
-
增強 Gemini Robotics 在復雜任務中的表現
- 進一步提升模型處理多步推理與精準靈巧操作的能力,特別是在新情境下的表現。
- 研究如何無縫集成抽象推理與精確執行,以實現更強魯棒性和更廣泛的泛化能力。
-
利用模擬數據提升 VLA 模型的能力
- 更依賴模擬數據來生成視覺多樣性更強、接觸信息更豐富的數據。
- 研究如何利用這些數據訓練更具泛化能力的 VLA 模型,使其能更有效地遷移到真實世界(Lin等, 2025)。
-
擴展多形態機器人實驗,降低新形態適應所需的數據量
- 目標是實現零樣本跨形態(zero-shot cross-embodiment transfer),使模型能夠立即將已有技能泛化至新型機器人平臺。
總結
本研究在實現通用自主 AI 在物理世界中的應用方面邁出了重要的一步,將引發機器人系統的范式轉變,使其能夠理解、學習并被指引完成各類任務。
與傳統機器人系統專注于特定任務不同,Gemini Robotics 賦予機器人對世界運行規律的通用理解,使其能夠適應廣泛的任務。
此外,Gemini 的多模態、通用性特征有潛力降低使用和受益于機器人技術的技術門檻。未來,這可能會徹底改變機器人系統的應用場景及用戶群體,最終推動智能機器人在日常生活中的部署。
然而,隨著技術的發展,像 Gemini Robotics 這樣功能強大的機器人模型將對社會產生巨大影響。因此,除了探索其技術潛力,我們還必須關注其安全性及其更廣泛的社會影響。
Gemini Robotics 在設計時已充分考慮安全性,并且我們已探討了多種安全緩解策略。
未來,我們將繼續努力,確保這些技術的潛力能夠安全、負責任地被應用。