論文閱讀:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

地址:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

摘要

大型語言模型(LLM)能夠編碼豐富的世界語義知識,這類知識對于機器人執行自然語言表達的高層級、時間擴展指令具有重要價值。然而,語言模型的一大顯著缺陷是缺乏現實世界經驗,這使其難以在特定實體(如機器人)中用于決策。例如,讓語言模型描述如何清理灑出的液體,可能會得到合理的敘述,但該敘述未必適用于特定智能體(如機器人)在特定環境中執行此任務的場景。本文提出通過預訓練技能實現現實世界接地:利用預訓練技能約束模型,使其提出既可行又符合上下文的自然語言動作。其中,機器人可作為語言模型的 “手和眼”,而語言模型則為任務提供高層級語義知識。我們展示了如何將低層級技能與大型語言模型結合:語言模型提供執行復雜、時間擴展指令的高層級流程知識,而與這些技能相關的價值函數則提供必要的接地能力,將該知識與特定物理環境關聯。我們在多個現實世界機器人任務上評估了該方法,結果表明現實世界接地的必要性,且該方法能夠讓移動操作機器人完成長時程、抽象的自然語言指令。項目網站、演示視頻及桌面領域的開源代碼可在this https URL獲取。

概述

1. 研究背景與問題

  • LLM 的優勢與局限:LLM 從海量文本中學習到豐富的語義知識,能理解高層級任務指令,但無物理世界交互經驗,輸出可能 “不落地”(如建議機器人用 “吸塵器清理灑出的飲料”,但場景中無吸塵器或機器人無法操作)。
  • 核心挑戰:如何讓具身智能體(如機器人)提取并利用 LLM 的知識,將抽象語言指令轉化為符合自身能力和當前環境的可執行動作序列。

2. 解決方案:SayCan 方法

SayCan 的核心是 “Say(說)” 與 “Can(做)” 的協同:

  • Say(LLM 的角色):提供 “任務接地”,通過語義知識判斷低層級技能對高層級任務的相關性(即 “該技能是否有助于完成任務”),量化為概率p(\iota_\pi \mid i)\iota_\pi為技能的語言描述,i為用戶指令)。
  • Can(價值函數的角色):提供 “世界接地”,通過預訓練的價值函數判斷技能在當前環境狀態下的可行性(即 “機器人能否成功執行該技能”),量化為概率p(c_\pi | s, \iota_\pi)s為當前狀態,c_\pi為技能成功執行的伯努利變量)。
  • 協同邏輯:技能的綜合優先級由兩者乘積決定p(c_\pi \mid i,s,l_\pi) \propto p(c_\pi \mid s,l_\pi) × p(l_\pi \mid i),迭代選擇最優技能執行,直至輸出 “done” 終止。

3. 實驗驗證與關鍵結果

  • 實驗設置

    • 環境:模擬廚房(技能訓練環境)和真實辦公廚房(泛化測試環境);
    • 機器人:Everyday Robots 的移動操作機器人(7 自由度機械臂 + 兩指夾爪);
    • 任務:7 類共 101 個指令(單原語、抽象名詞 / 動詞、結構化語言、具身狀態、眾包指令、長時程任務);
    • 評估指標:計劃成功率(技能序列是否符合任務目標)、執行成功率(機器人是否實際完成任務,均由 3 名人類標注者多數投票判定)。
  • 核心結果

    1. 接地有效性:在模擬廚房中,SayCan(基于 PaLM-540B)實現 84% 計劃成功率和 74% 執行成功率;真實廚房中為 81% 計劃成功率和 60% 執行成功率,接地機制使性能較無接地基線接近翻倍
    2. LLM 規模影響:LLM 參數越大,機器人性能越好 ——PaLM-540B(84% 計劃成功率)優于 PaLM-62B(72%)和 PaLM-8B(38%),且 PaLM 系列優于同等規模的 FLAN(70% 計劃成功率)。
    3. 擴展能力:支持添加新技能(如抽屜操作,計劃成功率 100%)、鏈式思維處理否定指令(如 “帶無咖啡因的果味飲料”)、多語言指令(中 / 法 / 西語計劃成功率接近 100%)。

4. 局限性與未來方向

  • 局限性:繼承 LLM 的訓練偏差;技能范圍和魯棒性是系統瓶頸;無法動態調整技能失敗后的策略。
  • 未來方向:利用機器人現實經驗反哺 LLM(提升事實性與物理常識);擴展接地來源(非機器人場景);探索自然語言作為機器人編程本體的合理性。

一、論文動機

1. LLM 缺乏 “世界接地”:輸出技能無法執行

LLM 僅通過文本學習語義知識,無物理世界交互經驗,導致其生成的技能序列可能與機器人能力或當前環境沖突,無法實際執行。例如,用戶要求 “清理灑出的飲料” 時,LLM 可能建議 “用吸塵器”,但場景中無吸塵器或機器人無法操作吸塵器(1-4、1-13);或生成 “去商店買蘋果” 這類脫離機器人能力范圍的抽象步驟,無法轉化為具體動作(1-26)。

2. 傳統策略缺乏 “任務接地”:無法理解高層級指令

單純的行為克隆(BC)或強化學習(RL)策略僅能執行低層級、固定的技能(如 “拾取蘋果”),無法解析高層級、抽象的自然語言指令(如 “拿一個健康的零食”)。例如,BC 策略直接輸入 “補充米餅” 這類抽象指令時,無法拆解為 “找米餅→拾取→放置到操作臺” 的序列,執行成功率為 0%(1-69、1-73);且無法動態調整策略以適應長時程任務(如 “扔可樂 + 拿清潔用品”)(1-67)。

3. 技能選擇無動態可行性判斷:難以應對環境變化

傳統 LLM 生成模式(如直接輸出動作文本)僅考慮 “任務相關性”,忽略 “環境可行性”,導致技能選擇僵化。例如,機器人已持有蘋果時,LLM 仍可能因 “拿蘋果” 的任務相關性高而選擇該技能,造成冗余或失敗;或在無目標物體的場景中,仍輸出 “拾取” 技能(1-30、1-70)。

4. 系統擴展性差:新技能、多語言等需求適配成本高

傳統機器人系統添加新技能(如抽屜操作)需重構策略網絡,處理多語言指令需額外訓練多語言模型,無法利用 LLM 的現有能力快速適配。例如,新增 “打開抽屜” 技能時,傳統方法需重新采集數據、訓練獨立模型,而無法通過簡單擴展技能描述實現(1-80、1-99);且對否定指令(如 “不要蘋果”)、模糊指代(如 “拿那個紅色的”)處理能力不足(1-67、1-96)。

二、設計架構

SayCan 的核心原理是通過 “雙接地機制” 將 LLM 的抽象語義知識與機器人的物理執行能力綁定,解決 “語言不落地” 問題,具體邏輯如下:

1. 核心概念定義

  • 技能(Skill, π):機器人的低層級原子行為(如 “找海綿”“拿起海綿”),每個技能包含:
    • 語言描述\iota_\pi(自然語言標簽,用于與 LLM 交互);
    • 執行策略(控制機器人完成動作的算法,由行為克隆 BC 或強化學習 RL 訓練);
    • 可供性函數p(c_\pi | s, \iota_\pi)(即價值函數,量化當前狀態s下技能成功執行的概率)。
  • 任務接地(Task Grounding):由 LLM 計算p(\iota_\pi \mid i),即 “技能?_π是完成指令i的有效步驟的概率”,本質是利用 LLM 的語義知識關聯 “任務目標” 與 “技能用途”。
  • 世界接地(World Grounding):由價值函數計算p(c_\pi | s, \iota_\pi),即 “在當前環境狀態s下,機器人成功執行技能?_π的概率”,本質是將技能與物理環境的可行性綁定。

2. 概率協同邏輯

SayCan 的技能選擇基于 “綜合概率最大化”,公式推導如下:

  • 目標:選擇 “既能推進任務,又能成功執行” 的技能,即最大化 “技能成功執行且推進任務” 的概率p(c_\pi | s, \iota_\pi)
  • 分解假設:若技能成功(c_\pi=1),則推進任務的概率為p(\iota_\pi \mid i);若技能失敗(c_\pi=0),則推進任務概率為 0。
  • 最終公式:p(c_\pi \mid i,s,l_\pi) \propto p(c_\pi \mid s,l_\pi) × p(l_\pi \mid i)(比例關系源于忽略全局歸一化常數)。

3. 迭代執行流程

  1. 輸入用戶指令i和當前環境狀態s
  2. LLM 對所有預訓練技能的\iota_\pi評分,得到p(\iota_\pi \mid i)
  3. 價值函數模塊對所有技能評分,得到p(c_\pi | s, \iota_\pi)
  4. 計算每個技能的綜合概率,選擇概率最大的技能執行;
  5. 將已執行的\iota_\pi追加到 LLM 的查詢上下文,更新環境狀態s
  6. 重復步驟 2-5,直至 LLM 輸出 “done”(終止令牌)。

三、訓練方法

SayCan 的實現需分三部分:預訓練技能與價值函數、LLM 適配、技能選擇與執行,具體方法如下:

1. 預訓練技能與價值函數

(1)技能策略訓練
  • 訓練方法:結合行為克隆(BC)和強化學習(RL),按需選擇:
    • BC 策略:基于 BC-Z 方法,用 10 臺機器人 11 個月收集的 6.8 萬條遠程操作演示數據,輔以 12 萬條成功的自主執行數據訓練;采用 ResNet-18 架構,以 “通用句子編碼器(USE)” 生成的?_π嵌入作為 FiLM 條件,輸出機械臂位姿、夾爪狀態和終止動作。
    • RL 策略:基于 MT-Opt 方法,在仿真環境中訓練(用 RetinaGAN 減少 sim-to-real 差距),通過 “仿真演示初始化 + 在線數據迭代優化” 提升性能;架構類似 MT-Opt,輸入圖像、?_π嵌入、機器人狀態(如夾爪高度),輸出 Q 值。
  • 多任務優化:不單獨為每個技能訓練策略,而是訓練 “語言條件的多任務模型”,降低訓練成本(支持 551 個技能,涵蓋拾取、放置、導航等 7 類)。
(2)價值函數訓練
  • 本質定義:稀疏獎勵下的 “技能成功概率”—— 任務完成時獎勵為 1,否則為 0,價值函數Q^π(s,a)即 “從狀態s執行動作a后,遵循策略π的折扣獎勵和”,對應技能成功概率。
  • 訓練方法:基于時序差分(TD)的 RL 方法,最小化以下 TD 損失:
    L_TD(θ) = E_{(s,a,s')~D} [ R(s,a) + γ·E_{a*~π} Q_θ^π(s',a*) - Q_θ^π(s,a) ]
    
    其中D為狀態 - 動作數據集,θ為 Q 函數參數,γ為折扣因子,R(s,a)為稀疏獎勵(0 或 1)。
  • 可行性校準:對不同技能的價值函數結果進行歸一化(如拾取技能p_{pick}^{affordance} = clamp((v^{pick}-v_{min}^{pick})/(v_{max}^{pick}-v_{min}^{pick}), 0,1)),確保輸出為 0-1 的概率值。

2. LLM 適配:從 “生成” 到 “評分”

LLM 默認生成自由文本,需通過以下方法約束其輸出為 “機器人可執行的技能序列”:

  • 提示工程(Prompt Engineering):在 LLM 輸入中加入示例(如 “人類:幫我拿蘋果?機器人:1. 找蘋果,2. 拿蘋果,3. 遞給你,4.done”),定義 “人類指令 - 機器人技能序列” 的對話格式,約束輸出結構(附錄 D.3 提供 17 個示例的完整 Prompt)。
  • 評分模式(Scoring Mode):不使用 LLM 的 “生成模式”(避免輸出無效動作),而是用 “評分模式” 計算每個預定義\iota_\pi的概率p(\iota_\pi \mid i)—— 即查詢 LLM 對 “將\iota_\pi作為指令i的下一步” 的置信度。
  • 迭代上下文更新:每次選擇技能后,將其追加到 LLM 的對話歷史(如 “機器人:1. 找海綿,2.XXX”),確保 LLM 理解任務進度,避免重復或無關技能。

3. 系統集成與執行

  • 語言條件輸入:技能的策略和價值函數均以 “USE 嵌入的\iota_\pi” 為輸入,實現 “語言 - 動作” 的綁定;LLM 與技能的語言模型可獨立(如 LLM 用 PaLM,技能嵌入用 USE),適配不同抽象層級需求。
  • 環境反饋機制:通過價值函數實時獲取環境狀態s(如物體位置、機器人位姿),確保技能可行性判斷的時效性;若技能執行失敗(如未拿起物體),價值函數會降低該技能的后續評分。
  • 終止判斷:為 “done” 技能設置固定低可行性(p_{terminate}^{affordance}=0.1),僅當所有有效技能的綜合概率均低于 “done” 時,系統終止任務。

四、數據集

論文中數據集主要服務于低層級技能的策略訓練(行為克隆 BC、強化學習 RL)?和系統性能評估,具體來源可分為三類:訓練數據集(BC/RL 策略)、評估數據集(101 個指令),兩類數據集的采集場景、方式和規模均有明確界定。

1. 訓練數據集:技能策略與價值函數訓練

訓練數據集用于學習機器人的低層級技能(如拾取、放置、導航)及其對應的價值函數,分為行為克隆(BC)策略訓練數據強化學習(RL)策略訓練數據兩類,均圍繞 “廚房場景中的機器人操作” 展開。

(1)行為克隆(BC)策略訓練數據

BC 策略的數據以 “真實機器人遠程操作演示” 為核心,輔以 “自主執行數據” 擴充規模,具體來源如下:

  • 核心演示數據:通過 10 臺機器人組成的機器人 fleet,在 11 個月內持續采集的68000 條遠程操作演示數據。采集時,操作員使用 VR 頭顯控制器追蹤手部動作,動作被映射為機器人末端執行器的位姿;同時可通過操縱桿控制機器人底座移動,確保演示覆蓋 “拾取 - 放置 - 導航” 等核心技能場景(如廚房中的物體搬運、位置移動)。
  • 自主執行擴充數據:為提升數據規模和多樣性,補充了276000 條機器人自主執行的技能 episode(即機器人按已學策略執行技能的過程記錄)。對這些自主數據進行 “成功篩選”—— 僅保留人類標注為 “成功完成技能” 的 episode,最終得到12000 條有效自主數據,與核心演示數據合并用于 BC 訓練。
(2)強化學習(RL)策略訓練數據

RL 策略的數據以 “仿真環境數據” 為主,通過 “仿真 - 真實遷移” 技術減少環境差異,具體來源如下:

  • 仿真演示初始化數據:在 Everyday Robots 模擬器中,生成技能演示數據(如 “打開抽屜”“拾取可樂罐” 的標準動作序列),用于初始化 RL 策略的基礎性能,避免策略從 “零經驗” 開始學習導致的收斂緩慢。
  • 在線仿真迭代數據:初始化后,通過 3000 個 CPU worker 持續在仿真環境中采集在線 episode 數據(機器人執行技能的實時過程記錄),并基于這些數據迭代優化 RL 策略。同時,為縮小 “仿真 - 真實” 環境差距,使用RetinaGAN技術對仿真環境的圖像進行處理 —— 讓仿真圖像更接近真實場景,同時保留物體結構特征,確保 RL 策略遷移到真實機器人時性能穩定。
(3)價值函數訓練數據

價值函數(用于判斷技能可行性)的數據與策略訓練數據共享:BC 策略的價值函數基于 BC 訓練數據的 “成功 / 失敗標簽” 學習,RL 策略的價值函數則直接使用 RL 訓練數據中的稀疏獎勵(任務成功為 1,失敗為 0)進行時序差分(TD)學習,無需額外采集獨立數據、、。

2. 評估數據集:101 個機器人任務指令

評估數據集用于驗證 SayCan 系統在真實場景中的性能,包含7 類共 101 個自然語言指令,來源兼顧 “標準化” 和 “自然性”,具體如下:

  • 眾包指令:通過 Amazon Mechanical Turk(MTurk)平臺向人類用戶征集 —— 向用戶描述 “廚房場景事件”(如 “蘋果被移到你面前”),讓用戶以自然語言向機器人下達任務;同時在真實辦公廚房中,讓工作人員基于機器人能力下達指令,最終得到 15 條非結構化眾包指令、。
  • 基準參考指令:參考現有機器人語言指令基準(如 ALFRED、BEHAVIOR),設計結構化、可對比的指令(如 “把米餅移到遠操作臺”),確保評估結果可與現有方法對標。
  • 自定義測試指令:為覆蓋特定能力測試目標(如 “具身狀態理解”“長時程推理”),人工設計 56 條指令,包括:
    • 單原語指令(如 “放開可樂罐”,15 條);
    • 抽象名詞 / 動詞指令(如 “給我拿一個水果”“補充米餅”,各 15 條);
    • 具身狀態指令(如 “把可樂放操作臺上”,初始狀態不同,11 條);
    • 長時程指令(如 “可樂灑了,扔掉并拿清潔用品”,15 條)、至。

五、實驗設計

1. 系統模塊組成

模塊名稱功能描述關鍵技術 / 工具
LLM 模塊(Say)計算技能與任務的相關性p(\iota_\pi \mid i),輸出技能序列邏輯PaLM-540B/62B/8B、FLAN,提示工程
價值函數模塊(Can)計算技能在當前狀態的可行性p(c_\pi | s, \iota_\pi),提供世界接地TD 強化學習、多任務價值網絡
技能庫存儲機器人的低層級原子技能,包含\iota_\pi、執行策略、價值函數BC-Z(策略)、MT-Opt(策略)
執行控制模塊解析最優技能,控制機器人執行動作,更新環境狀態和 LLM 上下文移動操作機器人控制棧

2. 實驗細節與關鍵對比

(1)實驗環境與任務
  • 環境
    • 模擬廚房:與技能訓練環境一致,包含 5 個語義位置(2 個操作臺、桌子、垃圾桶、用戶位置)和 15 類廚房物體;
    • 真實廚房:辦公場景真實廚房,環境更復雜(物體位置不固定、干擾物更多)。
  • 任務分類(7 類共 101 個,示例見表 1):
    任務類別數量核心測試目標示例指令
    NL Single Primitive15單技能指令的識別與終止“放開可樂罐”
    NL Nouns15抽象名詞(如 “水果”)的理解“給我拿一個水果”
    NL Verbs15抽象動詞(如 “補充”)的理解“把米餅補充到遠操作臺”
    Structured Language15結構化指令與自然語言的對比“把米餅移到遠操作臺”
    Embodiment11環境 / 機器人狀態的理解(如手中是否有物體)“把可樂放在操作臺上”(初始狀態不同)
    Crowd-Sourced15非結構化自然指令的適配“我最喜歡紅牛,幫我拿一罐”
    Long-Horizon15長時程多步驟推理“可樂灑在桌子上,扔掉它并拿清潔用品”
(2)關鍵對比實驗(Ablation Study)

通過對比不同方案,驗證接地機制和 LLM 的必要性:

方案核心邏輯總計劃成功率總執行成功率結論
PaLM-SayCan(本文)結合 LLM 的 p(\iota_\pi \mid i)和價值函數的p(c_\pi | s, \iota_\pi)84%74%雙接地機制效果最優
No VF(無價值函數)僅用 LLM 選擇 p(\iota_\pi \mid i) 最大的技能,忽略可行性67%-世界接地不可或缺,否則技能可能無法執行
Generative(生成模式)LLM 生成自由文本,再通過 USE 嵌入匹配到最近技能74%-評分模式優于生成模式,生成模式丟失概率信息,可解釋性差
BC NL(無 LLM)直接將指令i輸入 BC 策略,無技能序列規劃0%0%LLM 的任務接地是必要的,單純行為克隆無法理解高層級指令
BC USE(無 LLM)將指令i通過 USE 嵌入匹配到最近技能序列,無動態規劃9%9%僅單技能任務有效(60%),無法處理長時程或抽象任務

3. 擴展能力驗證

  • 添加新技能:以 “抽屜操作” 為例,僅需添加 “打開抽屜”“關閉抽屜” 等\iota_\pi、對應的 BC 策略和價值函數(基于距離的啟發式),并補充 2 個 Prompt 示例,即可實現 100% 計劃成功率(執行成功率 33%,失敗源于機械臂操作精度)。
  • 鏈式思維(Chain of Thought):通過 Prompt 添加 “Explanation” 環節(如 “用戶要無咖啡因的果味飲料,我選青檸蘇打”),讓 LLM 先推理再輸出技能,解決否定指令(如 “不要蘋果”)和復雜推理問題,示例見表 4。
  • 多語言支持:利用 LLM 的多語言訓練數據,無需額外適配即可處理中、法、西語指令,計劃成功率接近 100%(僅 1 條法語指令失敗,源于語法復雜度)。

4. 局限性與未來方向

(1)當前局限性
  1. LLM 繼承問題:繼承 LLM 的訓練偏差(如對特定物體的偏好)和常識錯誤(如物理規律誤解);
  2. 技能瓶頸:系統性能受限于技能庫的范圍和魯棒性(如抽屜操作執行成功率低,無 “擦拭” 技能);
  3. 閉環能力弱:無法動態應對技能失敗(如未拿起物體時,不會調整策略重新嘗試);
  4. 否定與歧義處理不足:雖可通過鏈式思維改善,但對復雜否定(如 “不要甜的且無咖啡因的飲料”)和模糊指代(如 “拿那個紅色的”)仍存在困難。
(2)未來研究方向
  1. 雙向反饋:利用機器人的現實執行經驗微調 LLM,提升 LLM 的物理常識和事實性;
  2. 技能擴展:開發更魯棒的多模態技能(如基于視覺的動態物體抓取),降低技能庫的局限性;
  3. 閉環規劃:結合環境反饋(如物體檢測、人類糾正)實現動態策略調整,參考 “Inner Monologue” 方法;
  4. 本體探索:驗證自然語言作為機器人編程本體的合理性,對比 “圖像目標” 等其他本體的效率。

六、評價指標

論文采用2 個核心指標量化系統性能,覆蓋 “計劃合理性” 與 “執行有效性”,均通過 “人類標注” 確保客觀,具體定義與計算方式如下:

1. 核心指標 1:計劃成功率(Plan Success Rate)

  • 定義:衡量 “SayCan 輸出的技能序列是否能完成用戶指令目標”,不考慮機器人實際執行結果(僅評估 “計劃邏輯”)。
  • 評估方式
    1. 向 3 名標注者提供 “用戶指令 + 技能序列”(如 “拿清潔用品”+“1. 找海綿→2. 拿海綿→3. 遞給你”);
    2. 標注者判斷 “該序列是否能達成指令目標”,允許 “多解”(如先扔可樂再拿海綿也視為有效);
    3. 統計 “2/3 標注者同意成功” 的任務占比,即為計劃成功率。
  • 核心結果:PaLM-SayCan 在模擬廚房中達 84%,真實廚房中 81%,無接地對照組(No VF)僅 67%。

2. 核心指標 2:執行成功率(Execution Success Rate)

  • 定義:衡量 “SayCan 系統(含機器人執行)是否實際完成用戶指令”,需結合 “計劃合理性” 與 “機器人操作精度”。
  • 評估方式
    1. 向 3 名標注者提供 “用戶指令 + 機器人執行完整視頻”;
    2. 標注者回答 “機器人是否達成指令描述的任務”,忽略 “微小操作誤差”(如物體放置偏移但未影響目標);
    3. 統計 “2/3 標注者同意成功” 的任務占比,即為執行成功率。
  • 核心結果:PaLM-SayCan 在模擬廚房中達 74%,真實廚房中 60%,無 LLM 對照組(BC NL)為 0%。

3. 輔助分析指標

  • 誤差來源:65% 的失敗源于 LLM(如早期終止、否定指令處理錯誤),35% 源于價值函數(如誤判技能可行性);
  • LLM 規模關聯:PaLM-540B(74% 執行成功率)> PaLM-62B(72%)> PaLM-8B(38%),證明 LLM 規模與機器人性能正相關。

七、創新點分析

1. 創新 1:雙接地機制(Task Grounding + World Grounding),解決 LLM 與機器人的接地斷層

這是論文最核心的創新,通過 “LLM 的任務接地” 與 “價值函數的世界接地” 協同,讓技能同時滿足 “任務相關性” 與 “環境可行性”:

  • 任務接地(Say):利用 LLM 的語義知識,計算技能描述(?_π)與用戶指令(i)的相關性概率p(?_π | i),回答 “該技能是否有助于完成任務”。例如,指令 “清理灑出飲料” 時,LLM 會優先選擇 “找海綿”(p高)而非 “拿可樂”(p低),實現任務層面的接地(1-14、1-25)。
  • 世界接地(Can):利用強化學習訓練的價值函數,計算技能在當前環境狀態(s)下的可行性概率p(c_π | s, ?_π),回答 “該技能能否成功執行”。例如,場景中無吸塵器時,“用吸塵器” 的p為 0,避免選擇無效技能;基于距離的導航價值函數(如 “去桌子” 的概率隨距離減小而升高)確保技能可行(1-14、1-22、1-32)。
  • 協同邏輯:通過概率乘積(p(c_i | i,s,?_π) ∝ p(c_π | s,?_π) × p(?_π | i))選擇最優技能,既保證技能符合任務目標,又確保可執行,解決了 “LLM 輸出不可行” 和 “策略無任務理解” 的雙重問題(1-25、1-33)。實驗驗證,該機制使性能較無接地基線(如 No VF、Generative)接近翻倍(1-73)。

2. 創新 2:基于 “評分模式” 的 LLM 適配,提升技能選擇的可解釋性與準確性

摒棄 LLM 的 “自由生成模式”,采用 “評分模式” 計算技能概率,解決生成模式 “丟失概率信息、可解釋性差” 的問題:

  • 評分模式設計:讓 LLM 對預定義的技能描述(?_π)逐一評分,輸出p(?_π | i),而非生成自由文本。例如,指令 “拿清潔用品” 時,LLM 直接計算 “找海綿”“找抹布” 等技能的概率,而非生成 “去廚房拿清潔工具” 這類模糊表述(1-27、1-30)。
  • Prompt 工程約束:通過添加 “人類 - 機器人對話示例”(如 “人類:拿蘋果→機器人:1. 找蘋果,2. 拿蘋果,3. 遞給你”),讓 LLM 輸出結構化技能序列,確保可解析性。例如,17 個示例的 Prompt 使計劃成功率從無示例的 10% 提升至 88%(1-323、1-324)。
  • 迭代規劃:每次選擇技能后,將其追加到 LLM 上下文,動態調整后續技能選擇(如 “拿海綿” 后,LLM 不再重復選擇該技能),適配長時程任務的步驟依賴(如 “扔可樂→拿海綿” 的順序規劃)(1-33、1-60)。

3. 創新 3:多任務與擴展能力優化,降低系統適配成本

無需重構核心模塊,即可支持新技能、多語言、復雜推理,解決傳統系統擴展性差的問題:

新技能快速集成:僅需添加新技能的?_π、對應的 BC/RL 策略及 2-3 個 Prompt 示例,即可融入現有系統。例如,添加 “抽屜操作” 技能時,僅補充 “打開抽屜”“關閉抽屜” 的?_π和價值函數(基于距離的啟發式),計劃成功率達 100%,且不影響原有技能性能(1-80、1-82)。

  • 鏈式思維(Chain of Thought)處理復雜推理:通過 Prompt 添加 “Explanation” 環節(如 “用戶要無咖啡因的果味飲料→選青檸蘇打”),讓 LLM 先推理再輸出技能,解決否定指令(如 “不要蘋果”)和模糊需求(如 “拿健康的零食”)問題,示例任務成功率提升至 80% 以上(1-96、1-98)。
  • 多語言零適配支持:利用 LLM 的多語言訓練數據,無需額外適配即可處理中、法、西語指令。實驗顯示,非英語指令計劃成功率接近 100%(僅 1 條法語指令因語法復雜度失敗),利用 LLM 的多語言能力降低適配成本(1-99、1-506)。

4. 創新 4:LLM 規模與機器人性能的正向關聯驗證,為跨領域協同提供依據

首次系統性驗證 “LLM 語義能力提升可直接帶動機器人性能提升”,為后續 “語言 - 機器人” 跨領域研究提供方向:

  • LLM 參數規模影響:實驗表明,PaLM-540B(84% 計劃成功率、74% 執行成功率)顯著優于 PaLM-62B(72% 計劃成功率)和 PaLM-8B(38% 計劃成功率),證明 LLM 的語義知識儲備(如抽象指令理解、長時程規劃)直接決定機器人任務規劃能力(1-74、1-77)。
  • 模型類型對比:通用 LLM(PaLM)優于指令微調 LLM(FLAN),PaLM-SayCan 計劃成功率 84% vs FLAN-SayCan 70%,說明 “通用語義知識” 比 “指令響應優化” 更適配機器人的物理任務規劃(1-74、1-77)。

5. 創新 5:開源可復現的實驗環境,降低研究門檻

提供基于 Google Colab 的開源桌面環境(含 UR5 機器人、CLIPort 策略、ViLD 物體檢測器),支持 “移動色塊到對應顏色碗中” 等任務,無需復雜機器人硬件即可復現 SayCan 核心邏輯。開源環境使用 GPT-3 作為 LLM,輸出 “拾取 - 放置” 代碼結構的技能序列,促進后續研究的擴展(1-102、1-103)。

八、本論文的相關工作

論文將相關工作分為語言模型接地語言條件行為學習任務與運動規劃三類,每類均先總結現有研究的核心思路,再明確本文與現有工作的差異,核心邏輯是 “指出不足→凸顯本文補充價值”。

1. 第一類:語言模型接地(Grounding Language Models)

(1)現有研究核心方向

現有工作聚焦 “如何讓 LLM 關聯物理世界或具體動作”,主要分為三類方法(1-107):

  • 環境輸入增強:讓 LLM 接受多模態輸入(如圖像、環境狀態)以補充物理信息,例如 VideoBERT([152])、VisualBERT([153])、ViLBERT([154])等,通過融合視覺與語言特征提升接地能力;
  • 動作輸出直接映射:讓 LLM 直接生成動作序列或控制指令,例如 Embodied BERT([157])、Episodic Transformer([159]),但這類方法多依賴仿真環境訓練,缺乏真實物理交互驗證;
  • 提示工程(Prompt Engineering):通過設計示例讓 LLM 生成符合任務需求的文本,例如 Huang 等人的 “LLM 作為零樣本規劃器”([23]),但該方法僅依賴文本生成,未結合環境可行性判斷,屬于 “無世界接地” 的生成模式。
(2)本文與現有研究的差異

現有方法的共性缺陷是 “缺乏真實物理交互反饋”,導致 LLM 輸出可能脫離機器人能力或環境約束(1-107);而本文的創新補充在于:

  • 無需微調 LLM:通過 “預訓練技能的價值函數” 為 LLM 提供世界接地,避免因環境數據微調 LLM 導致的泛化性損失;
  • 零樣本長時程任務:利用 LLM 的語義知識(任務接地)與價值函數的可行性判斷(世界接地),實現真實機器人的零樣本長時程任務規劃,而現有方法多局限于單步驟或仿真任務。

2. 第二類:語言條件行為學習(Learning Language-Conditioned Behavior)

(1)現有研究核心方向

該領域旨在 “讓機器人通過語言理解并執行行為”,主要依賴兩類學習范式(1-108):

  • 模仿學習(Imitation Learning):通過人類演示數據訓練 “語言→動作” 映射模型,例如 BC-Z([13])、CLIPort([26]),可處理拾取、放置等低層級技能,但無法理解高層級抽象指令(如 “拿健康的零食”);
  • 強化學習(Reinforcement Learning):通過獎勵信號優化語言條件的行為策略,例如 MT-Opt([14])、Language as Abstraction([57]),部分方法可處理仿真環境的長時程任務,但真實場景中因獎勵稀疏、環境復雜度高,性能受限。
(2)本文與現有研究的差異

現有方法的核心局限是 “技能序列規劃能力弱”—— 僅能執行預定義的低層級技能,無法動態拆解高層級指令(1-108);而本文的創新補充在于:

  • 高層級規劃依賴 LLM:利用 LLM 的語義知識拆解抽象指令(如 “清理灑出的飲料”→“找海綿→拿海綿→遞給用戶”),突破傳統行為克隆 / 強化學習的 “無規劃” 缺陷;
  • 多技能協同:通過 “LLM 評分 + 價值函數” 動態選擇技能,而非依賴固定技能序列,適配真實場景的環境變化(如 “無海綿時不選擇該技能”)。

3. 第三類:任務與運動規劃(Task and Motion Planning)

(1)現有研究核心方向

該領域聚焦 “如何將高層級任務拆解為低層級運動指令”,分為兩類方法(1-109 至 1-111):

  • 傳統符號規劃 / 優化:基于顯式規則或數學優化生成技能序列,例如 STRIPS([185])、Logic-Geometric Programming([189]),需手動定義物體屬性、動作約束,泛化性差;
  • 機器學習驅動規劃:通過數據學習抽象任務的規劃邏輯,例如 Neural Task Programming([191])、Hierarchical Foresight([204]),可處理部分長時程任務,但多依賴仿真數據,且缺乏語言與物理世界的動態關聯。
(2)本文與現有研究的差異

現有方法的核心缺陷是 “語言理解能力弱”—— 無法通過自然語言動態調整規劃邏輯(如用戶指令從 “拿蘋果” 改為 “拿香蕉” 時,需重新訓練或定義規則)(1-111);而本文的創新補充在于:

  • 自然語言驅動規劃:利用 LLM 的語義理解能力,直接將自然語言指令轉化為技能序列,無需手動定義符號規則;
  • 真實場景魯棒性:結合價值函數的環境可行性判斷,避免傳統規劃 “僅考慮邏輯正確、忽略物理執行” 的問題,例如 “不選擇無吸塵器場景中的‘用吸塵器’技能”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96453.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96453.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96453.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Django管理后臺結合剪映實現課件視頻生成應用

在教學內容的數字化制作中,如何將課件與音頻快速轉換為視頻是一項高頻需求。借助管理后臺和剪輯工具,可以實現課件內容的下載、轉換和草稿生成,大幅減少重復操作。 【AI教育教學考試系統】課件在線剪映視頻草稿生成應用這里實現的課件PPT部分…

AI升級社區便民服務:AI辦事小程序高效辦證+應急系統秒響應,告別跑腿愁住得更安心

朋友,你有沒有在社區辦過事?想給孩子辦入學證明,得先跑居委會開證明,再去街道辦事處蓋章,來回幾趟不說,要是材料沒帶全,還得重新跑;家里水管爆了,半夜聯系物業&#xff0…

el-table-draggable拖拽實現表格內容排序

1、圖片2、安裝包import ElTableDraggable from "el-table-draggable";3、代碼&#xff08;html&#xff09;<el-table-draggable:data"soloTableData"input"dragInputHandlerSolo"><el-table:data"soloTableData"row-key&qu…

Linux設備模型技術路線圖

Linux設備模型涉及的技術和知識點 1. 核心架構組件 1.1 Kobject 子系統 kobject(內核對象):Linux設備模型的基礎構建塊 kset(對象集合):kobject的容器,管理相同類型的對象 ktype(對象類型):定義kobject的行為和屬性 引用計數機制:使用kref管理對象生命周期 對象層…

面試問題詳解六:元對象系統調用槽函數

Qt 的 元對象系統&#xff08;Meta-Object System&#xff09; 是 Qt 核心機制之一&#xff0c;正是它讓 C 語言具備了類似腳本語言&#xff08;如 Python&#xff09;的反射、動態綁定、屬性系統等能力。 自定義信號與槽&#xff0c;是 Qt 元對象系統最常見、最實用的體現。&a…

Scala面試題及詳細答案100道(1-10)-- 基礎語法與數據類型

《前后端面試題》專欄集合了前后端各個知識模塊的面試題,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs,nodejs,mangoDB,SQL,Linux… 。 前后端面試題-專欄總目錄 文章目錄 一、本文面試題目錄 1. 簡述Scala與Java的主要…

http請求有哪些?

TTP請求方法常見方法&#xff1a;GET&#xff1a;獲取資源&#xff0c;參數通過URL傳遞&#xff0c;可緩存到瀏覽器本地。POST&#xff1a;提交數據&#xff0c;參數通過請求體傳遞&#xff0c;不可緩存&#xff0c;常用于創建資源。PUT&#xff1a;更新資源&#xff0c;參數通…

MAPGIS6.7地質編錄

1.編錄文件excel位于D:\mapgis67\program\section&#xff0c;文件名稱&#xff1a;ZKInfoEdit.xls2生成副本&#xff0c;復制ZKInfoEdit.xls到桌面3開始編寫 04回次4開始編寫 03編錄5開始編寫 11采樣6開始編寫 06標志面7開始編寫 10鉆孔資料8 最后總結 …

輕松掌握Chrome插件開發全流程

Chrome插件開發概述介紹Chrome插件的基本概念、核心功能和應用場景&#xff0c;包括插件與瀏覽器擴展的區別、插件的主要組成部分&#xff08;如manifest文件、后臺腳本、內容腳本等&#xff09;。開發環境搭建列出開發Chrome插件所需的工具和環境配置&#xff0c;包括Chrome瀏…

智能二維碼QR\刷IC卡\人臉AI識別梯控系統功能設計需基于模塊化架構,整合物聯網、生物識別、權限控制等技術,以下是多奧分層次的系統設計框架

一、系統架構設計硬件層主控模塊&#xff1a;32位ARM嵌入式處理器&#xff0c;支持CAN/RS485/TCP/IP協議識別終端&#xff1a;支持IC卡(CPU/國密/HID)、二維碼掃碼器(動態碼)、人臉識別(活體檢測)電梯控制單元&#xff1a;繼電器矩陣控制板&#xff0c;支持20層以上電梯按鈕控制…

Kubernetes配置與密鑰管理深度指南:ConfigMap與Secret企業級實踐

目錄 專欄介紹 作者與平臺 您將學到什么&#xff1f; 學習特色 Kubernetes配置與密鑰管理深度指南&#xff1a;ConfigMap與Secret企業級實踐 一、 配置管理&#xff1a;云原生應用的基石 1.1 配置管理的演進與挑戰 1.2 ConfigMap與Secret的設計哲學 二、 ConfigMap深度…

知行社黃劍杰:金融跨界,重塑震區救援新章

曾在紐約證券交易所敲響上市鐘聲的黃劍杰&#xff0c;這位知行社的靈魂人物&#xff0c;此次在西藏震區開啟了一場震撼人心的“跨界救援”之旅。他帶著在華爾街積累的深厚金融智慧&#xff0c;毅然投身到這場與時間賽跑、與災難較量的戰斗中&#xff0c;為傳統救災模式帶來了顛…

API模型與接口棄用指南:歷史、替代方案及開發者應對策略

API模型及接口棄用&#xff08;Deprecation&#xff09;全解 概覽 在AI與API領域&#xff0c;模型的持續迭代與技術進步推動著平臺不斷優化服務。與此同時&#xff0c;隨著更安全、更強大的新模型推出&#xff0c;舊模型與接口的棄用&#xff08;Deprecation&#xff09;成為…

python3GUI--Joy音樂播放器 在線播放器 播放器 By:PyQt5(附下載地址)

文章目錄一&#xff0e;前言二&#xff0e;項目簡介三&#xff0e;詳細模塊介紹1.主界面2.歌單廣場3.歌單詳情頁4.歌手篩選5.歌手詳情頁6.專輯詳情頁7.歌曲榜單頁8.搜索結果頁9.其他1.托盤菜單2.設置四&#xff0e;核心問題回答1.軟件UI效果實現2.為什么我做不出來這么漂亮的界…

Spring Boot整合Feign實現RPC調用,并通過Hystrix實現服務降級

feign/openfeign和dubbo是常用的微服務RPC框架&#xff0c;由于feigin內部已經集成ribbon&#xff0c;自帶了負載均衡的功能&#xff0c;當有多個同名的服務注冊到注冊中心時&#xff0c;會根據ribbon默認的負載均衡算法將請求分配到不同的服務。這篇文章就簡單介紹一下怎么使用…

Java 性能優化實戰(三):并發編程的 4 個優化維度

在多核CPU時代&#xff0c;并發編程是提升Java應用性能的關鍵手段&#xff0c;但不合理的并發設計反而會導致性能下降、死鎖等問題。本文將聚焦并發編程的四個核心優化方向&#xff0c;通過真實案例和代碼對比&#xff0c;帶你掌握既能提升性能又能保證線程安全的實戰技巧。 一…

【秋招筆試】2025.08.19百度秋招機考第一套

?? 點擊直達筆試專欄 ??《大廠筆試突圍》 ?? 春秋招筆試突圍在線OJ ?? 筆試突圍在線刷題 bishipass.com 題目一:花園路徑優化問題 1??:使用棧維護必須保留的觀景點,基于三角不等式判斷 2??:貪心策略,檢查中間點是否為"轉折點" 3??:時間復雜度 …

SmartX 用戶建云實踐|某人壽保險:從開發測試、核心生產到信創轉型,按需推進企業云建設

某人壽保險自 2018 年起開始探索基于 SmartX 超融合架構搭建私有云 IaaS 資源池&#xff0c;先后部署了開發測試業務、生產業務和重要生產業務的 Oracle 數據庫&#xff08;含 RAC&#xff09;&#xff0c;并探索了基于海光芯片的信創云搭建&#xff0c;最終以基于超融合架構的…

通道注意力機制|Channel Attention Neural Network

一、通道注意力機制 論文&#xff1a;ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 近年來&#xff0c;通道注意力機制在提高深度卷積神經網絡CNN的性能方面顯示出了巨大潛力。然而&#xff0c;大多數現有方法致力于開發更復雜的注意力模塊&a…

構建包含IK插件(中文分詞插件)的Elasticsearch鏡像

#!/bin/bash# 定義變量 ES_VERSION"8.15.3" IMAGE_NAME"elasticsearch-with-ik:${ES_VERSION}" IK_PLUGIN_DIR"./elasticsearch-analysis-ik-${ES_VERSION}" DOCKERFILE_NAME"Dockerfile.es-ik"# 檢查IK插件目錄是否存在 if [ ! -d &q…