視頻中自監督學習:「我的世界」下指令理解與跟隨

本文介紹了北京大學人工智能研究院梁一韜助理教授所帶領的 CraftJarvis 團隊在「我的世界」環境下探索通用智能體設計的新進展,題為“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。

GROOT.png?
GROOT

該研究的核心目標是探索能否擺脫文本數據的標注以及與環境的在線交互,而是僅通過觀看游戲視頻的方式來教會智能體理解世界、遵循指令,進而在開放世界下解決無窮的任務。考慮到視頻數據廣泛分布于互聯網,而高質量的“文本-視頻”數據對則難以獲得,因此團隊創新地提出使用一段“參考視頻”作為指令的描述形式,并設計一套簡潔的架構和自監督訓練方法來聯合學習指令空間和指令跟隨策略。通過在本文提出的 Minecraft SkillForge 基準上進行細致的評測,該方法超過了目前現有的基線方法,并拉近了與人類玩家之間的差距。這對于復雜環境下通用智能體的設計有重要意義。

本文的第一作者是由梁一韜助理教授指導的博士生蔡少斐,通訊作者為梁一韜。論文的作者還包括北京大學的張博為、王子豪,UCLA 的劉安吉以及北京通用人工智能研究院的馬曉健研究員。

image.png?

?

論文題目: GROOT: Learning to Follow Instructions by Watching Gameplay Videos

論文鏈接:?https://arxiv.org/abs/2310.08235?

項目網站:GROOT: Learning to Follow Instructions by Watching Gameplay Videos

01. 研究背景

在開放世界下開發類人級別的具身智能體以解決開放式任務一直是人工智能領域長期以來追求的目標。隨著 ChatGPT 的流行,近年來涌現了一批利用大語言模型(LLM)的規劃推理能力來解決「我的世界」中復雜長期任務的嘗試,如 DEPS、Voyager、GITM 等工作。然而,與理想的通用智能體相比,這些基于 LLM 的工作主要強調發掘語言模型的潛力而忽略了提升底層控制器(low-level controller)的重要性。事實上,底層控制器負責將 LLM 規劃出來的 plan 映射到具體動作空間(鍵盤與鼠標操作),并與環境直接進行交互。因此,其掌握的技能庫中技能的數量和質量決定了智能體能力上限。該團隊的此項研究旨在構建具備指令理解能力的基礎決策大模型。通過將技能庫從有限推廣至無限,實現了由封閉式指令向開放式指令理解的邁進。

02. 研究動機

2.1 自監督預訓練范式促進大規模任務學習

自監督預訓練范式已經相繼在自然語言處理(NLP)和計算機視覺(CV)領域展現出了極強的泛化能力,大有統一深度學習的趨勢。然而,在強化學習(RL)和決策控制領域的相關研究則相對滯后。本文作者認為預訓練的學習范式對于構建決策大模型來說至關重要。考慮到任務的多樣性,為每個任務單獨定義一套獎勵函數并讓智能體在與環境交互的方式中學習是非常昂貴且不安全的。因此,利用網上的海量視頻數據對智能體進行自監督預訓練使其大規模“領悟”技能的道路則非常有前景。

2.2 “視頻”做指令表達能力強,數據易收集

為了使預訓練出來智能體能夠理解人類的指令并執行相應的任務,必須對指令空間的形式進行定義。目前主流的指令形式主要包括「任務指示器」、「未來的結果」(又分為「未來的狀態」、「預期的累計獎勵」等)、「自然語言」。本文作者認為,盡管在這些指令形式下智能體容易使用“后見經驗重放”之類的技巧學習,然而指令的表達能力卻十分有限。以「未來的狀態」舉例,一張房屋的照片并不能告訴智能體房子是如何被建造出來的,因為其缺乏細致的過程性描述。此外,這種指令也存在很強的歧義性,例如一張站在房屋前的圖片并不能讓智能體區分是要構建這樣一座房屋還是找到這樣一座房屋。盡管對于過程描述足夠細致的自然語言指令可以規避上述所說的問題,然而互聯網上并不存在如此多高質量的“視頻-文本”數據對可供訓練。

觀察到主流指令形式的局限性之后,研究團隊旨在找到指令的表達能力與智能體學習的成本之間的平衡。作者發現視頻形式的指令則可以同時兼顧這兩個要求。一方面,一段“參考”視頻可以描述完成任務所需的所有細節信息,具備極強的表達能力;另一方面,視頻模態數據大規模分布在互聯網上,因此訓練數據十分易于收集。

03. 研究方法

?

image.png?
GROOT 基于編碼器-解碼器的架構設計

遵循上述設計原則,研究團隊采用了流行的編碼器-解碼器架構來實現整個模型,并命名為 GROOT。具體來說,研究團隊采用了非因果 Transformer 來實現視頻編碼器,用于提取視頻中蘊含的語義信息;采用了一個因果 Transformer 作為解碼器(即策略)用于遵照指令的語義信息在環境中做出相應的行為。在訓練過程中,輸入到編碼器的視頻和送到解碼器中狀態序列是完全一致的,模型在 KL 散度的約束下使用行為克隆進行自我模仿。在推理過程中,將輸入到編碼器中的視頻換成任意一段描述某個任務執行過程的參考視頻,智能體便可與環境進行交互從而完成相應的任務。

04. 評測基準

「我的世界」 環境具備極高的自由度,為了全面評估 GROOT 在解決復雜多樣化任務上的能力。研究團隊提出了一組新的評測基準「Minecraft SkillForge」。該基準包含了 「我的世界」 環境中的 30 個基礎任務,涵蓋「資源收集」、「生存維持」、「物品制作」、「自由探索」、「工具使用」和「結構建造」6 大類別。以下展示了「結構建造」、「對敵戰斗」和「資源收集」三大類任務。

image.png?
結構建造
image.png?
生存維持
image.png?
資源收集
image.png?
工具使用

?

image.png?
物品制作
image.png?
自由探索

「挖三填一」是 「我的世界」 中安全度過黑夜的有效方法,它描述了構建一個簡易庇護所所需的步驟:垂直向下挖掘 3 個泥土,抬頭將 1 個泥土放置在上方做成封閉空間。

「蜘蛛進行搏斗」指玩家需要在保證生存的情況下使用鉆石劍擊殺盡可能多的蜘蛛。

「收集水草」任務指的是玩家需要跳進海中,潛泳游到海底破壞水草方塊。

該評測基準既包含一些常見的任務(如收集木頭、羊毛、草),也包含一些十分罕見的任務(如挖三填一、建造雪傀儡、切割石塊)。因此該基準可以充分反應模型的泛化能力,對未來 「我的世界」 下多任務智能體的研究也有較大的意義。

05. 實驗結果

5.1 天梯系統與人工評測

由于任務的多樣性,并不存在一種統一的指標來評估所有任務。因此,研究團隊使用 Elo Rating 系統結合人工比較的方式評估了 GROOT 與現有基線在「Minecraft SkillForge」基準上的性能差異。如圖所示,可以發現 GROOT (1829 分)顯著超越了目前所有的基線方法(1679 分),進一步縮小了與人類玩家(2034 分)的差異。如中間圖所示,在一些不常見的任務(如「架構建造」和「工具使用」)上,相比之前的最優方法 STEVE-1,GROOT 獲得了很高的對戰勝率(>83%)。

image.png?
天梯系統與人工評測

5.2 程序性任務評測結果

右圖展示了 GROOT 和基線方法在 9 種代表性任務上的成功率對比。GROOT 除了在所有任務上都取得領先優勢之外,也是唯一一個在「裝備附魔」、「挖三填一」、「建造雪傀儡」任務上取得非零成功率的智能體。

5.3 指令空間 t-SNE 可視化結果

image.png?
指令空間 t-SNE 可視化

為了直觀了解指令空間的學習情況,研究團隊額外展示了訓練前后指令空間在 7 種類別任務視頻上的編碼效果。可以發現,經過自監督訓練之后,指令空間的表達能力得到了極大的提升。在沒有任何語義標簽輔助下,僅通過自監督預訓練就可以較好地提取視頻中存在的語義信息。

5.4 組合多個指令解決復雜長期任務

image.png?
鉆石挑戰

「我的世界」 中存在很多任務需要串行執行多個指令才可以解決,其中最經典的就是「鉆石挑戰」。鉆石稀疏地分布于 「我的世界」 地下 7-12 層的位置。為了方便展現 GROOT 在解決「鉆石挑戰」上的表現,作者通過給智能體一把鐵鎬簡化了鉆石挑戰任務,即省略了制作鐵鎬的過程。現在智能體只需向下挖掘到指定層數,再水平挖掘(可能需要很久)挖到💎即可。作者初始化給智能體的指令是一段向下挖掘的視頻,并實時檢測智能體高度,當高度到達 12 時,將給智能體的指令切換為一段描述水平挖掘的視頻。研究團隊發現 GROOT 可以以 16% 的較高成功率挖到💎。而相較而言,以「未來的結果」作為指令形式的STEVE-1 則無法獲得鉆石。作者推測,這可能是由于「未來的結果」無法表達水平挖掘這一概念,因此容易掉到基巖層并卡住,從而導致任務失敗。

06. 結論與展望

本文提出了一種通過觀看游戲視頻來學習遵循指令的預訓練范式。作者認為視頻指令是一個很好的目標空間形式,它不僅表達了開放式任務,還可以通過自我監督進行訓練。基于此,研究團隊在 「我的世界」 中構建了一個名為 GROOT 的編碼器-解碼器 Transformer 架構智能體。無需依賴任何標注數據,GROOT 表現出非凡的指令跟隨能力并霸榜 Minecraft SkillForge 基準。此外,作者還展示了它在「鉆石挑戰」任務中作為下游控制器的潛力。研究團隊相信這種架構和訓練范式具有很強的應用前景,并希望將其應用于更復雜的開放世界環境。

07. 相關工作

CraftJarvis 團隊長期關注于在開放世界下構建自主智能體。除了構建指令跟隨智能體 GROOT 完成開放世界下的短期任務,團隊還使用預訓練的大語言模型作為 Planner 來增強智能體完成長期任務的能力。

7.1 DEPS

DEPS 是第一個使用大語言模型在開放世界 「我的世界」 上進行任務規劃和任務執行的智能體。DEPS 基于大語言模型設計了一個包括“描述、解釋、規劃并選擇”的流程,通過整合計劃執行過程的描述并在規劃階段遇到失敗時大語言模型提供的自我解釋反饋,從而在初步 LLM 生成的計劃失敗時更好的修正錯誤并重新規劃。此外,它還包括一個目標選擇器,這是一個可學習的模塊,根據預估完成步驟來對候選子目標進行排序,從而提高語言計劃在開放世界下的可執行性。DEPS 可以在「我的世界」環境中零樣本的實現長序列任務,例如在生存模式下從頭開始獲得鉆石。

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents?
arXiv:?https://arxiv.org/pdf/2302.01560.pdf?

Code:https://github.com/CraftJarvis/MC-Planner?

該文章被收錄于NeurIPS 2023,并在ICML 2023的TEACH Workshop上被評選為最佳論文。

image.png?
DEPS

7.2 JARVIS-1

JARVIS-1?是一個開放世界智能體,基于預訓練的多模態語言模型,能夠感知多模態輸入(視覺觀察和人類指令),生成復雜計劃,并在「我的世界」中執行具身控制。JARVIS-1?還配備了一個多模態記憶,它利用預訓練知識和實際游戲生存經驗來提高規劃能力。JARVIS-1?是現有「我的世界」中最通用的智能體,能夠使用與人類一致的控制和觀察空間完成200多個不同任務,從短期任務(例如“砍樹”)到長期任務(例如“獲得一把鉆石鎬”)。在經典的長期任務“獲得鉆石鎬”中,JARVIS-1?的成功率為當前最先進智能體的5倍,并能成功完成更長時間跨度和更具挑戰性的任務。

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models?
arXiv:?https://arxiv.org/pdf/2311.05997.pdf?

Project:?JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models

image.png?
Jarvis-1

08. 本文作者

蔡少斐,北京大學人工智能研究院博士生,CraftJarvis 研究團隊成員之一,導師是梁一韜教授。他的研究興趣主要包括決策大模型、語言大模型以及游戲智能。他已在 CVPR 、NeurIPS 等人工智能頂會上發表過多篇論文,并專注于開放世界下智能體決策控制研究。擔任 ICML、NeurIPS 、 ICLR 等國際學術會議審稿人。

個人主頁:https://phython96.github.io

王子豪,北京大學人工智能研究院博士生,CraftJarvis 研究團隊成員之一,導師為梁一韜教授。曾獲國家獎學金、北京市優秀畢業生等榮譽。主要研究方向為開放世界下多任務智能體的構建,尤其關心基于基礎模型的智能體的泛化能力。近年來在CVPR、NeurIPS等人工智能頂會上發表多篇論文,曾獲ICML研討會最佳論文獎。擔任ICML、NeurIPS、ICLR等多個國際機器學習會議審稿人。

個人主頁: https://zhwang4ai.github.io

關于TechBeat人工智能社區

TechBeat(www.techbeat.net)隸屬于將門創投,是一個薈聚全球華人AI精英的成長社區。

我們希望為AI人才打造更專業的服務和體驗,加速并陪伴其學習成長。

期待這里可以成為你學習AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據地!

更多詳細介紹>>TechBeat,一個薈聚全球華人AI精英的學習成長社區?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/215822.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/215822.shtml
英文地址,請注明出處:http://en.pswp.cn/news/215822.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【NR技術】NR NG-RAN整體架構 -網絡接口以及無線協議框架(四)

1 引言 本博文介紹NR NG-RAN的網絡節點間的接口以及無線協議框架。網絡接口介紹包括RAN和NGC之間的NG接口;無線協議框架包括用戶面和控制面協議。 2 NG接口 2.1 NG用戶面接口 NG-U (user plane interface)是NG-RAN節點與UPF之間的接口。NG接口的用戶平面協議棧如圖…

AutoGen實戰應用(一):代碼生成、執行和調試

AutoGen 是一個支持使用多個代理來開發大型語言模型(LLM) 應用程序的框架,這些代理采樣相互對話的方式來解決人類交給的任務。AutoGen 代理是可定制的、可對話的,并且無縫地允許人類參與。他們采用LLM、人類輸入和各種工具組合的各種運作模式。 AutoGen …

二分查找25(Leetcode1498滿足條件的子序列數目)

代碼&#xff1a; 這道題不能用Math.pow 精度不夠 得自己寫個數組存2的n次方 class Solution {public int numSubseq(int[] nums, int target) {int mod 1000000007;int n nums.length;System.out.println(n);int[] f new int[100005];f[0]1;for(int i1;i<f.length;i){…

docker 安裝mysql 主從復制

一、搭建主服務器的mysql 1.1 先新建文件夾 mkdir -p /data/dockerData/mysql-master/conf 1.2 進入/data/dockerData/mysql-master/conf目錄下新建my.config, [mysqld] ## 設置server_id&#xff0c;同一局域網中需要唯一 server_id101 ## 指定不需要同步的數據庫名稱 bin…

論文閱讀《High-frequency Stereo Matching Network》

論文地址&#xff1a;https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR_2023_paper.pdf 源碼地址&#xff1a; https://github.com/David-Zhao-1997/High-frequency-Stereo-Matching-Network 概述 在立體匹配研究領域…

web漏洞原理與防御策略,web漏洞怎么挖掘

目錄 Web安全的重要性 ?編輯常見的Web漏洞類型及其原理&#xff1a; 1、跨站腳本攻擊&#xff08;XSS&#xff09;: 2、SQL注入: 3、跨站請求偽造&#xff08;CSRF&#xff09;: 4、遠程文件包含&#xff08;RFI&#xff09;和本地文件包含&#xff08;LFI&#xff09;:…

Spring Boot實現接口冪等

Spring Boot實現接口冪等 1、pom依賴 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http:…

大創項目推薦 協同過濾電影推薦系統

文章目錄 1 簡介1 設計概要2 課題背景和目的3 協同過濾算法原理3.1 基于用戶的協同過濾推薦算法實現原理3.1.1 步驟13.1.2 步驟23.1.3 步驟33.1.4 步驟4 4 系統實現4.1 開發環境4.2 系統功能描述4.3 系統數據流程4.3.1 用戶端數據流程4.3.2 管理員端數據流程 4.4 系統功能設計 …

【軟件安裝】VMware安裝Centos7虛擬機并且設置靜態IP,實現Windows和Centos7網絡互相訪問

這篇文章&#xff0c;主要介紹VMware安裝Centos7虛擬機并且設置靜態IP&#xff0c;實現Windows和Centos7網絡互相訪問。 目錄 一、VMware安裝Centos7 1.1、下載Centos7鏡像 1.2、安裝Centos7系統 二、設置靜態IP地址 2.1、查看虛擬機網絡IP 2.2、禁用NetworkManager服務 …

每天五分鐘計算機視覺:VGG網絡相對于AlexNet網絡有哪些不同?

本文重點 在前面的課程中&#xff0c;我們已經學習了VGG網絡模型&#xff0c;也學習了AlexNet網絡模型&#xff0c;AlexNet模型先于VGG網絡模型產生&#xff0c;所以VGG在一定程度上要優于AlexNet模型&#xff0c;二者來看一下&#xff0c;二者究竟有什么不同&#xff1f; 深度…

Qt的坐標系系統 - 3個坐標系,2個變換

參考&#xff1a; https://zhuanlan.zhihu.com/p/584048811https://www.zhihu.com/tardis/zm/art/634951149?source_id1005 小談Qt的坐標系系統 Qt中有三個坐標系 設備坐標系窗口坐標系邏輯坐標系 設備坐標系: 即Device坐標系。也是物理坐標系。即真實的的物理坐標系。 …

給鼠標描述符打上注釋防止忘記

static uint8_t g_mouse_hid_desc[] { //通用桌面設備 0x05, 0x01, // USAGE_PAGE (Generic Desktop) //鼠標設備 0x09, 0x02, // USAGE (Mouse) //應用集合 0xa1, 0x01, // COLLECTION (Application) //指針設備 0x09, 0x01, // USAGE (Pointer) //物理集合 0xa1, 0x00, // C…

【Linux】free命令使用

free命令 ?free是指查看當前系統內存的使用情況&#xff0c;它顯示系統中剩余及已用的物理內存和交換內存&#xff0c;以及共享內存和被核心使用的緩沖區。 作者 作者&#xff1a;Brian Edmonds。 語法 free [參數] free 命令 -Linux手冊頁 命令選項及作用 執行令 &am…

【二分查找】【滑動窗口】LeeCode2528:最大化城市的最小電量

作者推薦 【動態規劃】【廣度優先】LeetCode2258:逃離火災 本文涉及的基礎知識點 二分查找算法合集 滑動窗口 題目 給你一個下標從 0 開始長度為 n 的整數數組 stations &#xff0c;其中 stations[i] 表示第 i 座城市的供電站數目。 每個供電站可以在一定 范圍 內給所有城…

Java學習總結

1. Java集合體系框架 java.util中包含 Java 最常用的the collections framework。 Java集合類主要由兩個根接口Collection和Map派生出來的。 Collection 接口派生出了三個子接口List、Set、Queue。Map 接口 因此Java集合大致也可分成List、Set、Queue、Map四種接口體系。 …

CDH6.3.2安裝

文章目錄 [toc]一、CM簡介1、ClouderaManager的概念2、ClouderaManager的功能3、ClouderaManager的架構 二、準備清單1、部署步驟2、集群規劃3、軟件環境準備 三、安裝清單1、操作系統iso包2、JDK包3、MySQL包4、CM和CDH包5、部署ansible 四、基礎環境準備1、配置網絡2、配置ho…

Java項目開發,業務比較復雜如何減少bug

Java項目開發&#xff0c;業務比較復雜如何減少bug 當Java開發工作涉及復雜業務時&#xff0c;可以采取以下方法來減少bug的數量&#xff1a; 1、深入了解業務需求 充分了解業務需求&#xff0c;與業務人員進行充分的溝通和交流&#xff0c;確保對需求的理解正確。在需求分析…

el-collapse 默認展開第一個(實測有效)

<el-collapse accordion v-model"activeCollapse"> <el-collapse-item v-for"(item, index) in assetList" :name"index" :key"item.id" > 我這個是通過循環, 只需要v-model 綁定的值和 name 相等,就可以實現展開 然后就…

重新認識Word——給圖、表、公式等自動編號

重新認識Word——給圖、表、公式等自動編號 給圖增加題注題注失敗的情況給圖添加“如圖xx-xx所示” 給公式插入題注第一步——先加題注第二步——設置兩個制表符 解決題注“圖一-1”的問題 前面我們已經學習了如何引用多級列表自動編號了&#xff0c;現在我們有第二個問題&…

大數據湖體系規劃與建設方案:PPT全文51頁,附下載

關鍵詞&#xff1a;大數據解決方案&#xff0c;數據湖解決方案&#xff0c;數據數倉建設方案&#xff0c;大數據湖建設規劃&#xff0c;大數據湖發展趨勢 一、大數據湖體系規劃與建設背景 在傳統的企業信息化建設中&#xff0c;各個業務系統通常是獨立建設的&#xff0c;導致…