Meta發布V-JEPA 2世界模型及物理推理新基準,推動AI在物理世界中的認知與規劃能力

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

Meta正式發布了其最新一代世界模型——V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。這是一個在物理世界視覺理解和預測方面實現最先進性能的大型模型,具備零樣本環境下的機器人規劃能力,可以讓AI代理與陌生物體和未知環境交互,完成復雜任務。此次發布不僅標志著Meta向“高級機器智能(AMI)”目標邁出的關鍵一步,也帶來了三個全新物理推理評測基準,用于全面評估視頻模型的物理直覺與因果理解能力。


什么是“世界模型”?

人類擁有與生俱來的物理直覺——比如把網球拋向空中,自然會期待它因重力落下,而不會莫名其妙漂浮、變向或變成蘋果。即使在學會完整說話之前,兒童已開始通過觀察積累這種“世界如何運行”的基本認知。

這種對世界狀態和行為結果的預測能力,是人類在面對新環境、新任務時作出決策的基礎。例如在擁擠的人群中行走、在冰球場上滑向未來的球點、或烹飪過程中控制火候,背后都依賴內心的“世界模型”。

對于人工智能來說,構建這樣的世界模型意味著系統能夠:

  • 理解觀察到的世界狀態(識別視頻中的物體、動作和運動模式);
  • 預測世界狀態的演變,及在特定行動下會如何變化;
  • 規劃一系列行動以達成某一目標。


V-JEPA 2:從視頻中學習世界如何運行

V-JEPA 2是一個擁有12億參數的模型,建立在Meta自研的**Joint Embedding Predictive Architecture(JEPA)**架構上。它由兩個關鍵組件構成:

  1. 編碼器:接收原始視頻,提取語義嵌入特征,理解當前世界狀態;
  2. 預測器:根據嵌入特征與上下文信息,輸出對未來狀態的預測嵌入。

V-JEPA 2通過自監督學習訓練而成,無需人工標注,主要分兩個階段:

階段一:無動作預訓練

模型在超過100萬小時視頻和100萬張圖像上進行訓練,涵蓋人類行為、物體運動及物體交互等視覺知識。僅在此階段,V-JEPA 2就已展現強大的理解與預測能力:

  • 在動作識別任務Something-Something v2上實現新紀錄;
  • Epic-Kitchens-100動作預判任務上超越前沿模型;
  • 與語言模型對齊后,在視頻問答任務如Perception TestTempCompass上刷新SOTA表現。

階段二:引入機器人控制數據

通過接入僅62小時的機器人控制數據,模型進一步學習將具體行動映射至未來狀態預測。這使得模型不僅能預測“世界可能如何變化”,還具備了動作條件下的控制能力,實現規劃執行。


零樣本機器人控制能力

V-JEPA 2可直接在未見過的新環境、新物體中進行零樣本規劃與機器人控制。不同于其他機器人基礎模型需在部署環境中采集訓練數據,V-JEPA 2僅使用公開DROID數據集訓練,即可部署至實際機器人系統,實現如“抓取并放置物體”這類基礎任務。

對于短期任務(如抓取物體),用戶提供目標圖像,模型通過編碼當前狀態和目標狀態進行比對并規劃行為。在每一步中,機器人都會重新評估行動方案,并通過模型預測控制(Model Predictive Control)執行最佳動作。

對于長期任務(如將物體放置至指定位置),V-JEPA 2支持多階段目標規劃(Visual Subgoal Planning),仿似人類模仿學習。這使得機器人在未見物體/環境下的任務完成率達到65%至80%


三項全新開放評測基準:衡量視頻模型的“物理世界智慧”

Meta還同步發布三項評測數據集,用于測試當前視頻模型是否真正具備“物理直覺”和“因果推理”能力。這些基準覆蓋人類在生活中本能掌握的基本物理規律與推理方式。

1. IntPhys 2

衡量模型判斷物理可能性與不可能性的能力。通過成對視頻對比:兩個視頻前半段完全一致,后半段其中一個發生違反物理規律的事件(如穿墻、漂浮),模型需判斷哪一個不合常理。人類準確率可達95%,但當前模型仍接近隨機水平。

2. MVPBench(Minimal Video Pairs)

使用微差視頻對測試模型在視覺-語言問答中的物理理解。每組題目含兩條幾乎相同視頻,但正確答案相反。只有同時答對主視頻與“微差版本”問題,才算通過,避免模型依賴表面特征作弊。

3. CausalVQA

考查模型是否能回答物理因果關系相關問題。包括:

  • “如果發生某事,會如何?”
  • “接下來可能會發生什么?”
  • “為達成目標,下一個動作應是什么?”

這類問題比“視頻中發生了什么”更具挑戰性,測試模型是否真正理解動態因果鏈條。目前模型在這些問題上與人類表現仍有顯著差距。


未來展望:通向高級機器智能的下一步

V-JEPA 2已具備單一時間尺度上的理解與預測能力。但現實任務通常需跨越多個時間尺度(如烘焙蛋糕、組裝家具)。下一階段,Meta將探索多層次、分層式JEPA模型,讓AI能處理長期目標與中短期子任務之間的協調。

此外,Meta還計劃發展多模態世界模型,引入視覺、音頻、觸覺等多感知維度,以進一步貼近人類認知方式。


資源獲取與社區開放:

Meta已開源如下內容:

  • 模型代碼與檢查點(Checkpoints):可用于研究與商用部署
  • 三項評測數據集(IntPhys 2、MVPBench、CausalVQA)
  • 模型排行榜:可在 Hugging Face 上查看模型表現
  • 技術論文與實驗報告

歡迎研究社區下載使用,共同推動世界模型的發展:

  • GitHub:V-JEPA 2 (https://github.com/facebookresearch/vjepa2)、IntPhys 2 (https://github.com/facebookresearch/IntPhys2)、MVPBench (https://github.com/facebookresearch/minimal_video_pairs)、CausalVQA (https://github.com/facebookresearch/CausalVQA)


結語

V-JEPA 2不僅是一個強大的視頻預測模型,更是Meta在構建“能理解、能預測、能規劃”的智能體道路上的關鍵里程碑。隨著世界模型能力的增強,AI將更接近人類的認知機制,在物理世界中實現安全、靈活、可靠的智能交互。這不僅是技術上的突破,更可能徹底重塑機器人、自動駕駛、家庭助手等AI實際應用的能力邊界。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83462.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83462.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83462.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

觸覺智能RK3576核心板工業應用之軟硬件全國產化,成功適配開源鴻蒙OpenHarmony5.0

在全球科技競爭加劇和供應鏈安全日益重要的背景下,實現關鍵軟硬件的全國產化替代已成為國家戰略和產業共識。在這一背景下,觸覺智能推出RK3576核心板,率先適配開源鴻蒙OpenHarmony5.0操作系統,真正實現了從芯片到操作系統的全棧國產化方案&am…

前端基礎知識ES6系列 - 01(var、let、const之間的區別)

一、var 在ES5中,頂層對象的屬性和全局變量是等價的,用var聲明的變量既是全局變量,也是頂層變量 注意:頂層對象,在瀏覽器環境指的是window對象,在 Node 指的是global對象 var a 10; console.log(window…

Python Docker 鏡像構建完整指南:從基礎到優化

Python 是一門廣泛使用的編程語言,在容器化環境中,構建和使用 Python 鏡像是非常常見的任務。本文將提供一個完整的指南,包括選擇基礎鏡像、制作流程、不同場景下的應用、安全性最佳實踐以及鏡像優化策略。 1. 選擇合適的基礎鏡像 1.1 官方 Python 鏡像 Docker Hub 提供了…

【狂飆AGI】第1課:大模型概述

目錄 (一)大模型概念解析(二)大模型發展歷程(三)大模型發展現狀(1)OpenAI(2)微軟(3)谷歌(4)Meta (…

vite ts 配置使用@ 允許js

1.vite.config.ts 配置 import { defineConfig } from vite import vue from vitejs/plugin-vue import { fileURLToPath, URL } from node:url import setup_extend from vite-plugin-vue-setup-extend// https://vite.dev/config/ export default defineConfig({plugins: …

使用Ollama+open-webui搭建本地AI模型

本地搭建AI模型 說明:1、下載Ollama2、下載模型3、pip安裝open-webui(不推薦)1、Python版本不對應2、下載wheels失敗 4、docker安裝open-webui 說明: 在windows上搭建本地AI,使用Ollamaopen-webui的方式,可…

第 87 場周賽:比較含退格的字符串、數組中的最長山脈、一手順子、訪問所有節點的最短路徑

Q1、[簡單] 比較含退格的字符串 1、題目描述 給定 s 和 t 兩個字符串,當它們分別被輸入到空白的文本編輯器后,如果兩者相等,返回 true 。# 代表退格字符。 **注意:**如果對空文本輸入退格字符,文本繼續為空。 示例 …

linux安裝阿里DataX實現數據遷移

目錄 下載datax工具包(如果下載慢,請嘗試其他國內鏡像站或其他網站下載相應資源) 解壓工具包到當前目錄里 接著進入conf配置目錄并創建一個myjob.json(臨時測試json),myjob.json內容如下,用于模擬test庫tab1表數據同…

C++ 引用介紹

很好!既然你有 C 的基礎,那么理解 C 的「引用(reference)」會容易很多。我們來一步步講清楚這個概念。 🌟 一句話總結: C 引用(reference)就是已存在變量的“別名”,它不…

學習筆記086——@PostConstruct注解和InitializingBean接口的使用

文章目錄 1、PostConstruct注解1.1 介紹1.2 用法1.3 場景 2、InitializingBean接口2.1 介紹2.2 用法 1、PostConstruct注解 1.1 介紹 PostConstruct 是 Java EE/Jakarta EE 中的一個注解,用于標記一個方法在依賴注入完成后執行初始化操作。它通常與 Spring 框架一…

考研系列—408真題操作系統篇(2015-2019)

目錄 # 2015年 1.死鎖處理 (1)預防死鎖 (2)避免死鎖 (3)死鎖檢測和解除 2.請求分頁系統的頁面置換策略、頁面置換策略 3.頁、頁框、頁表,基本分頁系統 # 2016年 1.異常、中斷 2.頁置換算法 3.進程的互斥操作 4.SPOOLing技術(從軟件方面實現設備共享) 5.一定要牢記…

argocd部署cli工具并添加k8s集群

先決條件: 1.已經有k8s集群,(網上一萬種部署方式,這里我使用的是kubekey部署的),也埋了個坑,后面說明. 2.已經部署好argocd,并驗證web已經可以訪問.參見 k8s部署argocd-CSDN博客 部署客戶端工具, 這里我是從web頁面上直接下載的對應版本的cli工具. 打開已經部署好的argoc…

打卡day52

簡單cnn 借助調參指南進一步提高精度 基礎CNN模型代碼 import tensorflow as tf from tensorflow.keras import layers, models from tensorflow.keras.datasets import cifar10 from tensorflow.keras.utils import to_categorical# 加載數據 (train_images, train_labels),…

OpenGL ES繪制3D圖形以及設置視口

文章目錄 關于 glDrawElements基本概念使用場景mode 繪制模式type 索引數據類型indices 索引緩沖區工作原理繪制正方體實例 視口透視投影(Perspective Projection)正交投影(Orthographic Projection)正交投影和透視投影對比 關于 …

【SAS求解多元回歸方程】REG多元回歸分析-多元一次回歸

多元一次回歸是一種統計方法,用于分析多個自變量(解釋變量)與一個因變量(響應變量)之間的線性關系。 目錄 【示例】 基本語法 SAS代碼 參數估計 方差分析 回歸統計量 y的擬合診斷 y的回歸變量值 【示例】 設Y…

卡通幼兒園教育通用可愛PPT模版分享

幼兒園教育通用PPT模版,教育教學PPT模版,卡通教育PPT模版,可愛卡通教學課件PPT模版,小清新動物卡通通用PPT模版,教學說課通用PPT模版,開學季PPT模版,國學頌歌PPT模版,可愛簡約風PPT模…

力扣HOT100之技巧:75. 顏色分類

這道題實際上就是讓我們不用sort()函數來實現對原數組的排序,這里我直接使用快速排序對原數組進行排序了,也是復習一下基于快慢指針的快速排序寫法。面試手撕快排的思路參考這個視頻。 用時擊敗100%,還行。下面直接貼代碼。 class Solution …

離線部署openstack 2024.1 keystone

控制節點身份服務 離線下載 apt-get install --download-only keystone python3-openstackclient apache2 libapache2-mod-wsgi-py3mkdir /controller/keystone mv /var/cache/apt/archives/*.deb /controller/keystone/ dpkg -i /controller/keystone/*.deb在一個控制節點操…

帆軟 BI 從入門到實戰全攻略(一):安裝激活與添加數據

一、帆軟 BI 產品概述? 在當今大數據時代,數據分析與可視化成為企業洞察業務、驅動決策的關鍵利器。帆軟軟件有限公司作為中國專業的大數據 BI 和分析平臺提供商,自 2006 年成立以來,憑借其在商業智能和數據分析領域的深耕細作,…

網絡協議通俗易懂詳解指南

目錄 1. 什么是網絡協議? 1.1 協議的本質 1.2 為什么需要協議? 1.3 協議分層的概念 2. TCP協議詳解 - 可靠的信使 ?? 2.1 TCP是什么? 2.2 TCP的核心特性 ?? 面向連接 ??? 可靠傳輸 ?? 流量控制 2.3 TCP三次握手 - 建立連接 2.4 TCP四次揮手 - 斷開連接…