【無標題】世界模型

在這里插入圖片描述

為什么大語言模型,沒有真正推動經濟大幅增長,但世界模型有可能

5月份谷歌IO大會,DeepMind老板(谷歌AI業務負責人,2024Nobel化學獎得主,黛密斯哈薩比斯)提到,谷歌接下來目標是做世界模型。

一、Meta發布了最新世界模型JEPA2

V-JEPA 2 world model and new benchmarks for physical reasoning

??Meta Video Joint Embedding Predictive Architecture(V-JEPA 2)第一個基于視頻訓練的世界模型,在物理世界的視覺理解和預測方面實現了最先進的性能。模型還可以用于零樣本機器人的規劃,以便在新環境中與不熟悉的物體交互。V-JEPA 2代表了我們實現先進機器智能(AMI)目標的下一步,旨在構建能夠在物理世界中運行的有用AI代理。

??meta的首席AI科學家(2018年圖靈獎得主,紐約大學教授)楊麗坤對這個模型做了一個介紹:大家都覺得語言對智能非常重要,但其實語言不是智能的全部 比如先給你看一個立方體的透視圖,然后告訴你會把這個立方體旋轉90度,你在腦子里是可以預判出這個透視圖會變成什么樣的,這是智能,但這個語言沒有任何關系,在成長的過程中人類可以逐漸形成對物理世界的常識,這種常識可以幫助人類預判下一步,比如說一旦手機從手中滑落,所有人都會知道這個手機會掉到地上,而不可能會飛到天上,這個對我們稱為常識 所有的這些常識構成了我們對物理世界的認知,所有的這種對物理世界的認知的總和就是所謂的世界模型。

【楊教授視頻】

vjepa2楊教授介紹

?? 世界模型能干什么 ?AI科學家們希望讓機器也能理解這些常識,也就是說要為機器建立世界模型。第一,世界模型需要能看懂這個世界,比如某個跳水視頻,建立了世界模型的AI會告訴你這個動作是向前翻1.5中五轉體。第二,世界模型需要能做出合理的預判,比如說給AI一些上下文介紹一下背景信息,再看一個開始做飯的視頻,AI就能預判每一步的行為。傳統機器人沖咖啡,它的動作呢是預先編排好的,或者起碼絕大部分動作是編好的,機器人只需要按部就班的執行動作就可以了,不需要有腦子,但這個任務不一樣,對于這個任務沒有事先的編排,機器人需要理解這個目標,然后根據這個目標規劃各種執行方案,然后根據腦子中的世界模型判斷哪些方案是可行的,哪個方案是最優的,然后再執行,這種思考方式跟人類是一模一樣的,那為什么要讓機器人具備這種思考能力呢?因為你不可能把機器人可能要做的所有動作都用編程事先編好,面對全新的情況也能解決好,這才叫機器人。如果只是重復類似的動作,這些動作做的再好也只是機器。事實上人類就具備解決新問題的能力。比如說我們知道怎么把水從瓶子里倒到茶杯里,如果把茶杯換成任何形狀的杯子,我們不用學也會知道怎么倒。開完這幾個例子你應該對世界模型能用來干嘛?有了更深刻的理解

  • 理解:世界模型應該能夠理解對世界的觀察,包括識別視頻中的物體、動作和運動。
  • 預測:世界模型應該能夠預測世界將如何演變,以及如果代理采取行動,世界將如何變化。
  • 規劃:基于預測能力,世界模型應該有助于規劃實現給定目標的行動序列。

?? 為什么世界模型值得關注?甚至我覺得在不久的將來,所有科技公司都會開始卷世界模型的,因為自動駕駛和機器人會帶來巨大的商業價值,而世界模型是自動駕駛和機器人的必要條件,沒有世界模型,自動駕駛和機器人就不可能達到優秀水平。先說自動駕駛,現在的自動駕駛大部分都及格了,也就是基本不會撞車了,但體驗上的差別還挺大的,有的自動駕駛,比如特斯拉的SD就更像老司機,有的自動駕駛給人的感覺就比較楞,為什么不同的自動駕駛系統給人的感覺會有這么大的差別?那其實就是基于物理世界的推理能力有差別,為什么這么說呢?我描述一個場景你就明白了,比如在開車的時候,前面有個騎電動車的人離得不算很近,騎車的人呢時不時會往左看,而且在不遠的地方有個能左拐的路口,對于有經驗的老司機。看到這種情況一般都會開始警惕稍微減減速,因為司機有理由相信這個騎電動車的人很可能想往左拐,這就是一種基于物理世界常識的推理,這種推理能力就會讓老司機對各種可能發生的情況有所預判,從而把車開得更加平穩,但如果是新手不會預判,那就只會等到這個電動車突然左拐自己快撞上的時候急剎車,同樣的道理,有物理世界推理能力的自動駕駛系統就會開的比較平穩,但缺乏物理世界推理能力的自動駕駛系統就會開的比較愣,再說機器人之前有很多機器人跳舞和跑跳的視頻。你看上去很酷炫,但其實這些動作大部分都是用編程預先編好的,機器人只是在重復這些動作,這樣的機器人頂多算是個長得像人的機器,因為這些動作不太需要智能,只有當一個機器人在面對大部分新的情況都可以通過推理順利解決掉的時候,這個機器人才能叫真正的有智能。

vjepa2介紹

1.1 網絡框架

??V-JEPA 2使用聯合嵌入預測架構(JEPA)構建,有兩個主要組件:

  • 編碼器,接收原始視頻并輸出embedding,這些embedding捕獲了關于觀察世界狀態的有用語義信息。
  • 預測器,接收視頻embedding和關于預測內容的附加上下文,并輸出預測的embedding。

在這里插入圖片描述

??使用視頻的自監督學習來訓練V-JEPA 2,這使我們能夠在視頻上訓練,而不需要額外的人工注釋。V-JEPA 2訓練包括兩個階段:無動作預訓練,然后是額外的動作條件訓練。

?? 在第一階段——預訓練 ——使用了來自多渠道超過100萬小時的視頻和100萬張圖像。這些豐富的視覺數據幫助模型深入理解世界的運作方式,包括人與物體的互動模式、物體在物理世界中的運動規律以及物體間的相互作用。研究發現,模型在預訓練階段結束后就已展現出與理解和預測相關的關鍵能力。例如,通過在凍結編碼器特征上訓練輕量級的注意力讀出機制(attentive read-out),V-JEPA 2在依賴運動理解的Something-Something v2行為識別任務中表現卓越;同樣地,通過在凍結編碼器和預測器特征上訓練注意力讀出機制,該模型在以自我為中心視頻中預測未來1秒將執行動作(由名詞和動詞構成)的Epic-Kitchens-100行為預期任務上創造了最新技術標桿。最終,將V-JEPA 2與語言模型對齊后,在Perception Test和TempCompass等視頻問答基準測試中實現了最先進的性能表現
??

??在無動作預訓練階段結束后,該模型能夠預測世界可能如何演變——但這些預測并未直接考慮智能體將采取的具體行動。在 訓練的第二階段,通過使用機器人數據(包含視覺觀測視頻和機器人執行的控制動作)來增強模型的規劃實用性。我們將這些動作信息提供給預測器,從而將該數據整合到JEPA訓練流程中。經過這些額外數據的訓練后,預測器學會了在預測時考慮具體動作,進而可用于控制任務。第二階段所需的機器人數據量并不大——我們的技術報告顯示,僅用62小時的機器人數據訓練,就能獲得可用于規劃控制的模型

??我們展示了如何利用V-JEPA 2模型,在新環境中進行零樣本機器人規劃,并處理訓練階段未曾接觸的物體。與其他機器人基礎模型不同——這類模型通常要求部分訓練數據必須來自模型部署的具體機器人實例和環境——我們直接在開源DROID數據集上訓練該模型,隨后將其部署于實驗室的實體機器人。實驗證明,V-JEPA 2預測器能夠勝任基礎性任務,例如移動至目標位置、抓取物體以及將其放置到新位置。

??針對短期任務(如抓取或放置物體),采用圖像形式設定目標。通過V-JEPA 2編碼器獲取當前狀態與目標狀態的嵌入表示,機器人從觀測到的當前狀態出發,利用預測器模擬執行候選動作集合的后續狀態,并根據動作使系統接近目標狀態的程度進行評分。每個時間步中,機器人通過模型預測控制重新規劃并執行評分最高的下一步動作。

??對于長期任務(如抓取物體并準確放置至目標位置),我們設定一系列視覺子目標供機器人依次完成,這種方式類似于人類視覺模仿學習的行為模式。借助這些視覺子目標,V-JEPA 2在全新未見環境中執行抓放新物體任務時,成功率可達65%-80%。

vjepa機械臂

??

1.2 評價指標

??有智能的機器人才能創造足夠大的經濟價值,而具備這種物理世界的推理能力,機器人的腦子里就必須有一個世界模型 如何評判時間的模型性能呢?大語言模型的能力一般是從數學能力,編程能力,聊天能力等各方面去打分,但這些評判標準顯然不適合世界模型,對于世界模型應該用哪些指標來評判呢?著名的AI開源社區HuggingFace采用了三個全新的指標,用于追蹤前沿模型在Meta FAIR發布的3個物理推理基準數據集上的進展:除了通過公開提交追蹤社區進展外,我們還提供了每個基準的人類評分,以了解領先模型與人類在關鍵物理和視頻推理任務上的表現差距。

  • 1.MVPBench : 一個用于時空和直覺物理視頻理解的視頻問答(VQA)基準。視頻來源于多樣化數據集,并通過自動配對設計,使得每對視頻僅在最小程度上存在差異,但對同一問題有相反的正確答案。這種設計確保模型需要超越依賴表面視覺或文本偏差才能在基準測試中表現良好。
    在這里插入圖片描述

??Minimal Video Pairs(MVPBench) 通過多項選擇題來衡量視頻語言模型的物理理解能力。與文獻中的其他視頻問答基準不同,MVPBench旨在減輕視頻語言模型中觀察到的常見快捷解決方案,例如依賴于膚淺的視覺或文本線索和偏見。MVPBench中的每個示例都有一個最小的變化對:一個視覺上相似的視頻,帶有相同的問題,但答案相反。為了獲得一個例子的信用,模型還必須正確地得到其最小變化對。

  • IntPhys 2 : 一個旨在評估深度學習模型直覺物理理解能力的視頻基準。IntPhys 2聚焦四個核心原則:Permanence(持久性)、Immutability(不變性)、Spatio-Temporal Continuity(時空連續性)和Solidity(固體性),并提供了一套基于"違反預期"框架的綜合測試,挑戰模型在受控且多樣化的虛擬環境中區分可能和不可能事件的能力。

在這里插入圖片描述
??IntPhys 2專門用于衡量模型區分物理上合理和不合理場景的能力,在早期IntPhys基準的基礎上進行構建和擴展。我們設計的IntPhys 2中類似于發展認知科學家在年輕人通過違反期望范式獲得直覺物理時的評估方式。我們使用一個生成成對視頻的游戲引擎來實現這一點,其中兩個視頻在某個點上是相同的,然后在其中一個視頻中發生物理破壞事件。然后,模型必須確定哪個視頻具有物理破壞事件。雖然人類在各種場景和條件下都能在這項任務上達到近乎完美的準確性,但我們發現當前的視頻模型處于或接近偶然。

  • CausaNQA : 一個由問答對組成的視頻問答(VQA)基準,用于探究模型對物理世界因果關系的理解。問題設計基于真實世界場景,同時聚焦模型通過五種問題類型預測不同行動和事件可能結果的能力——counterfactual(反事實)、hypothetical(假設)、anticipation(預期)、planning(規劃)和descriptive(描述性)。

在這里插入圖片描述

??因果VQA評估視頻語言模型回答與物理因果關系相關問題的能力。該基準旨在關注物理世界視頻中的因果理解,包括反事實(如果…會發生什么)、預期(接下來可能發生什么)和規劃(為了實現目標下一步應采取什么行動)等問題。研究發現,盡管大型多模態模型在回答視頻中‘發生了什么’的問題上越來越有優勢,但在回答‘可能發生了什么’和‘接下來可能發生什么’的問題上仍顯不足,這表明在預測物理世界如何根據行動和事件空間演變方面,這些模型與人類的表現存在顯著差距。

在這里插入圖片描述

??

在這里插入圖片描述

??

??

??

??

??

??

??

??

#pic_center =80%x80%







d \sqrt{d} d ? 1 8 \frac {1}{8} 81? x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ? \epsilon ?
? \phi ? ∏ \prod

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83910.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83910.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83910.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Doc2X:?精度、?性價??檔解析 API,助力Arxiv論文智能解讀Agent構建

前言 在AI大模型時代,RAG(Retrieval-Augmented Generation)檢索增強生成技術已經成為構建智能知識庫和問答系統的核心架構。然而,在實際項目實施過程中,開發者們往往會遇到一個關鍵痛點:如何高質量地將各種…

uniapp 對接deepseek

廢話不多說直接上代碼 // 小程序專用流式服務 export const streamChatMiniProgram (messages, options {secret: "" }) > {return new Promise((resolve, reject) > {// 構建請求數據 const requestData {model: deepseek-chat,messages,stream: true,ma…

Softhub軟件下載站實戰開發(四):代碼生成器設計與實現

文章目錄 Softhub軟件下載站實戰開發(四):代碼生成器設計與實現1.前言 📜2.技術選型3.架構概覽 🏗?3.1 架構概覽3.2 工作流程詳解 4.核心功能實現 ?4.1 配置管理系統4.2 數據庫表結構解析4.3 模板渲染引擎4.4 智能類…

鴻蒙組件通用屬性深度解析:從基礎樣式到高級定制的全場景指南

一、引言:通用屬性 —— 構建視覺體驗的核心語言 在鴻蒙應用開發體系中,組件的視覺呈現與交互體驗主要通過通用屬性系統實現。這些屬性構成了從基礎樣式定義(尺寸、顏色)到復雜交互控制(動畫、布局)的完整…

選擇與方法專欄(9) 職場內篇: 是否要跳出舒適圈?如何處理犯錯?

合集文章 一個中科大差生的8年程序員工作總結_8年工作經驗 程序員-CSDN博客 選擇與方法專欄(1)職場外篇:謹慎的選擇城市、行業、崗位-CSDN博客 選擇與方法專欄(2)職場外篇: 每個時代都有自己的機遇-CSDN…

DCM4CHEE ARCHIVE LIGHT 源代碼解析(1)-前言

系列文章目錄 DCM4CHEE ARCHIVE LIGHT 源代碼解析(1)-前言DCM4CHEE ARCHIVE LIGHT 源代碼解析(2)-STOWRS文章目錄 系列文章目錄概述一、項目結構1、下載解壓代碼2、IntelliJ IDEA加載源代碼二、編譯發布1、編譯 dcm4chee-arc-ear 項目2、編譯 dcm4chee-arc-ui2 項目寫在結尾概…

基于DeepSeek-R1-Distill-Llama-8B的健康管理助手微調過程

基于DeepSeek-R1-Distill-Llama-8B的健康管理助手微調過程 本次創新實訓項目的主要任務是利用DEEPSEEK提供的開源模型,通過微調技術,實現一個專注于健康管理與醫療咨詢的人工智能助手。本文詳細記錄我們如何對DeepSeek-R1-Distill-Llama-8B模型進行微調…

TI 毫米波雷達走讀系列—— 3DFFT及測角

TI 毫米波雷達走讀系列—— 3DFFT及測角 測角原理 —— 角度怎么測測角公式 —— 角度怎么算相位差測角基本公式為什么是3DFFT1. 空間頻率與角度的對應關系2. FFT的數學本質:離散空間傅里葉變換 測角原理 —— 角度怎么測 本節內容解決角度怎么測的問題&#xff0c…

圖解JavaScript原型:原型鏈及其分析 02 | JavaScript圖解

? ? 任何函數既可以看成一個實例對象又可以看成一個函數 作為一個實例對象其隱式原型對象指向其構造函數的顯式原型對象 作為一個函數其顯式原型對象指向一個空對象 任何一個函數其隱式原型對象指向其構造函數的顯式原型對象 任何一個函數是 Function 函數創建的實例&…

自定義View實現K歌開始前歌詞上方圓點倒計時動畫效果

在上一篇KRC歌詞解析原理及Android實現K歌動態歌詞效果介紹了動態歌詞的實現,我們繼續完善一下。在K歌場景中,一些歌曲前奏很長,用戶不知道什么時候開始唱,這時一般在歌詞上方會有一個圓點倒計時的效果來提醒用戶開始時間,如下圖:開始唱之前,圓點會逐個減少,直至圓點全…

ffmpeg subtitles 字幕不換行的問題解決方案

使用ffmpeg在mac下處理srt中文字幕可以自動換行,linux環境下不換行直接超出視頻區域了 這是因為在mac環境下的SimpleText 渲染器自動處理了文本,而linux無法處理。 mac: linux: 方案: ?:網上找到的方案…

Trino入門:開啟分布式SQL查詢新世界

目錄 一、Trino 是什么 二、核心概念與架構解析 2.1 關鍵概念詳解 2.2 架構剖析 三、快速上手之安裝部署 3.1 環境準備 3.2 安裝步驟 3.2.1 下載軟件包 3.2.2 安裝軟件包 3.2.3 啟動服務 3.2.4 驗證服務 3.2.5 安裝 Trino 客戶端 3.3 目錄結構說明 四、實戰演練&…

EFK架構的數據安全性

EFK架構(Elasticsearch Filebeat Kibana)的數據安全性需通過?傳輸加密、訪問控制、存儲保護?三層措施保障,其核心風險與加固方案如下: 一、數據傳輸安全風險與加固 ?明文傳輸風險? Filebeat → Elasticsearch 的日…

2025年滲透測試面試題總結-安全服務工程師(駐場)(題目+回答)

安全領域各種資源,學習文檔,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各種好玩的項目及好用的工具,歡迎關注。 目錄 安全服務工程師(駐場) 1. 挖過的一些漏洞(舉例說明) 2. 滲透測試的思路&#xff08…

C++ 編譯流程詳解:從源碼到可執行文件

C 編譯流程是將人類可讀的源代碼轉換為計算機可執行的二進制文件的過程。這個過程可以分為四個核心階段:預處理、編譯、匯編和鏈接。每個階段都有明確的任務,共同確保代碼正確轉換為可執行程序。 一、預處理(Preprocessing) 預處…

CentOS7 安裝最新版 Docker

在 CentOS 7 上安裝最新版 Docker,可以按照以下步驟操作: 1. 卸載舊版本 Docker(如有) 如果之前安裝過舊版 Docker,需要先卸載: yum remove docker docker-client docker-client-latest docker-common do…

網絡安全相關知識

一、網絡安全基礎 1. CIA三元組 (Confidentiality, Integrity, Availability) 機密性 (Confidentiality):確保信息只能由授權人員查看,防止信息泄露。加密技術(如AES、RSA)通常用于保護機密性。 完整性 (Integrity):…

每天一個前端小知識 Day 4 - TypeScript 核心類型系統與實踐

TypeScript 核心類型系統與實踐 1. 為什么前端面試中越來越重視 TypeScript? 復雜業務場景需要強類型保障穩定性;更好的 IDE 支持和智能提示;降低線上 bug 概率;成熟的工程團隊都在使用;對于 React/Vue 項目維護可讀性…

uni-app插件,高德地圖、地圖區域繪制、定位打卡

介紹 高德地圖、地圖區域繪制、定位打卡 示例 默認 &#xff08;展示地圖&#xff0c;是否可以打卡&#xff09; <template><view class"container"><map-positioning-punch:clock-in-area"clockInArea":refresh-timeout"refreshT…

_mm_aeskeygenassist_si128 硬件指令執行的操作

根據Intel的文檔&#xff0c;_mm_aeskeygenassist_si128 指令執行以下操作&#xff1a; result[31:0] SubWord(RotWord(temp)) xor Rcon; result[63:32] SubWord(RotWord(temp)); result[95:64] SubWord(RotWord(temp)) xor Rcon; result[127:96] SubWord(RotWord(temp…