【無標題】世界模型

在這里插入圖片描述

為什么大語言模型，沒有真正推動經濟大幅增長，但世界模型有可能

5月份谷歌IO大會，DeepMind老板（谷歌AI業務負責人，2024Nobel化學獎得主，黛密斯哈薩比斯）提到，谷歌接下來目標是做世界模型。

一、Meta發布了最新世界模型JEPA2

V-JEPA 2 world model and new benchmarks for physical reasoning

??Meta Video Joint Embedding Predictive Architecture（V-JEPA 2）第一個基于視頻訓練的世界模型，在物理世界的視覺理解和預測方面實現了最先進的性能。模型還可以用于零樣本機器人的規劃，以便在新環境中與不熟悉的物體交互。V-JEPA 2代表了我們實現先進機器智能（AMI）目標的下一步，旨在構建能夠在物理世界中運行的有用AI代理。

??meta的首席AI科學家（2018年圖靈獎得主，紐約大學教授）楊麗坤對這個模型做了一個介紹：大家都覺得語言對智能非常重要，但其實語言不是智能的全部，比如先給你看一個立方體的透視圖，然后告訴你會把這個立方體旋轉90度，你在腦子里是可以預判出這個透視圖會變成什么樣的，這是智能，但這個語言沒有任何關系，在成長的過程中人類可以逐漸形成對物理世界的常識，這種常識可以幫助人類預判下一步，比如說一旦手機從手中滑落，所有人都會知道這個手機會掉到地上，而不可能會飛到天上，這個對我們稱為常識，所有的這些常識構成了我們對物理世界的認知，所有的這種對物理世界的認知的總和就是所謂的世界模型。

【楊教授視頻】

vjepa2楊教授介紹

?? 世界模型能干什么 ？AI科學家們希望讓機器也能理解這些常識，也就是說要為機器建立世界模型。第一，世界模型需要能看懂這個世界，比如某個跳水視頻，建立了世界模型的AI會告訴你這個動作是向前翻1.5中五轉體。第二，世界模型需要能做出合理的預判，比如說給AI一些上下文介紹一下背景信息，再看一個開始做飯的視頻，AI就能預判每一步的行為。傳統機器人沖咖啡，它的動作呢是預先編排好的，或者起碼絕大部分動作是編好的，機器人只需要按部就班的執行動作就可以了，不需要有腦子，但這個任務不一樣，對于這個任務沒有事先的編排，機器人需要理解這個目標，然后根據這個目標規劃各種執行方案，然后根據腦子中的世界模型判斷哪些方案是可行的，哪個方案是最優的，然后再執行，這種思考方式跟人類是一模一樣的，那為什么要讓機器人具備這種思考能力呢？因為你不可能把機器人可能要做的所有動作都用編程事先編好，面對全新的情況也能解決好，這才叫機器人。如果只是重復類似的動作，這些動作做的再好也只是機器。事實上人類就具備解決新問題的能力。比如說我們知道怎么把水從瓶子里倒到茶杯里，如果把茶杯換成任何形狀的杯子，我們不用學也會知道怎么倒。開完這幾個例子你應該對世界模型能用來干嘛？有了更深刻的理解

理解：世界模型應該能夠理解對世界的觀察，包括識別視頻中的物體、動作和運動。
預測：世界模型應該能夠預測世界將如何演變，以及如果代理采取行動，世界將如何變化。
規劃：基于預測能力，世界模型應該有助于規劃實現給定目標的行動序列。

?? 為什么世界模型值得關注？甚至我覺得在不久的將來，所有科技公司都會開始卷世界模型的，因為自動駕駛和機器人會帶來巨大的商業價值，而世界模型是自動駕駛和機器人的必要條件，沒有世界模型，自動駕駛和機器人就不可能達到優秀水平。先說自動駕駛，現在的自動駕駛大部分都及格了，也就是基本不會撞車了，但體驗上的差別還挺大的，有的自動駕駛，比如特斯拉的SD就更像老司機，有的自動駕駛給人的感覺就比較楞，為什么不同的自動駕駛系統給人的感覺會有這么大的差別？那其實就是基于物理世界的推理能力有差別，為什么這么說呢？我描述一個場景你就明白了，比如在開車的時候，前面有個騎電動車的人離得不算很近，騎車的人呢時不時會往左看，而且在不遠的地方有個能左拐的路口，對于有經驗的老司機。看到這種情況一般都會開始警惕稍微減減速，因為司機有理由相信這個騎電動車的人很可能想往左拐，這就是一種基于物理世界常識的推理，這種推理能力就會讓老司機對各種可能發生的情況有所預判，從而把車開得更加平穩，但如果是新手不會預判，那就只會等到這個電動車突然左拐自己快撞上的時候急剎車，同樣的道理，有物理世界推理能力的自動駕駛系統就會開的比較平穩，但缺乏物理世界推理能力的自動駕駛系統就會開的比較愣，再說機器人之前有很多機器人跳舞和跑跳的視頻。你看上去很酷炫，但其實這些動作大部分都是用編程預先編好的，機器人只是在重復這些動作，這樣的機器人頂多算是個長得像人的機器，因為這些動作不太需要智能，只有當一個機器人在面對大部分新的情況都可以通過推理順利解決掉的時候，這個機器人才能叫真正的有智能。

vjepa2介紹

1.1 網絡框架

??V-JEPA 2使用聯合嵌入預測架構（JEPA）構建，有兩個主要組件：

編碼器，接收原始視頻并輸出embedding，這些embedding捕獲了關于觀察世界狀態的有用語義信息。
預測器，接收視頻embedding和關于預測內容的附加上下文，并輸出預測的embedding。

在這里插入圖片描述

??使用視頻的自監督學習來訓練V-JEPA 2，這使我們能夠在視頻上訓練，而不需要額外的人工注釋。V-JEPA 2訓練包括兩個階段：無動作預訓練，然后是額外的動作條件訓練。

?? 在第一階段——預訓練 ——使用了來自多渠道超過100萬小時的視頻和100萬張圖像。這些豐富的視覺數據幫助模型深入理解世界的運作方式，包括人與物體的互動模式、物體在物理世界中的運動規律以及物體間的相互作用。研究發現，模型在預訓練階段結束后就已展現出與理解和預測相關的關鍵能力。例如，通過在凍結編碼器特征上訓練輕量級的注意力讀出機制（attentive read-out），V-JEPA 2在依賴運動理解的Something-Something v2行為識別任務中表現卓越；同樣地，通過在凍結編碼器和預測器特征上訓練注意力讀出機制，該模型在以自我為中心視頻中預測未來1秒將執行動作（由名詞和動詞構成）的Epic-Kitchens-100行為預期任務上創造了最新技術標桿。最終，將V-JEPA 2與語言模型對齊后，在Perception Test和TempCompass等視頻問答基準測試中實現了最先進的性能表現。
??

??在無動作預訓練階段結束后，該模型能夠預測世界可能如何演變——但這些預測并未直接考慮智能體將采取的具體行動。在 訓練的第二階段，通過使用機器人數據（包含視覺觀測視頻和機器人執行的控制動作）來增強模型的規劃實用性。我們將這些動作信息提供給預測器，從而將該數據整合到JEPA訓練流程中。經過這些額外數據的訓練后，預測器學會了在預測時考慮具體動作，進而可用于控制任務。第二階段所需的機器人數據量并不大——我們的技術報告顯示，僅用62小時的機器人數據訓練，就能獲得可用于規劃控制的模型。

??我們展示了如何利用V-JEPA 2模型，在新環境中進行零樣本機器人規劃，并處理訓練階段未曾接觸的物體。與其他機器人基礎模型不同——這類模型通常要求部分訓練數據必須來自模型部署的具體機器人實例和環境——我們直接在開源DROID數據集上訓練該模型，隨后將其部署于實驗室的實體機器人。實驗證明，V-JEPA 2預測器能夠勝任基礎性任務，例如移動至目標位置、抓取物體以及將其放置到新位置。

??針對短期任務（如抓取或放置物體），采用圖像形式設定目標。通過V-JEPA 2編碼器獲取當前狀態與目標狀態的嵌入表示，機器人從觀測到的當前狀態出發，利用預測器模擬執行候選動作集合的后續狀態，并根據動作使系統接近目標狀態的程度進行評分。每個時間步中，機器人通過模型預測控制重新規劃并執行評分最高的下一步動作。

??對于長期任務（如抓取物體并準確放置至目標位置），我們設定一系列視覺子目標供機器人依次完成，這種方式類似于人類視覺模仿學習的行為模式。借助這些視覺子目標，V-JEPA 2在全新未見環境中執行抓放新物體任務時，成功率可達65%-80%。

vjepa機械臂

1.2 評價指標

??有智能的機器人才能創造足夠大的經濟價值，而具備這種物理世界的推理能力，機器人的腦子里就必須有一個世界模型。 如何評判時間的模型性能呢？大語言模型的能力一般是從數學能力，編程能力，聊天能力等各方面去打分，但這些評判標準顯然不適合世界模型，對于世界模型應該用哪些指標來評判呢？著名的AI開源社區HuggingFace采用了三個全新的指標，用于追蹤前沿模型在Meta FAIR發布的3個物理推理基準數據集上的進展：除了通過公開提交追蹤社區進展外，我們還提供了每個基準的人類評分，以了解領先模型與人類在關鍵物理和視頻推理任務上的表現差距。

1.MVPBench : 一個用于時空和直覺物理視頻理解的視頻問答(VQA)基準。視頻來源于多樣化數據集，并通過自動配對設計，使得每對視頻僅在最小程度上存在差異，但對同一問題有相反的正確答案。這種設計確保模型需要超越依賴表面視覺或文本偏差才能在基準測試中表現良好。

??Minimal Video Pairs（MVPBench） 通過多項選擇題來衡量視頻語言模型的物理理解能力。與文獻中的其他視頻問答基準不同，MVPBench旨在減輕視頻語言模型中觀察到的常見快捷解決方案，例如依賴于膚淺的視覺或文本線索和偏見。MVPBench中的每個示例都有一個最小的變化對：一個視覺上相似的視頻，帶有相同的問題，但答案相反。為了獲得一個例子的信用，模型還必須正確地得到其最小變化對。

IntPhys 2 : 一個旨在評估深度學習模型直覺物理理解能力的視頻基準。IntPhys 2聚焦四個核心原則：Permanence（持久性）、Immutability（不變性）、Spatio-Temporal Continuity（時空連續性）和Solidity（固體性），并提供了一套基于"違反預期"框架的綜合測試，挑戰模型在受控且多樣化的虛擬環境中區分可能和不可能事件的能力。

在這里插入圖片描述
??IntPhys 2專門用于衡量模型區分物理上合理和不合理場景的能力，在早期IntPhys基準的基礎上進行構建和擴展。我們設計的IntPhys 2中類似于發展認知科學家在年輕人通過違反期望范式獲得直覺物理時的評估方式。我們使用一個生成成對視頻的游戲引擎來實現這一點，其中兩個視頻在某個點上是相同的，然后在其中一個視頻中發生物理破壞事件。然后，模型必須確定哪個視頻具有物理破壞事件。雖然人類在各種場景和條件下都能在這項任務上達到近乎完美的準確性，但我們發現當前的視頻模型處于或接近偶然。

CausaNQA : 一個由問答對組成的視頻問答(VQA)基準，用于探究模型對物理世界因果關系的理解。問題設計基于真實世界場景，同時聚焦模型通過五種問題類型預測不同行動和事件可能結果的能力——counterfactual（反事實）、hypothetical（假設）、anticipation（預期）、planning（規劃）和descriptive（描述性）。

在這里插入圖片描述

??因果VQA評估視頻語言模型回答與物理因果關系相關問題的能力。該基準旨在關注物理世界視頻中的因果理解，包括反事實（如果…會發生什么）、預期（接下來可能發生什么）和規劃（為了實現目標下一步應采取什么行動）等問題。研究發現，盡管大型多模態模型在回答視頻中‘發生了什么’的問題上越來越有優勢，但在回答‘可能發生了什么’和‘接下來可能發生什么’的問題上仍顯不足，這表明在預測物理世界如何根據行動和事件空間演變方面，這些模型與人類的表現存在顯著差距。

在這里插入圖片描述