??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/
Meta正式發布了其最新一代世界模型——V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。這是一個在物理世界視覺理解和預測方面實現最先進性能的大型模型,具備零樣本環境下的機器人規劃能力,可以讓AI代理與陌生物體和未知環境交互,完成復雜任務。此次發布不僅標志著Meta向“高級機器智能(AMI)”目標邁出的關鍵一步,也帶來了三個全新物理推理評測基準,用于全面評估視頻模型的物理直覺與因果理解能力。
什么是“世界模型”?
人類擁有與生俱來的物理直覺——比如把網球拋向空中,自然會期待它因重力落下,而不會莫名其妙漂浮、變向或變成蘋果。即使在學會完整說話之前,兒童已開始通過觀察積累這種“世界如何運行”的基本認知。
這種對世界狀態和行為結果的預測能力,是人類在面對新環境、新任務時作出決策的基礎。例如在擁擠的人群中行走、在冰球場上滑向未來的球點、或烹飪過程中控制火候,背后都依賴內心的“世界模型”。
對于人工智能來說,構建這樣的世界模型意味著系統能夠:
- 理解觀察到的世界狀態(識別視頻中的物體、動作和運動模式);
- 預測世界狀態的演變,及在特定行動下會如何變化;
- 規劃一系列行動以達成某一目標。
V-JEPA 2:從視頻中學習世界如何運行
V-JEPA 2是一個擁有12億參數的模型,建立在Meta自研的**Joint Embedding Predictive Architecture(JEPA)**架構上。它由兩個關鍵組件構成:
- 編碼器:接收原始視頻,提取語義嵌入特征,理解當前世界狀態;
- 預測器:根據嵌入特征與上下文信息,輸出對未來狀態的預測嵌入。
V-JEPA 2通過自監督學習訓練而成,無需人工標注,主要分兩個階段:
階段一:無動作預訓練
模型在超過100萬小時視頻和100萬張圖像上進行訓練,涵蓋人類行為、物體運動及物體交互等視覺知識。僅在此階段,V-JEPA 2就已展現強大的理解與預測能力:
- 在動作識別任務Something-Something v2上實現新紀錄;
- 在Epic-Kitchens-100動作預判任務上超越前沿模型;
- 與語言模型對齊后,在視頻問答任務如Perception Test與TempCompass上刷新SOTA表現。
階段二:引入機器人控制數據
通過接入僅62小時的機器人控制數據,模型進一步學習將具體行動映射至未來狀態預測。這使得模型不僅能預測“世界可能如何變化”,還具備了動作條件下的控制能力,實現規劃執行。
零樣本機器人控制能力
V-JEPA 2可直接在未見過的新環境、新物體中進行零樣本規劃與機器人控制。不同于其他機器人基礎模型需在部署環境中采集訓練數據,V-JEPA 2僅使用公開DROID數據集訓練,即可部署至實際機器人系統,實現如“抓取并放置物體”這類基礎任務。
對于短期任務(如抓取物體),用戶提供目標圖像,模型通過編碼當前狀態和目標狀態進行比對并規劃行為。在每一步中,機器人都會重新評估行動方案,并通過模型預測控制(Model Predictive Control)執行最佳動作。
對于長期任務(如將物體放置至指定位置),V-JEPA 2支持多階段目標規劃(Visual Subgoal Planning),仿似人類模仿學習。這使得機器人在未見物體/環境下的任務完成率達到65%至80%。
三項全新開放評測基準:衡量視頻模型的“物理世界智慧”
Meta還同步發布三項評測數據集,用于測試當前視頻模型是否真正具備“物理直覺”和“因果推理”能力。這些基準覆蓋人類在生活中本能掌握的基本物理規律與推理方式。
1. IntPhys 2
衡量模型判斷物理可能性與不可能性的能力。通過成對視頻對比:兩個視頻前半段完全一致,后半段其中一個發生違反物理規律的事件(如穿墻、漂浮),模型需判斷哪一個不合常理。人類準確率可達95%,但當前模型仍接近隨機水平。
2. MVPBench(Minimal Video Pairs)
使用微差視頻對測試模型在視覺-語言問答中的物理理解。每組題目含兩條幾乎相同視頻,但正確答案相反。只有同時答對主視頻與“微差版本”問題,才算通過,避免模型依賴表面特征作弊。
3. CausalVQA
考查模型是否能回答物理因果關系相關問題。包括:
- “如果發生某事,會如何?”
- “接下來可能會發生什么?”
- “為達成目標,下一個動作應是什么?”
這類問題比“視頻中發生了什么”更具挑戰性,測試模型是否真正理解動態因果鏈條。目前模型在這些問題上與人類表現仍有顯著差距。
未來展望:通向高級機器智能的下一步
V-JEPA 2已具備單一時間尺度上的理解與預測能力。但現實任務通常需跨越多個時間尺度(如烘焙蛋糕、組裝家具)。下一階段,Meta將探索多層次、分層式JEPA模型,讓AI能處理長期目標與中短期子任務之間的協調。
此外,Meta還計劃發展多模態世界模型,引入視覺、音頻、觸覺等多感知維度,以進一步貼近人類認知方式。
資源獲取與社區開放:
Meta已開源如下內容:
- 模型代碼與檢查點(Checkpoints):可用于研究與商用部署
- 三項評測數據集(IntPhys 2、MVPBench、CausalVQA)
- 模型排行榜:可在 Hugging Face 上查看模型表現
- 技術論文與實驗報告
歡迎研究社區下載使用,共同推動世界模型的發展:
- GitHub:V-JEPA 2 (https://github.com/facebookresearch/vjepa2)、IntPhys 2 (https://github.com/facebookresearch/IntPhys2)、MVPBench (https://github.com/facebookresearch/minimal_video_pairs)、CausalVQA (https://github.com/facebookresearch/CausalVQA)
結語
V-JEPA 2不僅是一個強大的視頻預測模型,更是Meta在構建“能理解、能預測、能規劃”的智能體道路上的關鍵里程碑。隨著世界模型能力的增強,AI將更接近人類的認知機制,在物理世界中實現安全、靈活、可靠的智能交互。這不僅是技術上的突破,更可能徹底重塑機器人、自動駕駛、家庭助手等AI實際應用的能力邊界。