Do generative video models understand physical principles?
- 文章概括
- Physics-IQ基準
- 數據集
- 評估協議
- 為什么要創建一個真實世界的Physics-IQ數據集
- 模型
- 物理理解的評估指標
- 動作發生在哪里?空間IoU(Spatial IoU)
- 動作在哪里、何時發生?時空IoU(Spatiotemporal IoU)
- 動作發生在哪里,以及發生了多少?加權空間IoU(Weighted spatial IoU)
- 動作是如何發生的?均方誤差(MSE)
- 視覺真實感的評估指標:MLLM評估。
- 結果
- 物理理解
- 視覺真實感:多模態大型語言模型評估
- 討論
- 視頻模型是否理解物理原理?
- 視覺真實感并不意味著物理理解。
- 數據集偏差在模型生成中有所體現
- 評估指標及其局限性
- 展望:在沒有交互的情況下能否實現理解?
- 致謝
- 補充材料
- 所有Physics-IQ場景的概覽
- 不同MSE值的可視化
- 調整視頻幀率
- 生成二值掩碼視頻
- MLLM評估提示語
- 生成二值掩碼視頻
- MLLM評估提示語
文章概括
引用:
@article{motamed2025generative,title={Do generative video models learn physical principles from watching videos?},author={Motamed, Saman and Culp, Laura and Swersky, Kevin and Jaini, Priyank and Geirhos, Robert},journal={arXiv preprint arXiv:2501.09038},year={2025}
}
Motamed, S., Culp, L., Swersky, K., Jaini, P. and Geirhos, R., 2025. Do generative video models learn physical principles from watching videos?. arXiv preprint arXiv:2501.09038.
主頁: https://physics-iq.github.io/
原文: https://arxiv.org/abs/2501.09038
代碼、數據和視頻: https://github.com/google-deepmind/physics-IQ-benchmark
系列文章:
請在 《 《 《文章 》 》 》 專欄中查找
宇宙聲明!
引用解析部分屬于自我理解補充,如有錯誤可以評論討論然后改正!
AI視頻生成正經歷一場革命,其質量和真實感正在迅速提升。這些進展引發了一場激烈的科學辯論:視頻模型是否在學習“世界模型”,從而發現物理定律——或者說,它們只是一些精巧的像素預測器,在沒有理解現實物理原理的情況下實現視覺真實感?我們通過開發Physics-IQ來回應這一問題,這是一個全面的基準數據集,只有通過對各種物理原理的深入理解才能解決,例如流體動力學、光學、固體力學、磁學和熱力學。我們發現,在一系列現有模型中(包括Sora、Runway、Pika、Lumiere、Stable Video Diffusion和VideoPoet),其物理理解能力嚴重受限,且與視覺真實感無關。與此同時,一些測試案例已經能夠被成功解決。這表明,僅通過觀察就習得某些物理原理是可能的,但仍然存在重大挑戰。盡管我們預計未來將出現快速的進展,但我們的工作表明,視覺真實并不等同于物理理解。我們的網址是Physics-IQ-website;代碼在Physics-IQ-benchmark。
機器能否在沒有與世界互動的情況下真正理解世界?這個問題正處于有關AI視頻生成模型能力的持續辯論核心。盡管生成逼真的視頻長期以來一直被認為是深度學習中尚未解決的重大挑戰之一,但這種情況最近發生了改變。在相對較短的時間內,這一領域已經出現了一些令人印象深刻的視頻生成模型(1–3),激發了公眾和研究人員的想象力。邁向通用人工智能的一個重要里程碑,是構建能夠理解世界的機器。如果不能理解,就不能創造(用費曼的話說),那么這些模型能夠創造視覺上真實的場景,就是實現這一能力的關鍵一步。然而,成功生成是否等于成功理解,仍是一個激烈爭論的話題。換句話說,只通過“觀看”視頻,生成式視頻模型是否能學會支撐現實的物理原理?
支持者認為,模型的訓練方式——即預測視頻的延續(也稱為“下一幀預測”)——是一種迫使模型理解物理原理的任務。按照這種觀點,如果模型不理解物體的運動方式(軌跡)、物體是向下而不是向上掉落(重力)、以及將果汁倒入一杯水中會如何改變顏色(流體動力學),它就不可能預測序列的下一幀。以類比的方式來看,大型語言模型也是通過類似方式訓練的,即預測文本中的下一個token(字符或單詞);這種任務設置雖簡單,卻已被證明足以賦予模型令人驚嘆的能力和文本理解。此外,預測未來也是生物感知的核心原則之一:大腦不斷生成關于即將到來的感官輸入的預測,從而實現對信息的高效處理(4),并建立一個如馮·赫爾姆霍茨(5)及后來的預測編碼理論(6)所提出的“心理模型”。簡而言之,成功的預測意味著成功的理解。
另一方面,也存在反對通過觀察實現理解的重要論點。按照因果性原理,“觀看”視頻(更準確地說,是訓練模型預測視頻的延續)是一種被動過程,模型無法與世界互動。這種缺乏互動的狀態意味著模型無法觀察干預行為帶來的因果效應(比如孩子在玩玩具時所能做到的那樣)。因此,模型面臨著一項幾乎不可能完成的任務——如果它想要理解物理原理,就必須區分相關性與因果性。
此外,被稱為“通往物理世界通用模擬器的有希望路徑”(1)的視頻模型,或許感知的并非現實世界,而是數字世界——這與機器人或幾乎所有生物所感知的真實世界不同。因此,持懷疑態度的人認為,視覺真實并不等于真正的理解:生成逼真視頻所需要的,只是從模型那龐大的訓練數據海洋中復現常見模式——也就是所謂“沒有理解的捷徑”(7,8)。
面對這兩種截然相反的觀點,我們該如何判斷生成式視頻模型是否真正學習了物理原理?為了以可量化、可處理的方式應對這個問題,我們創建了一個具有挑戰性的視頻模型物理理解測試平臺:“Physics-IQ”基準。其核心理念是讓視頻模型做它們最擅長的事情:預測視頻的延續。為了測試其理解能力,我們設計了一系列多樣化場景,在這些場景中,想要做出正確的預測,必須對物理原理有深入的理解,超越模式復現,并測試其分布外泛化能力。
例如,模型需要預測一串多米諾骨牌如何倒下——在正常情況下與在中間放了一只橡膠鴨子的情況下;又或者,枕頭在被啞鈴砸下與被紙片砸下時的不同反應。這組多樣化的場景涵蓋了固體力學、流體動力學、光學、熱力學和磁學,共包含396段高質量視頻,拍攝角度來自三個不同視角,并在受控環境下錄制。樣例如圖1所示。我們隨后將模型的預測結果與真實的后續視頻進行比較,并使用一系列反映不同目標的評估指標,分析了多個現有模型:Sora(1)、Runway Gen 3(9)、Pika 1.0(10)、Lumiere(11)、Stable Video Diffusion(12)和VideoPoet(13)。
圖1. Physics-IQ數據集中用于測試生成式視頻模型物理理解的示例場景。模型被展示視頻的開頭部分(對于image2video模型為單幀圖像;對于video2video模型為3秒的視頻),并需要預測接下來5秒視頻的變化,這一任務要求對不同物理屬性的理解:固體力學、流體動力學、光學、熱力學和磁學。動態圖版本請參見此處。
Physics-IQ基準
數據集
我們的目標是開發一個數據集,用于測試視頻生成模型在不同物理定律上的物理理解能力,如固體力學、流體動力學、光學、熱力學和磁學。為此,我們創建了Physics-IQ數據集,該數據集包含396段視頻,每段視頻時長8秒,涵蓋66種不同的物理場景。我們數據集中的每一個場景都聚焦于某一特定的物理定律,旨在測試視頻生成模型對物理事件的理解能力。這些事件包括諸如碰撞、物體連續性、遮擋、物體恒存性、流體動力學、鏈式反應、在力(例如重力)作用下的軌跡、材料屬性與反應,以及光線、陰影、反射和磁性等示例。
每個場景均以每秒30幀(FPS)進行拍攝,分辨率為3840×2160(16:9寬高比),從三個不同角度——左側、中心和右側——使用高質量的Sony Alpha a6400相機配備16-50mm鏡頭進行拍攝。每個場景在相同條件下拍攝兩次(第一次和第二次),以捕捉現實物理交互中固有的變異性。這些變異在現實世界中是可以預期的,例如由混亂運動、微小摩擦變化和力的軌跡差異所引起的因素。在本文中,我們將同一場景兩次錄制之間所觀察到的差異稱為物理變異(physical variance)。這最終構成總共396段視頻(66個場景×3個視角×2次拍攝)。我們所有的視頻均由靜態相機拍攝,無相機運動。視頻的拍攝設置如圖8所示。完整的數據集及用于評估模型預測的代碼在此開源發布:
https://github.com/google-deepmind/physics-IQ-benchmark
圖8. 拍攝設置示意圖(上)與拍攝視角示意圖(下)
評估協議
物理理解可以通過不同方式進行測量。其中最嚴格的測試之一是:一個模型能否預測一個具有挑戰性且不尋常的視頻如何繼續——例如,一串多米諾骨牌中間放置了一只橡膠鴨子,從而中斷了骨牌鏈。像這樣的分布外場景(out-of-distribution scenarios)測試的是模型的真實理解,因為這些情況無法通過復現訓練數據中見過或記住的模式來解決(例如參考文獻7, 14–16)。因此,我們通過使用完整的8秒視頻(其中包含有趣的物理事件),將其分割為3秒的條件視頻(conditioning video)和5秒的測試視頻(test video,作為真實標簽),來測試視頻生成模型的物理理解能力。然后將條件信號提供給模型:對于video2video模型(在圖中稱為多幀模型(multiframe models)),輸入的是3秒的視頻;而對于image2video模型(在圖中稱為i2v模型),則輸入的是這段視頻的最后一幀,我們稱之為切換幀(switch frame)。
由于視頻模型的訓練方式本身就是在給定前一幀(或多幀)作為條件信號的情況下生成接下來的幀,我們的評估協議與這些模型的訓練范式完全匹配。切換幀是針對每個場景手動精心挑選的,以便提供足夠的信息描述該物理事件及其中的物體,同時又確保想要成功預測視頻的延續需要一定程度的物理理解(例如,在涉及多米諾骨牌鏈式反應的場景中,切換幀對應的是第一塊骨牌剛剛被推倒、但尚未接觸到第二塊骨牌的那個瞬間)。我們為支持多幀條件輸入的視頻模型提供盡可能多的條件幀(最多3秒)。一些視頻模型(例如Runway Gen 3、Pika 1.0 和 Sora)是基于單張圖像生成后續幀的。對于這些模型,我們僅提供切換幀作為條件信號。圖9展示了Physics-IQ數據集中所有場景的切換幀。
無論是多幀條件輸入模型還是單幀條件輸入模型,均可額外接受由人類撰寫的文本描述,作為場景的條件輸入,該文本描述的是條件視頻的內容,但不會透露未來事件的結果。對于image2video(i2v)和多幀視頻模型的評估,我們同時提供文本描述和條件幀作為輸入信號。在我們研究的模型中,只有Stable Video Diffusion不接受文本作為條件輸入。
圖2. Physics-IQ評估協議概覽。一個視頻生成模型基于條件幀生成一個5秒的視頻延續,對于支持文本輸入的模型,還可以選擇性地加入條件幀的文本描述。生成的視頻將與真實測試幀進行比較,使用四個度量指標來量化物理理解的不同屬性。這些度量標準在方法部分中定義并解釋。用于運行評估的代碼可在Physics-IQ-benchmark中獲取。
為什么要創建一個真實世界的Physics-IQ數據集
關于視頻生成模型是否能夠理解物理原理的問題,已經通過一系列旨在評估物理推理能力的基準進行過探索。Physion(17)及其后續版本Physion++(18)利用物體碰撞和穩定性來評估模型預測物理結果以及在動態交互過程中推斷物體相關屬性(例如質量、摩擦力)的能力。類似地,CRAFT(19)和IntPhys(20)評估因果推理和直覺物理,測試模型是否能夠推斷出力的存在或理解物體恒存性。
直覺物理在認知科學中有著豐富的研究歷史,其核心在于理解人類如何建立對物理原理的常識性直覺(例如參考文獻21–31)。近期的研究將物理推理評估擴展到了生成式視頻模型上。VideoPhy(32)和PhyGenBench(33)專注于通過基于文本的描述而非視覺數據來評估物理常識。這些工作強調對物理原理的邏輯推理,但沒有包含真實世界的視頻或動態視覺語境。PhysGame(34)聚焦于游戲玩法,而Cosmos項目(35)旨在促進更優秀的具身AI,包括機器人系統。LLMPhy(36)將大型語言模型與不可微分的物理模擬器結合起來,迭代地估算物理超參數(例如摩擦、阻尼、布局)并預測場景動態。
其他基準,如CoPhy(37)和CLEVERER(38),強調視頻場景中的反事實推理和因果推理。ESPRIT(39)將物理推理任務與自然語言解釋相結合以增強可解釋性,而PhyWorld(40)評估生成式視頻模型編碼物理規律的能力,重點在于物理真實感。最近模型與方法的綜述詳見文獻(41)。
然而,許多基準存在一個主要缺點,即它們所使用的數據是合成的(見圖3中的樣例)。這會引入一個“真實 vs 合成”的分布偏移,當用于測試在自然視頻上訓練的視頻模型時可能會干擾評估結果。Physics-IQ數據集通過提供真實世界的視頻,捕捉多樣且復雜的物理現象(見圖1),克服了這一局限性。每個場景有三個視角,控制且可測量的物理變異性(通過每段視頻拍攝兩次實現),并設計具有挑戰性的分布外場景,為評估視頻生成模型提供了一個嚴謹的框架。
圖3. 與物理理解相關的近期合成數據集的定性概覽(參考文獻17–20, 37–40)。
這些數據集在其設計目的上表現出色,但由于存在分布偏移,因此并不適合用于評估在真實世界視頻上訓練的模型。
模型
我們在基準測試中評估了八個不同的視頻生成模型:VideoPoet(包括i2v和多幀版本)(13)、Lumiere(i2v和多幀版本)(11)、Runway Gen 3(i2v)(9)、Pika 1.0(i2v)(10)、Stable Video Diffusion(i2v)(12)和Sora(i2v)(1)。我們注意到Luma(42)和Veo2(2)是另外兩個流行的視頻生成模型,但未包含在我們的基準中,因為Luma Labs的使用政策禁止基準測試,而Veo2在撰寫本文時尚未公開發布。
不同模型對輸入條件的要求不同(單幀、多幀或文本條件)、幀率(8–30FPS)和分辨率(從256×256到1280×768)也各不相同。表2展示了一個概覽。在我們的研究中,我們通過對Physics-IQ視頻進行預處理,精確匹配每個模型所偏好的輸入條件、幀率和分辨率(見算法1中的偽代碼)。
表2. 被評估視頻模型的技術規格,包括輸入條件方式、幀率(FPS)和分辨率。
VideoPoet和Lumiere是我們研究中唯一能夠接受多幀作為條件輸入的兩個模型。這些模型還包括一個超分辨率階段,即它們首先生成低分辨率視頻,然后再將其上采樣為高分辨率。由于我們觀察到低分辨率輸出已經足以測試物理真實感,因此我們在測試中跳過了這一步。該基準所包含的物理交互具有明顯的時間信息,因此通常可以預期多幀模型在理論上應當優于i2v模型。
物理理解的評估指標
視頻生成模型通常使用一些評估生成視頻視覺質量和真實感的指標(參考文獻43–46)和基準(參考文獻47–49)。這些指標包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)(43)、結構相似性指數(Structural Similarity Index Measure,SSIM)(44)、弗雷歇視頻距離(Fréchet Video Distance,FVD)(45, 50)以及感知圖像塊相似性(Learned Perceptual Image Patch Similarity,LPIPS)(46)。這些指標適用于將生成視頻的外觀、時間平滑性和統計特征與真實視頻進行比較。
然而,不幸的是,這些指標并不適合用于評估視頻模型是否理解物理規律。例如,PSNR和SSIM都是評估像素級相似性的指標,但無法對視頻中的運動與交互是否正確做出響應;FVD衡量整體特征分布,但不會因物理上不合理的動作懲罰模型;LPIPS則關注的是與人類感知相符的相似性,而非物理合理性。雖然這些指標在各自設計目標上非常有效,但它們并不能判斷一個模型是否真正理解了現實世界的物理。
在我們的基準測試中,我們使用以下四個指標來追蹤物理理解的不同方面:
- 動作發生在哪里?——空間IoU(Spatial IoU)
- 動作在哪里、何時發生?——時空IoU(Spatiotemporal IoU)
- 動作在哪里發生、發生了多少?——加權空間IoU(Weighted Spatial IoU)
- 動作是如何發生的?——均方誤差(MSE)
這四個指標將在下文中詳細解釋,隨后它們被組合為一個單一的得分,即Physics-IQ得分,通過將每個單項分數相加(其中MSE使用負號,因為越小越好)來獲得。這個Physics-IQ得分經過歸一化處理,使得物理變異性(physical variance)——即我們可以合理預期模型能夠捕捉到的上限——對應為100%。
動作發生在哪里?空間IoU(Spatial IoU)
動作發生的位置是衡量物理“正確性”的一個重要指標。例如,在圖1所示的“橡膠鴨打斷多米諾骨牌鏈條”這一場景中,只有橡膠鴨右側的骨牌應該倒下,而左側的骨牌應保持不動。同樣地,一個運動球體的空間軌跡也能反映該運動是否真實可信。我們的空間IoU指標將生成視頻與真實視頻進行比較,以判斷動作/運動的位置是否與真實情況相符。
由于基準視頻是從靜態視角拍攝的,沒有相機運動,因此可以通過在幀之間對像素強度變化設置一個簡單的閾值(偽代碼見算法2),輕松識別動作發生的位置。由此產生一個二值的 h × w × t h×w×t h×w×t“運動掩碼視頻(motion mask video)”,用于突出顯示場景中任何時間點的運動區域。空間IoU隨后通過對時間維度執行最大值操作,將這些掩碼壓縮為一個二值的 h × w h×w h×w空間“運動圖(motion map)”——其原理類似于顯著性圖(saliency map)。因此,運動圖在某個特定位置在任意時間點發生過動作時,該位置的值為1;否則為0。
該運動圖隨后與來自真實視頻的運動圖進行比較,采用交并比(Intersection over Union,IoU)這一常用于目標檢測任務的指標,用于衡量兩個區域的重疊程度,并對不一致區域進行懲罰:
Spatial-IoU = ∣ M real binary,?spatial ∩ M gen binary,?spatial ∣ ∣ M real binary,?spatial ∪ M gen binary,?spatial ∣ \text{Spatial-IoU} = \frac{|M_{\text{real}}^{\text{binary, spatial}} ∩ M_{\text{gen}}^{\text{binary, spatial}}|}{|M_{\text{real}}^{\text{binary, spatial}} ∪ M_{\text{gen}}^{\text{binary, spatial}}|} Spatial-IoU=∣Mrealbinary,?spatial?∪Mgenbinary,?spatial?∣∣Mrealbinary,?spatial?∩Mgenbinary,?spatial?∣?
其中, M real binary,?spatial M_{\text{real}}^{\text{binary, spatial}} Mrealbinary,?spatial?和 M gen binary,?spatial M_{\text{gen}}^{\text{binary, spatial}} Mgenbinary,?spatial?分別是基于真實視頻與生成視頻所計算的運動圖。空間IoU用于衡量動作發生的位置是否正確。
動作在哪里、何時發生?時空IoU(Spatiotemporal IoU)
時空IoU比空間IoU更進一步,它還考慮了動作發生的時間。與空間IoU對時間維度進行壓縮不同,時空IoU是逐幀比較兩個運動掩碼視頻(分別基于真實視頻和生成視頻),并在時間維度 t t t上進行平均計算:
Spatiotemporal-IoU ( M real , M gen ) = ∣ M real ∩ M gen ∣ ∣ M real ∪ M gen ∣ \text{Spatiotemporal-IoU}(M_{\text{real}}, M_{\text{gen}}) = \frac{|M_{\text{real}} ∩ M_{\text{gen}}|}{|M_{\text{real}} ∪ M_{\text{gen}}|} Spatiotemporal-IoU(Mreal?,Mgen?)=∣Mreal?∪Mgen?∣∣Mreal?∩Mgen?∣?
其中, M real M_{\text{real}} Mreal?和 M gen M_{\text{gen}} Mgen?分別是真實視頻和生成視頻對應的 h × w × t h×w×t h×w×t的二值運動掩碼。因此,時空IoU不僅跟蹤動作在視頻中發生在哪里,還跟蹤它是否發生在正確的時間點。如果一個模型在空間IoU上表現良好但在時空IoU上表現較差,這就意味著模型雖然預測了動作發生的位置是正確的,但時間點是錯誤的。
動作發生在哪里,以及發生了多少?加權空間IoU(Weighted spatial IoU)
加權空間IoU在形式上與空間IoU類似,都是比較兩個 h × w h×w h×w的“運動圖”。然而,它不是比較二值運動圖(即某個位置是否發生過動作),而是進一步評估在給定位置發生了多少動作。這使得它能夠區分不同類型的運動,例如由鐘擺引起的運動(在一個區域內重復運動)與滾動的球(只經過某個位置一次)所造成的運動。
加權空間IoU的計算方式是,首先使用前文空間IoU部分所述的 h × w × t h×w×t h×w×t二值運動掩碼視頻,然后對時間維度 t t t進行加權壓縮(而非取最大值)。這種加權的方式就是對每一幀的動作進行平均。由此得到一個加權的 h × w h×w h×w空間“運動圖”。
隨后,通過對兩個加權運動圖中每個像素位置的最小值求和,并除以每個像素位置的最大值,計算該指標:
Weighted-spatial-IoU = ∑ i = 1 n min ? ( M real , i weighted,?spatial , M gen , i weighted,?spatial ) ∑ i = 1 n max ? ( M real , i weighted,?spatial , M gen , i weighted,?spatial ) \text{Weighted-spatial-IoU} = \frac{\sum_{i=1}^{n} \min(M_{\text{real},i}^{\text{weighted, spatial}}, M_{\text{gen},i}^{\text{weighted, spatial}})}{\sum_{i=1}^{n} \max(M_{\text{real},i}^{\text{weighted, spatial}}, M_{\text{gen},i}^{\text{weighted, spatial}})} Weighted-spatial-IoU=∑i=1n?max(Mreal,iweighted,?spatial?,Mgen,iweighted,?spatial?)∑i=1n?min(Mreal,iweighted,?spatial?,Mgen,iweighted,?spatial?)?
其中, M real weighted,?spatial M_{\text{real}}^{\text{weighted, spatial}} Mrealweighted,?spatial?和 M gen weighted,?spatial M_{\text{gen}}^{\text{weighted, spatial}} Mgenweighted,?spatial?分別表示真實視頻和生成視頻在各位置上動作發生的強度的加權運動圖。因此,加權空間IoU不僅衡量動作發生在哪里,也衡量動作發生的量級(多少)。
動作是如何發生的?均方誤差(MSE)
最后,**均方誤差(MSE)**計算的是兩個幀(例如一幀真實幀 f real f_{\text{real}} freal?與一幀生成幀 f gen f_{\text{gen}} fgen?)中對應像素值之間的平方差的平均值。給定兩個幀 f real f_{\text{real}} freal?和 f gen f_{\text{gen}} fgen?,其MSE計算公式如下:
MSE ( f real , f gen ) = 1 n ∑ i = 1 n ( f real , i ? f gen , i ) 2 \text{MSE}(f_{\text{real}}, f_{\text{gen}}) = \frac{1}{n} \sum_{i=1}^{n} (f_{\text{real},i} - f_{\text{gen},i})^2 MSE(freal?,fgen?)=n1?i=1∑n?(freal,i??fgen,i?)2
其中 n n n表示該幀中的像素總數。MSE關注的是像素級的保真度;這是一種非常嚴格的要求,對物體的外觀和交互方式都非常敏感。例如,如果一個生成模型在生成過程中有改變物體顏色的傾向,那么這種在物理上不真實的事件將會被MSE嚴重懲罰。因此,MSE能夠捕捉到前面三個指標未能覆蓋的維度。沒有任何一個指標是完美的,也不應單獨使用它們,但這四個指標結合在一起,能夠全面評估視頻生成模型在物理真實感方面的不同屬性。由于原始的MSE值有時難以直觀理解,我們在圖10中提供了相關直觀解釋。
視覺真實感的評估指標:MLLM評估。
除了衡量物理真實感之外,我們還希望追蹤一個模型在生成逼真視頻方面的說服力,這一能力由一個多模態大型語言模型(MLLM,在本研究中為:Gemini 1.5 Pro(51))進行評估。為了避免模型偏差對評分結果的影響,我們并未直接讓模型評分視頻,而是采用心理物理學中被廣泛認可的實驗方法,即2AFC范式。2AFC指的是雙選強迫選擇(two-alternative-forced-choice)。在我們的實驗中,MLLM會接收到一對真實與生成的視頻,這些視頻屬于同一個場景,但順序隨機打亂。然后,要求MLLM指出哪一個是生成的視頻。MLLM評估得分以百分比形式表示,表示其在所有視頻對中識別正確的準確率,隨機猜測的基準為50%。任何高于50%的準確率表明,MLLM至少在某些情況下能夠正確識別出生成視頻;而接近50%的準確率則說明視頻生成模型成功地欺騙了MLLM,使其將生成視頻誤判為真實視頻,這表明模型具有較高的視覺真實感。關于該實驗的詳細信息可見附錄。
結果
物理理解
我們的Physics-IQ基準的目標是理解并量化生成式視頻模型是否學會了物理原理。因此,我們在基準數據集中對每一個場景以及每一個攝像機角度(左側、中心、右側)對研究中的八個模型進行測試。這些樣本可在圖1中看到。
我們首先在圖4中報告了所有與物理理解相關指標(Spatial-IoU、Spatiotemporal-IoU、Weighted-spatial-IoU、MSE)的聚合Physics-IQ結果。該圖左半部分的主要結論是:所有模型與物理變異性基準線之間都存在巨大差距,得分最高的模型也僅達到100.0%中的29.5%。如我們在前文所述,每個場景都錄制了兩次(take 1和take 2),以估計現實世界物理現象中自然變異的范圍。這個估計值被稱為物理變異性(physical variance);圖中的分數已被歸一化,使得僅因物理隨機性不同的真實視頻對得分為100.0%。
圖4. 當前的視頻生成模型在多大程度上理解物理原理?左圖。 Physics-IQ得分是對四個單項指標的聚合衡量,并進行了歸一化處理,使得僅因物理隨機性而有所不同的真實視頻對的得分為100%。所有被評估的模型都表現出顯著差距,得分最高的模型也僅為29.5%,這表明其物理理解能力仍然嚴重受限。右圖。 此外,圖中還展示了模型在四個指標上的平均排名;左圖中的聚合結果與右圖的平均排名之間的斯皮爾曼相關系數(Spearman correlation)為-0.92,p < 0.005,這說明將多個指標聚合為一個Physics-IQ得分在很大程度上保留了模型的相對排序。
模型性能與真實視頻之間的這一差距表明,當前強大的視頻生成模型在物理理解方面嚴重不足。在不同模型中,VideoPoet(multiframe)(13)排名最高;有趣的是,VideoPoet是一個因果模型(causal model)。對于那兩個既有image2video(i2v)版本又有多幀條件(multiframe)版本的模型,其多幀版本的表現都優于i2v版本。這是可以預期的,因為在我們具有挑戰性的Physics-IQ基準上要求模型預測未來,訪問時間信息(多幀模型具有)應當會有所幫助。
進一步細化總體結果,圖6將模型性能按照不同物理類別進行了細分,包括固體力學、流體動力學、光學、熱力學和磁學。雖然沒有任何一個類別可以被認為已經“解決”,但在不同類別之間模型的表現是有差異的,某些類別顯示出有希望的趨勢,不同模型之間也存在性能差異。
圖6. 各視頻生成模型在不同物理類別(列)和評估指標(行)上的性能比較。
前三個指標中得分越高越好;最后一個指標中數值越低越好。圖中用虛線表示物理變異性(即:真實視頻之間僅因物理隨機性差異所能達到的性能)。在所有指標和物理類別中,模型整體表現出明顯的物理理解缺失。像**Spatial-IoU(第一行)**這類要求較寬松、僅評估動作發生“位置”的指標往往會得到較高得分,而那些同時考慮動作發生的“時間”或“強度”的更嚴格指標則得分較低。
值得注意的是,所有模型在空間IoU(Spatial-IoU) 上的表現明顯更好——這是一個要求最低的指標,因為它僅關注動作發生的“位置”,而不考慮動作是否發生在正確時間點(如Spatiotemporal-IoU所衡量),或是否具有正確的動作強度(如Weighted-spatial-IoU所衡量)。
此外,即便是像MSE這樣相對簡單的指標,也表現出真實物理視頻與模型生成預測之間的巨大差距。
各模型在每一個單獨指標上的表現詳見表1。如聚合結果所預示的那樣,VideoPoet(multiframe) 在四個指標中有三個表現最好。
表1. 不同模型在各評估指標上的得分比較。 每個指標中表現最好的模型已用加粗字體標出。請注意,**物理變異性(Physical Variance)**作為每個指標的性能上限,用于表示兩個真實視頻之間的差異,并反映現實世界場景中固有的變異性。
在定性方面,Sora生成的視頻通常在視覺和藝術表現上更具優勢,但它們經常出現切換鏡頭(transition cuts)——盡管我們明確要求不得更換攝像角度——這一行為在多個指標中會被懲罰。我們預計,如果該模型未來版本能更嚴格遵循提示(如使用靜態攝像機視角、無攝像機移動),其Physics-IQ得分將會有顯著提升。
在圖7中,我們展示了模型生成視頻的成功與失敗案例的定性分析結果。
圖7. 展示VideoPoet與Runway Gen 3這兩個最佳模型在流體動力學與固體力學類別下的成功與失敗案例。 根據我們的評估指標,這兩個模型都能夠在某些場景中生成物理合理的幀,例如:VideoPoet成功模擬了“在玻璃上涂抹顏料”的場景,Runway Gen 3成功模擬了“將紅色液體倒在橡膠鴨身上”的場景。與此同時,它們在模擬“球掉入箱子中”或“用刀切橘子”這類情境時都失敗了。該圖的動態圖版本請參見在線鏈接。
視覺真實感:多模態大型語言模型評估
圖5. 視覺真實感與物理理解之間的關系。
左圖。 多模態大型語言模型(Gemini 1.5 Pro)在雙選強迫選擇(2AFC)范式下被要求從每一個場景中真實視頻與生成視頻的配對中識別出生成視頻(即MLLM得分)。隨機猜測的基準為50%;得分越低,說明該模型越難區分生成視頻與真實視頻(=視覺真實感越好)。在所有模型中,Sora生成的視頻最難被模型區分出與真實視頻的差異,而Lumiere(multiframe)生成的視頻最容易識別為“生成”。
右圖。 那些生成“外觀看起來真實”的視頻的模型(由MLLM得分評估)是否也能在物理理解方面得分更高(由Physics-IQ得分評估)?這個散點圖展示了一個包含線性擬合的關系圖,陰影區域為95%的置信區間。結果表明:視覺真實感與物理理解之間沒有相關性(皮爾遜相關系數 r = ? 0.46 r=-0.46 r=?0.46, p = 0.249 p=0.249 p=0.249,不顯著)。請注意,為便于解讀,該圖中縱軸方向為反轉(圖中向右上表示更好)。
我們的結果表明,當前的生成式視頻模型在物理理解方面嚴重不足。那么,為什么這些模型在網上傳播的樣本看起來卻如此逼真?為此,我們決定通過讓一個強大的多模態大型語言模型——Gemini 1.5 Pro(51)——識別Physics-IQ基準中每個場景下兩段視頻中哪一段是模型生成的,從而量化生成視頻的視覺真實感。該實驗的結果展示在圖5(左)中。
MLLM得分用于評估一個視頻生成模型欺騙多模態大型語言模型,使其將生成視頻誤判為真實視頻的能力。當準確率接近隨機猜測水平(50%)時,表明MLLM難以分辨真實視頻與生成視頻,從而反映出生成視頻的視覺真實感較高。
總體來看,MLLM在識別模型生成的視頻方面通常表現良好(例如Lumiere multiframe的識別準確率高達86.9%);盡管如此,模型給出的判斷理由往往與視頻的視覺內容無關,類似于人類實驗中已知的事后推理(post-hoc rationalizations)(52)。
有一個模型表現尤為突出:Sora的MLLM得分為55.6%,顯著優于所有其他模型。Runway Gen 3和**VideoPoet(multiframe)**分別以74.8%和77.3%的得分位居第二和第三,但與Sora仍有顯著差距。
因此,像Sora這樣的高能力模型確實能夠生成視覺上非常真實的視頻——盡管如前文所示,其在理解物理原理方面的能力非常有限。這個發現與一系列有趣研究的結論一致,這些研究指出許多深度學習模型同樣缺乏對直覺物理和因果推理的理解(參考文獻53–58),有時甚至被稱為“盲目”的(59)。
對于視頻模型,我們沒有發現視覺真實感與物理理解之間存在顯著相關性:圖5(右)表明,生成逼真視頻與理解現實世界中的物理原理是兩種不同的能力。
討論
我們引入了Physics-IQ,這是一個具有挑戰性且全面的真實世界基準,用于評估視頻生成模型的物理理解能力。我們在Physics-IQ上分析了八個模型,并提出了一系列用于量化物理理解的評估指標。該基準數據和指標覆蓋了廣泛的設置,并揭示出一個顯著的差異:視覺真實感(在當前模型中有時表現良好)與物理理解(在當前模型中普遍缺乏)之間并不一致。
視頻模型是否理解物理原理?
我們探討了這樣一個問題:視頻生成模型生成逼真視頻的能力是否也意味著它們已經掌握了支配現實世界的物理原理?我們的基準結果表明:并非如此。所有被評估的模型當前都缺乏對物理的深入理解。即便是得分最高的模型——VideoPoet(multiframe)——也僅獲得了29.5分,遠低于作為性能上限的100.0分(該得分由“物理變異性”基準確定,表示在真實視頻之間觀察到的自然變異程度)。
盡管如此,我們的結果并不意味著未來的模型無法通過“下一幀預測”學習到更好的物理理解。一個尚未解決的問題是:是否僅通過擴大當前范式的規模就可以解決這一問題,或是否需要引入替代的(甚至是更具交互性的)訓練機制。考慮到深度學習在規模擴展方面的成功,我們對“未來幀預測”這一范式本身仍持樂觀態度:雖然成功的預測不一定意味著成功的理解,但更好的理解顯然會有助于實現更成功的預測。
通過預測像素來學習物理規律聽起來可能非常具有挑戰性,但我們已經知道語言模型能夠僅通過預測文本學會句法和語法(60)。
值得指出的是,盡管我們研究中的模型在很多情況下未能生成物理合理的視頻延續,但當前的大多數模型在某些場景中已經取得了成功。例如,得分最高的模型VideoPoet(multiframe)在某些場景中展現了顯著的物理理解能力——例如準確模擬了顏料在玻璃上涂抹的過程。相較之下,許多低排名的模型則表現出基本錯誤,比如物理上不可能的交互(例如,物體穿過另一個物體)。
一項基于合成數據集的研究(40)已經表明:只要數據集足夠大,視頻模型就能夠學習特定的物理規律。我們認為,隨著模型在更大規模、更具多樣性的視頻語料上進行訓練,其對現實世界物理的理解將會不斷提升。我們希望,通過像Physics-IQ基準這樣量化物理理解的方式,并將其開源,可以有助于推動該領域的發展,并便于追蹤進展。
視覺真實感并不意味著物理理解。
我們觀察到視覺真實感與物理理解之間存在顯著的不一致性:這兩個屬性之間沒有統計學顯著相關性(見圖5),因此,生成最逼真視頻的模型并不一定能夠生成最符合物理規律的延續內容。
例如,在一個場景中,一根燃燒的火柴被緩慢放入一杯水中(火焰因此熄滅),而Runway Gen 3生成的延續中卻是:當火焰剛接觸到水面時,一根蠟燭突然出現,并被火柴點燃。該視頻的每一幀在分辨率和視覺真實感方面都非常高質量,但整個時間序列在物理上是不可能的。
這種將物體“幻想”出來的傾向,是許多生成模型的一個缺陷,也是深度學習中的一個活躍研究方向(61)。在我們的實驗中,我們在所有模型中都觀察到了幻覺現象,但更強大的模型,如Runway Gen 3和Sora,通常產生的幻覺信息至少在語境上是合理的(例如:火柴與蠟燭的搭配),這至少表明它們具有一定程度的理解能力。
數據集偏差在模型生成中有所體現
我們觀察到,大多數模型在生成視頻時都能與所提供的場景和視角保持一致。像Sora和Runway Gen 3這樣的模型在理解所給場景方面表現尤為出色,生成的后續幀在物體位置及其屬性(形狀、顏色、動態)方面也高度一致。
有趣的是,許多模型還會根據其訓練數據的特性展現出偏倚生成行為。例如,在原型測試中我們發現:當輸入一段“紅色臺球桌上一顆球撞擊另一顆球”的條件視頻時,Lumiere在生成的過程中立即將紅色臺球桌變成了綠色,表現出對常見綠色臺球桌的偏好。類似地,Sora生成的視頻中常常出現切換鏡頭(transition cuts),這可能表明它的訓練范式是為生成更具藝術性的視覺視頻所優化的。
評估指標及其局限性
當前用于測試生成視頻質量和真實感的常用指標包括PSNR(43)、FVD(45)、LPIPS(46)和SSIM(44)。然而,設計能夠量化生成視頻中物理理解能力的指標仍是一項挑戰。我們提出了一整套評估指標,用于衡量視頻模型在空間一致性、時間一致性和感知一致性方面的表現。
雖然這些指標單獨來看都不是完美的,但它們的綜合表現,以及對這些指標進行歸一化后所得出的Physics-IQ得分,能夠從整體上評估視頻模型的優劣之處。需要指出的是,這些指標并不能直接量化任何物理現象,而只是作為一種代理(proxy)。例如,MLLM指標提供了一種方式,用于衡量生成視頻欺騙多模態模型的程度。但該指標的有效性受到所使用多模態大型語言模型(MLLM)本身能力的限制。
我們的分析發現:盡管MLLM通常能識別出生成視頻(除了由Sora生成的視頻外),但其判斷理由往往是錯誤的。
再比如,我們觀察到Stable Video Diffusion常常生成包含大量幻覺內容和不合理物體運動的視頻;然而,它的Spatial-IoU得分卻與Lumiere、Sora、Pika和VideoPoet(i2v)在同一水平。這表明任何一個指標都不應被單獨使用。另一個例子是:Runway Gen 3在動作發生的空間位置(Spatial-IoU)方面表現非常出色,但在時間一致性(Spatiotemporal-IoU)方面得分很低。
我們有意將Physics-IQ設計為一個具有挑戰性的基準,以便為未來模型開發提供更具價值的信號。在這個背景下,有必要指出:我們的評估指標在某種程度上是保守的,它們對物體幻覺、相機運動(盡管我們提示模型不要移動相機)或鏡頭切換進行較強懲罰。
例如,Sora相較于其他模型更頻繁地表現出這些行為,導致它在某些指標上得分較低。這種現象并不理想,但我們認為,在像深度學習這樣時常伴隨炒作的領域中,科學基準應當更傾向于謹慎保守,以確保結果的可靠性與穩健性。
展望:在沒有交互的情況下能否實現理解?
我們的發現與一個更廣泛的、跨學科的核心智能議題密切相關:對世界的理解是否源于對下一步會發生什么的預測(在人工智能中體現為“下一幀視頻預測”,在神經科學中體現為“預測編碼”)——或者說,理解世界是否必須依賴于與世界的交互(正如具身認知與機器人學派所主張的那樣)?
在認知科學中,與世界交互的能力被視為發展“直覺物理”能力的重要組成部分(參考文獻62–65),這通常與預測個體行為結果的能力相結合(參考文獻66–68)。
相比之下,當前深度學習所采用的核心方法是在缺乏交互的情況下對模型與數據集進行擴展。那么問題是:這些模型能否最終解決物理理解的問題——**抑或是會達到某種上限,在那之后,只有通過與世界互動才能進一步提高對世界的理解?**這個問題目前尚無定論,但本文提出的基準和分析方法可能有助于對該問題進行量化評估,無論答案傾向于哪一方。
除了未來模型本身的改進之外,提升也可能來自推理階段的擴展(inference-time scaling)(參考文獻69–71),例如增加采樣次數。如果這類方法確實能帶來顯著提升,那么將引出一個哲學層面的問題:從模型的角度來看,現實是否只是無窮可能性中的一種?
致謝
作者衷心感謝David Fleet、Been Kim、Pieter-Jan Kindermans、Kelsey Allen、Jasmine Karimi、Katherine Hermann、Mike Mozer、Phoebe Kirk、Saurabh Saxena、Daniel Watson、Meera Hahn、Sara Mahdavi、Tim Brooks、Charles Herrmann、Isabelle Simpson、Jon Shlens和Chris Jones在各方面對本項目的支持與寶貴討論。
補充材料
所有Physics-IQ場景的概覽
圖9展示了Physics-IQ數據集中全部66個場景的切換幀(switch frames)(中心視角)。這些幀代表條件信號的最后一幀,之后模型將被要求對未來幀進行預測。
圖9. Physics-IQ基準中所有場景的切換幀(此處僅展示中心視角)。切換幀是模型被要求預測接下來5秒未來幀之前的最后一幀條件輸入。
不同MSE值的可視化
圖10展示了將一種失真作用于視頻場景后與MSE(均方誤差)之間的關系。請注意,基準中的任何視頻都未被施加失真;這只是為了直觀展示某一特定MSE值會對圖像產生多大程度的扭曲。
圖10. 由于均方誤差(MSE)的數值有時難以直觀理解,本圖展示了將不同程度的失真應用于場景后產生的效果,作為對在不同噪聲水平下MSE影響的粗略直觀理解。
調整視頻幀率
以下偽代碼概述了一種使用線性插值的方法來更改視頻的幀率(FPS)。它在原始幀之間生成平滑過渡,同時可選地調整輸出分辨率。該技術能夠確保時間一致性,使其非常適合于為具有不同FPS需求的模型生成所需幀率的視頻,從而適配Physics-IQ。
生成二值掩碼視頻
以下偽代碼描述了一種生成二值掩碼視頻的方法,用于突出顯示運動物體。該算法結合了背景減除、自適應更新與形態學操作,以檢測并清晰地分割視頻幀中的運動部分。該方法對于在Physics-IQ評估中創建空間與時間掩碼非常有用。
MLLM評估提示語
在雙選強迫選擇(2AFC)范式中使用的提示語如下:
“你的任務是幫我整理我的視頻。我把我用相機拍攝的真實視頻和用計算機生成的類似視頻混在了一起。我只知道下面兩段視頻中有一段是真實的,有一段是生成的。請你觀看這兩個視頻,并告訴我哪一個是生成的視頻。如果你做得很好,幫我找出生成的視頻,我會獎勵你100美元。請你先解釋你的推理過程,然后以以下其中一句結尾:‘因此,第一個視頻是生成的視頻’,或者‘因此,第二個視頻是生成的視頻’。”
生成二值掩碼視頻
以下偽代碼描述了一種生成二值掩碼視頻的方法,用于突出顯示運動物體。該算法結合了背景減除、自適應更新與形態學操作,以檢測并清晰地分割視頻幀中的運動部分。該方法對于在Physics-IQ評估中創建空間與時間掩碼非常有用。
MLLM評估提示語
在雙選強迫選擇(2AFC)范式中使用的提示語如下:
“你的任務是幫我整理我的視頻。我把我用相機拍攝的真實視頻和用計算機生成的類似視頻混在了一起。我只知道下面兩段視頻中有一段是真實的,有一段是生成的。請你觀看這兩個視頻,并告訴我哪一個是生成的視頻。如果你做得很好,幫我找出生成的視頻,我會獎勵你100美元。請你先解釋你的推理過程,然后以以下其中一句結尾:‘因此,第一個視頻是生成的視頻’,或者‘因此,第二個視頻是生成的視頻’。”
“Your task is to help me sort my videos. I mixed up real videos that I shot with my camera and similar videos that I generated with a computer. I only know that exactly one of the two videos is the real one, and exactly one of the following two videos is the generated one. Please take a look at the two videos and let me know which of them is the generated one. I’ll tip you $100 if you do a great job and help me identify the generated one. First explain your reasoning, then end with the following statement: ‘For this reason, the first video is the generated one’ or ‘For this reason, the second video is the generated one’.”