中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

本文作者：鄭佳美

2026-03-30 14:53

導(dǎo)語：ProPhy：一種讓視頻生成同時具備視覺真實和物理合理能力的方法。

過去兩年，視頻生成模型的發(fā)展呈現(xiàn)出一個非常明顯的趨勢：視覺質(zhì)量在快速逼近真實世界。從最初的模糊片段，到如今可以生成具有復(fù)雜場景、多主體交互甚至長時序敘事的視頻，模型在紋理、光影和語義一致性方面已經(jīng)取得了長足進步。一些系統(tǒng)甚至被稱為通用世界模型的雛形，試圖通過數(shù)據(jù)驅(qū)動的方式重建現(xiàn)實世界的運行規(guī)律。

但隨著分辨率和時長的提升，一個更深層的問題開始暴露出來：模型在視覺上越來越真實，卻在物理上仍然不可信。也就是說，模型擅長生成看起來像真實世界的畫面，卻并不真正理解現(xiàn)實世界是如何運作的。這種差距在動態(tài)場景中尤為明顯。當場景涉及接觸、受力、流動或能量傳遞時，模型往往無法維持一致的物理邏輯。

例如，在一些生成視頻中，可以觀察到物體在移動過程中缺乏連續(xù)的動力來源，運動像被“直接插值”出來；兩個物體發(fā)生交互時，接觸關(guān)系模糊甚至消失，表現(xiàn)為輕微重疊或延遲響應(yīng)；再比如布料、煙霧或水流的變化往往只遵循外觀模式，而不是環(huán)境約束，導(dǎo)致整體行為缺乏穩(wěn)定性。

這些問題的本質(zhì)并不是數(shù)據(jù)不足，而是模型缺少對物理因果關(guān)系和空間約束的建模能力。如何讓視頻生成模型從“視覺擬合”走向“物理一致”，成為當前領(lǐng)域中的關(guān)鍵問題之一。

在這樣的背景下，中山大學(xué)梁小丹團隊提出了《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》，嘗試系統(tǒng)性地解決這一問題。

與以往方法不同，這項研究不再依賴單一層面的物理提示，而是通過分層建模和逐步對齊的方式，將物理信息從全局語義逐漸細化到局部空間，使模型能夠在不同區(qū)域響應(yīng)不同的物理規(guī)律。

更重要的是，研究團隊引入視覺語言模型作為中介，將其在空間理解上的優(yōu)勢轉(zhuǎn)化為生成模型的監(jiān)督信號，從而彌補生成模型在物理定位能力上的不足。這種設(shè)計使模型不僅能夠判斷發(fā)生了什么，還能夠理解發(fā)生在什么位置，并在時間上保持一致的物理行為。

從更宏觀的角度來看，這項工作所指向的并不僅僅是視頻生成質(zhì)量的提升，而是一個更深層的轉(zhuǎn)變：生成模型正在從再現(xiàn)視覺現(xiàn)象，逐步邁向?qū)κ澜邕\行機制的近似建模。

這一轉(zhuǎn)變對于未來的智能系統(tǒng)具有基礎(chǔ)性意義，因為只有當模型能夠在動態(tài)過程中遵循基本規(guī)律時，才有可能被用于更復(fù)雜的任務(wù)，例如交互式環(huán)境構(gòu)建、真實場景仿真以及決策系統(tǒng)訓(xùn)練。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

論文地址：https://arxiv.org/pdf/2512.05564

從「看起來真實」到「物理上正確」

整體來看，研究結(jié)果主要圍繞一個核心目標展開，也就是讓生成的視頻不僅看起來真實，而且能夠符合物理規(guī)律。研究團隊并不是用普通的視頻生成評測方式，而是專門采用了一個面向物理合理性的評測體系 VideoPhy2。

在這個評測中，輸入是一段文本描述，例如“球撞擊地面揚起灰塵”，模型需要根據(jù)文本生成視頻，然后由評測系統(tǒng)判斷兩個問題：第一，生成的視頻是否符合物理常識；第二，視頻內(nèi)容是否符合文本描述。

在這一評測體系中，有三個非常關(guān)鍵的指標。第一個是 PC，也就是 Physical Commonsense，用來衡量視頻是否違反基本物理規(guī)律，比如重力、流體運動或者碰撞行為。第二個是 SA，也就是 Semantic Adherence，用來判斷視頻是否正確完成了文本描述中的語義任務(wù)，例如是否真的發(fā)生了“倒水”這一行為。第三個是 Joint，表示同時滿足 PC 和 SA，也就是既符合物理，又符合語義，這是評估模型生成的視頻是否符合物理現(xiàn)象的綜合指標。

在具體實驗結(jié)果方面，研究人員首先在 Wan2.1（1.3B）模型上進行了對比。原始模型的 PC 為 57.8，SA 為 30.0，Joint 為 24.8；加入 ProPhy 之后，PC 提升到 65.0，SA 提升到 32.0，Joint 提升到 26.5。可以看到，PC 提升了 7.2，這是最顯著的變化，說明模型明顯減少了違反物理規(guī)律的情況，例如更少出現(xiàn)水向上流動或者物體發(fā)生穿透的現(xiàn)象。

相比之下，SA 只提升了 2，這說明 ProPhy 的主要作用并不在于提升對文本的理解能力，而是在于增強物理正確性。Joint 只提升了 1.7，原因在于 Joint 必須同時滿足 PC 和 SA，而 SA 本身數(shù)值較低，限制了整體提升空間。

在更強的模型 CogVideoX 上，結(jié)果同樣顯著。原始模型的 Joint 約為 22.3，加入 ProPhy 后提升到約 26.7，提升幅度約為 4.4。這個結(jié)果不僅超過了 WISA，也超過了 VideoREPA，說明這種方法能夠同時提升參數(shù)量不同的視頻生成模型的物理生成能力。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

為了進一步驗證方法在復(fù)雜場景中的表現(xiàn)，研究人員還在 HARD 子集上進行了測試。這一子集包含多物體交互、高速運動以及復(fù)雜物理過程等更具挑戰(zhàn)性的情況。在 Wan2.1 上，Joint 從 5.6 提升到 7.2；在 CogVideoX 上，Joint 從 5.0 提升到 6.1。雖然這些數(shù)值整體較低，但由于任務(wù)本身難度極高，這種提升具有重要意義，說明 ProPhy 在真正需要物理推理的場景中更有效。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

除了物理合理性，研究人員還使用VBench 評測體系評估了生成視頻的質(zhì)量。結(jié)果顯示，動態(tài)程度從 46.8 提升到 72，總體質(zhì)量評分從 76.8 提升到 81。這一現(xiàn)象說明物理建模在提升視頻動態(tài)表現(xiàn)的同時，略微提升了視頻的質(zhì)量。深層原因在于，動態(tài)如果不符合物理規(guī)律，會直接導(dǎo)致視覺不自然，例如水流錯誤會顯得不真實，碰撞錯誤會讓動作顯得不連貫。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在定性結(jié)果方面，研究通過多個案例展示模型行為的變化。在揚塵場景中，傳統(tǒng)模型會在球還未落地時就產(chǎn)生灰塵，而 ProPhy 只有在接觸地面之后才產(chǎn)生揚塵，這表明模型學(xué)會了“接觸導(dǎo)致結(jié)果”的因果關(guān)系。

在碰撞場景中，傳統(tǒng)模型可能出現(xiàn)球體穿透或靜止不動，而 ProPhy 能夠表現(xiàn)出動量傳遞，小球在被撞擊后開始運動，說明模型隱式地學(xué)習(xí)到了動量守恒。在流體場景中，傳統(tǒng)模型可能生成違反約束的水流，而 ProPhy 的流動表現(xiàn)更加合理。

綜合來看，這些結(jié)果說明模型不再只是依賴圖像模式進行生成，而是開始遵循一定的物理規(guī)則，表現(xiàn)出對物理因果關(guān)系的理解能力。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

一條從語義到空間的物理建模鏈路

實驗經(jīng)過可以理解為一個從文本到物理再到視頻逐步細化的過程。模型首先接收文本 prompt 作為輸入，隨后依次經(jīng)歷三個關(guān)鍵步驟：提取物理信息，將這些物理信息注入到視頻生成過程中，并在生成過程中逐層進行細化，使物理規(guī)律逐漸融入到視頻內(nèi)容中。

在第一階段，研究團隊設(shè)計了語義級物理模塊 SEB，其核心作用是從文本中提取視頻涉及的物理現(xiàn)象，也就是判斷“這個視頻涉及哪些物理過程”。在內(nèi)部結(jié)構(gòu)上，這一模塊包含 32 個物理專家，每個專家對應(yīng)一種不同的物理模式，例如燃燒、流體或碰撞等。

SEB 中還存在一個路由器，用于為每個特定領(lǐng)域的隱式物理專家分配權(quán)重。通過這種方式，模型可以得到一個加權(quán)組合的結(jié)果，也就是一個“混合的物理先驗”。從本質(zhì)上看，SEB 可以理解為一個物理分類器與權(quán)重分配器的結(jié)合體，它負責在全局層面確定視頻的物理屬性。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在第二階段，研究人員引入了細粒度模塊 REB，用于進行 token 級別的物理建模。引入這一層的原因在于，同一個視頻中往往存在多個不同的物理現(xiàn)象，例如火焰可能出現(xiàn)在畫面左側(cè)，而水流可能出現(xiàn)在右側(cè)，因此需要對空間進行區(qū)分。REB的具體作用是針對每一個 token 判斷其對應(yīng)的物理現(xiàn)象。

在實現(xiàn)上，與 SEB 不同的是，每個 token 會從中選擇 top-k 個專家進行計算，從而得到更精細的物理表達。最終輸出的是一個空間上的物理分布圖，也就是每個位置對應(yīng)哪種物理現(xiàn)象。從本質(zhì)上看，REB可以理解為一個基于VLM的物理分割器，使模型能夠在空間上區(qū)分不同物理過程。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在整個方法中，最關(guān)鍵的一部分是引入了 VLM 監(jiān)督機制。研究人員發(fā)現(xiàn)，視頻生成模型在識別“物理現(xiàn)象發(fā)生在哪里”這一問題上能力較弱，而視覺語言模型在這一任務(wù)上表現(xiàn)更強。因此，研究團隊利用 VLM 來為模型提供監(jiān)督信號。

具體流程分為多個步驟：首先向 VLM 提問“視頻中的燃燒在哪里”，然后得到文本 token 以及與之對應(yīng)的視覺 token；接著通過計算注意力得到燃燒區(qū)域；隨后再詢問“背景是什么”，得到背景區(qū)域；最后將兩者相減，從而得到純粹的物理區(qū)域。

通過這一過程，可以得到一個矩陣，其中每個 token 對應(yīng)某種物理現(xiàn)象的概率分布。這個結(jié)果被用來訓(xùn)練 REB，使其逐漸學(xué)會識別物理現(xiàn)象在空間中的分布位置，也就是學(xué)會“物理在哪里”。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

在訓(xùn)練過程中，研究團隊設(shè)計了三個目標函數(shù)來約束模型行為。第一個是 Lcoarse，對應(yīng)語義級對齊，其目標是讓屬于同一物理類別的樣本具有相似表示，而不同類別之間能夠被區(qū)分開。第二個是 Lfine-align，對應(yīng)空間級對齊，其目標是讓模型在 token 層面的預(yù)測盡可能接近 VLM 提供的標注。第三個是 Lfine-balance，其目標是保證所有專家都能被有效使用，避免只有少數(shù)專家被頻繁激活。三者的權(quán)重分別設(shè)置為 0.1、0.02 和 0.01，從而在訓(xùn)練中形成平衡。雷峰網(wǎng)

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

為了驗證這些設(shè)計的必要性，研究人員進行了消融實驗。結(jié)果表明，如果去掉 REB，模型將失去空間層面的物理建模能力；如果去掉 SEB，模型的物理分類能力會明顯下降；如果去掉對齊機制，模型訓(xùn)練會變得不穩(wěn)定。綜合來看，這三個部分是相互遞進的，缺少任何一部分都會導(dǎo)致性能下降。

最后，研究團隊還分析了不同專家所學(xué)習(xí)到的物理知識之間的關(guān)系。通過計算專家之間的相關(guān)性發(fā)現(xiàn)，與燃燒相關(guān)的專家和爆炸相關(guān)的專家之間具有較高相關(guān)性，而爆炸與折射之間的相關(guān)性較低。

這一現(xiàn)象說明模型不僅學(xué)會了單一的物理現(xiàn)象，還捕捉到了不同物理過程之間的結(jié)構(gòu)關(guān)系，從而形成了一種更加系統(tǒng)化的物理知識表示。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

面向動態(tài)世界的一種建模嘗試

整體來看，這項研究實驗意義不僅體現(xiàn)在方法層面的改進，還反映了視頻生成技術(shù)發(fā)展方向的一次重要轉(zhuǎn)變。

以往的視頻生成模型主要依賴數(shù)據(jù)中出現(xiàn)頻率較高的視覺模式進行學(xué)習(xí)，本質(zhì)上是在回答畫面長什么樣，而不是解釋為什么會出現(xiàn)這樣的變化。這種方式雖然可以生成外觀逼真的視頻，但缺乏對物理規(guī)律和因果關(guān)系的理解，因此經(jīng)常出現(xiàn)看似合理卻違背現(xiàn)實規(guī)律的現(xiàn)象。

圍繞這一問題，研究團隊提出了幾個關(guān)鍵突破。首先，將物理從隱式的統(tǒng)計規(guī)律轉(zhuǎn)變?yōu)轱@式的知識結(jié)構(gòu)，通過引入物理專家，使模型能夠區(qū)分不同類型的物理過程，例如燃燒、流體和碰撞，從而避免將所有現(xiàn)象混合在一起進行學(xué)習(xí)。

其次，將物理建模從整體層面推進到空間層面，使模型能夠在同一視頻中區(qū)分不同區(qū)域的物理現(xiàn)象，例如某一位置發(fā)生燃燒，而另一位置存在流體運動，這種空間區(qū)分能力顯著提高了生成結(jié)果的合理性。

再次，引入視覺語言模型作為教師角色，利用其更強的理解能力為生成模型提供物理定位信息，使模型不僅知道發(fā)生了什么，還能夠知道發(fā)生在什么位置，這種方式形成了一種新的訓(xùn)練思路，也就是用理解能力更強的模型去指導(dǎo)生成模型學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)。

從更深層的角度來看，這項研究推動人工智能從單純的視覺生成向世界模擬邁進。隨著物理建模能力的加入，模型開始具備一定程度的因果理解能力，能夠在生成過程中遵循基本約束并體現(xiàn)出規(guī)律性。這種能力對于未來技術(shù)的發(fā)展具有重要意義，例如在機器人訓(xùn)練中，可以通過生成更符合物理規(guī)律的環(huán)境來提高學(xué)習(xí)效果，在自動駕駛領(lǐng)域，可以更真實地模擬復(fù)雜交通場景，在仿真系統(tǒng)中，可以用于構(gòu)建更加可靠的虛擬測試環(huán)境。

從普通人的角度來看，這項研究的影響也會逐漸顯現(xiàn)。在內(nèi)容創(chuàng)作方面，視頻生成工具將不再只是生成好看的畫面，而是能夠生成更加真實、更加自然的動態(tài)內(nèi)容，減少違和感，從而提升影視制作、短視頻創(chuàng)作和游戲開發(fā)的效率與質(zhì)量。

在教育領(lǐng)域，可以利用這種技術(shù)生成更直觀的物理演示，幫助理解復(fù)雜的現(xiàn)象，例如碰撞過程或流體變化。在日常應(yīng)用中，更真實的虛擬場景也意味著更可靠的數(shù)字孿生環(huán)境，例如用于訓(xùn)練或模擬現(xiàn)實任務(wù)。

與此同時，研究人員也指出了當前方法的局限性。一方面，物理監(jiān)督依賴視覺語言模型的標注，而這種標注不可避免地存在噪聲，可能影響學(xué)習(xí)效果；另一方面，模型目前主要學(xué)習(xí)的是物理現(xiàn)象的表層模式，而不是基于嚴格方程的物理機制，因此仍然屬于近似模擬。

基于這些問題，未來的研究方向包括引入更加嚴格的物理方程以及構(gòu)建更強的因果建模能力，使模型能夠從經(jīng)驗式學(xué)習(xí)進一步走向更加可靠的物理推理，從而提升對真實世界的理解與模擬水平。

ProPhy 背后的科研工作者

王子俊，中山大學(xué)智能工程學(xué)院 2025 級博士研究生，本科畢業(yè)于中山大學(xué)智能工程學(xué)院，師從梁小丹教授。他的研究方向是視頻生成和世界模型。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

胡攀文，現(xiàn)在是穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）計算機視覺系博士后，主要研究方向為個性化和視頻生成，世界模型。分別于 2023 年和 2018 年從香港中文大學(xué)（深圳）和中國科學(xué)技術(shù)大學(xué)獲得博士和碩士學(xué)位。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

黎漢匯, 分別于 2012 年和 2018 年獲得中山大學(xué)計算機科學(xué)與技術(shù)學(xué)士學(xué)位和計算機軟件與理論博士學(xué)位。他目前是中山大學(xué)深圳校區(qū)的特聘研究員。此前，他于 2019 年至 2021 年在新加坡南洋理工大學(xué)擔任研究員。他的研究方向包括視覺媒體分析與推理。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026

梁小丹是中山大學(xué)深圳校區(qū)的教授，同時也是穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）計算機視覺系的副教授。她曾是卡內(nèi)基梅隆大學(xué)的項目科學(xué)家，與邢教授合作。

她在視覺語言理解與生成及其在具身人工智能中的應(yīng)用方面發(fā)表了 120 余篇前沿論文，這些論文發(fā)表于該領(lǐng)域最負盛名的期刊和會議，谷歌引用量超過 30000 次。

她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領(lǐng)域主席，并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學(xué)者獎。她的研究成果已被應(yīng)用于多家知名人工智能公司（如 Deepseek、聯(lián)想、字節(jié)跳動和騰訊）的關(guān)鍵產(chǎn)品中。

中山大學(xué)梁小丹團隊論文：讓視頻生成從「看起來真實」到「物理上正確」丨CVPR 2026