0
| 本文作者: 鄭佳美 | 2026-03-30 14:53 | 專題:CVPR 計算機視覺與模式識別會議 |
過去兩年,視頻生成模型的發(fā)展呈現(xiàn)出一個非常明顯的趨勢:視覺質(zhì)量在快速逼近真實世界。從最初的模糊片段,到如今可以生成具有復(fù)雜場景、多主體交互甚至長時序敘事的視頻,模型在紋理、光影和語義一致性方面已經(jīng)取得了長足進步。一些系統(tǒng)甚至被稱為通用世界模型的雛形,試圖通過數(shù)據(jù)驅(qū)動的方式重建現(xiàn)實世界的運行規(guī)律。
但隨著分辨率和時長的提升,一個更深層的問題開始暴露出來:模型在視覺上越來越真實,卻在物理上仍然不可信。也就是說,模型擅長生成看起來像真實世界的畫面,卻并不真正理解現(xiàn)實世界是如何運作的。這種差距在動態(tài)場景中尤為明顯。當場景涉及接觸、受力、流動或能量傳遞時,模型往往無法維持一致的物理邏輯。
例如,在一些生成視頻中,可以觀察到物體在移動過程中缺乏連續(xù)的動力來源,運動像被“直接插值”出來;兩個物體發(fā)生交互時,接觸關(guān)系模糊甚至消失,表現(xiàn)為輕微重疊或延遲響應(yīng);再比如布料、煙霧或水流的變化往往只遵循外觀模式,而不是環(huán)境約束,導(dǎo)致整體行為缺乏穩(wěn)定性。
這些問題的本質(zhì)并不是數(shù)據(jù)不足,而是模型缺少對物理因果關(guān)系和空間約束的建模能力。如何讓視頻生成模型從“視覺擬合”走向“物理一致”,成為當前領(lǐng)域中的關(guān)鍵問題之一。
在這樣的背景下,中山大學(xué)梁小丹團隊提出了《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》,嘗試系統(tǒng)性地解決這一問題。
與以往方法不同,這項研究不再依賴單一層面的物理提示,而是通過分層建模和逐步對齊的方式,將物理信息從全局語義逐漸細化到局部空間,使模型能夠在不同區(qū)域響應(yīng)不同的物理規(guī)律。
更重要的是,研究團隊引入視覺語言模型作為中介,將其在空間理解上的優(yōu)勢轉(zhuǎn)化為生成模型的監(jiān)督信號,從而彌補生成模型在物理定位能力上的不足。這種設(shè)計使模型不僅能夠判斷發(fā)生了什么,還能夠理解發(fā)生在什么位置,并在時間上保持一致的物理行為。
從更宏觀的角度來看,這項工作所指向的并不僅僅是視頻生成質(zhì)量的提升,而是一個更深層的轉(zhuǎn)變:生成模型正在從再現(xiàn)視覺現(xiàn)象,逐步邁向?qū)κ澜邕\行機制的近似建模。
這一轉(zhuǎn)變對于未來的智能系統(tǒng)具有基礎(chǔ)性意義,因為只有當模型能夠在動態(tài)過程中遵循基本規(guī)律時,才有可能被用于更復(fù)雜的任務(wù),例如交互式環(huán)境構(gòu)建、真實場景仿真以及決策系統(tǒng)訓(xùn)練。

論文地址:https://arxiv.org/pdf/2512.05564
整體來看,研究結(jié)果主要圍繞一個核心目標展開,也就是讓生成的視頻不僅看起來真實,而且能夠符合物理規(guī)律。研究團隊并不是用普通的視頻生成評測方式,而是專門采用了一個面向物理合理性的評測體系 VideoPhy2。
在這個評測中,輸入是一段文本描述,例如“球撞擊地面揚起灰塵”,模型需要根據(jù)文本生成視頻,然后由評測系統(tǒng)判斷兩個問題:第一,生成的視頻是否符合物理常識;第二,視頻內(nèi)容是否符合文本描述。
在這一評測體系中,有三個非常關(guān)鍵的指標。第一個是 PC,也就是 Physical Commonsense,用來衡量視頻是否違反基本物理規(guī)律,比如重力、流體運動或者碰撞行為。第二個是 SA,也就是 Semantic Adherence,用來判斷視頻是否正確完成了文本描述中的語義任務(wù),例如是否真的發(fā)生了“倒水”這一行為。第三個是 Joint,表示同時滿足 PC 和 SA,也就是既符合物理,又符合語義,這是評估模型生成的視頻是否符合物理現(xiàn)象的綜合指標。
在具體實驗結(jié)果方面,研究人員首先在 Wan2.1(1.3B)模型上進行了對比。原始模型的 PC 為 57.8,SA 為 30.0,Joint 為 24.8;加入 ProPhy 之后,PC 提升到 65.0,SA 提升到 32.0,Joint 提升到 26.5。可以看到,PC 提升了 7.2,這是最顯著的變化,說明模型明顯減少了違反物理規(guī)律的情況,例如更少出現(xiàn)水向上流動或者物體發(fā)生穿透的現(xiàn)象。
相比之下,SA 只提升了 2,這說明 ProPhy 的主要作用并不在于提升對文本的理解能力,而是在于增強物理正確性。Joint 只提升了 1.7,原因在于 Joint 必須同時滿足 PC 和 SA,而 SA 本身數(shù)值較低,限制了整體提升空間。
在更強的模型 CogVideoX 上,結(jié)果同樣顯著。原始模型的 Joint 約為 22.3,加入 ProPhy 后提升到約 26.7,提升幅度約為 4.4。這個結(jié)果不僅超過了 WISA,也超過了 VideoREPA,說明這種方法能夠同時提升參數(shù)量不同的視頻生成模型的物理生成能力。

為了進一步驗證方法在復(fù)雜場景中的表現(xiàn),研究人員還在 HARD 子集上進行了測試。這一子集包含多物體交互、高速運動以及復(fù)雜物理過程等更具挑戰(zhàn)性的情況。在 Wan2.1 上,Joint 從 5.6 提升到 7.2;在 CogVideoX 上,Joint 從 5.0 提升到 6.1。雖然這些數(shù)值整體較低,但由于任務(wù)本身難度極高,這種提升具有重要意義,說明 ProPhy 在真正需要物理推理的場景中更有效。

除了物理合理性,研究人員還使用VBench 評測體系評估了生成視頻的質(zhì)量。結(jié)果顯示,動態(tài)程度從 46.8 提升到 72,總體質(zhì)量評分從 76.8 提升到 81。這一現(xiàn)象說明物理建模在提升視頻動態(tài)表現(xiàn)的同時,略微提升了視頻的質(zhì)量。深層原因在于,動態(tài)如果不符合物理規(guī)律,會直接導(dǎo)致視覺不自然,例如水流錯誤會顯得不真實,碰撞錯誤會讓動作顯得不連貫。

在定性結(jié)果方面,研究通過多個案例展示模型行為的變化。在揚塵場景中,傳統(tǒng)模型會在球還未落地時就產(chǎn)生灰塵,而 ProPhy 只有在接觸地面之后才產(chǎn)生揚塵,這表明模型學(xué)會了“接觸導(dǎo)致結(jié)果”的因果關(guān)系。
在碰撞場景中,傳統(tǒng)模型可能出現(xiàn)球體穿透或靜止不動,而 ProPhy 能夠表現(xiàn)出動量傳遞,小球在被撞擊后開始運動,說明模型隱式地學(xué)習(xí)到了動量守恒。在流體場景中,傳統(tǒng)模型可能生成違反約束的水流,而 ProPhy 的流動表現(xiàn)更加合理。
綜合來看,這些結(jié)果說明模型不再只是依賴圖像模式進行生成,而是開始遵循一定的物理規(guī)則,表現(xiàn)出對物理因果關(guān)系的理解能力。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
實驗經(jīng)過可以理解為一個從文本到物理再到視頻逐步細化的過程。模型首先接收文本 prompt 作為輸入,隨后依次經(jīng)歷三個關(guān)鍵步驟:提取物理信息,將這些物理信息注入到視頻生成過程中,并在生成過程中逐層進行細化,使物理規(guī)律逐漸融入到視頻內(nèi)容中。
在第一階段,研究團隊設(shè)計了語義級物理模塊 SEB,其核心作用是從文本中提取視頻涉及的物理現(xiàn)象,也就是判斷“這個視頻涉及哪些物理過程”。在內(nèi)部結(jié)構(gòu)上,這一模塊包含 32 個物理專家,每個專家對應(yīng)一種不同的物理模式,例如燃燒、流體或碰撞等。
SEB 中還存在一個路由器,用于為每個特定領(lǐng)域的隱式物理專家分配權(quán)重。通過這種方式,模型可以得到一個加權(quán)組合的結(jié)果,也就是一個“混合的物理先驗”。從本質(zhì)上看,SEB 可以理解為一個物理分類器與權(quán)重分配器的結(jié)合體,它負責在全局層面確定視頻的物理屬性。

在第二階段,研究人員引入了細粒度模塊 REB,用于進行 token 級別的物理建模。引入這一層的原因在于,同一個視頻中往往存在多個不同的物理現(xiàn)象,例如火焰可能出現(xiàn)在畫面左側(cè),而水流可能出現(xiàn)在右側(cè),因此需要對空間進行區(qū)分。REB的具體作用是針對每一個 token 判斷其對應(yīng)的物理現(xiàn)象。
在實現(xiàn)上,與 SEB 不同的是,每個 token 會從中選擇 top-k 個專家進行計算,從而得到更精細的物理表達。最終輸出的是一個空間上的物理分布圖,也就是每個位置對應(yīng)哪種物理現(xiàn)象。從本質(zhì)上看,REB可以理解為一個基于VLM的物理分割器,使模型能夠在空間上區(qū)分不同物理過程。

在整個方法中,最關(guān)鍵的一部分是引入了 VLM 監(jiān)督機制。研究人員發(fā)現(xiàn),視頻生成模型在識別“物理現(xiàn)象發(fā)生在哪里”這一問題上能力較弱,而視覺語言模型在這一任務(wù)上表現(xiàn)更強。因此,研究團隊利用 VLM 來為模型提供監(jiān)督信號。
具體流程分為多個步驟:首先向 VLM 提問“視頻中的燃燒在哪里”,然后得到文本 token 以及與之對應(yīng)的視覺 token;接著通過計算注意力得到燃燒區(qū)域;隨后再詢問“背景是什么”,得到背景區(qū)域;最后將兩者相減,從而得到純粹的物理區(qū)域。
通過這一過程,可以得到一個矩陣,其中每個 token 對應(yīng)某種物理現(xiàn)象的概率分布。這個結(jié)果被用來訓(xùn)練 REB,使其逐漸學(xué)會識別物理現(xiàn)象在空間中的分布位置,也就是學(xué)會“物理在哪里”。

在訓(xùn)練過程中,研究團隊設(shè)計了三個目標函數(shù)來約束模型行為。第一個是 Lcoarse,對應(yīng)語義級對齊,其目標是讓屬于同一物理類別的樣本具有相似表示,而不同類別之間能夠被區(qū)分開。第二個是 Lfine-align,對應(yīng)空間級對齊,其目標是讓模型在 token 層面的預(yù)測盡可能接近 VLM 提供的標注。第三個是 Lfine-balance,其目標是保證所有專家都能被有效使用,避免只有少數(shù)專家被頻繁激活。三者的權(quán)重分別設(shè)置為 0.1、0.02 和 0.01,從而在訓(xùn)練中形成平衡。雷峰網(wǎng)

為了驗證這些設(shè)計的必要性,研究人員進行了消融實驗。結(jié)果表明,如果去掉 REB,模型將失去空間層面的物理建模能力;如果去掉 SEB,模型的物理分類能力會明顯下降;如果去掉對齊機制,模型訓(xùn)練會變得不穩(wěn)定。綜合來看,這三個部分是相互遞進的,缺少任何一部分都會導(dǎo)致性能下降。
最后,研究團隊還分析了不同專家所學(xué)習(xí)到的物理知識之間的關(guān)系。通過計算專家之間的相關(guān)性發(fā)現(xiàn),與燃燒相關(guān)的專家和爆炸相關(guān)的專家之間具有較高相關(guān)性,而爆炸與折射之間的相關(guān)性較低。
這一現(xiàn)象說明模型不僅學(xué)會了單一的物理現(xiàn)象,還捕捉到了不同物理過程之間的結(jié)構(gòu)關(guān)系,從而形成了一種更加系統(tǒng)化的物理知識表示。

整體來看,這項研究實驗意義不僅體現(xiàn)在方法層面的改進,還反映了視頻生成技術(shù)發(fā)展方向的一次重要轉(zhuǎn)變。
以往的視頻生成模型主要依賴數(shù)據(jù)中出現(xiàn)頻率較高的視覺模式進行學(xué)習(xí),本質(zhì)上是在回答畫面長什么樣,而不是解釋為什么會出現(xiàn)這樣的變化。這種方式雖然可以生成外觀逼真的視頻,但缺乏對物理規(guī)律和因果關(guān)系的理解,因此經(jīng)常出現(xiàn)看似合理卻違背現(xiàn)實規(guī)律的現(xiàn)象。
圍繞這一問題,研究團隊提出了幾個關(guān)鍵突破。首先,將物理從隱式的統(tǒng)計規(guī)律轉(zhuǎn)變?yōu)轱@式的知識結(jié)構(gòu),通過引入物理專家,使模型能夠區(qū)分不同類型的物理過程,例如燃燒、流體和碰撞,從而避免將所有現(xiàn)象混合在一起進行學(xué)習(xí)。
其次,將物理建模從整體層面推進到空間層面,使模型能夠在同一視頻中區(qū)分不同區(qū)域的物理現(xiàn)象,例如某一位置發(fā)生燃燒,而另一位置存在流體運動,這種空間區(qū)分能力顯著提高了生成結(jié)果的合理性。
再次,引入視覺語言模型作為教師角色,利用其更強的理解能力為生成模型提供物理定位信息,使模型不僅知道發(fā)生了什么,還能夠知道發(fā)生在什么位置,這種方式形成了一種新的訓(xùn)練思路,也就是用理解能力更強的模型去指導(dǎo)生成模型學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)。
從更深層的角度來看,這項研究推動人工智能從單純的視覺生成向世界模擬邁進。隨著物理建模能力的加入,模型開始具備一定程度的因果理解能力,能夠在生成過程中遵循基本約束并體現(xiàn)出規(guī)律性。這種能力對于未來技術(shù)的發(fā)展具有重要意義,例如在機器人訓(xùn)練中,可以通過生成更符合物理規(guī)律的環(huán)境來提高學(xué)習(xí)效果,在自動駕駛領(lǐng)域,可以更真實地模擬復(fù)雜交通場景,在仿真系統(tǒng)中,可以用于構(gòu)建更加可靠的虛擬測試環(huán)境。
從普通人的角度來看,這項研究的影響也會逐漸顯現(xiàn)。在內(nèi)容創(chuàng)作方面,視頻生成工具將不再只是生成好看的畫面,而是能夠生成更加真實、更加自然的動態(tài)內(nèi)容,減少違和感,從而提升影視制作、短視頻創(chuàng)作和游戲開發(fā)的效率與質(zhì)量。
在教育領(lǐng)域,可以利用這種技術(shù)生成更直觀的物理演示,幫助理解復(fù)雜的現(xiàn)象,例如碰撞過程或流體變化。在日常應(yīng)用中,更真實的虛擬場景也意味著更可靠的數(shù)字孿生環(huán)境,例如用于訓(xùn)練或模擬現(xiàn)實任務(wù)。
與此同時,研究人員也指出了當前方法的局限性。一方面,物理監(jiān)督依賴視覺語言模型的標注,而這種標注不可避免地存在噪聲,可能影響學(xué)習(xí)效果;另一方面,模型目前主要學(xué)習(xí)的是物理現(xiàn)象的表層模式,而不是基于嚴格方程的物理機制,因此仍然屬于近似模擬。
基于這些問題,未來的研究方向包括引入更加嚴格的物理方程以及構(gòu)建更強的因果建模能力,使模型能夠從經(jīng)驗式學(xué)習(xí)進一步走向更加可靠的物理推理,從而提升對真實世界的理解與模擬水平。
王子俊,中山大學(xué)智能工程學(xué)院 2025 級博士研究生,本科畢業(yè)于中山大學(xué)智能工程學(xué)院,師從梁小丹教授。他的研究方向是視頻生成和世界模型。

胡攀文,現(xiàn)在是穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)計算機視覺系博士后,主要研究方向為個性化和視頻生成,世界模型。分別于 2023 年和 2018 年從香港中文大學(xué)(深圳)和中國科學(xué)技術(shù)大學(xué)獲得博士和碩士學(xué)位。

黎漢匯, 分別于 2012 年和 2018 年獲得中山大學(xué)計算機科學(xué)與技術(shù)學(xué)士學(xué)位和計算機軟件與理論博士學(xué)位。他目前是中山大學(xué)深圳校區(qū)的特聘研究員。此前,他于 2019 年至 2021 年在新加坡南洋理工大學(xué)擔任研究員。他的研究方向包括視覺媒體分析與推理。

梁小丹是中山大學(xué)深圳校區(qū)的教授,同時也是穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)計算機視覺系的副教授。她曾是卡內(nèi)基梅隆大學(xué)的項目科學(xué)家,與邢教授合作。
她在視覺語言理解與生成及其在具身人工智能中的應(yīng)用方面發(fā)表了 120 余篇前沿論文,這些論文發(fā)表于該領(lǐng)域最負盛名的期刊和會議,谷歌引用量超過 30000 次。
她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領(lǐng)域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學(xué)者獎。她的研究成果已被應(yīng)用于多家知名人工智能公司(如 Deepseek、聯(lián)想、字節(jié)跳動和騰訊)的關(guān)鍵產(chǎn)品中。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章