CVPR 2026 視頻模型趨勢(shì)梳理：不止生成下一幀，更要理解下一步

本文作者：鄭佳美

2026-05-16 21:23

導(dǎo)語：視頻智能正從畫面生成走向運(yùn)動(dòng)控制、動(dòng)態(tài)建模、信號(hào)理解與真實(shí)場(chǎng)景應(yīng)用。

視頻智能正從畫面生成走向運(yùn)動(dòng)控制、動(dòng)態(tài)建模、信號(hào)理解與真實(shí)場(chǎng)景應(yīng)用。

作者丨鄭佳美

編輯丨馬曉寧

過去，視頻生成更多是在解決“像不像”的問題：人物是否清晰，畫面是否流暢，風(fēng)格是否統(tǒng)一。但隨著模型能力提升，視頻真正困難的部分開始顯現(xiàn)出來——它不是一組漂亮幀的連續(xù)播放，而是一個(gè)由時(shí)間、空間、運(yùn)動(dòng)、相機(jī)、光照和物理信號(hào)共同構(gòu)成的動(dòng)態(tài)系統(tǒng)。

只要模型無法理解這些隱含結(jié)構(gòu)，它生成的視頻就可能看似逼真，卻在運(yùn)動(dòng)邏輯、視角一致性或真實(shí)場(chǎng)景適應(yīng)上露出破綻。因此，視頻智能正在進(jìn)入一個(gè)更深的階段：不只是生成畫面，而是理解畫面為什么會(huì)這樣變化。

從運(yùn)動(dòng)軌跡編輯、3D 結(jié)構(gòu)約束、可迭代文生視頻，到自適應(yīng)視頻 token、長(zhǎng)期運(yùn)動(dòng)表征、頻閃去除、熱成像分離和地球觀測(cè)模型，研究者實(shí)際上都在處理同一個(gè)底層問題：如何讓模型把視頻從“像素序列”理解為“動(dòng)態(tài)世界”。

這也是今年 CVPR 相關(guān)方向中一個(gè)值得注意的信號(hào)——視頻模型的競(jìng)爭(zhēng)重心，正在從視覺質(zhì)量轉(zhuǎn)向?qū)r(shí)間、空間和物理規(guī)律的建模能力。

換句話說，視頻 AI 的下一步，不是單純把視頻生成得更長(zhǎng)、更清楚、更炫，而是讓模型知道運(yùn)動(dòng)從哪里來、結(jié)構(gòu)為什么穩(wěn)定、信號(hào)如何形成，以及復(fù)雜場(chǎng)景中的變化如何被預(yù)測(cè)和控制。

當(dāng)這些能力逐漸補(bǔ)齊，視頻模型才可能真正從內(nèi)容生成工具，走向能夠理解、編輯和推演現(xiàn)實(shí)世界的動(dòng)態(tài)智能系統(tǒng)。

從改畫面到改運(yùn)動(dòng)

視頻生成和視頻編輯正在從“畫面是否好看”，走向“運(yùn)動(dòng)是否可控”。谷歌和石溪大學(xué)共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改視頻風(fēng)格或局部外觀，而是直接編輯視頻里的“運(yùn)動(dòng)”。

比如讓人物換方向、讓物體晚一點(diǎn)出現(xiàn)，或在保留場(chǎng)景內(nèi)容的同時(shí)改變鏡頭運(yùn)動(dòng)?，F(xiàn)有方法一旦涉及物體運(yùn)動(dòng)、相機(jī)軌跡或時(shí)間順序變化，就很難保留原視頻后續(xù)幀中已有的內(nèi)容。

MotionV2V 的核心思路是把視頻運(yùn)動(dòng)表示成稀疏軌跡點(diǎn)，并讓用戶直接編輯這些軌跡。系統(tǒng)先從輸入視頻中提取物體或場(chǎng)景點(diǎn)的原始運(yùn)動(dòng)軌跡，用戶再指定目標(biāo)運(yùn)動(dòng)，模型根據(jù)“原始軌跡”和“目標(biāo)軌跡”之間的差異生成編輯后的視頻。論文把這種差異稱為 motion edit，并用它指導(dǎo)視頻擴(kuò)散模型，在盡量保留原視頻內(nèi)容的同時(shí)，讓目標(biāo)物體或相機(jī)按新的方式運(yùn)動(dòng)。

論文地址：https://arxiv.org/pdf/2511.20640v1

它的亮點(diǎn)在于，MotionV2V 不是從單張圖片重新生成視頻，而是真正以完整輸入視頻為條件進(jìn)行 video-to-video motion editing。因此它可以利用視頻中任意時(shí)間點(diǎn)的信息，處理首幀里還沒出現(xiàn)的物體，也能支持物體運(yùn)動(dòng)、相機(jī)運(yùn)動(dòng)、時(shí)間控制和連續(xù)多次編輯。

作者還構(gòu)建了 motion counterfactuals，即內(nèi)容相同但運(yùn)動(dòng)不同的視頻對(duì)，用來微調(diào) motion-conditioned video diffusion 架構(gòu)。從論文對(duì)比來看，MotionV2V 在內(nèi)容保留、運(yùn)動(dòng)控制和整體編輯質(zhì)量上優(yōu)于已有方法，用戶研究中也獲得約 70% 的偏好率。整體來看，這篇論文把視頻編輯從“改外觀”推進(jìn)到“改運(yùn)動(dòng)”。

當(dāng)運(yùn)動(dòng)編輯涉及相機(jī)、物體和非剛性形變時(shí)，僅靠 2D 運(yùn)動(dòng)線索往往不夠。Adobe 和馬里蘭大學(xué)帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》進(jìn)一步使用 3D point tracks 作為統(tǒng)一的運(yùn)動(dòng)控制表示，同時(shí)改變視頻里的相機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)。

系統(tǒng)會(huì)先估計(jì)輸入視頻中的相機(jī)參數(shù)和 3D 點(diǎn)軌跡，用戶編輯相機(jī)運(yùn)動(dòng)或物體軌跡后，再由 video-to-video 生成模型合成新視頻。

論文地址：https://arxiv.org/pdf/2512.02015v1

相比 2D 軌跡，3D 軌跡提供了深度信息，可以幫助模型判斷遮擋關(guān)系、前后層次和真實(shí)空間運(yùn)動(dòng)。論文還設(shè)計(jì)了 3D track conditioner，通過 cross-attention 從輸入視頻中采樣視覺上下文，并把這些信息對(duì)齊到目標(biāo)幀空間中，讓模型在改變運(yùn)動(dòng)的同時(shí)保持畫面連貫。

由于真實(shí)世界中很難獲得成對(duì)訓(xùn)練數(shù)據(jù)，作者采用兩階段訓(xùn)練：先用合成數(shù)據(jù)學(xué)習(xí)基礎(chǔ)運(yùn)動(dòng)控制，再用真實(shí)單目視頻構(gòu)造非連續(xù)片段對(duì)，縮小合成到真實(shí)的差距。整體來看，這篇論文把視頻運(yùn)動(dòng)編輯推進(jìn)到更 3D-aware 的階段，也支持運(yùn)動(dòng)遷移、非剛性變形、物體移除和復(fù)制等效果。

如果輸入只有一張物體圖像，模型如何在相機(jī)繞物體旋轉(zhuǎn)時(shí)生成穩(wěn)定、真實(shí)、結(jié)構(gòu)一致的視頻？澳大利亞國(guó)立大學(xué)和亞馬遜共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是從單張物體圖像生成 orbital video。現(xiàn)有視頻生成方法在大角度視角變化時(shí)缺少可靠像素對(duì)應(yīng)關(guān)系，容易生成結(jié)構(gòu)扭曲或不合理的物體形狀。雷峰網(wǎng)

論文地址：https://arxiv.org/pdf/2604.12309

這篇論文的核心思路是引入 3D foundation model 中學(xué)到的形狀先驗(yàn)，用它輔助視頻擴(kuò)散模型生成更穩(wěn)定的環(huán)繞視頻。模型從單張輸入圖像中提取兩類 3D latent features：全局 latent vector 提供整體結(jié)構(gòu)指導(dǎo)，體積特征投影得到的 latent images 提供隨視角變化的幾何細(xì)節(jié)。

相比深度圖或法線圖，這些 3D latent features 能表達(dá)更完整的物體形狀，也避免顯式提取 mesh 的額外開銷。作者還設(shè)計(jì)了 multi-scale 3D adapter，把不同尺度的 3D 特征接入基礎(chǔ)視頻模型，從而提升生成視頻的真實(shí)感、物體形狀合理性和多視角一致性。

谷歌和新加坡國(guó)立大學(xué)共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》則把重點(diǎn)放在生成流程本身：當(dāng)用戶給出文本想法后，系統(tǒng)能不能反復(fù)評(píng)估、反思和修改，直到生成更符合意圖的視頻。

它研究的是 test-time self-improvement，也就是不重新訓(xùn)練視頻生成模型，而是在推理階段通過反復(fù)評(píng)價(jià)和改寫 prompt 來提升結(jié)果。

VISTA 會(huì)先把用戶想法拆成帶有時(shí)間結(jié)構(gòu)的場(chǎng)景計(jì)劃，包括時(shí)長(zhǎng)、角色、動(dòng)作、對(duì)白、環(huán)境、相機(jī)、聲音和情緒等要素；生成多個(gè)候選視頻后，通過 pairwise tournament 選出當(dāng)前最好結(jié)果；隨后由視覺、音頻和上下文評(píng)審智能體提出意見，最后由 reasoning agent 綜合反饋并改寫 prompt，進(jìn)入下一輪生成。

論文地址：https://arxiv.org/pdf/2510.15831

它的亮點(diǎn)在于，VISTA 不是只優(yōu)化某個(gè)指標(biāo)，而是把視頻規(guī)劃、候選篩選、多維度評(píng)價(jià)和提示詞重寫串成自動(dòng)閉環(huán)。論文中提到，VISTA 在自動(dòng)指標(biāo)下相較先進(jìn)基線最高達(dá)到 60% 的 pairwise win rate，在人工評(píng)測(cè)中也獲得 66.4% 的偏好率。整體來看，它把文生視頻從“一次性生成”推進(jìn)到“生成—評(píng)價(jià)—反思—再生成”。

讓模型先學(xué)會(huì)「怎么動(dòng)」

要讓視頻模型更好地生成和編輯內(nèi)容，底層表示也需要更高效。上海交通大學(xué)、香港中文大學(xué)多媒體實(shí)驗(yàn)室、上海人工智能實(shí)驗(yàn)室 OpenGVLab、同濟(jì)大學(xué)、清華大學(xué)共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是視頻 tokenization 問題，也就是如何把連續(xù)視頻幀壓縮成更適合自回歸模型處理的離散 token。

論文地址：https://arxiv.org/pdf/2505.17011v2

AdapTok 的核心思路是讓視頻 token 分配變得自適應(yīng)。它不是給每個(gè)時(shí)間段分配同樣多的 token，而是根據(jù)視頻內(nèi)容、時(shí)間變化和整體預(yù)算，動(dòng)態(tài)決定哪里多用 token、哪里少用 token。

它使用 1D latent token space 表示視頻，并引入 temporal causality，讓前面幀的編碼和解碼不依賴未來幀，更適合流式處理和自回歸生成；同時(shí)通過 block-wise masking、block causal scorer 和 IPAL 策略完成自適應(yīng)分配。

這樣一來，運(yùn)動(dòng)明顯、場(chǎng)景變化大的片段會(huì)獲得更多 token，靜態(tài)或冗余片段則使用更少 token。在 UCF-101 和 Kinetics-600 任務(wù)中，AdapTok 在不同 token 預(yù)算下都能提升重建質(zhì)量和生成表現(xiàn)。

AdapTok 解決的是視頻如何被高效表示，而 CompVis @ LMU、MCML 和蘋果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》進(jìn)一步追問：如果只是理解未來怎么動(dòng)，是否一定要完整生成像素視頻。論文轉(zhuǎn)向?qū)W習(xí)一種更緊湊的 long-term motion embedding，用來表示場(chǎng)景中的長(zhǎng)期運(yùn)動(dòng)規(guī)律。

它從大規(guī)模 tracker 模型得到的軌跡數(shù)據(jù)中學(xué)習(xí)壓縮運(yùn)動(dòng)空間，把稀疏軌跡和起始幀編碼成 latent motion grid，并可在任意空間查詢點(diǎn)上重建密集運(yùn)動(dòng)；隨后在這個(gè)運(yùn)動(dòng) latent 空間里訓(xùn)練 conditional flow-matching 模型，根據(jù)文本任務(wù)描述或 spatial pokes 生成長(zhǎng)期運(yùn)動(dòng)。這種表示可達(dá)到 64 倍時(shí)間壓縮，也就是說模型不用逐幀生成視頻，就能在更抽象的運(yùn)動(dòng)空間中推斷未來動(dòng)態(tài)。

論文地址：https://arxiv.org/pdf/2604.11737

這篇論文的亮點(diǎn)在于，它把“生成視頻”拆成了更基礎(chǔ)的“生成運(yùn)動(dòng)”。這種 kinematics-first 方式更適合探索多個(gè)可能未來，也更適合機(jī)器人規(guī)劃、軌跡預(yù)測(cè)和長(zhǎng)期動(dòng)態(tài)建模。

在開放域互聯(lián)網(wǎng)視頻和 LIBERO 機(jī)器人基準(zhǔn)上，它的運(yùn)動(dòng)生成質(zhì)量、條件遵循能力和效率都優(yōu)于專門軌跡預(yù)測(cè)方法以及 Wan、Veo 3 等視頻模型基線。整體來看，AI 不一定要先“畫出未來”，也可以先學(xué)會(huì)“未來應(yīng)該怎么動(dòng)”。

從修復(fù)畫面到理解信號(hào)來源

除了生成和編輯，視頻與圖像研究也在關(guān)注如何從復(fù)雜成像退化中恢復(fù)可靠信息。南開大學(xué)國(guó)際先進(jìn)研究院、鵬城實(shí)驗(yàn)室、南開大學(xué)計(jì)算機(jī)學(xué)院、香港理工大學(xué)、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光連拍圖像中的 flicker artifact 去除問題。

這類退化由人工光源頻閃和 rolling shutter 共同造成，表現(xiàn)為條紋狀、明暗不均的閃爍，不能簡(jiǎn)單當(dāng)作普通噪聲或低光增強(qiáng)處理。

Flickerformer 的核心思路是利用閃爍退化的周期性和方向性。周期性來自交流電光源亮度變化，方向性與相機(jī)逐行掃描機(jī)制有關(guān)。針對(duì)這兩個(gè)特點(diǎn)，F(xiàn)lickerformer 設(shè)計(jì)了 PFM、AFFN 和 WDAM 三個(gè)模塊，分別用于幀間相位相關(guān)融合、單幀自相關(guān)建模，以及小波域方向性高頻修復(fù)。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

論文地址：https://arxiv.org/pdf/2603.22794v1

它的亮點(diǎn)在于，把頻閃本身的物理先驗(yàn)嵌入網(wǎng)絡(luò)結(jié)構(gòu)里，而不是把 flicker removal 當(dāng)成普通圖像增強(qiáng)任務(wù)。在 BurstDeflicker benchmark 上，F(xiàn)lickerformer 超過多種圖像復(fù)原和 burst restoration 方法，取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整體來看，這篇論文讓模型能夠更準(zhǔn)確地去除條紋閃爍，同時(shí)保留細(xì)節(jié)并減少重影。

類似思路也出現(xiàn)在熱成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是熱成像中的發(fā)射 / 反射分離問題。

熱相機(jī)看到的長(zhǎng)波紅外信號(hào)既可能來自物體自身熱輻射，也可能來自周圍環(huán)境反射；在接近室溫的日常場(chǎng)景中，這兩部分信號(hào)強(qiáng)度接近且都會(huì)隨時(shí)間變化，因此很難判斷亮暗變化到底來自物體溫度變化，還是背景反射。

論文地址：https://arxiv.org/pdf/2509.11334

論文提出 dual-band thermal videography，用兩個(gè)長(zhǎng)波紅外子波段視頻分離“物體自身發(fā)射”和“背景反射”。它同時(shí)利用光譜線索和時(shí)間線索：同一材料在兩個(gè)波段中的發(fā)射率比例相對(duì)固定，而物體熱傳導(dǎo)變化通常更平滑、背景反射變化更快。

實(shí)驗(yàn)中，方法能把咖啡壺升溫時(shí)的熱發(fā)射與旁邊移動(dòng)人物的反射分開，也能區(qū)分玻璃板上的手指熱印和手指反射。在酒杯和咖啡壺視頻中的非校準(zhǔn)溫度估計(jì)誤差分別約為 1.72% 和 5.34%。整體來看，這篇論文把熱成像從“看到溫度分布”推進(jìn)到“理解熱信號(hào)來源”。

讓視覺模型進(jìn)入真實(shí)世界任務(wù)

當(dāng)視覺模型進(jìn)入遙感和地球觀測(cè)場(chǎng)景時(shí)，問題會(huì)比普通圖像更復(fù)雜：模型不僅要處理圖像，還要同時(shí)理解時(shí)間序列、多源數(shù)據(jù)和地圖標(biāo)注。艾倫人工智能研究所、華盛頓大學(xué)、亞利桑那州立大學(xué)、不列顛哥倫比亞大學(xué)聯(lián)合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球觀測(cè)數(shù)據(jù)的多模態(tài)基礎(chǔ)模型。

地球觀測(cè)數(shù)據(jù)既有圖像空間結(jié)構(gòu)，也有類似視頻或文本的時(shí)間序列特征，還包含衛(wèi)星影像、地圖、地形、作物、土地覆蓋等多種模態(tài)。

這篇論文提出的模型叫 OlmoEarth，目標(biāo)是讓地球觀測(cè)基礎(chǔ)模型更穩(wěn)定、更高效，也更容易落地到環(huán)保、人道主義和公共利益相關(guān)任務(wù)中。它不只訓(xùn)練模型，還配套構(gòu)建端到端平臺(tái)，用于數(shù)據(jù)收集、標(biāo)注、訓(xùn)練和推理，降低真實(shí)組織使用前沿地球觀測(cè)模型的門檻。

論文地址：https://arxiv.org/pdf/2511.13655

OlmoEarth 的核心方法是 Latent MIM Lite。它用隨機(jī)初始化、訓(xùn)練中凍結(jié)的線性投影層，把圖像 patch 投到 token 空間作為預(yù)測(cè)目標(biāo)，在保留 latent modeling 表征能力的同時(shí)提升訓(xùn)練穩(wěn)定性。這個(gè)設(shè)計(jì)還把自監(jiān)督數(shù)據(jù)和帶標(biāo)注地圖數(shù)據(jù)統(tǒng)一到同一個(gè) token 空間里，讓模型可以用相同損失學(xué)習(xí)觀測(cè)數(shù)據(jù)和標(biāo)簽地圖。

針對(duì)遙感數(shù)據(jù)空間、時(shí)間和模態(tài)高度冗余的問題，OlmoEarth 采用 modality-aware masking，讓模型必須從其他時(shí)間、空間或模態(tài)中推斷缺失信息；同時(shí)只在同一 bandset 內(nèi)進(jìn)行 token 對(duì)比，避免大量“太容易”的負(fù)樣本削弱訓(xùn)練效果。

綜合評(píng)估中，OlmoEarth 與 12 個(gè)其他基礎(chǔ)模型相比，在 embedding 評(píng)估中于 24 個(gè)任務(wù)里的 15 個(gè)取得最好表現(xiàn)；在 full fine-tuning 設(shè)置下，于 29 個(gè)任務(wù)里的 19 個(gè)取得最好表現(xiàn)。整體來看，這篇論文為地球觀測(cè)任務(wù)提出了一個(gè)更穩(wěn)定、更開放、更面向真實(shí)應(yīng)用的多模態(tài)基礎(chǔ)模型體系。