CVPR 2026 的底層邏輯：從“看見”到“理解物理世界”

本文作者：陳淑瑜

2026-05-27 15:21

專題：CVPR 計算機(jī)視覺與模式識別會議

導(dǎo)語：翻閱大量代表性論文，可以總結(jié)出一個清晰的共性趨勢：計算機(jī)視覺正在從“看見”走向“理解物理世界”。

來源：公眾號“什么是人工智能”

原文鏈接：https://mp.weixin.qq.com/s/b1hLVqT9LJI2tRznuQ1L1Q

根據(jù) CVPR 2026 官方公布的數(shù)字：

16,092 篇有效投稿，4,090 篇錄用論文，錄用率 25.42%。

數(shù)據(jù)的背后，計算機(jī)視覺正在經(jīng)歷一次深刻的轉(zhuǎn)變：從識別與生成，轉(zhuǎn)向理解物理規(guī)律、支持多步推理、適應(yīng)開放世界。

本篇以 3D 視覺、多模態(tài) VLM、圖像生成、語義分割、自動駕駛、目標(biāo)檢測六大方向為主線，穿插模型壓縮、遙感、視頻理解等領(lǐng)域的代表性工作，梳理 CVPR 2026 突破性的創(chuàng)新算法。

? 整體觀察：一個共同的底層轉(zhuǎn)向

翻閱大量代表性論文，可以總結(jié)出一個清晰的共性趨勢：

計算機(jī)視覺正在從“看見”走向“理解物理世界”。

這一轉(zhuǎn)向在不同方向中有不同表現(xiàn)——在 3D 視覺中體現(xiàn)為“3D Grounding”，要求模型輸出物體的體積與空間關(guān)系；在視頻生成中體現(xiàn)為“世界模型”，要求生成內(nèi)容符合重力與碰撞。以下內(nèi)容分方向展開，并適當(dāng)補(bǔ)充其他方向的交叉亮點。

一、3D 視覺：從“這是什么”到“它在哪里、多大、怎么動”

趨勢要點：

3D 視覺今年最顯著的變化是：模型不再滿足于識別物體類別，而是要求輸出物體的“體積、深度、空間關(guān)系”——即“3D Grounding”。關(guān)鍵技術(shù)創(chuàng)新包括 “Token 化 3D 高斯”、“正則空間建?！薄ⅰ耙蚬B續(xù)位置編碼”。

代表性創(chuàng)新算法：

-TokenGS（NVIDIA、CVPR 2026 Highlight）：提出可學(xué)習(xí) Token 預(yù)測 3D 高斯，采用自監(jiān)督渲染使高斯數(shù)量與圖像分辨率、視角數(shù)完全解耦，突破了前饋 3DGS 預(yù)測的容量限制。

-CoSMo3D（山東大學(xué)、騰訊等，滿分 Oral）：通過 LLM 引導(dǎo)構(gòu)建跨類別正則數(shù)據(jù)集，引入雙分支架構(gòu)與正則空間約束，在開放世界 3D 零件分割任務(wù)上顯著超越僅依賴幾何映射的方法。

-ReLaGS（DFKI）：構(gòu)建層次化語言蒸餾的 3D 場景表示，通過高斯剪枝和多視圖語言對齊，無需場景特定訓(xùn)練即可實現(xiàn)開放詞匯分割與關(guān)系檢索。

-REALM（杭電）：首個將多模態(tài)大模型與 3DGS 深度耦合的交互式 Agent 系統(tǒng)，并提供大規(guī)模 3D 推理評測基準(zhǔn) REALM-3D。

? 其他方向的聯(lián)動：類似的時空統(tǒng)一表征也被用于視頻理解（如 FlexMem 的長視頻記憶機(jī)制）和自動駕駛的端到端規(guī)劃中。

二、多模態(tài) VLM：提升視覺-語言對齊與定位能力，減少“幻覺”

趨勢要點：

視覺語言模型今年著力解決兩個核心問題：如何讓模型準(zhǔn)確地將語言描述與圖像中的具體區(qū)域相對應(yīng)，以及如何在 3D 場景中進(jìn)行有效的空間推理。因果對比學(xué)習(xí)、隱式推理、統(tǒng)一 grounding 框架等技術(shù)被大量引入，以提升模型的空間理解與指代能力。

代表性創(chuàng)新算法：

-C2ROPE：提出因果連續(xù)旋轉(zhuǎn)位置編碼，增強(qiáng) VLM 對 3D 場景的邏輯因果推演能力，是第一個將因果推理顯式嵌入 VLM 的框架之一。

-Linguistic Priors for Visual Decoupling：利用面向?qū)ο蟮奈谋久枋鰧⑶熬芭c背景顯式解耦，在零樣本腦到圖像檢索任務(wù)中取得新 SOTA。

-GroundingGPT：統(tǒng)一處理指代分割、短語定位、3D grounding 的單一模型。

-LISA：機(jī)器人持續(xù)學(xué)習(xí)框架，在離散傅里葉空間中表征連續(xù)任務(wù)知識，緩解災(zāi)難性遺忘。

基線模型在 SQA3D 中判斷錯誤（“左邊”），而新方法正確回答了“右邊”，體現(xiàn)了更強(qiáng)的 3D 空間推理能力。圖片來自 CVPR 2026 錄用論文

? 其他方向：VLM 的推理能力也被用于遙感圖像理解（如結(jié)合 SAR 與光學(xué)圖像的多模態(tài)分析）和 AI 安全中的對抗性越獄防御。

三、圖像與視頻生成：走向“世界模型”

趨勢要點：

生成模型的核心追求已從“視覺逼真”升級為 “物理一致”。研究者通過物理獎勵模型、因果事件分解、駕駛規(guī)則嵌入等方法，使生成結(jié)果符合重力、碰撞、遮擋等基本物理規(guī)律。同時，極致的 Token 壓縮效率也成為一個突破方向。

代表性創(chuàng)新算法：

-MacTok（復(fù)旦，CVPR 2026 Highlight）：僅用 64 個 token 在 ImageNet 256×256 上達(dá)到 1.44 gFID，實現(xiàn) 64 倍壓縮效率。引入隨機(jī)掩碼與語義掩碼的混合機(jī)制，從根源上解決了連續(xù)分詞器的“后驗坍塌”問題。

-ProPhy：在擴(kuò)散模型中引入物理約束的獎勵函數(shù)，使生成視頻通過物理一致性檢驗，向“世界模擬器”邁出關(guān)鍵一步。

-DriveLaW（小米汽車 × 華科）：統(tǒng)一視頻生成與運動規(guī)劃的新范式，將視頻生成器的潛在表征直接注入擴(kuò)散規(guī)劃器，實現(xiàn)預(yù)測與決策的內(nèi)在一致性。

-WorldForge：通用開放域世界模型，支持從初始幾幀和動作指令無限生成符合物理邏輯的后續(xù)視頻。

? 其他方向：生成模型的可靠性也推動了AIGC 檢測的研究，如無需訓(xùn)練的似然比方法 STALL。

四、語義分割：開放詞匯、開放域、開放零件

趨勢要點：

語義分割正在擺脫封閉類別假設(shè)，向三個“開放”邁進(jìn)：

-開放詞匯：用自然語言描述即可分割任意物體；

-領(lǐng)域泛化：在仿真數(shù)據(jù)上訓(xùn)練，直接應(yīng)用于真實雨、霧、夜間場景；

-零件級分割：分割物體的組成部分。

代表性創(chuàng)新算法：

-CoSMo3D（已在 3D 視覺部分介紹）：開放世界 3D 零件分割，用戶通過自然語言描述從未見過的物體部件，模型可推理并分割。

-ClimaOoD：物理一致的合成數(shù)據(jù)生成框架，為自動駕駛提供雨、霧、夜間等極端天氣下的異常物體真值，顯著提升異常分割在復(fù)雜天氣下的表現(xiàn)。

-EReCu（杭電）：針對無監(jiān)督偽裝物體檢測，提出偽標(biāo)簽進(jìn)化融合與多線索學(xué)習(xí)的師生協(xié)同去噪機(jī)制，有效解決噪聲累積與細(xì)節(jié)丟失兩大挑戰(zhàn)。

-Earth2Ocean：將陸地場景訓(xùn)練的模型遷移到水下圖像的解耦域自適應(yīng)方法。

? 其他方向：開放詞匯分割的思路也用于目標(biāo)檢測中的異常檢測（如 SubspaceAD），以及遙感中的旋轉(zhuǎn)目標(biāo)檢測。

五、自動駕駛：生成式規(guī)劃，端到端的新形態(tài)

趨勢要點：

自動駕駛領(lǐng)域正從模塊化（感知→預(yù)測→規(guī)劃）轉(zhuǎn)向生成式自動駕駛：用一個世界模型同時完成未來幀生成、他車行為預(yù)測和自車軌跡規(guī)劃。3D 預(yù)訓(xùn)練和物理先驗的注入，有助于應(yīng)對訓(xùn)練數(shù)據(jù)稀疏的 corner case。

代表性創(chuàng)新算法：

-MeanFuser（中科院自動化所）：引入高斯混合噪聲引導(dǎo)生成采樣，實現(xiàn)軌跡空間的連續(xù)建模，消除了傳統(tǒng)方法對離散錨點詞匯表的依賴。通過 MeanFlow Identity 替代流匹配中的瞬時速度場，單步生成多樣化的多模態(tài)軌跡。

-NeoVerse（中科院自動化所 × CreateAI）：從百萬級互聯(lián)網(wǎng)單目視頻中學(xué)習(xí)，構(gòu)建通用 4D 世界模型，支持單目→多視角生成、長尾物體反事實場景構(gòu)建等能力。

-DriveLaW（已在生成部分介紹）：專為自動駕駛設(shè)計的生成式世界模型。

-STUR3D（3D 視覺部分）：為自動駕駛提供高質(zhì)量的時空表征。

-ClimaOoD（已在分割部分介紹）：生成極端天氣下的異常物體，提升開集檢測能力。

? 其他方向：自動駕駛中對計算效率的要求，推動了模型壓縮領(lǐng)域的發(fā)展，例如Prune2Drive專為駕駛 VLM 設(shè)計的視覺 Token 裁剪方案，推理速度提升 6.4 倍。

六、目標(biāo)檢測：跨域小樣本與異常檢測

趨勢要點：

目標(biāo)檢測的研究熱點已從刷榜 COCO 轉(zhuǎn)向更實際的問題：

-跨域小樣本檢測：源域數(shù)據(jù)充足，目標(biāo)域僅少量標(biāo)注，模型需保持泛化且不誤檢；

-異常檢測：檢測訓(xùn)練集中從未出現(xiàn)的物體類別；

-3D 檢測：與 3D 視覺深度融合，利用時間信息與幾何先驗提升動態(tài)場景表現(xiàn)。

代表性創(chuàng)新算法：

-SubspaceAD：將異常檢測建模為分布外子空間學(xué)習(xí)，無需任何異常樣本即可檢測未知類別，打破了傳統(tǒng)異常檢測對負(fù)樣本的依賴。

SubspaceAD 在 MVTec-AD 和 VisA 上的定性對比（a）與零樣本異常檢測性能（b）

圖片來自 CVPR 2026 錄用論文

-FT-FSOD：特征遷移框架，僅需目標(biāo)域少量標(biāo)注即可顯著提升跨域小樣本檢測精度。

-STUR3D（已在 3D 視覺部分）：3D 檢測任務(wù)上的頂尖性能。

? 其他方向：增量/持續(xù)目標(biāo)檢測的思路與具身智能中的終身學(xué)習(xí)（如 LISA）有相通之處。

? 其他領(lǐng)域的代表性創(chuàng)新

除了上述六個重點方向，CVPR 2026 在其他領(lǐng)域也涌現(xiàn)出不少值得關(guān)注的創(chuàng)新：

-模型壓縮：V2Drop（川大、上交、浙大）——基于 Token 變化量的即插即用視覺 Token 剪枝方案，在 LLaVA-1.5-7B 上壓縮 66.7% Token 時保持 97.6% 的性能，優(yōu)于次優(yōu)方法 PDrop 的 96.0%。

-強(qiáng)化學(xué)習(xí)與表征學(xué)習(xí)：SRCP（中科院自動化所）——顯著性引導(dǎo)的動態(tài)表征任務(wù)，將表示學(xué)習(xí)與后繼訓(xùn)練解耦，在視覺無監(jiān)督強(qiáng)化學(xué)習(xí)（URL）場景下實現(xiàn)最優(yōu)的零樣本泛化性能。

-遙感：多篇論文探索光學(xué)與 SAR 圖像的融合、旋轉(zhuǎn)目標(biāo)檢測，以及傅里葉角度對齊新范式。

-視頻理解：FlexMem模擬人類記憶機(jī)制，解決長視頻理解中訪問所有幀帶來的計算瓶頸。

? 寫在最后

CVPR 2026 給我們的最大啟示并非某一項指標(biāo)的突破，而是研究范式的系統(tǒng)性轉(zhuǎn)變：計算機(jī)視覺正在從“讓機(jī)器看見”走向“讓機(jī)器理解并預(yù)測物理世界”。

無論是 3D Grounding、世界模型，還是交互式智能體，背后共同的愿景是讓 AI 擁有對物理世界的基本直覺——知道物體有體積、運動會遵循慣性、提問可以得到答案。