CVPR 2026 動態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

本文作者：鄭佳美

2026-04-30 21:39

導(dǎo)語：輸入不再完整、目標(biāo)不再固定，視覺模型開始面對真實世界。

如果把近幾年計算機視覺的發(fā)展放在一個更長的時間尺度上去看，會發(fā)現(xiàn)整個領(lǐng)域其實一直在沿著一條非常明確但也非常受限的路徑前進：

研究者不斷把模型做得更大，把訓(xùn)練數(shù)據(jù)堆得更多，把單項 benchmark 指標(biāo)推得更高，于是無論是分割、重建還是生成，模型在標(biāo)準(zhǔn)任務(wù)上的表現(xiàn)都在持續(xù)逼近“看起來已經(jīng)足夠強”的狀態(tài)。

但如果把視角拉回到 CVPR 2026 前后這一批最新工作，會發(fā)現(xiàn)一個更值得警惕的變化正在發(fā)生：研究的重心，正在悄悄從“把答案做對”，轉(zhuǎn)向“在不完美條件下依然能夠持續(xù)理解世界”。

也就是說，這一輪進展不再只是精度層面的線性推進，而更像是對視覺系統(tǒng)基本工作方式的一次系統(tǒng)性松動。

問題在于，這種“強”，往往建立在一個并不真實的假設(shè)之上——默認輸入信息是充分的、任務(wù)定義是清晰的、交互過程是單輪的、場景變化是可預(yù)期的。換句話說，過去的大多數(shù)視覺模型雖然在實驗環(huán)境中越來越像一個“高精度求解器”，卻依然很難成為一個真正能夠在開放環(huán)境中持續(xù)理解、持續(xù)修正、持續(xù)適應(yīng)的視覺智能體。

而 CVPR 2026 這一波工作最值得關(guān)注的地方，恰恰不在于它們分別把某個子任務(wù)的數(shù)字提高了多少，而在于它們幾乎不約而同地開始挑戰(zhàn)這個舊時代視覺系統(tǒng)最根本的四個默認前提：模型是否必須凍結(jié)、目標(biāo)是否必須預(yù)定義、信息是否必須充分、輸入是否必須結(jié)構(gòu)化。

整個變化，是從交互式視頻分割這里率先被撕開口子的。

從「用戶修錯」到「模型自學(xué)」

長期以來，交互式視頻分割給人的印象似乎已經(jīng)相當(dāng)成熟：用戶點擊一下，模型修正一下；用戶框選一下，模型繼續(xù)傳播掩碼?？雌饋砣藱C協(xié)同已經(jīng)建立起來了。但康奈爾大學(xué)在《Live Interactive Training for Video Segmentation》中指出，這其實是一種很容易讓人忽略的“偽交互”。因為在現(xiàn)有范式下，所謂交互只發(fā)生在輸出層，模型的內(nèi)部知識卻是完全靜止的。

這意味著什么？意味著當(dāng)視頻里出現(xiàn)遮擋、光照突變、主體分裂或者背景偽裝時，模型第一次犯錯，用戶點擊修正；下一次遇到同樣的視覺模式，它大概率還會再犯同樣的錯。用戶似乎一直在參與，但參與的只是重復(fù)勞動——用戶并沒有真的把自己的判斷傳遞進模型的內(nèi)部表征。

所以這篇論文真正想打破的，并不是“如何讓點擊提示更有效”這種局部工程問題，而是更底層地在追問：為什么我們默認推理階段的模型必須是凍結(jié)的？為什么用戶反饋只能被當(dāng)成 prompt，而不能被當(dāng)成即時學(xué)習(xí)信號？

LIT 的提出，本質(zhì)上就是把交互式視覺系統(tǒng)從“提示—響應(yīng)”結(jié)構(gòu)，推進到了“反饋—吸收—再預(yù)測”的動態(tài)閉環(huán)。用戶一次糾錯之后，輕量級 LIT-LoRA 模塊立刻完成局部在線更新，模型隨即對當(dāng)前視頻的運動模式、遮擋關(guān)系和外觀變化形成短時適應(yīng)。于是，用戶的點擊不再只是修補當(dāng)前這一幀，而是開始改變模型之后的判斷邏輯。

這看起來像是一點點在線訓(xùn)練的加入，但它實際打破的是視覺推理幾十年來非常頑固的一條邊界：推理不再只是參數(shù)凍結(jié)下的被動執(zhí)行，而開始擁有任務(wù)內(nèi)自我更新能力。換句話說，視覺模型第一次開始在使用過程中“成長”。

而一旦“模型可以在任務(wù)中成長”這件事被打開，研究自然會往前追問另一層問題：如果模型擁有足夠強的內(nèi)部表征，它是不是甚至不需要顯式訓(xùn)練，也能根據(jù)極少的上下文快速理解用戶想要的目標(biāo)？

CVPR 2026 動態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

這就引出了 INSID3 的價值。Politecnico di Torino、TU Darmstadt 與 TU Munich 聯(lián)合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》，表面看是在做一個“免訓(xùn)練上下文示例分割”，但它真正挑戰(zhàn)的是過去視覺分割領(lǐng)域?qū)Α叭蝿?wù)泛化”的理解方式。

傳統(tǒng)分割系統(tǒng)的泛化能力通常來自類別預(yù)訓(xùn)練、任務(wù)微調(diào)，或者額外訓(xùn)練一個 support-query 適配頭。也就是說，研究界始終默認：想讓模型理解一個新目標(biāo)，就必須通過參數(shù)層面的新學(xué)習(xí)去注入任務(wù)知識。

INSID3 的反向論證則非常激進——作者認為，自監(jiān)督基礎(chǔ)模型 DINOv3 內(nèi)部其實已經(jīng)潛藏了大量跨像素、跨區(qū)域、跨語義層級的對應(yīng)知識，這些知識不是不存在，而是過去的任務(wù)設(shè)計沒有把它有效調(diào)動出來。

因此他們不再訓(xùn)練任何分割頭，而是直接讓參考圖與查詢圖在凍結(jié)特征空間里建立密集語義映射，讓“這一塊是什么”的定義通過特征相似性自然傳遞。這意味著模型并不是通過新訓(xùn)練獲得理解，而是在已有表征中被上下文示例即時喚醒。

這背后非常關(guān)鍵：LIT 證明模型可以從即時反饋里學(xué)習(xí)；INSID3 則進一步證明，模型甚至可能在不學(xué)習(xí)的情況下，僅憑上下文就完成任務(wù)臨場重定義。前者是在打破“推理凍結(jié)”，后者是在打破“目標(biāo)預(yù)定義”。

也就是說，視覺系統(tǒng)正在逐漸擺脫那種“訓(xùn)練時決定一切，測試時只能執(zhí)行”的舊工業(yè)流程。

CVPR 2026 動態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

離開理想輸入，進入真實場景

但當(dāng)模型開始擁有這種臨場適應(yīng)與臨場理解能力后，更尖銳的問題隨之出現(xiàn)：現(xiàn)實世界提供給模型的信息，往往根本不像 benchmark 那樣完整。這里，《Long-Tail Internet Photo Reconstruction》的出現(xiàn)就顯得極其重要。

Cornell University 和 Kempner Institute 的研究者指出，今天幾乎所有互聯(lián)網(wǎng)三維重建方法之所以在論文中表現(xiàn)穩(wěn)定，是因為它們長期依賴熱門地標(biāo)數(shù)據(jù)訓(xùn)練：照片多、重疊強、視角密、幾何對應(yīng)關(guān)系天然充足。

然而真實互聯(lián)網(wǎng)世界的絕大多數(shù)地點并不滿足這個條件。更多時候，用戶上傳的是幾張零散的手機拍攝圖，角度不統(tǒng)一，清晰度參差不齊，甚至主體只在少量區(qū)域出現(xiàn)。換句話說，模型面對的不是“信息充分的重建任務(wù)”，而是“信息極度稀缺下的結(jié)構(gòu)猜測任務(wù)”。

這篇論文的深刻之處在于，它沒有像以往那樣繼續(xù)在重建算法局部模塊上縫縫補補，而是直接指出：問題根本不在推理器，而在訓(xùn)練分布。模型之所以不會處理長尾場景，不是因為它不會重建，而是因為它從未在“少照片、弱重疊、低覆蓋”的真實互聯(lián)網(wǎng)分布上形成過幾何推理習(xí)慣。

于是 MegaDepth-X 的意義，是人為制造一種長期被 benchmark 回避掉的稀疏現(xiàn)實，讓 3D Foundation Model 學(xué)會在缺信息、弱對應(yīng)、低冗余條件下仍然建立結(jié)構(gòu)認知。

到這里，視覺系統(tǒng)的第三個舊前提也被擊穿了：模型不再被允許只在信息充足時工作，它必須開始具備從碎片線索中補全世界的能力。而這種“從局部線索恢復(fù)整體邏輯”的趨勢，很快又被延伸到了三維資產(chǎn)理解與生成一致性問題上。

CVPR 2026 動態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一個三維材質(zhì)分組工具，但它真正挑戰(zhàn)的是視覺模型長期以來“只理解幾何相似性，卻不理解設(shè)計語義”的局限。

多倫多大學(xué)與 Adobe 研究院關(guān)注的是無紋理三維網(wǎng)格中的材質(zhì)感知部件分組問題：在真實三維資產(chǎn)中，窗框、欄桿、瓦片、鱗片、果殼這類局部結(jié)構(gòu)經(jīng)常重復(fù)出現(xiàn)，卻并不一定在幾何上完全相同；但在后續(xù)材質(zhì)編輯中，它們往往又需要被賦予同一種木材、金屬或石材紋理。

這正是傳統(tǒng)方法的短板。過去模型通常依據(jù)幾何相似性來檢索部件，因此更容易找到“長得像”的結(jié)構(gòu)，卻很難識別那些“形狀不同但材質(zhì)邏輯一致”的對象。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

對于設(shè)計師來說，真正重要的并不是兩個部件是否足夠相似，而是它們在整體模型的功能、位置和視覺組織中，是否應(yīng)該被一起處理。如果模型只能回答“像不像”，它仍然停留在視覺表面；只有當(dāng)它開始判斷“這些部件是否應(yīng)該共享同一種材質(zhì)”，才算接近真實三維創(chuàng)作中的語義理解。

Material Magic Wand 的思路，是把二維圖像里“魔棒工具”的交互邏輯遷移到三維網(wǎng)格中：用戶只需點擊一個部件，系統(tǒng)就自動找出模型中所有可能共享相同材質(zhì)屬性的其他部件。

為此，作者設(shè)計了 material-aware embedding，在編碼三維部件時，不只看局部幾何形狀，也結(jié)合它在整體模型中的上下文結(jié)構(gòu)信息，并通過監(jiān)督式對比學(xué)習(xí)，讓相同材質(zhì)的部件在特征空間中更接近、不同材質(zhì)的部件彼此區(qū)分。

CVPR 2026 動態(tài)視覺智能觀察梳理：Benchmark 之外的新考題已經(jīng)出現(xiàn)

這說明視覺模型正在從“識別物體是什么”，向“理解人類為什么這樣使用這些物體”過渡。同樣的邏輯，在由魏茨曼科學(xué)研究所（Weizmann Institute of Science）提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

這項研究關(guān)注的是非結(jié)構(gòu)化圖像集合的一致性生成：輸入不再是一張單圖，也不是連續(xù)視頻幀，而是一組共享某個主體、但在視角、時間、姿態(tài)和背景上差異很大的圖像，比如商品展示圖、人物相冊或故事板參考圖。

這類任務(wù)的難點在于，這些圖像沒有視頻那樣天然連續(xù)的時序約束，卻又要求生成結(jié)果在主體身份、外觀紋理和細節(jié)結(jié)構(gòu)上保持一致。傳統(tǒng)生成模型往往習(xí)慣逐張?zhí)幚?，因此很容易出現(xiàn)身份漂移、紋理變化或細節(jié)錯亂，本質(zhì)上是因為模型沒有把“這一組圖屬于同一個整體語義系統(tǒng)”真正建模進去。

Match-and-Fuse 的做法，是把整組輸入圖像建模成圖結(jié)構(gòu)：每張圖像作為一個節(jié)點，相關(guān)圖像之間建立邊連接，并在邊上執(zhí)行聯(lián)合雙圖生成。這樣模型能夠先捕捉任意兩張圖之間的共享信息，再把局部一致性約束融合成全局一致輸出。

同時，論文還利用稠密像素匹配，在擴散模型內(nèi)部進行跨圖特征融合，讓不同視角下屬于同一對象的區(qū)域共享潛在表示，從而無需額外訓(xùn)練或人工掩碼，也能維持服飾紋理、商品細節(jié)、文字標(biāo)識等細粒度一致性。

雷峰網(wǎng)

把這些工作放在一起看，會發(fā)現(xiàn)它們雖然分屬視頻分割、上下文分割、三維重建、三維編輯和一致性生成等不同方向，但真正共同推動的，其實是同一件事：視覺模型正在被迫離開那個過去被 benchmark 精心整理好的理想環(huán)境。

在那里，輸入是完整的，目標(biāo)是清楚的，圖像關(guān)系是預(yù)設(shè)的，用戶反饋也只是有限的補充；模型要做的，只是在一次推理里盡可能給出正確答案。但現(xiàn)實世界顯然不是這樣。它的信息往往是殘缺的，目標(biāo)會臨時變化，用戶會不斷介入，不同視角和不同圖片之間還隱藏著大量需要被主動整合的關(guān)系。

也正因為如此，這一批工作最值得關(guān)注的地方，并不是它們分別把某個任務(wù)做得更強，而是它們開始集體拆掉視覺系統(tǒng)過去賴以成立的那些默認前提：模型不再必須凍結(jié)，目標(biāo)不再必須預(yù)定義，輸入不再必須充分，圖像也不再必須被單獨處理。雷峰網(wǎng)

如果說過去的計算機視覺更擅長的是“看懂一張圖、答對一道題”，那么現(xiàn)在的新一輪研究正在讓模型學(xué)會的是另一種能力——在一個持續(xù)變化、信息不完整、關(guān)系高度交織的視覺環(huán)境里，邊接收反饋，邊補全認知，邊重新組織自己對整個場景的理解。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章