日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

本文作者: 鄭佳美   2026-04-30 21:39
導(dǎo)語:輸入不再完整、目標(biāo)不再固定,視覺模型開始面對真實世界。

如果把近幾年計算機視覺的發(fā)展放在一個更長的時間尺度上去看,會發(fā)現(xiàn)整個領(lǐng)域其實一直在沿著一條非常明確但也非常受限的路徑前進:

研究者不斷把模型做得更大,把訓(xùn)練數(shù)據(jù)堆得更多,把單項 benchmark 指標(biāo)推得更高,于是無論是分割、重建還是生成,模型在標(biāo)準(zhǔn)任務(wù)上的表現(xiàn)都在持續(xù)逼近“看起來已經(jīng)足夠強”的狀態(tài)。

但如果把視角拉回到 CVPR 2026 前后這一批最新工作,會發(fā)現(xiàn)一個更值得警惕的變化正在發(fā)生:研究的重心,正在悄悄從“把答案做對”,轉(zhuǎn)向“在不完美條件下依然能夠持續(xù)理解世界”。

也就是說,這一輪進展不再只是精度層面的線性推進,而更像是對視覺系統(tǒng)基本工作方式的一次系統(tǒng)性松動。

問題在于,這種“強”,往往建立在一個并不真實的假設(shè)之上——默認輸入信息是充分的、任務(wù)定義是清晰的、交互過程是單輪的、場景變化是可預(yù)期的。換句話說,過去的大多數(shù)視覺模型雖然在實驗環(huán)境中越來越像一個“高精度求解器”,卻依然很難成為一個真正能夠在開放環(huán)境中持續(xù)理解、持續(xù)修正、持續(xù)適應(yīng)的視覺智能體。

而 CVPR 2026 這一波工作最值得關(guān)注的地方,恰恰不在于它們分別把某個子任務(wù)的數(shù)字提高了多少,而在于它們幾乎不約而同地開始挑戰(zhàn)這個舊時代視覺系統(tǒng)最根本的四個默認前提:模型是否必須凍結(jié)、目標(biāo)是否必須預(yù)定義、信息是否必須充分、輸入是否必須結(jié)構(gòu)化。

整個變化,是從交互式視頻分割這里率先被撕開口子的。

從「用戶修錯」到「模型自學(xué)」

長期以來,交互式視頻分割給人的印象似乎已經(jīng)相當(dāng)成熟:用戶點擊一下,模型修正一下;用戶框選一下,模型繼續(xù)傳播掩碼??雌饋砣藱C協(xié)同已經(jīng)建立起來了。但康奈爾大學(xué)在《Live Interactive Training for Video Segmentation》中指出,這其實是一種很容易讓人忽略的“偽交互”。因為在現(xiàn)有范式下,所謂交互只發(fā)生在輸出層,模型的內(nèi)部知識卻是完全靜止的。

這意味著什么?意味著當(dāng)視頻里出現(xiàn)遮擋、光照突變、主體分裂或者背景偽裝時,模型第一次犯錯,用戶點擊修正;下一次遇到同樣的視覺模式,它大概率還會再犯同樣的錯。用戶似乎一直在參與,但參與的只是重復(fù)勞動——用戶并沒有真的把自己的判斷傳遞進模型的內(nèi)部表征。

所以這篇論文真正想打破的,并不是“如何讓點擊提示更有效”這種局部工程問題,而是更底層地在追問:為什么我們默認推理階段的模型必須是凍結(jié)的?為什么用戶反饋只能被當(dāng)成 prompt,而不能被當(dāng)成即時學(xué)習(xí)信號?

LIT 的提出,本質(zhì)上就是把交互式視覺系統(tǒng)從“提示—響應(yīng)”結(jié)構(gòu),推進到了“反饋—吸收—再預(yù)測”的動態(tài)閉環(huán)。用戶一次糾錯之后,輕量級 LIT-LoRA 模塊立刻完成局部在線更新,模型隨即對當(dāng)前視頻的運動模式、遮擋關(guān)系和外觀變化形成短時適應(yīng)。于是,用戶的點擊不再只是修補當(dāng)前這一幀,而是開始改變模型之后的判斷邏輯。

這看起來像是一點點在線訓(xùn)練的加入,但它實際打破的是視覺推理幾十年來非常頑固的一條邊界:推理不再只是參數(shù)凍結(jié)下的被動執(zhí)行,而開始擁有任務(wù)內(nèi)自我更新能力。換句話說,視覺模型第一次開始在使用過程中“成長”。

而一旦“模型可以在任務(wù)中成長”這件事被打開,研究自然會往前追問另一層問題:如果模型擁有足夠強的內(nèi)部表征,它是不是甚至不需要顯式訓(xùn)練,也能根據(jù)極少的上下文快速理解用戶想要的目標(biāo)?

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

這就引出了 INSID3 的價值。Politecnico di Torino、TU Darmstadt 與 TU Munich 聯(lián)合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》,表面看是在做一個“免訓(xùn)練上下文示例分割”,但它真正挑戰(zhàn)的是過去視覺分割領(lǐng)域?qū)Α叭蝿?wù)泛化”的理解方式。

傳統(tǒng)分割系統(tǒng)的泛化能力通常來自類別預(yù)訓(xùn)練、任務(wù)微調(diào),或者額外訓(xùn)練一個 support-query 適配頭。也就是說,研究界始終默認:想讓模型理解一個新目標(biāo),就必須通過參數(shù)層面的新學(xué)習(xí)去注入任務(wù)知識。

INSID3 的反向論證則非常激進——作者認為,自監(jiān)督基礎(chǔ)模型 DINOv3 內(nèi)部其實已經(jīng)潛藏了大量跨像素、跨區(qū)域、跨語義層級的對應(yīng)知識,這些知識不是不存在,而是過去的任務(wù)設(shè)計沒有把它有效調(diào)動出來。

因此他們不再訓(xùn)練任何分割頭,而是直接讓參考圖與查詢圖在凍結(jié)特征空間里建立密集語義映射,讓“這一塊是什么”的定義通過特征相似性自然傳遞。這意味著模型并不是通過新訓(xùn)練獲得理解,而是在已有表征中被上下文示例即時喚醒。

這背后非常關(guān)鍵:LIT 證明模型可以從即時反饋里學(xué)習(xí);INSID3 則進一步證明,模型甚至可能在不學(xué)習(xí)的情況下,僅憑上下文就完成任務(wù)臨場重定義。前者是在打破“推理凍結(jié)”,后者是在打破“目標(biāo)預(yù)定義”。

也就是說,視覺系統(tǒng)正在逐漸擺脫那種“訓(xùn)練時決定一切,測試時只能執(zhí)行”的舊工業(yè)流程。

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

離開理想輸入,進入真實場景

但當(dāng)模型開始擁有這種臨場適應(yīng)與臨場理解能力后,更尖銳的問題隨之出現(xiàn):現(xiàn)實世界提供給模型的信息,往往根本不像 benchmark 那樣完整。這里,《Long-Tail Internet Photo Reconstruction》的出現(xiàn)就顯得極其重要。

Cornell University 和 Kempner Institute 的研究者指出,今天幾乎所有互聯(lián)網(wǎng)三維重建方法之所以在論文中表現(xiàn)穩(wěn)定,是因為它們長期依賴熱門地標(biāo)數(shù)據(jù)訓(xùn)練:照片多、重疊強、視角密、幾何對應(yīng)關(guān)系天然充足。

然而真實互聯(lián)網(wǎng)世界的絕大多數(shù)地點并不滿足這個條件。更多時候,用戶上傳的是幾張零散的手機拍攝圖,角度不統(tǒng)一,清晰度參差不齊,甚至主體只在少量區(qū)域出現(xiàn)。換句話說,模型面對的不是“信息充分的重建任務(wù)”,而是“信息極度稀缺下的結(jié)構(gòu)猜測任務(wù)”。

這篇論文的深刻之處在于,它沒有像以往那樣繼續(xù)在重建算法局部模塊上縫縫補補,而是直接指出:問題根本不在推理器,而在訓(xùn)練分布。模型之所以不會處理長尾場景,不是因為它不會重建,而是因為它從未在“少照片、弱重疊、低覆蓋”的真實互聯(lián)網(wǎng)分布上形成過幾何推理習(xí)慣。

于是 MegaDepth-X 的意義,是人為制造一種長期被 benchmark 回避掉的稀疏現(xiàn)實,讓 3D Foundation Model 學(xué)會在缺信息、弱對應(yīng)、低冗余條件下仍然建立結(jié)構(gòu)認知。

到這里,視覺系統(tǒng)的第三個舊前提也被擊穿了:模型不再被允許只在信息充足時工作,它必須開始具備從碎片線索中補全世界的能力。而這種“從局部線索恢復(fù)整體邏輯”的趨勢,很快又被延伸到了三維資產(chǎn)理解與生成一致性問題上。

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一個三維材質(zhì)分組工具,但它真正挑戰(zhàn)的是視覺模型長期以來“只理解幾何相似性,卻不理解設(shè)計語義”的局限。

多倫多大學(xué)與 Adobe 研究院關(guān)注的是無紋理三維網(wǎng)格中的材質(zhì)感知部件分組問題:在真實三維資產(chǎn)中,窗框、欄桿、瓦片、鱗片、果殼這類局部結(jié)構(gòu)經(jīng)常重復(fù)出現(xiàn),卻并不一定在幾何上完全相同;但在后續(xù)材質(zhì)編輯中,它們往往又需要被賦予同一種木材、金屬或石材紋理。

這正是傳統(tǒng)方法的短板。過去模型通常依據(jù)幾何相似性來檢索部件,因此更容易找到“長得像”的結(jié)構(gòu),卻很難識別那些“形狀不同但材質(zhì)邏輯一致”的對象。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

對于設(shè)計師來說,真正重要的并不是兩個部件是否足夠相似,而是它們在整體模型的功能、位置和視覺組織中,是否應(yīng)該被一起處理。如果模型只能回答“像不像”,它仍然停留在視覺表面;只有當(dāng)它開始判斷“這些部件是否應(yīng)該共享同一種材質(zhì)”,才算接近真實三維創(chuàng)作中的語義理解。

Material Magic Wand 的思路,是把二維圖像里“魔棒工具”的交互邏輯遷移到三維網(wǎng)格中:用戶只需點擊一個部件,系統(tǒng)就自動找出模型中所有可能共享相同材質(zhì)屬性的其他部件。

為此,作者設(shè)計了 material-aware embedding,在編碼三維部件時,不只看局部幾何形狀,也結(jié)合它在整體模型中的上下文結(jié)構(gòu)信息,并通過監(jiān)督式對比學(xué)習(xí),讓相同材質(zhì)的部件在特征空間中更接近、不同材質(zhì)的部件彼此區(qū)分。

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

這說明視覺模型正在從“識別物體是什么”,向“理解人類為什么這樣使用這些物體”過渡。同樣的邏輯,在 由魏茨曼科學(xué)研究所(Weizmann Institute of Science)提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

這項研究關(guān)注的是非結(jié)構(gòu)化圖像集合的一致性生成:輸入不再是一張單圖,也不是連續(xù)視頻幀,而是一組共享某個主體、但在視角、時間、姿態(tài)和背景上差異很大的圖像,比如商品展示圖、人物相冊或故事板參考圖。

這類任務(wù)的難點在于,這些圖像沒有視頻那樣天然連續(xù)的時序約束,卻又要求生成結(jié)果在主體身份、外觀紋理和細節(jié)結(jié)構(gòu)上保持一致。傳統(tǒng)生成模型往往習(xí)慣逐張?zhí)幚?,因此很容易出現(xiàn)身份漂移、紋理變化或細節(jié)錯亂,本質(zhì)上是因為模型沒有把“這一組圖屬于同一個整體語義系統(tǒng)”真正建模進去。

Match-and-Fuse 的做法,是把整組輸入圖像建模成圖結(jié)構(gòu):每張圖像作為一個節(jié)點,相關(guān)圖像之間建立邊連接,并在邊上執(zhí)行聯(lián)合雙圖生成。這樣模型能夠先捕捉任意兩張圖之間的共享信息,再把局部一致性約束融合成全局一致輸出。

同時,論文還利用稠密像素匹配,在擴散模型內(nèi)部進行跨圖特征融合,讓不同視角下屬于同一對象的區(qū)域共享潛在表示,從而無需額外訓(xùn)練或人工掩碼,也能維持服飾紋理、商品細節(jié)、文字標(biāo)識等細粒度一致性。

雷峰網(wǎng)

把這些工作放在一起看,會發(fā)現(xiàn)它們雖然分屬視頻分割、上下文分割、三維重建、三維編輯和一致性生成等不同方向,但真正共同推動的,其實是同一件事:視覺模型正在被迫離開那個過去被 benchmark 精心整理好的理想環(huán)境。

在那里,輸入是完整的,目標(biāo)是清楚的,圖像關(guān)系是預(yù)設(shè)的,用戶反饋也只是有限的補充;模型要做的,只是在一次推理里盡可能給出正確答案。但現(xiàn)實世界顯然不是這樣。它的信息往往是殘缺的,目標(biāo)會臨時變化,用戶會不斷介入,不同視角和不同圖片之間還隱藏著大量需要被主動整合的關(guān)系。

也正因為如此,這一批工作最值得關(guān)注的地方,并不是它們分別把某個任務(wù)做得更強,而是它們開始集體拆掉視覺系統(tǒng)過去賴以成立的那些默認前提:模型不再必須凍結(jié),目標(biāo)不再必須預(yù)定義,輸入不再必須充分,圖像也不再必須被單獨處理。雷峰網(wǎng)

如果說過去的計算機視覺更擅長的是“看懂一張圖、答對一道題”,那么現(xiàn)在的新一輪研究正在讓模型學(xué)會的是另一種能力——在一個持續(xù)變化、信息不完整、關(guān)系高度交織的視覺環(huán)境里,邊接收反饋,邊補全認知,邊重新組織自己對整個場景的理解。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2026 動態(tài)視覺智能觀察梳理:Benchmark 之外的新考題已經(jīng)出現(xiàn)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說