日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給鄭佳美
發(fā)送

0

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

導(dǎo)語:復(fù)雜視覺關(guān)系成為生成模型的新考題。
CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界
復(fù)雜視覺關(guān)系成為生成模型的新考題。

    作者丨鄭佳美

    編輯丨馬曉寧

                                                                                                               

圖像生成行業(yè)正在從“生成能力競爭”進(jìn)入“可控能力競爭”。

過去,模型的核心價(jià)值主要體現(xiàn)在能否生成高質(zhì)量、高清晰度、風(fēng)格豐富的單張圖像;而隨著文生圖、圖生圖和指令式編輯能力逐漸成熟,新的瓶頸開始顯現(xiàn):模型能否理解多張圖片之間的關(guān)系,能否在不同視角和場景中保持同一對象的一致性,能否把多個(gè)參考來源自然融合到同一畫面中,能否在數(shù)據(jù)缺失或退化時(shí)恢復(fù)可信細(xì)節(jié),以及能否讓用戶精確控制每一次編輯的幅度。

這種變化也反映在 CVPR 2026 的相關(guān)研究中。越來越多工作開始從單張圖像生成,轉(zhuǎn)向多圖關(guān)系建模、跨圖像一致性保持、復(fù)雜場景組合、連續(xù)可控編輯和高質(zhì)量視覺數(shù)據(jù)恢復(fù)。這說明圖像生成和編輯的重點(diǎn)已經(jīng)不只是“能不能生成”,而是模型能否在復(fù)雜約束下穩(wěn)定理解對象、結(jié)構(gòu)、關(guān)系和用戶意圖。

更深層來看,視覺生成模型正在從單次輸出工具走向復(fù)雜視覺系統(tǒng)。它需要同時(shí)處理身份保持、結(jié)構(gòu)對齊、語義融合、細(xì)節(jié)恢復(fù)和人機(jī)交互等問題。

也正因?yàn)槿绱?,?dāng)前研究的重點(diǎn)正在從單張圖像質(zhì)量,轉(zhuǎn)向多圖一致性、組合泛化能力、底層數(shù)據(jù)表示以及精細(xì)化控制能力。誰能更好地把這些能力統(tǒng)一起來,誰就更接近下一階段真正可用、可信、可控的視覺生成模型。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

01


當(dāng)圖像模型不再只會(huì)「生成一張圖」

《GroupEditing: Edit Multiple Images in One Go》關(guān)注的是“多圖一致編輯”問題,相關(guān)研究來自香港科技大學(xué)、清華大學(xué)、上海交通大學(xué)和悉尼科技大學(xué)。論文主要研究如何對一組相關(guān)圖片進(jìn)行統(tǒng)一修改,并保證編輯后的結(jié)果在外觀、身份、結(jié)構(gòu)和語義上保持一致。雷峰網(wǎng)

以往的圖像編輯方法大多針對單張圖片,如果把同一個(gè)指令分別應(yīng)用到多張相關(guān)圖片上,很容易出現(xiàn)編輯效果不統(tǒng)一的問題。比如同一個(gè)物體在不同視角或姿態(tài)下,顏色、形狀或身份特征可能會(huì)被改得不一致。

針對這一問題,論文提出了 GroupEditing 框架,把一組靜態(tài)圖片看作“偽視頻幀”,借助視頻生成模型本身擅長保持連續(xù)幀一致性的特點(diǎn),來提升多張圖片之間的編輯一致性。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

論文地址:https://arxiv.org/pdf/2603.22883v3

同時(shí),論文還引入 VGGT 來提取圖片之間的幾何對應(yīng)關(guān)系,并設(shè)計(jì)了 Ge-RoPE 和 Identity-RoPE 兩個(gè)模塊。前者幫助不同圖片中的對應(yīng)區(qū)域更好對齊,后者幫助同一對象在不同圖片中保持身份和外觀一致。也就是說,模型不僅知道“要改什么”,還能夠更好地判斷“不同圖片中哪里是同一個(gè)對象或區(qū)域”。

這篇論文的亮點(diǎn)在于,它將圖像編輯從單張圖片擴(kuò)展到一組相關(guān)圖片,適用于商品多角度圖、角色形象保持、同一物體不同視角編輯等場景。

方法上,它巧妙地結(jié)合了視頻模型的一致性能力和顯式幾何對齊信息,使多圖編輯結(jié)果更加穩(wěn)定、統(tǒng)一。實(shí)驗(yàn)結(jié)果也表明,GroupEditing 在編輯質(zhì)量、語義一致性和跨圖像一致性方面都優(yōu)于已有方法。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

在多圖一致編輯的基礎(chǔ)上,《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》進(jìn)一步關(guān)注多圖組合生成問題,相關(guān)研究來自香港理工大學(xué)、清華大學(xué)、中山大學(xué)和 OPPO 研究院。

論文主要研究的是多圖組合生成,也就是給模型多張參考圖片,讓它根據(jù)文本指令把這些圖片中的人物、物體、服裝或場景自然地組合到一張新圖中,同時(shí)保持身份一致、語義合理和畫面協(xié)調(diào)。

這項(xiàng)任務(wù)的難點(diǎn)在于,模型不僅要理解每張參考圖中的關(guān)鍵內(nèi)容,還要把多個(gè)來源的信息融合到同一場景里。例如,把一個(gè)人物、一件衣服、幾個(gè)物體和一個(gè)背景組合成一張完整圖片時(shí),既不能丟失參考圖中的身份特征,也不能讓畫面看起來像簡單拼貼。

為了解決訓(xùn)練數(shù)據(jù)不足的問題,論文提出了 MICo-150K 數(shù)據(jù)集,系統(tǒng)覆蓋 3 大類、7 個(gè)子任務(wù)和 27 種細(xì)粒度組合類型,并加入 De&Re 任務(wù),即先把真實(shí)復(fù)雜圖像拆解成組件,再重新組合。

在數(shù)據(jù)構(gòu)建上,作者先收集并清洗人物、物體、服裝和場景等高質(zhì)量源圖,再用 GPT-4o 生成多圖組合指令,并通過 Nano-Banana 合成目標(biāo)圖像。

之后,論文使用 QwenVL2.5-72B、ArcFace 和人工篩選來檢查生成結(jié)果,確保參考圖片中的關(guān)鍵內(nèi)容被正確保留,最終形成面向多圖組合生成的大規(guī)模高質(zhì)量數(shù)據(jù)集。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

論文地址:https://arxiv.org/pdf/2512.07348v1

論文還提出了 MICo-Bench 評測基準(zhǔn)和 Weighted-Ref-VIEScore 指標(biāo),用來更全面地評估多圖組合生成的效果。實(shí)驗(yàn)中,作者用 MICo-150K 微調(diào)了多個(gè)開源模型,結(jié)果顯示這些模型的多圖組合能力都有明顯提升。

其中基于 Qwen-Image-Edit 微調(diào)得到的 Qwen-MICo,在三圖組合任務(wù)上接近甚至優(yōu)于 Qwen-Image-2509,同時(shí)還能支持任意數(shù)量的多圖輸入。

這篇論文的亮點(diǎn)在于,它不是單純提出一個(gè)新模型,而是系統(tǒng)補(bǔ)齊了多圖組合生成領(lǐng)域的數(shù)據(jù)、任務(wù)分類、評測基準(zhǔn)和基礎(chǔ)模型。MICo-150K 為模型學(xué)習(xí)多圖融合、身份保持和復(fù)雜場景組合提供了大規(guī)模訓(xùn)練資源;

MICo-Bench 和 Weighted-Ref-VIEScore 則讓這類任務(wù)有了更專門的評測方式??傮w來看,這篇論文的核心貢獻(xiàn)是推動(dòng)多圖生成從“能參考一張圖”走向“能理解并融合多張圖”。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

前兩篇論文主要圍繞多圖編輯和多圖生成展開,而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》則從多維數(shù)據(jù)表示與恢復(fù)的角度切入,相關(guān)研究來自湖南師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院、計(jì)算與隨機(jī)數(shù)學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,以及南方科技大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系。

論文主要研究的是多維數(shù)據(jù)恢復(fù)問題,例如圖像修復(fù)、去噪、超分辨率和點(diǎn)云恢復(fù)。它關(guān)注的核心是:如何用更緊湊、更連續(xù)的方式表示高維數(shù)據(jù),并從缺失、稀疏或退化的觀測中恢復(fù)出高質(zhì)量結(jié)果。

傳統(tǒng)的張量環(huán)分解 TR 適合表示高階張量,但通常依賴固定網(wǎng)格上的離散數(shù)據(jù),難以處理連續(xù)信號(hào)或非規(guī)則采樣數(shù)據(jù)。

為了解決這個(gè)問題,論文提出了 TRFD,也就是張量環(huán)函數(shù)分解,用隱式神經(jīng)表示 INR 來參數(shù)化張量因子,使模型可以從連續(xù)坐標(biāo)中生成張量表示。這樣一來,方法不僅能處理常規(guī)網(wǎng)格數(shù)據(jù),也能處理點(diǎn)云這類非網(wǎng)格數(shù)據(jù)。

不過,直接用 INR 學(xué)習(xí)張量因子會(huì)遇到一個(gè)問題:模型容易先學(xué)習(xí)低頻內(nèi)容,而對細(xì)節(jié)紋理、邊緣結(jié)構(gòu)等高頻信息建模不足。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

論文地址:https://arxiv.org/pdf/2603.01034v2

論文通過頻域分析指出,張量環(huán)因子的頻率特性會(huì)直接影響最終恢復(fù)結(jié)果的頻率表現(xiàn),因此如果因子本身缺少高頻成分,恢復(fù)出的圖像或點(diǎn)云也會(huì)缺少細(xì)節(jié)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

針對這一問題,論文提出了 RepTRFD,也就是重參數(shù)化張量環(huán)函數(shù)分解。它把每個(gè)張量環(huán)因子表示成“可學(xué)習(xí)的潛在張量”和“固定基”的結(jié)構(gòu)化組合,從而改善訓(xùn)練動(dòng)態(tài),讓模型更容易學(xué)習(xí)高頻細(xì)節(jié)。同時(shí),論文還給出了固定基的初始化方法,并證明了模型的 Lipschitz 連續(xù)性,以保證訓(xùn)練過程更加穩(wěn)定。

這篇論文的亮點(diǎn)在于,它不是單純提高一個(gè)視覺任務(wù)的效果,而是從張量表示和頻率學(xué)習(xí)的角度改進(jìn)多維數(shù)據(jù)恢復(fù)框架。

方法既保留了張量環(huán)分解緊湊、高效的優(yōu)勢,又通過 INR 獲得了連續(xù)建模能力,再通過重參數(shù)化增強(qiáng)了高頻細(xì)節(jié)恢復(fù)能力。實(shí)驗(yàn)表明,RepTRFD 在圖像修復(fù)、去噪、超分辨率和點(diǎn)云恢復(fù)等任務(wù)上整體優(yōu)于已有方法,并且在相近計(jì)算量下取得了更好的恢復(fù)質(zhì)量。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

在多維數(shù)據(jù)恢復(fù)之外,《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到圖像編輯場景,但它關(guān)注的重點(diǎn)是編輯過程中的精細(xì)控制能力,相關(guān)研究來自馬里蘭大學(xué)和 Adobe 研究院。

論文主要研究的是指令式圖像編輯中的“連續(xù)可控”問題,也就是讓用戶不僅能用文字告訴模型要改什么,還能像調(diào)節(jié)滑桿一樣精確控制每個(gè)編輯指令的強(qiáng)弱。

現(xiàn)有的圖像編輯模型通常會(huì)把指令一次性完整執(zhí)行,例如“把頭發(fā)變卷”“讓人物微笑”“把背景換成夜晚”。但用戶很難控制這些變化到底要多強(qiáng),是輕微微笑還是大笑,是稍微變卷還是非常卷。尤其當(dāng)一個(gè)提示詞里包含多個(gè)編輯要求時(shí),模型往往缺少對單個(gè)指令的獨(dú)立控制能力。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

論文地址:https://arxiv.org/pdf/2511.09715v1

為了解決這個(gè)問題,論文提出了 SliderEdit 框架。它會(huì)把一個(gè)復(fù)雜編輯指令拆成多個(gè)子指令,并為每個(gè)子指令提供一個(gè)可調(diào)節(jié)的滑桿。

用戶可以通過滑桿連續(xù)控制某個(gè)編輯效果的強(qiáng)度,甚至可以讓某個(gè)效果被削弱、正常執(zhí)行或進(jìn)一步放大。這樣一來,圖像編輯就不再是“改或不改”的離散操作,而變成了更細(xì)膩、可交互的連續(xù)控制過程。

方法上,SliderEdit 的核心是利用現(xiàn)代多模態(tài)擴(kuò)散 Transformer 中的指令相關(guān) token 表示。作者發(fā)現(xiàn),某些文本 token 會(huì)集中控制對應(yīng)的視覺編輯效果,因此可以通過對這些 token 進(jìn)行調(diào)節(jié)來控制編輯強(qiáng)度。

論文進(jìn)一步提出 Partial Prompt Suppression 損失,讓模型學(xué)習(xí)如何只抑制某一個(gè)子指令的視覺影響,同時(shí)保留其他編輯效果。它還使用輕量級(jí)的低秩適配器 LoRA,不需要為每個(gè)屬性或概念單獨(dú)訓(xùn)練一個(gè)新模型。

這篇論文的亮點(diǎn)在于,它把圖像編輯從“固定強(qiáng)度的文字指令”推進(jìn)到了“可連續(xù)調(diào)節(jié)的交互式編輯”。它不僅支持單個(gè)屬性的強(qiáng)弱控制,也支持多指令場景下對不同編輯方向分別調(diào)節(jié)。

論文還將方法應(yīng)用到 FLUX-Kontext 和 Qwen-Image-Edit 等先進(jìn)圖像編輯模型上,實(shí)驗(yàn)顯示 SliderEdit 在編輯連續(xù)性、語義解耦、身份保持和用戶可控性方面都有明顯優(yōu)勢。

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個(gè)視覺世界

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說