日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

導(dǎo)語:GVC1D利用視覺Transformer將視頻編碼為極緊湊的一維潛在標(biāo)記,打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系,有效減少幀內(nèi)冗余并實(shí)現(xiàn) token 數(shù)量的自適應(yīng)縮減。

來源:微軟亞洲研究院

原文鏈接:https://mp.weixin.qq.com/s/GECHPc8h_mblnXirldVaRg?scene=1&click_id=96


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向
「 本期內(nèi)容速覽 」
CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向
01

CoD:面向圖像壓縮的擴(kuò)散基礎(chǔ)模型

02

基于一維隱表示的生成式視頻壓縮

03

HiSpatial:增強(qiáng)視覺-語言大模型的層級3D空間認(rèn)知能力

04

面向3D生成的原生緊湊結(jié)構(gòu)化隱表示(Oral, Award Candidate)

05

面向擴(kuò)散Transformer 模型的區(qū)域自適應(yīng)采樣

06

基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實(shí)時(shí)說話人像視頻生成(Highlight)

07

語義主導(dǎo):借助異步隱擴(kuò)散融合語義與紋理建模


01

CoD:面向圖像壓縮的擴(kuò)散基礎(chǔ)模型


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向


論文鏈接:

https://arxiv.org/abs/2511.18706


現(xiàn)有的擴(kuò)散編解碼器大多基于 Stable Diffusion 等文本到圖像的基礎(chǔ)模型,但從壓縮角度看,文本條件并不理想,尤其在極低碼率下會阻礙下游擴(kuò)散編解碼器的潛力。為此,研究員們引入了首個面向壓縮的擴(kuò)散基礎(chǔ)模型 CoD。該模型從頭開始訓(xùn)練,實(shí)現(xiàn)壓縮與生成的端到端聯(lián)合優(yōu)化。CoD 并非固定編解碼器,而是適用于各類擴(kuò)散編解碼器的通用基礎(chǔ)模型。


CoD 采用原生圖像編碼器將圖像壓縮為緊湊表示,通過信息瓶頸強(qiáng)制極低碼率,再由擴(kuò)散模塊在條件引導(dǎo)下重建像素。訓(xùn)練方面,CoD將整流流損失與失真優(yōu)化統(tǒng)一訓(xùn)練,并以完全自監(jiān)督的方式僅在公開圖像數(shù)據(jù)集上學(xué)習(xí)。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖1:CoD基礎(chǔ)模型概述


CoD 具備多重優(yōu)勢:在下游任務(wù)中替換 Stable Diffusion 可達(dá)到 SOTA,尤其在0.0039 bpp極低碼率下表現(xiàn)突出;訓(xùn)練成本極低,僅需約20 A100 GPU 天,訓(xùn)練速度提升約300 倍且完全可復(fù)現(xiàn)。研究發(fā)現(xiàn),CoD的像素空間擴(kuò)散可實(shí)現(xiàn)VTM 級別 PSNR 與高感知質(zhì)量,并能夠以更少參數(shù)超越 GAN 類編解碼器。


02

基于一維隱表示的生成式視頻壓縮


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:

https://arxiv.org/abs/2603.15302 


傳統(tǒng)視頻編解碼器與現(xiàn)有神經(jīng)視頻壓縮方法,在處理高保真內(nèi)容時(shí)難以兼顧低碼率與優(yōu)質(zhì)感知質(zhì)量。尤其是生成式視頻編解碼器(GVC)普遍采用的二維潛在表示,存在空間冗余高、長時(shí)語義建模能力不足等問題。


為此,研究員們提出了基于一維潛在表示的生成式視頻壓縮方法GVC1D。該方法利用視覺Transformer將視頻編碼為極緊湊的一維潛在標(biāo)記,打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系,有效減少幀內(nèi)冗余并實(shí)現(xiàn) token 數(shù)量的自適應(yīng)縮減。同時(shí),研究員們設(shè)計(jì)了一維記憶模塊,利用少量語義豐富的一維標(biāo)記遞歸更新記憶狀態(tài),既能保持低計(jì)算成本,還可以提供連貫長時(shí)上下文,進(jìn)一步降低幀間冗余。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖2:GVC1D框架概述。xt 首先被分割為圖像塊,然后輸入由局部和全局Transformer組成的編碼器,生成 yt。熵模型對 yt進(jìn)行自回歸熵編碼。所有過程均由一個結(jié)合了長期一維記憶和短期上下文緩沖區(qū)的上下文模型進(jìn)行引導(dǎo),以提供全面的時(shí)序上下文。


實(shí)驗(yàn)表明,GVC1D 在多個基準(zhǔn)上均取得優(yōu)異性能,顯著超越傳統(tǒng)編解碼器與最新神經(jīng)視頻壓縮方法。在 HEVC Class B 數(shù)據(jù)集上,相較此前最優(yōu)感知編解碼器,GVC1D在 LPIPS 指標(biāo)上節(jié)省了 60.4% 比特率,在 DISTS 指標(biāo)上節(jié)省了 68.8% 比特率。同時(shí),GVC1D 在 PSNR、MS-SSIM 等客觀指標(biāo)上表現(xiàn)突出,視覺質(zhì)量與時(shí)間一致性均優(yōu)于現(xiàn)有方案,充分驗(yàn)證了一維潛在表示用于視頻壓縮的有效性與優(yōu)越性。


03
HiSpatial:增強(qiáng)視覺-語言大模型的層級3D空間認(rèn)知能力

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:
https://arxiv.org/abs/2603.25411 

視覺語言模型(VLM)在二維視覺語言任務(wù)上已取得顯著進(jìn)展,但從二維感知擴(kuò)展到三維空間理解仍面臨重大挑戰(zhàn)?,F(xiàn)有方法在三維空間理解任務(wù)上仍然缺乏系統(tǒng)性的分層任務(wù)設(shè)計(jì),且領(lǐng)域內(nèi)缺少大規(guī)模、多樣化的三維標(biāo)注數(shù)據(jù)集用于全面提升VLM的空間理解能力。


為此,研究員們提出了一種分層三維空間理解框架HiSpatial,將三維空間理解劃分為四個遞進(jìn)層次,從底層的幾何感知到高層的抽象推理;并且根據(jù)這一分層構(gòu)建了自動化數(shù)據(jù)生成流程,利用約500萬張真實(shí)場景圖像和超過4500萬個關(guān)注物體,合成了涵蓋多樣場景與任務(wù)的海量三維空間視覺問答對,用于VLM的有監(jiān)督微調(diào)。在此基礎(chǔ)上,研究員們又設(shè)計(jì)了結(jié)合度量尺度三維點(diǎn)云圖輸入的HiSpatial VLM,來進(jìn)一步增強(qiáng)模型的空間推理準(zhǔn)確性。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向圖3:方法概述。左側(cè):數(shù)據(jù)構(gòu)建流程,該流程可從真實(shí)場景圖像或帶有3D標(biāo)注的現(xiàn)有數(shù)據(jù)中生成空間理解相關(guān)的問答對。右側(cè):分層空間理解任務(wù)分類體系及代表性問答對。


實(shí)驗(yàn)表明,HiSpatial-3B VLM在多個空間理解與推理基準(zhǔn)上達(dá)到 SOTA 性能,超越已有的專用空間理解模型與 Gemini-2.5-pro、GPT-5 等閉源模型。研究同時(shí)揭示了空間理解層級任務(wù)間的明確依賴關(guān)系,驗(yàn)證了引入低層級任務(wù)可持續(xù)提升高層推理能力,為未來高效構(gòu)建三維空間智能模型提供了新的策略。


04
面向3D生成的原生緊湊結(jié)構(gòu)化隱表示(Oral, Award Candidate)

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:

https://cvpr.thecvf.com/virtual/2026/poster/37074


3D生成建模在提升真實(shí)感方面進(jìn)展顯著,但現(xiàn)有表征難以同時(shí)捕捉復(fù)雜拓?fù)渑c精細(xì)外觀,且缺乏高效的原生3D潛空間。為解決這一難題,微軟亞洲研究院的研究員們引入了名為O-Voxel的面向 3D 資產(chǎn)的原生稀疏體素表征,可穩(wěn)健建模任意拓?fù)浣Y(jié)構(gòu)并編碼完整 PBR 材質(zhì)參數(shù)。


基于該表征,團(tuán)隊(duì)設(shè)計(jì)了稀疏壓縮變分自編碼器(SC-VAE),通過殘差自編碼結(jié)構(gòu)實(shí)現(xiàn)了最高 16 倍空間壓縮,將高分辨率資產(chǎn)轉(zhuǎn)化為緊湊的結(jié)構(gòu)化潛變量。利用這些潛變量,研究員們訓(xùn)練了參數(shù)量約40 億的大規(guī)模流匹配模型,實(shí)現(xiàn)了原生 3D 資產(chǎn)生成。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖4:O-Voxel示意圖及其與3D資源之間的即時(shí)雙向轉(zhuǎn)換。


實(shí)驗(yàn)結(jié)果表明,該方法在幾何與材質(zhì)質(zhì)量上遠(yuǎn)超現(xiàn)有模型,推理效率極高,在單張H100 GPU 上僅需約3 秒即可生成分辨率 512 的 3D 資產(chǎn)。O-Voxel 與 SC-VAE 的組合突破了傳統(tǒng)方法在拓?fù)浔磉_(dá)與計(jì)算效率上的瓶頸,為構(gòu)建高質(zhì)量、高效率的原生 3D 生成系統(tǒng)提供了通用解決方案。


05
面向擴(kuò)散Transformer 模型的區(qū)域自適應(yīng)采樣

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:
https://arxiv.org/abs/2502.10389 


擴(kuò)散模型雖已成為跨領(lǐng)域生成任務(wù)的主流方案,但依賴多次順序前向傳播的特性嚴(yán)重限制了實(shí)時(shí)性能。以往加速方法多聚焦減少采樣步數(shù)或重用中間結(jié)果,受限于卷積 U-Net 結(jié)構(gòu),未能利用圖像內(nèi)部空間區(qū)域的差異。


借助擴(kuò)散變換器(DiTs)處理可變數(shù)量 token 的靈活性,研究員們提出無需訓(xùn)練的新型采樣策略 RAS(區(qū)域自適應(yīng)采樣),根據(jù) DiT 的關(guān)注區(qū)域動態(tài)為不同圖像區(qū)域分配不同采樣比例。其核心發(fā)現(xiàn)是,在每一步采樣中模型都會聚焦語義關(guān)鍵區(qū)域,且關(guān)注區(qū)域在連續(xù)步驟間具有強(qiáng)連續(xù)性?;诖耍琑AS 僅更新當(dāng)前關(guān)注區(qū)域,其余區(qū)域直接復(fù)用前一步緩存的噪聲,關(guān)注點(diǎn)由前一步輸出確定,充分利用時(shí)序一致性。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖5:與RAS中的其他區(qū)域相比,主體及細(xì)節(jié)更豐富的區(qū)域經(jīng)過了更多的處理步驟。每個方塊代表一個分塊化的潛在token。


在Stable Diffusion 3和Lumina-Next-T2I上評估RAS,分別實(shí)現(xiàn)了最高2.36倍和2.51倍的加速,且生成質(zhì)量下降極小。此外,用戶研究表明,在人類評估下,該方法在保持同樣質(zhì)量的同時(shí)實(shí)現(xiàn)了1.6倍加速。RAS通過動態(tài)調(diào)整不同區(qū)域的采樣比例,有效提高了計(jì)算資源的利用效率,大幅降低了計(jì)算開銷,為擴(kuò)散變換器提供了更高效的解決方案,顯著增強(qiáng)了其在實(shí)時(shí)應(yīng)用中的落地潛力。


06
基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實(shí)時(shí)說話人像視頻生成(Highlight)

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:

https://cvpr.thecvf.com/virtual/2026/poster/36995 


視頻擴(kuò)散模型雖然顯著提升了肖像視頻生成的質(zhì)量,但高昂的計(jì)算成本嚴(yán)重限制其在實(shí)時(shí)交互場景中的落地應(yīng)用。為解決這一難題,研究員們提出了一種支持流式傳輸?shù)恼f話人肖像視頻生成框架,實(shí)現(xiàn)高保真、低延遲的音頻驅(qū)動視頻合成。


該框架核心包含兩部分:一是提出參考引導(dǎo)的因果視頻 VAE,融合單張或多張參考圖像特征,使網(wǎng)絡(luò)專注動態(tài)信息提取而非靜態(tài)外觀,將視頻壓縮率提升至768 倍;二是構(gòu)建基于Rectified Flow Transformer的自回歸潛在去噪模型,采用塊狀因果注意力與 KV 緩存技術(shù),支持視頻潛在表示的流式生成。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖6:框架概述。左側(cè):所提出的參考引導(dǎo)式因果視頻VAE。右側(cè):采用塊級因果注意機(jī)制的 Rectified Flow Transformer,用于建模緊湊視頻潛在向量的概率分布。


實(shí)驗(yàn)結(jié)果顯示,該方法能夠在單張 H100 GPU 上以 42 FPS 的速度實(shí)時(shí)生成 512 分辨率視頻,較現(xiàn)有基線模型提升25倍以上,且在嘴型同步、語音與頭部姿態(tài)一致性等指標(biāo)上達(dá)到當(dāng)前領(lǐng)先水平,并在視頻真實(shí)感、生動度及整體生成質(zhì)量等方面表現(xiàn)優(yōu)異。


07
語義主導(dǎo):借助異步隱擴(kuò)散融合語義與紋理建模

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接:

https://arxiv.org/abs/2512.04926 


潛在擴(kuò)散模型(LDMs)遵循從粗到細(xì)的生成過程,高層語義結(jié)構(gòu)的生成略早于細(xì)粒度紋理,但現(xiàn)有方法仍同步去噪語義與VAE編碼的紋理,忽視了這種時(shí)序順序。


為解決這一挑戰(zhàn),研究員們引入了一種名為語義優(yōu)先擴(kuò)散(SFD)的潛在擴(kuò)散范式,顯式優(yōu)先構(gòu)建語義表征。該方法通過專用語義VAE從預(yù)訓(xùn)練視覺編碼器提取緊湊語義潛在變量,并將其與紋理潛在變量組合成復(fù)合潛在表示。其核心在于采用獨(dú)立的噪聲調(diào)度策略,異步對語義與紋理潛在變量進(jìn)行去噪,使語義部分在時(shí)間上領(lǐng)先于紋理部分,為紋理精煉提供更清晰的高層指導(dǎo),實(shí)現(xiàn)自然的從粗到細(xì)生成。


SFD 分為三個階段:第一階段語義初始化,語義潛變量率先進(jìn)行去噪;第二階段異步生成,語義和紋理共同進(jìn)行去噪但不同步,語義領(lǐng)先于紋理;第三階段紋理完成,僅紋理繼續(xù)進(jìn)行精煉。去噪完成后,生成的語義潛變量 s1 被丟棄,最終圖像僅從紋理潛變量 z1 解碼獲得。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向圖7:(a) 語義優(yōu)先擴(kuò)散SFD概述。語義(虛線)和紋理(實(shí)線)遵循異步去噪軌跡。(b) 在無引導(dǎo)的 ImageNet 256×256 數(shù)據(jù)集上的訓(xùn)練收斂情況。SFD 的收斂速度顯著快于 DiT-XL/2 和 LightningDiT-XL/1,分別快約 100 倍和 33.3 倍。


在ImageNet 256×256有引導(dǎo)生成任務(wù)中,SFD實(shí)現(xiàn)了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL)的優(yōu)異性能,收斂速度比原始DiT最高提升100倍。此外,SFD還能改進(jìn)ReDi、VA-VAE等現(xiàn)有方法,充分驗(yàn)證了異步語義主導(dǎo)建模的有效性。

CVPR 2026 | 從生成式壓縮到3D空間智能,七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說