CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

本文作者：陳淑瑜

2026-05-27 18:08

導(dǎo)語：GVC1D利用視覺Transformer將視頻編碼為極緊湊的一維潛在標(biāo)記，打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系，有效減少幀內(nèi)冗余并實(shí)現(xiàn) token 數(shù)量的自適應(yīng)縮減。

來源：微軟亞洲研究院

原文鏈接：https://mp.weixin.qq.com/s/GECHPc8h_mblnXirldVaRg?scene=1&click_id=96

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

「本期內(nèi)容速覽」

CoD：面向圖像壓縮的擴(kuò)散基礎(chǔ)模型

基于一維隱表示的生成式視頻壓縮

HiSpatial：增強(qiáng)視覺-語言大模型的層級3D空間認(rèn)知能力

面向3D生成的原生緊湊結(jié)構(gòu)化隱表示（Oral, Award Candidate)

面向擴(kuò)散Transformer 模型的區(qū)域自適應(yīng)采樣

基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實(shí)時(shí)說話人像視頻生成（Highlight）

語義主導(dǎo)：借助異步隱擴(kuò)散融合語義與紋理建模

CoD：面向圖像壓縮的擴(kuò)散基礎(chǔ)模型

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

論文鏈接：

https://arxiv.org/abs/2511.18706

現(xiàn)有的擴(kuò)散編解碼器大多基于 Stable Diffusion 等文本到圖像的基礎(chǔ)模型，但從壓縮角度看，文本條件并不理想，尤其在極低碼率下會阻礙下游擴(kuò)散編解碼器的潛力。為此，研究員們引入了首個面向壓縮的擴(kuò)散基礎(chǔ)模型 CoD。該模型從頭開始訓(xùn)練，實(shí)現(xiàn)壓縮與生成的端到端聯(lián)合優(yōu)化。CoD 并非固定編解碼器，而是適用于各類擴(kuò)散編解碼器的通用基礎(chǔ)模型。

CoD 采用原生圖像編碼器將圖像壓縮為緊湊表示，通過信息瓶頸強(qiáng)制極低碼率，再由擴(kuò)散模塊在條件引導(dǎo)下重建像素。訓(xùn)練方面，CoD將整流流損失與失真優(yōu)化統(tǒng)一訓(xùn)練，并以完全自監(jiān)督的方式僅在公開圖像數(shù)據(jù)集上學(xué)習(xí)。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖1：CoD基礎(chǔ)模型概述

CoD 具備多重優(yōu)勢：在下游任務(wù)中替換 Stable Diffusion 可達(dá)到 SOTA，尤其在0.0039 bpp極低碼率下表現(xiàn)突出；訓(xùn)練成本極低，僅需約20 A100 GPU 天，訓(xùn)練速度提升約300 倍且完全可復(fù)現(xiàn)。研究發(fā)現(xiàn)，CoD的像素空間擴(kuò)散可實(shí)現(xiàn)VTM 級別 PSNR 與高感知質(zhì)量，并能夠以更少參數(shù)超越 GAN 類編解碼器。

基于一維隱表示的生成式視頻壓縮

論文鏈接：

https://arxiv.org/abs/2603.15302

傳統(tǒng)視頻編解碼器與現(xiàn)有神經(jīng)視頻壓縮方法，在處理高保真內(nèi)容時(shí)難以兼顧低碼率與優(yōu)質(zhì)感知質(zhì)量。尤其是生成式視頻編解碼器（GVC）普遍采用的二維潛在表示，存在空間冗余高、長時(shí)語義建模能力不足等問題。

為此，研究員們提出了基于一維潛在表示的生成式視頻壓縮方法GVC1D。該方法利用視覺Transformer將視頻編碼為極緊湊的一維潛在標(biāo)記，打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系，有效減少幀內(nèi)冗余并實(shí)現(xiàn) token 數(shù)量的自適應(yīng)縮減。同時(shí)，研究員們設(shè)計(jì)了一維記憶模塊，利用少量語義豐富的一維標(biāo)記遞歸更新記憶狀態(tài)，既能保持低計(jì)算成本，還可以提供連貫長時(shí)上下文，進(jìn)一步降低幀間冗余。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖2：GVC1D框架概述。xt 首先被分割為圖像塊，然后輸入由局部和全局Transformer組成的編碼器，生成 yt。熵模型對 yt進(jìn)行自回歸熵編碼。所有過程均由一個結(jié)合了長期一維記憶和短期上下文緩沖區(qū)的上下文模型進(jìn)行引導(dǎo)，以提供全面的時(shí)序上下文。

實(shí)驗(yàn)表明，GVC1D 在多個基準(zhǔn)上均取得優(yōu)異性能，顯著超越傳統(tǒng)編解碼器與最新神經(jīng)視頻壓縮方法。在 HEVC Class B 數(shù)據(jù)集上，相較此前最優(yōu)感知編解碼器，GVC1D在 LPIPS 指標(biāo)上節(jié)省了 60.4% 比特率，在 DISTS 指標(biāo)上節(jié)省了 68.8% 比特率。同時(shí)，GVC1D 在 PSNR、MS-SSIM 等客觀指標(biāo)上表現(xiàn)突出，視覺質(zhì)量與時(shí)間一致性均優(yōu)于現(xiàn)有方案，充分驗(yàn)證了一維潛在表示用于視頻壓縮的有效性與優(yōu)越性。

HiSpatial：增強(qiáng)視覺-語言大模型的層級3D空間認(rèn)知能力

論文鏈接：
https://arxiv.org/abs/2603.25411

視覺語言模型（VLM）在二維視覺語言任務(wù)上已取得顯著進(jìn)展，但從二維感知擴(kuò)展到三維空間理解仍面臨重大挑戰(zhàn)?，F(xiàn)有方法在三維空間理解任務(wù)上仍然缺乏系統(tǒng)性的分層任務(wù)設(shè)計(jì)，且領(lǐng)域內(nèi)缺少大規(guī)模、多樣化的三維標(biāo)注數(shù)據(jù)集用于全面提升VLM的空間理解能力。

為此，研究員們提出了一種分層三維空間理解框架HiSpatial，將三維空間理解劃分為四個遞進(jìn)層次，從底層的幾何感知到高層的抽象推理；并且根據(jù)這一分層構(gòu)建了自動化數(shù)據(jù)生成流程，利用約500萬張真實(shí)場景圖像和超過4500萬個關(guān)注物體，合成了涵蓋多樣場景與任務(wù)的海量三維空間視覺問答對，用于VLM的有監(jiān)督微調(diào)。在此基礎(chǔ)上，研究員們又設(shè)計(jì)了結(jié)合度量尺度三維點(diǎn)云圖輸入的HiSpatial VLM，來進(jìn)一步增強(qiáng)模型的空間推理準(zhǔn)確性。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向圖3：方法概述。左側(cè)：數(shù)據(jù)構(gòu)建流程，該流程可從真實(shí)場景圖像或帶有3D標(biāo)注的現(xiàn)有數(shù)據(jù)中生成空間理解相關(guān)的問答對。右側(cè)：分層空間理解任務(wù)分類體系及代表性問答對。

實(shí)驗(yàn)表明，HiSpatial-3B VLM在多個空間理解與推理基準(zhǔn)上達(dá)到 SOTA 性能，超越已有的專用空間理解模型與 Gemini-2.5-pro、GPT-5 等閉源模型。研究同時(shí)揭示了空間理解層級任務(wù)間的明確依賴關(guān)系，驗(yàn)證了引入低層級任務(wù)可持續(xù)提升高層推理能力，為未來高效構(gòu)建三維空間智能模型提供了新的策略。

面向3D生成的原生緊湊結(jié)構(gòu)化隱表示（Oral, Award Candidate)

論文鏈接：

https://cvpr.thecvf.com/virtual/2026/poster/37074

3D生成建模在提升真實(shí)感方面進(jìn)展顯著，但現(xiàn)有表征難以同時(shí)捕捉復(fù)雜拓?fù)渑c精細(xì)外觀，且缺乏高效的原生3D潛空間。為解決這一難題，微軟亞洲研究院的研究員們引入了名為O-Voxel的面向 3D 資產(chǎn)的原生稀疏體素表征，可穩(wěn)健建模任意拓?fù)浣Y(jié)構(gòu)并編碼完整 PBR 材質(zhì)參數(shù)。

基于該表征，團(tuán)隊(duì)設(shè)計(jì)了稀疏壓縮變分自編碼器（SC-VAE），通過殘差自編碼結(jié)構(gòu)實(shí)現(xiàn)了最高 16 倍空間壓縮，將高分辨率資產(chǎn)轉(zhuǎn)化為緊湊的結(jié)構(gòu)化潛變量。利用這些潛變量，研究員們訓(xùn)練了參數(shù)量約40 億的大規(guī)模流匹配模型，實(shí)現(xiàn)了原生 3D 資產(chǎn)生成。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖4：O-Voxel示意圖及其與3D資源之間的即時(shí)雙向轉(zhuǎn)換。

實(shí)驗(yàn)結(jié)果表明，該方法在幾何與材質(zhì)質(zhì)量上遠(yuǎn)超現(xiàn)有模型，推理效率極高，在單張H100 GPU 上僅需約3 秒即可生成分辨率 512 的 3D 資產(chǎn)。O-Voxel 與 SC-VAE 的組合突破了傳統(tǒng)方法在拓?fù)浔磉_(dá)與計(jì)算效率上的瓶頸，為構(gòu)建高質(zhì)量、高效率的原生 3D 生成系統(tǒng)提供了通用解決方案。

面向擴(kuò)散Transformer 模型的區(qū)域自適應(yīng)采樣

論文鏈接：
https://arxiv.org/abs/2502.10389

擴(kuò)散模型雖已成為跨領(lǐng)域生成任務(wù)的主流方案，但依賴多次順序前向傳播的特性嚴(yán)重限制了實(shí)時(shí)性能。以往加速方法多聚焦減少采樣步數(shù)或重用中間結(jié)果，受限于卷積 U-Net 結(jié)構(gòu)，未能利用圖像內(nèi)部空間區(qū)域的差異。

借助擴(kuò)散變換器（DiTs）處理可變數(shù)量 token 的靈活性，研究員們提出無需訓(xùn)練的新型采樣策略 RAS（區(qū)域自適應(yīng)采樣），根據(jù) DiT 的關(guān)注區(qū)域動態(tài)為不同圖像區(qū)域分配不同采樣比例。其核心發(fā)現(xiàn)是，在每一步采樣中模型都會聚焦語義關(guān)鍵區(qū)域，且關(guān)注區(qū)域在連續(xù)步驟間具有強(qiáng)連續(xù)性?；诖耍琑AS 僅更新當(dāng)前關(guān)注區(qū)域，其余區(qū)域直接復(fù)用前一步緩存的噪聲，關(guān)注點(diǎn)由前一步輸出確定，充分利用時(shí)序一致性。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖5：與RAS中的其他區(qū)域相比，主體及細(xì)節(jié)更豐富的區(qū)域經(jīng)過了更多的處理步驟。每個方塊代表一個分塊化的潛在token。

在Stable Diffusion 3和Lumina-Next-T2I上評估RAS，分別實(shí)現(xiàn)了最高2.36倍和2.51倍的加速，且生成質(zhì)量下降極小。此外，用戶研究表明，在人類評估下，該方法在保持同樣質(zhì)量的同時(shí)實(shí)現(xiàn)了1.6倍加速。RAS通過動態(tài)調(diào)整不同區(qū)域的采樣比例，有效提高了計(jì)算資源的利用效率，大幅降低了計(jì)算開銷，為擴(kuò)散變換器提供了更高效的解決方案，顯著增強(qiáng)了其在實(shí)時(shí)應(yīng)用中的落地潛力。

基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實(shí)時(shí)說話人像視頻生成（Highlight）

論文鏈接：

https://cvpr.thecvf.com/virtual/2026/poster/36995

視頻擴(kuò)散模型雖然顯著提升了肖像視頻生成的質(zhì)量，但高昂的計(jì)算成本嚴(yán)重限制其在實(shí)時(shí)交互場景中的落地應(yīng)用。為解決這一難題，研究員們提出了一種支持流式傳輸?shù)恼f話人肖像視頻生成框架，實(shí)現(xiàn)高保真、低延遲的音頻驅(qū)動視頻合成。

該框架核心包含兩部分：一是提出參考引導(dǎo)的因果視頻 VAE，融合單張或多張參考圖像特征，使網(wǎng)絡(luò)專注動態(tài)信息提取而非靜態(tài)外觀，將視頻壓縮率提升至768 倍；二是構(gòu)建基于Rectified Flow Transformer的自回歸潛在去噪模型，采用塊狀因果注意力與 KV 緩存技術(shù)，支持視頻潛在表示的流式生成。

CVPR 2026 | 從生成式壓縮到3D空間智能，七項(xiàng)前沿突破洞悉計(jì)算機(jī)視覺未來方向

圖6：框架概述。左側(cè)：所提出的參考引導(dǎo)式因果視頻VAE。右側(cè)：采用塊級因果注意機(jī)制的 Rectified Flow Transformer，用于建模緊湊視頻潛在向量的概率分布。

實(shí)驗(yàn)結(jié)果顯示，該方法能夠在單張 H100 GPU 上以 42 FPS 的速度實(shí)時(shí)生成 512 分辨率視頻，較現(xiàn)有基線模型提升25倍以上，且在嘴型同步、語音與頭部姿態(tài)一致性等指標(biāo)上達(dá)到當(dāng)前領(lǐng)先水平，并在視頻真實(shí)感、生動度及整體生成質(zhì)量等方面表現(xiàn)優(yōu)異。

語義主導(dǎo)：借助異步隱擴(kuò)散融合語義與紋理建模

論文鏈接：

https://arxiv.org/abs/2512.04926

潛在擴(kuò)散模型（LDMs）遵循從粗到細(xì)的生成過程，高層語義結(jié)構(gòu)的生成略早于細(xì)粒度紋理，但現(xiàn)有方法仍同步去噪語義與VAE編碼的紋理，忽視了這種時(shí)序順序。

為解決這一挑戰(zhàn)，研究員們引入了一種名為語義優(yōu)先擴(kuò)散（SFD）的潛在擴(kuò)散范式，顯式優(yōu)先構(gòu)建語義表征。該方法通過專用語義VAE從預(yù)訓(xùn)練視覺編碼器提取緊湊語義潛在變量，并將其與紋理潛在變量組合成復(fù)合潛在表示。其核心在于采用獨(dú)立的噪聲調(diào)度策略，異步對語義與紋理潛在變量進(jìn)行去噪，使語義部分在時(shí)間上領(lǐng)先于紋理部分，為紋理精煉提供更清晰的高層指導(dǎo)，實(shí)現(xiàn)自然的從粗到細(xì)生成。

SFD 分為三個階段：第一階段語義初始化，語義潛變量率先進(jìn)行去噪；第二階段異步生成，語義和紋理共同進(jìn)行去噪但不同步，語義領(lǐng)先于紋理；第三階段紋理完成，僅紋理繼續(xù)進(jìn)行精煉。去噪完成后，生成的語義潛變量 s1 被丟棄，最終圖像僅從紋理潛變量 z1 解碼獲得。

圖7：(a) 語義優(yōu)先擴(kuò)散SFD概述。語義（虛線）和紋理（實(shí)線）遵循異步去噪軌跡。(b) 在無引導(dǎo)的 ImageNet 256×256 數(shù)據(jù)集上的訓(xùn)練收斂情況。SFD 的收斂速度顯著快于 DiT-XL/2 和 LightningDiT-XL/1，分別快約 100 倍和 33.3 倍。

在ImageNet 256×256有引導(dǎo)生成任務(wù)中，SFD實(shí)現(xiàn)了FID 1.06（LightningDiT-XL）和FID 1.04（1.0B LightningDiT-XXL）的優(yōu)異性能，收斂速度比原始DiT最高提升100倍。此外，SFD還能改進(jìn)ReDi、VA-VAE等現(xiàn)有方法，充分驗(yàn)證了異步語義主導(dǎo)建模的有效性。