何愷明團隊論文全景掃描：一場關于「生成范式」的多角度突破 | CVPR 2026

本文作者：陳淑瑜

2026-05-12 14:26

導語：高度依賴擴散模型的圖像生成范式，正在被重新審視。

何愷明團隊論文全景掃描：一場關于「生成范式」的多角度突破 | CVPR 2026

2025 年到 2026 年，如果要問生成式 AI 領域最值得關注的研究方向，流匹配（Flow Matching）是一個無法繞開的答案。

從去年起，這個名字開始頻繁出現(xiàn)在頂會論文里、被工業(yè)界反復討論、被拿來和統(tǒng)治了圖像生成領域長達五年的擴散模型正面比較。

所謂流匹配，本質(zhì)上是用常微分方程路徑（ODE path）替代擴散模型的隨機微分方程路徑，讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代，從而在理論上實現(xiàn)更高效的生成。但從理論可行到工程落地，中間隔著無數(shù)技術細節(jié)——訓練目標怎么設計、架構(gòu)怎么選、速度和質(zhì)量如何兼顧，每一步都是坑。

何愷明團隊正是在這個節(jié)點上，密集地交出了一份多角度的答卷。

AI科技評論總結(jié)了何愷明團隊近期在CVPR大會上發(fā)表上的論文： 2025 年 5 月，他們提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模；同年年底，BiFlow 在歸一化流框架上實現(xiàn)了 700 倍加速，將 FID 推到 2.39；幾乎同一時間，Improved MeanFlow（iMF）則以三個系統(tǒng)性修復將單步 FID 降至 1.72，首次在無蒸餾條件下超越所有蒸餾方法。

生成模型之外，團隊在視覺推理（VARC，CVPR 2026）和自監(jiān)督學習（Pixo，CVPR 2026）上也同時出擊，共同勾勒出一個清晰的戰(zhàn)略意圖：擴散模型并不是圖像生成的終點，流匹配這條路，值得全力押注。

這五篇論文之間沒有直接的方法傳承，方向各有側(cè)重，但貫穿其中的核心問題始終如一：在每一個被默認的技術選擇背后，到底藏著多少被低估的優(yōu)化空間？

讓"去噪"模型真正做一次去噪

理解 JiT 的工作，需要從擴散模型一個被忽視已久的痛點說起。

當前的擴散模型在訓練時，網(wǎng)絡學習預測的目標是噪聲 ε 或速度 v，而非干凈圖像 x。

這個細節(jié)在大多數(shù)論文里被一筆帶過，但它有一個容易被忽視的含義：噪聲和速度并不在自然圖像的流形上。用大白話說，網(wǎng)絡在試圖預測一個"不屬于這個世界"的東西——它不在圖像分布內(nèi)，是離群的量。這種預測天然地不穩(wěn)定，網(wǎng)絡需要額外的表達能力來處理那些本不應該出現(xiàn)在預測目標里的高維噪聲。

也就是說，預測噪聲和預測干凈圖區(qū)別很大。

流形示意圖

JiT 的核心洞察正是從這里切入的。既然 x（干凈圖像）在圖像流形上，那就讓網(wǎng)絡直接預測 x。直覺上這是一個退步——流形外的東西更難預測，流形內(nèi)的東西反而應該更容易。但團隊指出，這個邏輯在擴散模型里是反的：噪聲 ε 分布在高維空間，目標分布極廣，網(wǎng)絡需要一個很強的先驗來"猜測"噪聲的真實值；而 x 就在流形上，是網(wǎng)絡見過的、理解的、可以自然逼近的東西。

為了讓這個樸素的想法在工程上成立，JiT 采用了標準 Vision Transformer，但做了一個看似大膽的調(diào)整：patch 尺寸可以非常大——16×16、32×32 甚至 64×64，而不像標準擴散模型那樣在高分辨率下被迫使用極小的 patch。

原因在于：x 在流形上，網(wǎng)絡不需要處理流形外的高維噪聲干擾，因此 patch 大小的增加不會導致信息缺失，也沒有帶來災難性的效果退化。

這是一種返璞歸真，直接預測目標圖像，對傳統(tǒng)認知發(fā)起了一次直接挑戰(zhàn).

JiT模型生成的圖像樣本

JiT 還完全去掉了 VAE Tokenizer，不需要預訓練的潛空間，不需要 GAN 損失或感知損失，就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù)，從 256 到 1024 分辨率，計算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個原生模型可以在任意分辨率上生成，而不需要借助潛空間的壓縮-解壓機制。

最終結(jié)果在 ImageNet 512×512 上實現(xiàn)了 FID 1.78，且 JiT-G 版本在更高分辨率下依然保持了競爭力的 FID。更值得關注的是，這個性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓練得到的。

JiT 證明了"讓擴散模型真正做去噪"這件事本身，就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧，只需要把預測目標換回那個理所當然卻被忽視了五年的選項。

論文鏈接：https://arxiv.org/abs/2511.13720

ARC：跳出語言模型的舒適圈

ARC是 AI 領域歷史最久的推理能力測試之一，包含數(shù)百個"視覺謎題"，要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對物理世界的抽象，本不應該和語言有任何關系。

然而長期以來，整個社區(qū)把 ARC 當成了一個語言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜，原因是 ARC 的任務描述可以自然地翻譯成文字，語言模型恰好擅長這類文字推理。這在工程上無可厚非，但它制造了一個隱性的假設：視覺抽象推理，必須借助語言才能完成。

VARC 要挑戰(zhàn)的正是這個假設。

它把 ARC 任務重新建模為圖像到圖像的翻譯問題，用一個只有 18M 參數(shù)的 ViT 從頭訓練，不依賴任何語言能力，在 ARC-1 上達到了單模型 54.5%、集成 60.4% 的準確率。60.4% 是什么水平？人類平均水平是 60.2%，頂級大語言模型也在這個區(qū)間。

這意味著，一個參數(shù)量只有頂級 LLM 幾千分之一的純視覺模型，在視覺推理任務上達到了與人類相當?shù)乃健?/span>

VARC框架的實現(xiàn)路徑也非常直接，沒有把輸入網(wǎng)格直接 token 化，而是使用了“畫布”，將網(wǎng)格嵌入到一個足夠大的預定義畫布（32×32）上，背景用第 11 種顏色填充。然后像處理一張普通圖片一樣，被ViT模型進行端到端的處理。

這帶來一個關鍵效果：token 數(shù)量從有限的網(wǎng)格大小擴展到了更大的空間，讓 ViT 的注意力機制有了充足的施展余地，能夠捕捉遠程的視覺關系。

WARC的畫布

另外，測試時訓練（TTT）在推理階段利用測試任務的少量示例做快速微調(diào)，是性能逼近人類水平的關鍵——模型不是"記住"了 ARC 的規(guī)則，而是在看到新任務時快速學習規(guī)則本身。

VARC 的出現(xiàn)給整個 ARC 社區(qū)潑了一盆冷水：大家花了大量工程資源在語言模型上刷榜，卻忽視了純視覺方法在這個任務上的潛力。

這個潛力的釋放需要兩個條件：一個足夠大的視覺畫布，以及一個讓模型在推理時繼續(xù)學習的機制。一旦這兩個條件被滿足，視覺推理不需要語言模型這件事，變得異常清晰。

論文鏈接： https://arxiv.org/abs/2511.14761

突破歸一化流限制，圖像單步生成加速

歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢是可以用精確的數(shù)學形式同時完成生成和似然估計，訓練過程透明、可解釋，不像擴散模型那樣依賴多次采樣來近似對數(shù)似然。但長期以來，它在性能上被擴散模型壓得喘不過氣來。

原因出在兩個結(jié)構(gòu)性約束上。

第一，傳統(tǒng)歸一化流為了保證前向變換的精確可逆性，必須采用受限的網(wǎng)絡架構(gòu)，無法使用 Transformer 等更強大的序列模型。

第二，逆向過程依賴自回歸因果解碼，每一步必須順序計算，無法并行，生成一張圖的時間成本極高。這兩個約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競爭力。

BiFlow 的解題思路初看有些反直覺：逆向過程不需要是前向過程的精確逆。

前向過程保持可逆，這是數(shù)學上的保證，確保分布映射的準確性不受損害；但逆向過程單獨訓練一個獨立的模型來近似逆映射，不要求它在數(shù)學上等于前向的解析逆。這個"放棄精確逆"帶來了一個巨大的解放：逆向過程可以使用完全并行的 Transformer 架構(gòu)，實現(xiàn)真正的單步生成，不再受自回歸解碼的順序瓶頸約束。

但這還不夠。逆向模型單獨訓練，意味著它學到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。

BiFlow 引入了隱藏層對齊機制，利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型，確保兩者在表示空間中對齊，防止逆向模型"跑偏"。對齊之后，逆向模型既能受益于 Transformer 的強大表達能力，又能保持前向過程的分布結(jié)構(gòu)完整。

標準化流與BiFlow的概念對比

最終結(jié)果在 ImageNet 256×256 上實現(xiàn)了 FID 2.39，這是歸一化流方法的歷史新紀錄。但更有沖擊力的是速度數(shù)據(jù)：單張圖像生成時間從 TARFlow 的 0.7 秒縮短到 0.001 秒，加速約 700 倍。

BiFlow與SOTA流模型的效率對比

這不再是理論推演，而是一個可以直接在工程中落地的效率躍遷。歸一化流長期被視為"理論上優(yōu)美、工程上雞肋"的框架，BiFlow 至少把后半句的錯誤認知打破了。

論文地址：https://arxiv.org/abs/2512.10953

快進生成，無需蒸餾

如果說 BiFlow 是把歸一化流從困境中拉了出來，那么 iMF（Improved Mean Flows）的目標更徹底：把"快進生成"這條路的瓶頸徹底打通。

"快進生成"的核心目標是讓擴散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個大而慢的擴散模型作為"教師"，訓練一個小的"學生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯，但代價也明顯：訓練流程極其復雜，學生的性能上限被教師鎖死，一旦教師本身有缺陷，學生無論如何都超不過去。

何愷明團隊在 2025 年 5 月提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模，目標是實現(xiàn)真正的單步高質(zhì)量生成。方向正確，但初代 MF 有三個系統(tǒng)性的訓練缺陷，導致最終性能距離當時的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43，而最好的擴散模型已經(jīng)在 1.x 徘徊了。

第一個缺陷是訓練目標的"自依賴"。MF 的訓練目標是"平均速度損失"（u-loss），目標函數(shù)里包含了一個由網(wǎng)絡自身輸出推導出的項——這就好比讓一個人預測"自己說的話會造成什么后果"，優(yōu)化器在閉環(huán)里反復震蕩，訓練方差極大，收斂不徹底。

第二個缺陷是引導機制的"死板"。無分類器引導（CFG）是提升生成質(zhì)量的關鍵技術，但 MF 訓練時把 CFG 強度固定了，推理時用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個調(diào)參手段。

第三個缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機制在處理多條件（時間步 t、類別標簽 c、CFG 強度 ω）時把所有條件向量簡單求和，條件多了之后互相干擾，參數(shù)利用率極低。

iMF 成功解決了這三個缺陷目標，通過將訓練目標重新表述為更穩(wěn)定的瞬時速度損失，同時引入靈活的無分類器指導（CFG）和高效的上下文內(nèi)條件作用，大幅提升了模型性能。

論文鏈接： https://arxiv.org/abs/2512.02012

針對訓練目標，iMF 利用 MeanFlow 的數(shù)學恒等式，將平均速度損失（u-loss）等價轉(zhuǎn)換為瞬時速度損失（v-loss）。瞬時速度 v 等于網(wǎng)絡在 t 時刻的瞬時導數(shù)，它的特點是：目標 v 與網(wǎng)絡自身的輸出完全無關，是一個純粹的標準回歸問題。這個看似簡單的數(shù)學變換，把 MF 訓練不穩(wěn)定的根因直接消除了。

針對 CFG 靈活性，iMF 把 CFG 強度 ω、引導區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡。訓練時從冪分布中隨機采樣不同引導強度，讓網(wǎng)絡學習不同 CFG 強度下的速度場分布；推理時，用戶可以自由調(diào)節(jié) CFG 強度，就像使用普通擴散模型一樣自然。這個設計讓 iMF 支持了 CFG 區(qū)間控制——只有當 t 落在某個區(qū)間內(nèi)時才啟用引導，超出區(qū)間自動關閉，給了研究者更多調(diào)控手段。

針對架構(gòu)效率，iMF 摒棄了把條件向量求和的粗暴做法，轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個可學習的 token，類別 8 個、時間步 4 個、CFG 強度 4 個、引導區(qū)間 4 個，與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M，減少了三分之一，同時 FID 反而改善。

iMF 和MF對比圖

三條改進的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻：原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進 3.39 → 640 epoch 長訓練 1.72。每一步都有據(jù)可查，每一步的改善都可以歸因到具體的修改點。

最終 iMF-XL/2 實現(xiàn)了 1-NFE FID 1.72，且這是從零訓練、不依賴任何蒸餾取得的成績。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法，包括 FACM-XL/2（蒸餾，F(xiàn)ID 1.76）和 DMF-XL/2+（蒸餾，F(xiàn)ID 2.16）。擴散模型領域的一個默認假設被打破了：高質(zhì)量單步生成，不需要蒸餾。

更值得關注的是 2-NFE 時 iMF 的 FID 降至 1.54，已經(jīng)非常接近主流多步擴散的水平（SiT-XL/2+REPA 為 1.42 @ 數(shù)百步）。單步模型與多步模型的性能差距，第一次縮小到了這個量級。

像素監(jiān)督：從邊緣到正面競爭

自監(jiān)督視覺預訓練領域近年來有一個明顯的主流敘事：像素空間已經(jīng)過時，潛空間才是未來。

DINOv3 是這個方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間，再進行對比學習，在多項視覺任務上達到了 SOTA，逐漸被視為"正確答案"。

這個敘事的隱含前提是：在大規(guī)模訓練場景下，像素級自監(jiān)督天然不如潛空間方法，因為像素空間的高維、冗余、多噪聲特性讓學習效率更低。

Pixo（pixel supervision）要檢驗的正是這個前提。

MAE 已經(jīng)證明，像素空間的掩碼自編碼器在大規(guī)模訓練下是一個簡單而高效的選擇。Pixo 則把這個思路推向極致：在 20 億張網(wǎng)絡爬取圖像上，系統(tǒng)性地探索像素監(jiān)督的上限，并在預訓練任務、模型架構(gòu)和訓練策略三個層面對 MAE 做了全面增強。預訓練任務設計得更具挑戰(zhàn)性，架構(gòu)針對大規(guī)模高效訓練做了優(yōu)化，訓練策略引入了自篩選機制自動過濾低質(zhì)量數(shù)據(jù)，最小化人工干預。

Pixio 對 MAE 進行的關鍵更新

結(jié)果沒有出現(xiàn)預期的"像素完敗"局面。在深度估計、前饋 3D 重建、語義分割、機器人操控等多個下游任務上，Pixo 與 DINOv3 正面競爭，各有勝負。

這意味著像素監(jiān)督在大規(guī)模場景下并非不如潛空間方法，只是需要更強的任務設計、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細的訓練策略。

兩種范式各有其適合的場景：像素監(jiān)督在需要保留完整視覺細節(jié)的任務上可能更有優(yōu)勢，而潛空間方法在語義理解類任務上更占優(yōu)。

兩種范式的競爭才剛剛開始，Pixo 的價值在于證明了像素監(jiān)督的邊界還遠未到達——在 20 億規(guī)模的數(shù)據(jù)上，它依然是一個有力的競爭者，而非被淘汰的遺產(chǎn)。

論文鏈接： https://arxiv.org/abs/2512.15715

結(jié)語

盤點完何愷明近期的五篇論文，一個值得深思的問題浮現(xiàn)出來：擴散模型統(tǒng)治圖像生成五年，這個"統(tǒng)治"到底有多扎實？

歸一化流在效率上的結(jié)構(gòu)性缺陷，是可以通過放棄"精確逆"來修復的；

擴散模型的訓練目標不穩(wěn)定，是可以通過換掉噪聲預測目標來改善的；

單步生成必須依賴蒸餾的假設，是被 iMF 用從零訓練的 FID 1.72 直接打破的。

甚至在視覺推理和自監(jiān)督學習領域，何愷明團隊也在用最小化的視覺架構(gòu)挑戰(zhàn)語言模型的傳統(tǒng)領地，而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標，而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡"的風格提出新的思路，這些思路對于傳統(tǒng)方案來說，是顛覆性的改變。

同時，這五篇論文也反映了他們一個連貫的戰(zhàn)略判斷。擴散模型不是終點，而是某個更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案，iMF 和 BiFlow 是這個答案最有力的支撐。他們從底層基礎（歸一化、去噪目標函數(shù)、流模型設計）出發(fā)，重構(gòu)視覺生成與理解的理論框架。

接下來的問題是，這個判斷會不會在 2026 年成為整個生成式 AI 領域的共識——而這一次，何愷明的團隊已經(jīng)把路標立好了。

雷峰網(wǎng)(公眾號：雷峰網(wǎng)) 何愷明團隊論文全景掃描：一場關于「生成范式」的多角度突破 | CVPR 2026

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。