0
| 本文作者: 陳淑瑜 | 2026-05-12 14:26 | 專題:CVPR 計算機視覺與模式識別會議 |

2025 年到 2026 年,如果要問生成式 AI 領域最值得關注的研究方向,流匹配(Flow Matching) 是一個無法繞開的答案。
從去年起,這個名字開始頻繁出現(xiàn)在頂會論文里、被工業(yè)界反復討論、被拿來和統(tǒng)治了圖像生成領域長達五年的擴散模型正面比較。
所謂流匹配,本質(zhì)上是用常微分方程路徑(ODE path)替代擴散模型的隨機微分方程路徑,讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代,從而在理論上實現(xiàn)更高效的生成。但從理論可行到工程落地,中間隔著無數(shù)技術細節(jié)——訓練目標怎么設計、架構(gòu)怎么選、速度和質(zhì)量如何兼顧,每一步都是坑。
何愷明團隊正是在這個節(jié)點上,密集地交出了一份多角度的答卷。
AI科技評論總結(jié)了何愷明團隊近期在CVPR大會上發(fā)表上的論文: 2025 年 5 月,他們提出了均值流(MeanFlow),首次將"均值速度場"引入生成建模;同年年底,BiFlow 在歸一化流框架上實現(xiàn)了 700 倍加速,將 FID 推到 2.39;幾乎同一時間,Improved MeanFlow(iMF)則以三個系統(tǒng)性修復將單步 FID 降至 1.72,首次在無蒸餾條件下超越所有蒸餾方法。
生成模型之外,團隊在視覺推理(VARC,CVPR 2026)和自監(jiān)督學習(Pixo,CVPR 2026)上也同時出擊,共同勾勒出一個清晰的戰(zhàn)略意圖:擴散模型并不是圖像生成的終點,流匹配這條路,值得全力押注。
這五篇論文之間沒有直接的方法傳承,方向各有側(cè)重,但貫穿其中的核心問題始終如一:在每一個被默認的技術選擇背后,到底藏著多少被低估的優(yōu)化空間?
理解 JiT 的工作,需要從擴散模型一個被忽視已久的痛點說起。
當前的擴散模型在訓練時,網(wǎng)絡學習預測的目標是噪聲 ε 或速度 v,而非干凈圖像 x。
這個細節(jié)在大多數(shù)論文里被一筆帶過,但它有一個容易被忽視的含義:噪聲和速度并不在自然圖像的流形上。用大白話說,網(wǎng)絡在試圖預測一個"不屬于這個世界"的東西——它不在圖像分布內(nèi),是離群的量。這種預測天然地不穩(wěn)定,網(wǎng)絡需要額外的表達能力來處理那些本不應該出現(xiàn)在預測目標里的高維噪聲。
也就是說,預測噪聲和預測干凈圖區(qū)別很大。

流形示意圖
JiT 的核心洞察正是從這里切入的。既然 x(干凈圖像)在圖像流形上,那就讓網(wǎng)絡直接預測 x。直覺上這是一個退步——流形外的東西更難預測,流形內(nèi)的東西反而應該更容易。但團隊指出,這個邏輯在擴散模型里是反的:噪聲 ε 分布在高維空間,目標分布極廣,網(wǎng)絡需要一個很強的先驗來"猜測"噪聲的真實值;而 x 就在流形上,是網(wǎng)絡見過的、理解的、可以自然逼近的東西。
為了讓這個樸素的想法在工程上成立,JiT 采用了標準 Vision Transformer,但做了一個看似大膽的調(diào)整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像標準擴散模型那樣在高分辨率下被迫使用極小的 patch。
原因在于:x 在流形上,網(wǎng)絡不需要處理流形外的高維噪聲干擾,因此 patch 大小的增加不會導致信息缺失,也沒有帶來災難性的效果退化。
這是一種返璞歸真,直接預測目標圖像,對傳統(tǒng)認知發(fā)起了一次直接挑戰(zhàn).

JiT模型生成的圖像樣本
JiT 還完全去掉了 VAE Tokenizer,不需要預訓練的潛空間,不需要 GAN 損失或感知損失,就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù),從 256 到 1024 分辨率,計算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個原生模型可以在任意分辨率上生成,而不需要借助潛空間的壓縮-解壓機制。
最終結(jié)果在 ImageNet 512×512 上實現(xiàn)了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了競爭力的 FID。更值得關注的是,這個性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓練得到的。
JiT 證明了"讓擴散模型真正做去噪"這件事本身,就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧,只需要把預測目標換回那個理所當然卻被忽視了五年的選項。

論文鏈接:https://arxiv.org/abs/2511.13720
ARC是 AI 領域歷史最久的推理能力測試之一,包含數(shù)百個"視覺謎題",要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對物理世界的抽象,本不應該和語言有任何關系。
然而長期以來,整個社區(qū)把 ARC 當成了一個語言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜,原因是 ARC 的任務描述可以自然地翻譯成文字,語言模型恰好擅長這類文字推理。這在工程上無可厚非,但它制造了一個隱性的假設:視覺抽象推理,必須借助語言才能完成。
VARC 要挑戰(zhàn)的正是這個假設。
它把 ARC 任務重新建模為圖像到圖像的翻譯問題,用一個只有 18M 參數(shù)的 ViT 從頭訓練,不依賴任何語言能力,在 ARC-1 上達到了單模型 54.5%、集成 60.4% 的準確率。60.4% 是什么水平?人類平均水平是 60.2%,頂級大語言模型也在這個區(qū)間。
這意味著,一個參數(shù)量只有頂級 LLM 幾千分之一的純視覺模型,在視覺推理任務上達到了與人類相當?shù)乃健?/span>
VARC框架的實現(xiàn)路徑也非常直接,沒有把輸入網(wǎng)格直接 token 化,而是使用了“畫布”,將網(wǎng)格嵌入到一個足夠大的預定義畫布(32×32)上,背景用第 11 種顏色填充。然后像處理一張普通圖片一樣,被ViT模型進行端到端的處理。
這帶來一個關鍵效果:token 數(shù)量從有限的網(wǎng)格大小擴展到了更大的空間,讓 ViT 的注意力機制有了充足的施展余地,能夠捕捉遠程的視覺關系。

WARC的畫布
另外,測試時訓練(TTT)在推理階段利用測試任務的少量示例做快速微調(diào),是性能逼近人類水平的關鍵——模型不是"記住"了 ARC 的規(guī)則,而是在看到新任務時快速學習規(guī)則本身。
VARC 的出現(xiàn)給整個 ARC 社區(qū)潑了一盆冷水:大家花了大量工程資源在語言模型上刷榜,卻忽視了純視覺方法在這個任務上的潛力。
這個潛力的釋放需要兩個條件:一個足夠大的視覺畫布,以及一個讓模型在推理時繼續(xù)學習的機制。一旦這兩個條件被滿足,視覺推理不需要語言模型這件事,變得異常清晰。

論文鏈接: https://arxiv.org/abs/2511.14761
歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢是可以用精確的數(shù)學形式同時完成生成和似然估計,訓練過程透明、可解釋,不像擴散模型那樣依賴多次采樣來近似對數(shù)似然。但長期以來,它在性能上被擴散模型壓得喘不過氣來。
原因出在兩個結(jié)構(gòu)性約束上。
第一,傳統(tǒng)歸一化流為了保證前向變換的精確可逆性,必須采用受限的網(wǎng)絡架構(gòu),無法使用 Transformer 等更強大的序列模型。
第二,逆向過程依賴自回歸因果解碼,每一步必須順序計算,無法并行,生成一張圖的時間成本極高。這兩個約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競爭力。
BiFlow 的解題思路初看有些反直覺:逆向過程不需要是前向過程的精確逆。
前向過程保持可逆,這是數(shù)學上的保證,確保分布映射的準確性不受損害;但逆向過程單獨訓練一個獨立的模型來近似逆映射,不要求它在數(shù)學上等于前向的解析逆。這個"放棄精確逆"帶來了一個巨大的解放:逆向過程可以使用完全并行的 Transformer 架構(gòu),實現(xiàn)真正的單步生成,不再受自回歸解碼的順序瓶頸約束。
但這還不夠。逆向模型單獨訓練,意味著它學到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。
BiFlow 引入了隱藏層對齊機制,利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型,確保兩者在表示空間中對齊,防止逆向模型"跑偏"。對齊之后,逆向模型既能受益于 Transformer 的強大表達能力,又能保持前向過程的分布結(jié)構(gòu)完整。

標準化流與BiFlow的概念對比
最終結(jié)果在 ImageNet 256×256 上實現(xiàn)了 FID 2.39,這是歸一化流方法的歷史新紀錄。但更有沖擊力的是速度數(shù)據(jù):單張圖像生成時間從 TARFlow 的 0.7 秒縮短到 0.001 秒,加速約 700 倍。

BiFlow與SOTA流模型的效率對比
這不再是理論推演,而是一個可以直接在工程中落地的效率躍遷。歸一化流長期被視為"理論上優(yōu)美、工程上雞肋"的框架,BiFlow 至少把后半句的錯誤認知打破了。

論文地址:https://arxiv.org/abs/2512.10953
如果說 BiFlow 是把歸一化流從困境中拉了出來,那么 iMF(Improved Mean Flows)的目標更徹底:把"快進生成"這條路的瓶頸徹底打通。
"快進生成"的核心目標是讓擴散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個大而慢的擴散模型作為"教師",訓練一個小的"學生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯,但代價也明顯:訓練流程極其復雜,學生的性能上限被教師鎖死,一旦教師本身有缺陷,學生無論如何都超不過去。
何愷明團隊在 2025 年 5 月提出了均值流(MeanFlow),首次將"均值速度場"引入生成建模,目標是實現(xiàn)真正的單步高質(zhì)量生成。方向正確,但初代 MF 有三個系統(tǒng)性的訓練缺陷,導致最終性能距離當時的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的擴散模型已經(jīng)在 1.x 徘徊了。
第一個缺陷是訓練目標的"自依賴"。MF 的訓練目標是"平均速度損失"(u-loss),目標函數(shù)里包含了一個由網(wǎng)絡自身輸出推導出的項——這就好比讓一個人預測"自己說的話會造成什么后果",優(yōu)化器在閉環(huán)里反復震蕩,訓練方差極大,收斂不徹底。
第二個缺陷是引導機制的"死板"。無分類器引導(CFG)是提升生成質(zhì)量的關鍵技術,但 MF 訓練時把 CFG 強度固定了,推理時用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個調(diào)參手段。
第三個缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機制在處理多條件(時間步 t、類別標簽 c、CFG 強度 ω)時把所有條件向量簡單求和,條件多了之后互相干擾,參數(shù)利用率極低。
iMF 成功解決了這三個缺陷目標,通過將訓練目標重新表述為更穩(wěn)定的瞬時速度損失,同時引入靈活的無分類器指導(CFG)和高效的上下文內(nèi)條件作用,大幅提升了模型性能。

論文鏈接: https://arxiv.org/abs/2512.02012
針對訓練目標,iMF 利用 MeanFlow 的數(shù)學恒等式,將平均速度損失(u-loss)等價轉(zhuǎn)換為瞬時速度損失(v-loss)。瞬時速度 v 等于網(wǎng)絡在 t 時刻的瞬時導數(shù),它的特點是:目標 v 與網(wǎng)絡自身的輸出完全無關,是一個純粹的標準回歸問題。這個看似簡單的數(shù)學變換,把 MF 訓練不穩(wěn)定的根因直接消除了。
針對 CFG 靈活性,iMF 把 CFG 強度 ω、引導區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡。訓練時從冪分布中隨機采樣不同引導強度,讓網(wǎng)絡學習不同 CFG 強度下的速度場分布;推理時,用戶可以自由調(diào)節(jié) CFG 強度,就像使用普通擴散模型一樣自然。這個設計讓 iMF 支持了 CFG 區(qū)間控制——只有當 t 落在某個區(qū)間內(nèi)時才啟用引導,超出區(qū)間自動關閉,給了研究者更多調(diào)控手段。
針對架構(gòu)效率,iMF 摒棄了把條件向量求和的粗暴做法,轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個可學習的 token,類別 8 個、時間步 4 個、CFG 強度 4 個、引導區(qū)間 4 個,與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M,減少了三分之一,同時 FID 反而改善。

iMF 和MF對比圖
三條改進的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻:原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進 3.39 → 640 epoch 長訓練 1.72。每一步都有據(jù)可查,每一步的改善都可以歸因到具體的修改點。
最終 iMF-XL/2 實現(xiàn)了 1-NFE FID 1.72,且這是從零訓練、不依賴任何蒸餾取得的成績。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法,包括 FACM-XL/2(蒸餾,F(xiàn)ID 1.76)和 DMF-XL/2+(蒸餾,F(xiàn)ID 2.16)。擴散模型領域的一個默認假設被打破了:高質(zhì)量單步生成,不需要蒸餾。
更值得關注的是 2-NFE 時 iMF 的 FID 降至 1.54,已經(jīng)非常接近主流多步擴散的水平(SiT-XL/2+REPA 為 1.42 @ 數(shù)百步)。單步模型與多步模型的性能差距,第一次縮小到了這個量級。
自監(jiān)督視覺預訓練領域近年來有一個明顯的主流敘事:像素空間已經(jīng)過時,潛空間才是未來。
DINOv3 是這個方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間,再進行對比學習,在多項視覺任務上達到了 SOTA,逐漸被視為"正確答案"。
這個敘事的隱含前提是:在大規(guī)模訓練場景下,像素級自監(jiān)督天然不如潛空間方法,因為像素空間的高維、冗余、多噪聲特性讓學習效率更低。
Pixo(pixel supervision) 要檢驗的正是這個前提。
MAE 已經(jīng)證明,像素空間的掩碼自編碼器在大規(guī)模訓練下是一個簡單而高效的選擇。Pixo 則把這個思路推向極致:在 20 億張網(wǎng)絡爬取圖像上,系統(tǒng)性地探索像素監(jiān)督的上限,并在預訓練任務、模型架構(gòu)和訓練策略三個層面對 MAE 做了全面增強。預訓練任務設計得更具挑戰(zhàn)性,架構(gòu)針對大規(guī)模高效訓練做了優(yōu)化,訓練策略引入了自篩選機制自動過濾低質(zhì)量數(shù)據(jù),最小化人工干預。

Pixio 對 MAE 進行的關鍵更新
結(jié)果沒有出現(xiàn)預期的"像素完敗"局面。在深度估計、前饋 3D 重建、語義分割、機器人操控等多個下游任務上,Pixo 與 DINOv3 正面競爭,各有勝負。
這意味著像素監(jiān)督在大規(guī)模場景下并非不如潛空間方法,只是需要更強的任務設計、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細的訓練策略。
兩種范式各有其適合的場景:像素監(jiān)督在需要保留完整視覺細節(jié)的任務上可能更有優(yōu)勢,而潛空間方法在語義理解類任務上更占優(yōu)。
兩種范式的競爭才剛剛開始,Pixo 的價值在于證明了像素監(jiān)督的邊界還遠未到達——在 20 億規(guī)模的數(shù)據(jù)上,它依然是一個有力的競爭者,而非被淘汰的遺產(chǎn)。

論文鏈接: https://arxiv.org/abs/2512.15715
盤點完何愷明近期的五篇論文,一個值得深思的問題浮現(xiàn)出來:擴散模型統(tǒng)治圖像生成五年,這個"統(tǒng)治"到底有多扎實?
歸一化流在效率上的結(jié)構(gòu)性缺陷,是可以通過放棄"精確逆"來修復的;
擴散模型的訓練目標不穩(wěn)定,是可以通過換掉噪聲預測目標來改善的;
單步生成必須依賴蒸餾的假設,是被 iMF 用從零訓練的 FID 1.72 直接打破的。
甚至在視覺推理和自監(jiān)督學習領域,何愷明團隊也在用最小化的視覺架構(gòu)挑戰(zhàn)語言模型的傳統(tǒng)領地,而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標,而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡"的風格提出新的思路,這些思路對于傳統(tǒng)方案來說,是顛覆性的改變。
同時,這五篇論文也反映了他們一個連貫的戰(zhàn)略判斷。擴散模型不是終點,而是某個更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案,iMF 和 BiFlow 是這個答案最有力的支撐。他們從底層基礎(歸一化、去噪目標函數(shù)、流模型設計)出發(fā),重構(gòu)視覺生成與理解的理論框架。
接下來的問題是,這個判斷會不會在 2026 年成為整個生成式 AI 領域的共識——而這一次,何愷明的團隊已經(jīng)把路標立好了。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章