MeanFuser——基于MeanFlow的快速單步多模態(tài)軌跡生成端到端自動(dòng)駕駛 | CVPR 2026

本文作者：陳淑瑜

2026-04-28 16:29

導(dǎo)語：MeanFuser 正是針對(duì)這一核心矛盾提出的解決方案，通過引入 MeanFlow Identity 和高斯混合噪聲引導(dǎo)，實(shí)現(xiàn)了高效率與高質(zhì)量的統(tǒng)一

【封面圖片來源：網(wǎng)站名中國(guó)科學(xué)院自動(dòng)化研究所，所有者：MeanFuser】

一、研究背景

端到端自動(dòng)駕駛近年來取得了飛速進(jìn)展，生成模型在多模態(tài)軌跡規(guī)劃中展現(xiàn)出巨大潛力?，F(xiàn)有基于錨點(diǎn)引導(dǎo)的生成方法能有效刻畫駕駛行為的不確定性并提升整體性能，但存在一個(gè)內(nèi)在矛盾：這類方法依賴離散錨點(diǎn)詞匯表，并要求其在測(cè)試階段充分覆蓋軌跡分布以保證魯棒性，從而在詞匯規(guī)模與模型性能之間引入不可調(diào)和的權(quán)衡——詞匯太少則覆蓋不夠，詞匯太多則計(jì)算成本爆炸。

另一方面，傳統(tǒng)流匹配方法在高質(zhì)量軌跡生成上需要多步ODE求解，推理效率受限，難以滿足自動(dòng)駕駛系統(tǒng)對(duì)實(shí)時(shí)性的嚴(yán)苛要求。如何在不引入離散詞匯依賴的同時(shí)，以單步生成實(shí)現(xiàn)高質(zhì)量多模態(tài)軌跡，成為亟待突破的核心問題。

MeanFuser 正是針對(duì)這一核心矛盾提出的解決方案，通過引入 MeanFlow Identity 和高斯混合噪聲引導(dǎo)，實(shí)現(xiàn)了高效率與高質(zhì)量的統(tǒng)一。

MeanFuser——基于MeanFlow的快速單步多模態(tài)軌跡生成端到端自動(dòng)駕駛 | CVPR 2026

二、核心方法

MeanFuser 的方法創(chuàng)新體現(xiàn)在三個(gè)層面的有機(jī)結(jié)合：

高斯混合噪聲（GMN）引導(dǎo)生成采樣：

將離散錨點(diǎn)詞匯表替換為高斯混合分布。不同駕駛模態(tài)（如直行、左轉(zhuǎn)、右轉(zhuǎn)、減速等）對(duì)應(yīng)不同的高斯分量，從而實(shí)現(xiàn)對(duì)軌跡空間的連續(xù)建模，從根本上消除了對(duì)離散詞匯表的依賴，支持無限細(xì)粒度的多模態(tài)軌跡采樣。

MeanFlow Identity 實(shí)現(xiàn)單步生成：

將 MeanFlow Identity（建模 GMN 與軌跡分布之間的平均速度場(chǎng)）引入端到端規(guī)劃框架，用平均速度場(chǎng)替代傳統(tǒng)流匹配中的瞬時(shí)速度場(chǎng)，有效避免多步ODE求解帶來的數(shù)值誤差，實(shí)現(xiàn)高質(zhì)量單步軌跡生成，大幅加速推理。

輕量化自適應(yīng)重構(gòu)模塊（ARM）：

ARM 將采樣到的多模態(tài)候選軌跡編碼后，通過交叉注意力機(jī)制與上下文特征融合，在多模態(tài)候選中隱式選擇或重構(gòu)最優(yōu)軌跡作為最終規(guī)劃輸出。這一設(shè)計(jì)既保留了多模態(tài)探索的豐富性，又通過注意力機(jī)制實(shí)現(xiàn)了上下文感知的自適應(yīng)融合。

三、亮點(diǎn)總結(jié)

亮點(diǎn)一：徹底擺脫離散詞匯表依賴

通過高斯混合噪聲連續(xù)建模駕駛行為分布，MeanFuser 從根源上消除了詞匯規(guī)模 vs 性能的內(nèi)在矛盾。軌跡空間的連續(xù)表征使模型能自然捕獲真實(shí)駕駛行為的連續(xù)分布，顯著提升在分布外場(chǎng)景和罕見駕駛行為上的魯棒性。

亮點(diǎn)二：?jiǎn)尾缴杉骖欃|(zhì)量與速度

MeanFlow 單步生成策略使 MeanFuser 在 NAVSIM 閉環(huán)基準(zhǔn)上取得優(yōu)異性能的同時(shí)，具備卓越的推理效率，無需額外監(jiān)督信號(hào)。這對(duì)于自動(dòng)駕駛系統(tǒng)在車載算力有限條件下的實(shí)時(shí)部署至關(guān)重要。

亮點(diǎn)三：NAVSIM 閉環(huán)驗(yàn)證的優(yōu)異表現(xiàn)

在注重真實(shí)駕駛閉環(huán)反饋的 NAVSIM 基準(zhǔn)上，MeanFuser 展現(xiàn)出優(yōu)于現(xiàn)有方法的綜合性能，驗(yàn)證了從訓(xùn)練階段消除詞匯依賴對(duì)閉環(huán)測(cè)試泛化性的正向貢獻(xiàn)，為端到端自動(dòng)駕駛的工程落地提供了高效可靠的新范式。

──────────────────────────────────────────