日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給鄭佳美
發(fā)送

0

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

本文作者: 鄭佳美   2025-12-26 12:15
導(dǎo)語:當(dāng)世界模型服務(wù)于系統(tǒng)整體而非單一任務(wù)時(shí),其價(jià)值才得以體現(xiàn)。

在自動(dòng)駕駛研究不斷向世界模型演進(jìn)的過程中,一個(gè)長(zhǎng)期被回避卻無法忽視的問題正逐漸凸顯:模型在論文中的性能提升,是否真的對(duì)應(yīng)著系統(tǒng)在真實(shí)駕駛環(huán)境中的魯棒性提升?

過去數(shù)年中,大量工作通過更復(fù)雜的生成結(jié)構(gòu)、更精細(xì)的預(yù)測(cè)目標(biāo)和更先進(jìn)的訓(xùn)練策略,使世界模型在視覺預(yù)測(cè)與場(chǎng)景生成指標(biāo)上取得了顯著進(jìn)展。然而,在工程實(shí)踐中,這些看起來 reminder 的模型,往往并不能穩(wěn)定支撐長(zhǎng)期決策、復(fù)雜交互和安全約束并存的真實(shí)駕駛系統(tǒng)。

問題并不完全出在模型本身,而更深層地指向了實(shí)驗(yàn)范式與評(píng)測(cè)目標(biāo)的錯(cuò)位:我們究竟在通過實(shí)驗(yàn)驗(yàn)證什么?是模型是否預(yù)測(cè)得更像,還是系統(tǒng)是否運(yùn)行得更穩(wěn)?在缺乏統(tǒng)一任務(wù)定義、系統(tǒng)級(jí)閉環(huán)驗(yàn)證和可信評(píng)測(cè)標(biāo)準(zhǔn)的前提下,世界模型的能力邊界正在被系統(tǒng)性高估。

正是在這一背景下,北京交通大學(xué)研究團(tuán)隊(duì)聯(lián)合小米汽車自動(dòng)駕駛與具身智能算法團(tuán)隊(duì),在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,對(duì)自動(dòng)駕駛世界模型進(jìn)行了不同于傳統(tǒng)綜述的系統(tǒng)性審視。

這項(xiàng)工作并未提出新的模型或算法,而是基于大量已有實(shí)驗(yàn)結(jié)果,重構(gòu)了一套以魯棒性為核心變量的分析框架,從生成評(píng)測(cè)、結(jié)構(gòu)化空間建模、規(guī)劃驗(yàn)證到系統(tǒng)級(jí)閉環(huán)行為,逐層揭示了當(dāng)前世界模型研究中被忽視的關(guān)鍵斷層,并明確指出哪些結(jié)論是被實(shí)驗(yàn)真正支持的,哪些則仍停留在指標(biāo)幻覺之中。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

論文地址:https://doi.org/10.36227/techrxiv.176523308.84756413/v1

基于既有實(shí)驗(yàn)結(jié)果的系統(tǒng)性觀察

如果將這篇論文視作一次嚴(yán)格意義上的實(shí)驗(yàn)研究,那么它的實(shí)驗(yàn)結(jié)果并不是某個(gè)模型在某個(gè)指標(biāo)上的提升,而是一組關(guān)于整個(gè)自動(dòng)駕駛世界模型研究方向有效性與局限性的實(shí)證性結(jié)論。這些結(jié)論來自對(duì)大量已有實(shí)驗(yàn)結(jié)果的系統(tǒng)重組,而非主觀推斷。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

首先,在最基礎(chǔ)的層面,論文通過對(duì)近年來生成式世界模型實(shí)驗(yàn)結(jié)果的系統(tǒng)梳理,確認(rèn)了一個(gè)表面上樂觀、但內(nèi)在矛盾的事實(shí):自動(dòng)駕駛世界模型在視覺預(yù)測(cè)、場(chǎng)景生成等任務(wù)上的定量指標(biāo)確實(shí)在持續(xù)進(jìn)步,但這種進(jìn)步并未線性轉(zhuǎn)化為對(duì)駕駛安全或系統(tǒng)穩(wěn)定性的可靠提升。

具體來說,圖像與視頻預(yù)測(cè)類實(shí)驗(yàn)顯示,多數(shù)方法在諸如 FID、FVD 這類統(tǒng)計(jì)分布相似性指標(biāo)上已經(jīng)達(dá)到了相當(dāng)成熟的水平。一些模型生成的未來幀在視覺質(zhì)量上甚至難以與真實(shí)數(shù)據(jù)區(qū)分。這一實(shí)驗(yàn)現(xiàn)象在不同論文、不同數(shù)據(jù)集上反復(fù)出現(xiàn),因此并非偶然。然而,當(dāng)這些結(jié)果被進(jìn)一步放置到時(shí)間序列維度進(jìn)行審視時(shí),問題開始顯現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,許多模型在短期預(yù)測(cè)窗口內(nèi)表現(xiàn)穩(wěn)定,但隨著預(yù)測(cè)時(shí)間延長(zhǎng),場(chǎng)景結(jié)構(gòu)、目標(biāo)位置和運(yùn)動(dòng)軌跡逐漸偏離合理范圍。這種偏離往往不會(huì)在傳統(tǒng)生成指標(biāo)中被顯式懲罰,卻在真實(shí)駕駛中對(duì)應(yīng)著潛在的碰撞風(fēng)險(xiǎn)、規(guī)則違反或不可恢復(fù)的系統(tǒng)失效。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

這一實(shí)驗(yàn)現(xiàn)象本身構(gòu)成了論文的第一個(gè)關(guān)鍵結(jié)論:當(dāng)前主流生成評(píng)測(cè)體系無法充分刻畫自動(dòng)駕駛所需的魯棒性維度。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

其次,當(dāng)論文將分析重心轉(zhuǎn)向點(diǎn)云與 Occupancy 表征相關(guān)實(shí)驗(yàn)結(jié)果時(shí),出現(xiàn)了明顯不同的趨勢(shì)?;谌S或四維空間表征的世界模型,在多個(gè)實(shí)驗(yàn)設(shè)置中表現(xiàn)出更強(qiáng)的一致性和穩(wěn)定性。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

無論是在空間重建精度,還是在為規(guī)劃模塊提供狀態(tài)輸入時(shí),這類方法在多項(xiàng)公開基準(zhǔn)上都展現(xiàn)出相對(duì)更可靠的性能。這種優(yōu)勢(shì)并非來源于單一指標(biāo)的極致優(yōu)化,而是體現(xiàn)在多指標(biāo)、多任務(wù)條件下的整體穩(wěn)定性。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

通過對(duì)比這些實(shí)驗(yàn)結(jié)果,論文實(shí)際上確認(rèn)了第二個(gè)重要事實(shí):魯棒性更容易從結(jié)構(gòu)化空間建模中涌現(xiàn),而非從純粹的感知級(jí)生成中涌現(xiàn)。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

在規(guī)劃相關(guān)實(shí)驗(yàn)中,論文進(jìn)一步通過區(qū)分開環(huán)與閉環(huán)評(píng)測(cè),揭示了世界模型能力評(píng)估中的一個(gè)長(zhǎng)期混淆點(diǎn)。在開環(huán)規(guī)劃實(shí)驗(yàn)中,即僅評(píng)估模型在給定歷史條件下預(yù)測(cè)未來狀態(tài)的能力時(shí),多項(xiàng)實(shí)驗(yàn)結(jié)果顯示,世界模型在軌跡預(yù)測(cè)質(zhì)量、環(huán)境理解一致性等方面已經(jīng)接近甚至匹配部分強(qiáng)端到端系統(tǒng)。這說明,從世界演化建模的角度看,世界模型已經(jīng)具備相當(dāng)程度的表達(dá)能力。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

然而,當(dāng)這些模型被嵌入閉環(huán)系統(tǒng),在真實(shí)的決策鏈條中承擔(dān)連續(xù)規(guī)劃與控制職責(zé)時(shí),它的能力邊界便開始暴露。

系統(tǒng)不同于更為理想化的開環(huán)評(píng)測(cè),它引入了反饋機(jī)制,模型的輸出會(huì)直接影響環(huán)境狀態(tài),并作為新的輸入重新回到系統(tǒng)之中,小幅的感知與預(yù)測(cè)偏差會(huì)在這種反饋中逐步累積與放大。

例如在 Bench2Drive 等閉環(huán)測(cè)評(píng)中,只有依賴專家信息的 Think2Drive 能夠?qū)⒕C合駕駛得分提升至 92 分左右,而不使用專家信息的 Raw2Drive 得分僅為 71 分,多數(shù)使用世界模型方法的駕駛得分集中在 40-60 分之間,并伴隨成功率與碰撞率的顯著差異。

也正因如此,可以觀察到一種穩(wěn)定存在的能力斷層:在開環(huán)指標(biāo)上表現(xiàn)優(yōu)秀的模型,并不必然在閉環(huán)仿真乃至真實(shí)系統(tǒng)中展現(xiàn)出同等水平的安全性與穩(wěn)定性。

由此可見,開環(huán)和閉環(huán)系統(tǒng)并非簡(jiǎn)單的替代關(guān)系,而應(yīng)被視作是互補(bǔ)的兩個(gè)層級(jí),即開環(huán)主要用于驗(yàn)證表示與預(yù)測(cè)的認(rèn)知正確性,而閉環(huán)則用于檢驗(yàn)長(zhǎng)期交互中的行為穩(wěn)健性。

或許未來的關(guān)鍵方向,不僅在于繼續(xù)提升開環(huán)的預(yù)測(cè)精度,更在于能夠構(gòu)建一個(gè)能夠有效銜接開環(huán)和閉環(huán)系統(tǒng)的訓(xùn)練體系,進(jìn)而真正支撐系統(tǒng)及魯棒性自動(dòng)駕駛的實(shí)現(xiàn)。雷峰網(wǎng)

由此,論文在實(shí)驗(yàn)層面確認(rèn)了第三個(gè)關(guān)鍵結(jié)論:開環(huán)性能并不能可靠預(yù)測(cè)閉環(huán)系統(tǒng)的安全性與穩(wěn)定性。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

在更高層級(jí)的實(shí)驗(yàn)歸納中,論文還總結(jié)了一系列系統(tǒng)性證據(jù),表明世界模型在某些條件下確實(shí)能夠?yàn)樽詣?dòng)駕駛系統(tǒng)帶來實(shí)質(zhì)性收益。這些證據(jù)并不集中于單一指標(biāo),而體現(xiàn)在可控生成、零樣本泛化、跨任務(wù)遷移以及人類主觀評(píng)估等多個(gè)實(shí)驗(yàn)維度上。

這些實(shí)驗(yàn)結(jié)果共同指向一個(gè)結(jié)論:當(dāng)世界模型被用于增強(qiáng)系統(tǒng)整體能力,而非單一任務(wù)性能時(shí),其價(jià)值才開始顯現(xiàn)。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

非傳統(tǒng)實(shí)驗(yàn)范式的建立

理解這篇論文的實(shí)驗(yàn)過程,關(guān)鍵在于認(rèn)識(shí)到它采用的并非傳統(tǒng)意義上的“訓(xùn)練—測(cè)試”實(shí)驗(yàn)范式,而是一種跨研究工作的實(shí)驗(yàn)重構(gòu)方法。作者并沒有新增模型或數(shù)據(jù),而是通過重新組織已有實(shí)驗(yàn)結(jié)果,構(gòu)建了一套用于檢驗(yàn)研究方向本身的實(shí)驗(yàn)邏輯。

在實(shí)驗(yàn)的第一階段,作者關(guān)注的并不是模型能力,而是評(píng)測(cè)工具本身。他們系統(tǒng)梳理了自動(dòng)駕駛世界模型領(lǐng)域常用的數(shù)據(jù)集、仿真平臺(tái)與評(píng)價(jià)指標(biāo),并分析這些工具在多大程度上能夠反映真實(shí)駕駛需求。通過對(duì)比不同論文的實(shí)驗(yàn)設(shè)置,作者發(fā)現(xiàn):即使研究目標(biāo)相似,不同工作之間的評(píng)測(cè)方式也往往高度異質(zhì)。這種異質(zhì)性使得實(shí)驗(yàn)結(jié)果難以直接比較,也使得“性能提升”這一結(jié)論本身變得不穩(wěn)定。

這一階段的實(shí)驗(yàn)分析實(shí)際上是在對(duì)整個(gè)領(lǐng)域的實(shí)驗(yàn)基礎(chǔ)設(shè)施進(jìn)行審視,其隱含問題是:如果評(píng)測(cè)方式本身存在系統(tǒng)性盲區(qū),那么基于這些評(píng)測(cè)得出的結(jié)論是否可靠?

在第二階段,作者將實(shí)驗(yàn)分析的重點(diǎn)從評(píng)測(cè)工具轉(zhuǎn)向系統(tǒng)行為。他們不再試圖回答“哪個(gè)模型更好”,而是試圖回答“哪些實(shí)驗(yàn)結(jié)果在系統(tǒng)層面仍然成立”。為此,論文系統(tǒng)整理了涉及可控生成、零樣本泛化和跨任務(wù)遷移的實(shí)驗(yàn)工作。這些實(shí)驗(yàn)往往難以嚴(yán)格控制變量,但正因如此,更接近真實(shí)工程環(huán)境。

通過比較這些實(shí)驗(yàn)結(jié)果,作者發(fā)現(xiàn):某些在單一任務(wù)中并不占優(yōu)的方法,在系統(tǒng)級(jí)實(shí)驗(yàn)中反而表現(xiàn)出更高的穩(wěn)定性;而一些在生成指標(biāo)上表現(xiàn)突出的模型,在系統(tǒng)集成后卻難以維持性能。這種反差本身構(gòu)成了一種實(shí)驗(yàn)發(fā)現(xiàn),迫使研究者重新思考性能評(píng)估的目標(biāo)。

至于第三階段,論文并未給出完整實(shí)驗(yàn)結(jié)果,而是明確指出當(dāng)前實(shí)驗(yàn)體系的缺失。這并非實(shí)驗(yàn)不足,而是作者基于前兩階段實(shí)驗(yàn)分析后得出的理性判斷:在缺乏統(tǒng)一任務(wù)定義、可解釋性評(píng)測(cè)和可信閉環(huán)仿真之前,任何關(guān)于“開放世界魯棒性”的結(jié)論都缺乏實(shí)驗(yàn)支撐。

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

重新定義「值得被驗(yàn)證」的實(shí)驗(yàn)?zāi)繕?biāo)

從實(shí)驗(yàn)意義上看,這篇論文的價(jià)值并不在于它總結(jié)了多少工作,而在于它通過實(shí)驗(yàn)性分析改變了“什么值得被實(shí)驗(yàn)驗(yàn)證”的標(biāo)準(zhǔn)。

首先,它在實(shí)驗(yàn)層面否定了一種隱含但普遍存在的假設(shè),即認(rèn)為只要生成或預(yù)測(cè)性能不斷提升,系統(tǒng)魯棒性就會(huì)自然改善。通過對(duì)大量實(shí)驗(yàn)結(jié)果的系統(tǒng)分析,論文清楚地表明,這種假設(shè)在自動(dòng)駕駛場(chǎng)景下并不成立。魯棒性并不會(huì)自動(dòng)從局部性能優(yōu)化中涌現(xiàn)。

其次,這篇論文通過實(shí)驗(yàn)拆解,強(qiáng)調(diào)了系統(tǒng)級(jí)評(píng)測(cè)的重要性。它表明,真正有意義的實(shí)驗(yàn)不應(yīng)只關(guān)注模型在孤立任務(wù)中的表現(xiàn),而應(yīng)關(guān)注模型在復(fù)雜系統(tǒng)中的行為。這一觀點(diǎn)對(duì)研究范式具有直接約束力:它要求研究者在設(shè)計(jì)實(shí)驗(yàn)時(shí),必須明確自己所驗(yàn)證的魯棒性層級(jí)。

更深層的意義在于,這篇論文將自動(dòng)駕駛世界模型的研究問題,從“模型是否足夠強(qiáng)”轉(zhuǎn)變?yōu)椤皩?shí)驗(yàn)是否足夠真實(shí)”。這意味著,未來的關(guān)鍵突破不一定來自更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),而可能來自更合理的實(shí)驗(yàn)設(shè)計(jì)與評(píng)測(cè)體系。

一支把魯棒性「講透」的團(tuán)隊(duì)

賈飛陽為本文第一作者,現(xiàn)為北京交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士研究生,研究方向包括自動(dòng)駕駛?cè)S目標(biāo)檢測(cè)、端到端自動(dòng)駕駛以及自動(dòng)駕駛世界模型等。

賈彩燕為本文通訊作者之一,現(xiàn)任北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院教授,并擔(dān)任交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室副主任。其主要研究方向包括機(jī)器學(xué)習(xí)模型(尤其是圖神經(jīng)網(wǎng)絡(luò))、虛假信息檢測(cè)、大模型生成內(nèi)容檢測(cè)與可信計(jì)算、推薦算法,以及自動(dòng)駕駛場(chǎng)景下的多模態(tài)融合目標(biāo)檢測(cè)與大模型泛化研究等。

近年來已在國(guó)內(nèi)外學(xué)術(shù)期刊和國(guó)際會(huì)議上發(fā)表論文80余篇,主持國(guó)家自然科學(xué)基金面上項(xiàng)目?jī)身?xiàng)、國(guó)家自然科學(xué)基金青年基金項(xiàng)目一項(xiàng),并主持國(guó)家重點(diǎn)研發(fā)計(jì)劃“新一代人工智能”專項(xiàng)子課題一項(xiàng)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

北交大 x 小米 EV 團(tuán)隊(duì):一次關(guān)于世界模型「靠不靠譜」的系統(tǒng)復(fù)盤

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說