日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

本文作者: 鄭佳美   2026-04-30 10:46
導(dǎo)語(yǔ):WorldArena:一套檢驗(yàn)世界模型能否從「生成世界」走向“使用世界”的評(píng)測(cè)框架。

在今天的 AI 敘事里,“世界模型”幾乎成了通往具身智能的必經(jīng)之路。

它被期待理解物理規(guī)律、預(yù)測(cè)環(huán)境變化,并為機(jī)器人決策提供依據(jù)。但一個(gè)尖銳的問(wèn)題是:當(dāng)一個(gè)模型能生成一段足夠逼真的未來(lái)視頻時(shí),我們究竟該相信它真的理解了世界,還是只是更擅長(zhǎng)復(fù)刻世界的表象?

咬了一口的蘋(píng)果會(huì)自動(dòng)愈合,墜落的杯子在空中漂移——在具身智能的視角下,這種AI視頻“感知與功能的斷裂”無(wú)疑是致命的。

一個(gè)模型即便能生成 4K 分辨率的視覺(jué)幻象,如果它無(wú)法理解重力約束、因果關(guān)聯(lián)與物體永久性,它就永遠(yuǎn)無(wú)法支撐機(jī)器人在復(fù)雜物理世界中的抓取、規(guī)劃與交互。視覺(jué)真實(shí)不等于功能可用,這道長(zhǎng)期被忽視的“裂縫”,正是當(dāng)前視覺(jué)智能通往 AGI 的最大障礙。

CVPR 2026 正在釋放一個(gè)明確的信號(hào):計(jì)算機(jī)視覺(jué)(CV)與計(jì)算機(jī)圖形學(xué)(CG)的傳統(tǒng)邊界正在模糊。視覺(jué)研究的主線(xiàn)正從單純的“像素預(yù)測(cè)”轉(zhuǎn)向?qū)Α笆澜鐒?dòng)力學(xué)”的重建,世界模型不再僅僅滿(mǎn)足于“看”,而是要構(gòu)建一個(gè)具備物理一致性的內(nèi)部沙盒。這意味著,下一代視覺(jué)智能必須跨越 2D 藩籬,去硬碰硬地解決因果律、重力與 3D 空間的拓?fù)溥壿嫛?/p>

這種轉(zhuǎn)向,不僅標(biāo)志著視覺(jué)研究正在從“圖像處理”回歸到“世界建模”,更核心的演進(jìn)在于,世界模型正從“被動(dòng)觀(guān)測(cè)”轉(zhuǎn)向“動(dòng)作驅(qū)動(dòng)”。

作為 CVPR 2026 備受矚目的競(jìng)賽項(xiàng)目,清華團(tuán)隊(duì)提出的 WorldArena 恰逢其時(shí)。在論文《WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models》中,它審問(wèn)的是模型作為“具身大腦”的真實(shí)含金量:能否作為可靠的數(shù)據(jù)引擎?能否充當(dāng)精準(zhǔn)的策略評(píng)估環(huán)境?能否在長(zhǎng)程任務(wù)中保持邏輯的不漂移?

它將會(huì)對(duì)過(guò)去世界模型評(píng)測(cè)沿用視頻生成的邏輯——畫(huà)面是否清晰、運(yùn)動(dòng)是否自然、結(jié)果是否逼真——進(jìn)行重新審視。

但在具身場(chǎng)景中,“看起來(lái)像”遠(yuǎn)遠(yuǎn)不等于“用得起來(lái)”。一個(gè)模型即便能生成高質(zhì)量視頻,也可能無(wú)法支持機(jī)器人完成抓取、規(guī)劃、交互和長(zhǎng)程執(zhí)行。換句話(huà)說(shuō),視覺(jué)真實(shí)與功能可用之間,存在一道尚未被充分正視的裂縫。

而 WorldArena,正是試圖把世界模型從“生成世界”的審美競(jìng)賽,推向“使用世界”的能力審判。

除此之外,作為 CVPR 2026 關(guān)鍵 Workshop 競(jìng)賽的評(píng)測(cè)基礎(chǔ),WorldArena 的目標(biāo)不僅是提供一個(gè)排行榜,更是為具身世界模型建立一套面向真實(shí)任務(wù)的能力坐標(biāo):它不只問(wèn)模型能否預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,也進(jìn)一步追問(wèn),這些預(yù)測(cè)能否轉(zhuǎn)化為動(dòng)作?能否支撐 agent 決策?能否在長(zhǎng)程任務(wù)中保持穩(wěn)定?能否真正成為具身智能通向物理世界的一部分?

圍繞這項(xiàng)工作,AI 科技評(píng)論與論文主要作者商宇展開(kāi)了一場(chǎng)深度對(duì)話(huà)。從世界模型評(píng)測(cè)為何不能止步于視頻質(zhì)量,到當(dāng)前模型為何會(huì)在高視覺(jué)分?jǐn)?shù)與低功能表現(xiàn)之間斷裂;從 Benchmark 如何推動(dòng)訓(xùn)練范式轉(zhuǎn)向視頻 - 動(dòng)作聯(lián)合建模,到 WorldArena 自身如何避免成為新的路徑依賴(lài),這場(chǎng)對(duì)話(huà)觸及的并不只是一個(gè)評(píng)測(cè)平臺(tái),而是世界模型研究正在面臨的一次范式轉(zhuǎn)換。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

論文地址:https://arxiv.org/pdf/2602.08971

項(xiàng)目地址:https://world-arena.ai/

給世界模型設(shè)下一場(chǎng)「行動(dòng)考試」

AI 科技評(píng)論:能否先以團(tuán)隊(duì)成員、主要作者的身份,介紹一下 WorldArena 這項(xiàng)工作?

商宇:WorldArena 是我們?cè)诮衲昴瓿醢l(fā)布的、專(zhuān)門(mén)面向具身世界模型的評(píng)測(cè)平臺(tái)。它的出發(fā)點(diǎn)是:世界模型這個(gè)概念近期非常受關(guān)注,但大家對(duì)它的定義還沒(méi)有完全收斂;同時(shí),過(guò)去很多評(píng)測(cè)仍然把世界模型當(dāng)作視頻生成工具,主要關(guān)注生成視頻的質(zhì)量,也就是視頻是否好看、是否逼真。

但在具身場(chǎng)景中,僅生成好看的視頻遠(yuǎn)遠(yuǎn)不夠。具身世界模型不是為了“拍電影”,它的核心任務(wù)是建模外部環(huán)境的動(dòng)態(tài)轉(zhuǎn)移規(guī)律,并進(jìn)一步輔助下游智能體做決策。因此,世界模型最終必須服務(wù)于智能體與環(huán)境的交互。

基于這個(gè)判斷,我們認(rèn)為現(xiàn)有評(píng)估存在方向性不足:評(píng)估具身世界模型時(shí),不能只看生成結(jié)果是否像真實(shí)視頻,更要看它是否能支持下游功能性任務(wù),是否真正有助于智能體與環(huán)境交互。

因此,我們建立了一套統(tǒng)一評(píng)測(cè)框架,主要從兩個(gè)維度評(píng)估模型能力。第一個(gè)維度是視覺(jué)質(zhì)量。由于目前世界模型的主要形態(tài)仍然是視頻生成,開(kāi)環(huán)的視頻生成質(zhì)量依然需要評(píng)估。

第二個(gè)維度,也是我們更核心的貢獻(xiàn),是面向功能性任務(wù)的評(píng)估。圍繞具身場(chǎng)景,我們進(jìn)一步從世界模型可能承擔(dān)的角色出發(fā),設(shè)計(jì)了三類(lèi)應(yīng)用評(píng)估。

第一類(lèi)是把世界模型作為數(shù)據(jù)生成引擎。它可以合成大量數(shù)據(jù),用于緩解具身真實(shí)數(shù)據(jù)稀缺的問(wèn)題,并輔助下游策略模型訓(xùn)練。

第二類(lèi)是把世界模型作為在線(xiàn)交互環(huán)境,用來(lái)評(píng)估策略模型。前提是世界模型能夠捕捉環(huán)境動(dòng)態(tài),從而充當(dāng)真實(shí)環(huán)境的代理。例如,過(guò)去評(píng)估一個(gè) VLA 策略,通常需要把它部署到仿真器或真實(shí)環(huán)境中運(yùn)行;如果世界模型這條路線(xiàn)可行,就可以讓策略與世界模型交互,再根據(jù)交互結(jié)果判斷策略質(zhì)量。

第三類(lèi)是把世界模型作為具身大腦,或者說(shuō)作為 agent / action planner。既然世界模型能夠生成環(huán)境轉(zhuǎn)移后的狀態(tài),就可以從狀態(tài)預(yù)測(cè)結(jié)果中提取動(dòng)作,并把這些動(dòng)作直接用于下游執(zhí)行。

總體來(lái)說(shuō),WorldArena 同時(shí)關(guān)注兩個(gè)問(wèn)題:世界模型是否會(huì)生成這個(gè)世界,以及它能否利用生成結(jié)果支持智能體與世界交互。雷峰網(wǎng)

AI 科技評(píng)論:在這個(gè)框架中,一個(gè)合格的世界模型至少需要滿(mǎn)足哪些能力?

商宇:我們的評(píng)估分為感知和功能兩個(gè)維度,兩者有關(guān)聯(lián),但并不嚴(yán)格綁定。如果一個(gè)模型想在榜單上取得較好表現(xiàn),首先視頻生成質(zhì)量必須過(guò)關(guān)。也就是說(shuō),它在感知層面要盡量真實(shí)。我們?cè)u(píng)測(cè)了開(kāi)源和閉源模型,發(fā)現(xiàn)閉源模型在第一輪測(cè)試中的整體分?jǐn)?shù)更高,這說(shuō)明較好的視覺(jué)質(zhì)量確實(shí)有助于獲得更好結(jié)果。

感知層面的基本要求是:模型生成的未來(lái)狀態(tài)和畫(huà)面要符合世界運(yùn)行規(guī)律。至少在人眼看來(lái),它不能違背基礎(chǔ)物理規(guī)律,例如出現(xiàn)明顯穿模、異常形變等問(wèn)題。

更進(jìn)一步,模型還需要具備任務(wù)執(zhí)行能力。一個(gè)合格的世界模型不僅要推斷出合理的未來(lái)狀態(tài),還要讓這些狀態(tài)能夠轉(zhuǎn)化為有效動(dòng)作序列,從而幫助智能體完成交互。

概括來(lái)說(shuō),最低要求有兩點(diǎn):第一,感知層面真實(shí);第二,對(duì)智能體決策產(chǎn)生增益。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

AI 科技評(píng)論:很多模型可以預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么,但不一定理解為什么會(huì)發(fā)生。WorldArena 更接近評(píng)估哪一種能力?

商宇:目前 WorldArena 更側(cè)重評(píng)估“接下來(lái)會(huì)發(fā)生什么”,也就是預(yù)測(cè)結(jié)果是否合理。我們的評(píng)估仍然基于模型行為:先讓模型輸出視頻或動(dòng)作,再判斷輸出是否符合認(rèn)知、是否接近真實(shí)視頻或真實(shí)結(jié)果。因此,它本質(zhì)上評(píng)的是模型預(yù)測(cè)是否正確。

至于模型是否真正理解“為什么會(huì)發(fā)生”,這個(gè)問(wèn)題更難。它可能涉及模型內(nèi)部機(jī)理研究,也可能需要因果建模、反事實(shí)推斷等方法。

例如,在機(jī)器人抓取礦泉水瓶的任務(wù)中,如果我們想判斷模型只是擬合了某一種抓取軌跡,還是理解了不同動(dòng)作的含義,就需要在同一場(chǎng)景中給出不同動(dòng)作,觀(guān)察模型是否產(chǎn)生有差異的響應(yīng)。類(lèi)似設(shè)計(jì)才更接近因果性或反事實(shí)推斷。

因此,就當(dāng)前版本而言,WorldArena 主要評(píng)估預(yù)測(cè)是否正確,而不是直接證明模型是否理解因果關(guān)系。

AI 科技評(píng)論:論文中提到用 16 個(gè) perception 指標(biāo)刻畫(huà) world understanding。具體是怎樣設(shè)置的?

商宇:我們把整體評(píng)估分為 perception 和 functionality 兩大類(lèi)。Perception 部分基于世界模型合成的視頻,對(duì)視頻進(jìn)行多維診斷。我們參考了許多已有研究,最終總結(jié)出六個(gè)大維度,并進(jìn)一步拆分為 16 個(gè)感知指標(biāo)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

第一個(gè)維度是 visual quality,即視覺(jué)質(zhì)量。這是最基礎(chǔ)的層面,關(guān)注視頻分辨率是否足夠高、畫(huà)面是否清晰、整體布局是否與真實(shí)場(chǎng)景一致。第二類(lèi)是面向具身場(chǎng)景更關(guān)鍵的能力,包括動(dòng)作質(zhì)量、物理遵循性、3D 準(zhǔn)確性、可控性,以及內(nèi)容一致性等。

動(dòng)作質(zhì)量會(huì)關(guān)注動(dòng)作連貫性,例如動(dòng)作是否出現(xiàn)突變。物理遵循性用于判斷生成結(jié)果是否符合基礎(chǔ)物理規(guī)律。由于物理規(guī)律較抽象,我們會(huì)借助外部 VLM 進(jìn)行評(píng)估,讓它充當(dāng)類(lèi)似人類(lèi)評(píng)判者的角色。

3D 準(zhǔn)確性關(guān)注視頻空間結(jié)構(gòu)是否正確。只看 2D 畫(huà)面時(shí),現(xiàn)在的模型往往能擬合得很好;但物體之間的空間關(guān)系可能并不自然,投射到 3D 空間后就會(huì)暴露問(wèn)題。

可控性評(píng)估模型是否能 follow 外部指令。指令可以是文本,也可以是機(jī)器人動(dòng)作。我們希望判斷模型究竟只是 overfit 某段視頻,還是確實(shí)理解并響應(yīng)外部條件。

內(nèi)容一致性則關(guān)注視頻前后是否保持一致,這是一個(gè)基礎(chǔ)但重要的能力。整體來(lái)看,六個(gè)大維度共同構(gòu)成對(duì)感知能力的評(píng)估,并進(jìn)一步細(xì)化為 16 個(gè) perception 指標(biāo)。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

AI 科技評(píng)論:一些高視覺(jué)質(zhì)量模型在功能評(píng)估中表現(xiàn)并不好。你們認(rèn)為這種斷裂的原因是什么?

商宇:這個(gè)結(jié)果最初也讓我們有些意外。后續(xù)分析后,我們認(rèn)為主要有兩類(lèi)原因。第一類(lèi)原因是訓(xùn)練目標(biāo)沒(méi)有對(duì)齊。許多視頻生成模型在第一階段微調(diào)時(shí),本質(zhì)上仍然是在擬合視頻像素。這個(gè)訓(xùn)練過(guò)程并沒(méi)有真正涉及視頻與動(dòng)作之間的關(guān)系,也沒(méi)有建模因果關(guān)系。

因此,這些模型訓(xùn)練出來(lái)后主要服務(wù)于“像素是否擬合得好”“圖像是否逼真”。換句話(huà)說(shuō),模型優(yōu)化目標(biāo)仍然集中在 perception 上,而不是功能性交互。

第二類(lèi)原因是功能任務(wù)對(duì)模型能力要求更高。視頻生成通常是在 2D 空間中完成,但動(dòng)作預(yù)測(cè)和真實(shí)執(zhí)行本質(zhì)上發(fā)生在 3D 空間中。例如,物體關(guān)系的錯(cuò)位在 2D 圖像中可能不明顯,但一旦投射到 3D 空間,就會(huì)影響動(dòng)作執(zhí)行。這意味著模型可能過(guò)度擬合了二維表征,卻沒(méi)有充分建模三維空間和動(dòng)作之間的關(guān)系。

此外,任務(wù)設(shè)置本身也帶來(lái)挑戰(zhàn)。Functionality 部分要求世界模型真正輸出動(dòng)作,而當(dāng)前視頻生成模型通常只能生成較短片段,一次可能只有幾十幀。但現(xiàn)實(shí)動(dòng)作執(zhí)行往往是長(zhǎng)程任務(wù),很少能通過(guò)一次視頻預(yù)測(cè)完整完成。

因此,模型必須經(jīng)歷長(zhǎng)程、迭代式 rollout。我們觀(guān)察到,許多模型單次生成效果尚可,但迭代后會(huì)產(chǎn)生誤差累積:第一次生成可能準(zhǔn)確,后續(xù)動(dòng)作會(huì)逐漸漂移,穩(wěn)定性下降。

所以,對(duì)具身任務(wù)而言,模型不僅需要單次生成質(zhì)量高,還需要長(zhǎng)程穩(wěn)定性。訓(xùn)練目標(biāo)錯(cuò)配和長(zhǎng)時(shí)序穩(wěn)定性不足,是造成這種斷裂的主要原因。

AI 科技評(píng)論:也就是說(shuō),當(dāng)前視頻生成模型的問(wèn)題之一是單次預(yù)測(cè)可以,但長(zhǎng)程執(zhí)行會(huì)亂?

商宇:是的,長(zhǎng)程穩(wěn)定性是一個(gè)重要問(wèn)題。除此之外,當(dāng)前模型往往仍在擬合 2D 圖像分布,與動(dòng)作之間的建模關(guān)聯(lián)不夠。雖然我們?cè)?WorldArena 中設(shè)置了二階段適配,用監(jiān)督學(xué)習(xí)把世界模型學(xué)到的視頻表征和動(dòng)作聯(lián)系起來(lái),但這個(gè)過(guò)程并不是原生訓(xùn)練,而是后訓(xùn)練,并且相對(duì)輕量。

這種適配可以幫助模型學(xué)習(xí)視頻到動(dòng)作的關(guān)系,但不能從根本上解決問(wèn)題。更本質(zhì)的方向,是讓世界模型進(jìn)行視覺(jué)內(nèi)容與動(dòng)作內(nèi)容的聯(lián)合建?!,F(xiàn)在已有一些工作在原生地對(duì)齊視頻與動(dòng)作關(guān)系,我認(rèn)為這會(huì)更有幫助。

另一方面,功能性任務(wù)要求模型具備長(zhǎng)程穩(wěn)定性,才能獨(dú)立、完整地執(zhí)行任務(wù)。只有當(dāng)模型在長(zhǎng)程執(zhí)行中保持穩(wěn)定,它在功能榜單上的表現(xiàn)才會(huì)顯著提升。

AI 科技評(píng)論:如果一個(gè)模型在 WorldArena 上得分不高,問(wèn)題更可能是模型能力不夠,還是訓(xùn)練目標(biāo)沒(méi)有對(duì)齊?

商宇:兩種情況都會(huì)存在。有些模型得分不理想,是因?yàn)槟P捅旧砟芰Σ蛔悖梢曨l質(zhì)量不高。對(duì)于這類(lèi)情況,可以認(rèn)為它在基礎(chǔ)生成能力上還沒(méi)有達(dá)標(biāo)。

另一些模型生成畫(huà)面看起來(lái)不錯(cuò),從人的角度看沒(méi)有明顯問(wèn)題,但放到任務(wù)執(zhí)行評(píng)測(cè)中表現(xiàn)不佳。對(duì)于這類(lèi)情況,我更傾向于認(rèn)為是訓(xùn)練目標(biāo)沒(méi)有完全對(duì)齊下游交互能力。

這類(lèi)模型往往開(kāi)環(huán)能力強(qiáng),也就是生成視頻本身沒(méi)問(wèn)題;但閉環(huán)能力弱,不能穩(wěn)定支持動(dòng)作預(yù)測(cè)和交互執(zhí)行。原因可能是視頻到動(dòng)作的映射沒(méi)有學(xué)好,也可能是模型只擅長(zhǎng)局部預(yù)測(cè),一旦進(jìn)入長(zhǎng)程預(yù)測(cè)就會(huì)出問(wèn)題。

因此,WorldArena 上的低分既可能來(lái)自基礎(chǔ)模型能力不足,也可能來(lái)自訓(xùn)練目標(biāo)與功能性交互能力之間的錯(cuò)配。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

AI 科技評(píng)論:如果 WorldArena 這類(lèi)評(píng)估框架成為主流,會(huì)不會(huì)反過(guò)來(lái)推動(dòng)新的訓(xùn)練方式?

商宇:我認(rèn)為會(huì),但這是一個(gè)循序漸進(jìn)的過(guò)程。作為評(píng)測(cè)工作,我們現(xiàn)階段主要希望提供實(shí)驗(yàn)現(xiàn)象、觀(guān)察和 insight,讓大家意識(shí)到:只做視頻擬合,模型可能在視覺(jué)質(zhì)量榜單上很高,但在功能性榜單上很低。

我們并不是完全否定當(dāng)前的視頻學(xué)習(xí)范式。許多視頻基座模型通過(guò)這種方式持續(xù) scaling,基礎(chǔ)能力確實(shí)在提升,這對(duì)下游任務(wù)是有幫助的。

但如果目標(biāo)是真正的世界模型,訓(xùn)練范式就不能只包含視頻生成和重建,還需要把動(dòng)作模態(tài)納入進(jìn)來(lái)。無(wú)論是根據(jù)視頻預(yù)測(cè)動(dòng)作,還是做 action-controlled video generation,都是必要的;關(guān)鍵是讓視頻和動(dòng)作兩種模態(tài)天然對(duì)齊。

現(xiàn)在已經(jīng)有一類(lèi)模型被稱(chēng)為 World Action Model,也就是 WAM。它們?cè)噲D訓(xùn)練一個(gè)統(tǒng)一模型,同時(shí)具備視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)能力,并在兩種模態(tài)之間設(shè)計(jì)明確的對(duì)齊機(jī)制,例如 joint attention。

所以,從研究趨勢(shì)看,整個(gè)方向已經(jīng)在向視頻 - 動(dòng)作聯(lián)合建模轉(zhuǎn)變。這也符合我們通過(guò) WorldArena 得到的判斷。

WorldArena 的邊界與自我校準(zhǔn)

AI 科技評(píng)論:如果模型在某些任務(wù)上失敗,說(shuō)明它真的不理解事件,還是只是沒(méi)有見(jiàn)過(guò)足夠多的類(lèi)似數(shù)據(jù)?

商宇:我們不會(huì)把榜單表現(xiàn)不理想直接等同于“模型沒(méi)有理解這個(gè)事件”。就當(dāng)前版本的 WorldArena 而言,我們的重點(diǎn)還不是泛化能力評(píng)估,也沒(méi)有專(zhuān)門(mén)設(shè)置 OOD 場(chǎng)景。在評(píng)測(cè)設(shè)置下,模型基本見(jiàn)過(guò)類(lèi)似數(shù)據(jù);如果要測(cè)某個(gè)任務(wù),我們會(huì)給它相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練。因此,我們不傾向于把失敗主要?dú)w因于“沒(méi)有見(jiàn)過(guò)足夠多的數(shù)據(jù)”。

在這個(gè)前提下,模型失敗通??梢圆鸪蓛蓚€(gè)階段分析。

第一階段是開(kāi)環(huán)視頻生成質(zhì)量。如果模型連視頻預(yù)測(cè)本身都做不好,說(shuō)明它的視頻學(xué)習(xí)質(zhì)量就不高。

第二階段是視頻到動(dòng)作的映射,以及視頻與動(dòng)作的聯(lián)合建模。如果視頻生成質(zhì)量尚可,但閉環(huán)任務(wù)或長(zhǎng)程任務(wù)失敗,問(wèn)題更可能來(lái)自動(dòng)作預(yù)測(cè)不穩(wěn)定。

真實(shí)執(zhí)行中,錯(cuò)誤往往難以校正。例如機(jī)器人抓瓶子時(shí),如果中途掉落,當(dāng)前模型通常缺少錯(cuò)誤恢復(fù)能力,后續(xù)會(huì)持續(xù)出錯(cuò)。

因此,在當(dāng)前設(shè)置中,許多失敗更可能反映模型缺少足夠穩(wěn)定的動(dòng)作預(yù)測(cè)和長(zhǎng)程執(zhí)行能力,而不是簡(jiǎn)單說(shuō)明它沒(méi)有見(jiàn)過(guò)類(lèi)似數(shù)據(jù)。

AI 科技評(píng)論:WorldArena 評(píng)估的是世界模型,但 agent 設(shè)計(jì)也會(huì)影響結(jié)果。你們?nèi)绾螀^(qū)分世界模型不夠好和 agent 沒(méi)有正確利用世界模型?

商宇:這是一個(gè)很有技術(shù)意義的問(wèn)題,我們?cè)趯?shí)驗(yàn)中也做了相應(yīng)排查。我們的動(dòng)作預(yù)測(cè)流程是在世界模型后面額外加入一個(gè)逆動(dòng)力學(xué)模型,即 IDM。IDM 的作用是從世界模型預(yù)測(cè)出的狀態(tài)特征中映射出動(dòng)作。因此,一個(gè)潛在擔(dān)憂(yōu)是:結(jié)果不好是否因?yàn)?IDM 或整個(gè) pipeline 存在性能上限,而不是世界模型本身不夠好。

為了排除這個(gè)混淆因素,我們做了一個(gè)上限實(shí)驗(yàn):不使用世界模型預(yù)測(cè)的視頻,而是給 IDM 輸入真實(shí)視頻。這個(gè)設(shè)定相當(dāng)于假設(shè)世界模型預(yù)測(cè)完全等同于真實(shí)世界,再觀(guān)察動(dòng)作能否被正確預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果顯示,在輸入真實(shí)視頻并經(jīng)過(guò)二階段動(dòng)作預(yù)測(cè)訓(xùn)練后,IDM 能完成大部分任務(wù),成功率基本在 80% 以上。

而當(dāng)前世界模型在同一體系下的結(jié)果與這個(gè)上限還有明顯差距。由此我們判斷,現(xiàn)有 pipeline 雖然不一定是最完美設(shè)計(jì),但還沒(méi)有達(dá)到性能天花板;它能夠比較客觀(guān)地暴露問(wèn)題。

綜合來(lái)看,當(dāng)前主要瓶頸仍然在 world model 本身,而不是 agent 或 IDM 沒(méi)有正確利用它。

AI 科技評(píng)論:WorldArena 是否類(lèi)似一個(gè)黑盒評(píng)估工具?

商宇:它不是完全的黑盒。許多 Benchmark 本質(zhì)上都是行為層面的評(píng)估,WorldArena 也不例外。但它在設(shè)計(jì)上具有一定診斷性。

首先,我們同時(shí)做開(kāi)環(huán)和閉環(huán)評(píng)測(cè),可以幫助判斷模型問(wèn)題來(lái)自生成能力,還是行動(dòng)能力。其次,在生成能力內(nèi)部,我們又拆分出十幾個(gè)子維度指標(biāo)。這能幫助研究者更細(xì)致地審視模型能力。例如,通過(guò)雷達(dá)圖可以看到不同模型的優(yōu)勢(shì)和劣勢(shì):有些模型可能 3D 重建質(zhì)量高,有些模型可能動(dòng)作連貫性更好。

因此,WorldArena 不只是輸出一個(gè)最終分?jǐn)?shù),它還提供中間結(jié)果和多維診斷證據(jù)。相比只看最終閉環(huán)執(zhí)行成功率的評(píng)測(cè),它并不完全是端到端黑盒。

但如果更嚴(yán)格地問(wèn),它能否解釋模型內(nèi)部機(jī)制、能否證明模型真正理解世界,目前版本還做不到。后續(xù)我們希望引入反事實(shí)推斷等方法,進(jìn)一步提升可解釋性。

AI 科技評(píng)論:如果模型在 WorldArena 上表現(xiàn)好,是否意味著它已經(jīng)接近真實(shí)機(jī)器人部署?

商宇:如果模型在 WorldArena 上表現(xiàn)好,尤其是在 functionality 維度表現(xiàn)好,我認(rèn)為它確實(shí)更有潛力,但這并不等同于它一定能在真實(shí)物理世界中運(yùn)行。

這是當(dāng)前評(píng)測(cè)的局限之一,也會(huì)是未來(lái)工作。我們?nèi)匀幻媾R sim-to-real gap。當(dāng)前評(píng)測(cè)主要在仿真環(huán)境中完成,這樣做是為了評(píng)測(cè)便利,也為了排除真實(shí)環(huán)境中的偶然因素。

真實(shí)環(huán)境遠(yuǎn)比仿真環(huán)境復(fù)雜。它會(huì)受到傳感器噪聲、執(zhí)行誤差、硬件差異等因素影響,不同模型對(duì)硬件的適配程度也可能不同。未來(lái),我們希望提供一套標(biāo)準(zhǔn)化的真機(jī)評(píng)測(cè)流程,進(jìn)一步分析仿真表現(xiàn)與真實(shí)部署能力之間的相關(guān)性。

就當(dāng)前結(jié)果看,現(xiàn)有模型距離真實(shí)物理世界部署仍有較大差距。模型在仿真器中需要達(dá)到足夠高的性能,才可能有希望遷移到真實(shí)環(huán)境;目前它們與一些 VLA 模型相比,差距仍然不小。

AI 科技評(píng)論:Benchmark 往往會(huì)反過(guò)來(lái)塑造研究方向。如何避免 WorldArena 成為新的路徑依賴(lài)?

商宇:這是大多數(shù) Benchmark 都會(huì)面對(duì)的問(wèn)題。從設(shè)計(jì) Benchmark 的角度看,我們的出發(fā)點(diǎn)是:當(dāng)前模型開(kāi)發(fā)方向與我們希望模型具備的能力之間存在差距,因此需要補(bǔ)充新的評(píng)測(cè)維度,引導(dǎo)研究進(jìn)一步接近真實(shí)需求。

但 Benchmark 的價(jià)值不應(yīng)是讓所有人把刷榜作為模型研發(fā)的第一目標(biāo)。它更應(yīng)該作為能力診斷工具,幫助縮小研究目標(biāo)與真實(shí)需求之間的距離。

對(duì)于 WorldArena 來(lái)說(shuō),它的價(jià)值在于提醒大家:世界模型不能只做到視覺(jué)真實(shí),還要在功能層面可用。它提供的是觀(guān)察和 insight,而不是唯一評(píng)價(jià)標(biāo)準(zhǔn)。

隨著模型能力逐漸接近,Benchmark 本身也必須持續(xù)迭代。模型最終要服務(wù)真實(shí)需求。對(duì)于具身場(chǎng)景,最終目標(biāo)是讓世界模型在真實(shí)物理交互中跑通,并把性能做上去。

因此,我們也需要不斷把更真實(shí)的需求納入評(píng)測(cè),例如未來(lái)加入真實(shí)環(huán)境下的評(píng)估和診斷,讓 Benchmark 與現(xiàn)實(shí)需求更對(duì)齊。

對(duì)研究者來(lái)說(shuō),WorldArena 可以作為基礎(chǔ)工具,但更重要的是用它判斷模型距離真實(shí)世界還有多大差距,而不是把它當(dāng)作唯一審判標(biāo)準(zhǔn)。

AI 科技評(píng)論:如果一個(gè)模型在真實(shí)世界表現(xiàn)很好,但在 WorldArena 上得分不高,這更可能是誰(shuí)的問(wèn)題?

商宇:如果真的出現(xiàn)這種模型——目前我們還沒(méi)有收到類(lèi)似反饋——我不會(huì)先入為主地認(rèn)為是模型的問(wèn)題,而會(huì)把它視為一個(gè)有價(jià)值的信號(hào)。

一種可能是,這個(gè)模型采用了 WorldArena 現(xiàn)有設(shè)計(jì)沒(méi)有覆蓋到的技術(shù)路徑。它可能通過(guò)特殊設(shè)計(jì)在真實(shí)世界或動(dòng)作預(yù)測(cè)上表現(xiàn)很好,但我們的 Benchmark 沒(méi)有體現(xiàn)出來(lái)。這說(shuō)明評(píng)測(cè)框架與真實(shí)世界之間仍有未對(duì)齊之處。

另一種可能是,當(dāng)前評(píng)價(jià)體系需要進(jìn)一步完善。我們需要對(duì)這類(lèi)模型做更詳細(xì)診斷:看它在 WorldArena 中具體哪些情況表現(xiàn)不好,再與它在真實(shí)環(huán)境中的表現(xiàn)交叉分析,判斷問(wèn)題是共性的,還是因?yàn)槟P?overfit 到了某個(gè)特定場(chǎng)景。

因此,可能是評(píng)估維度不夠,也可能是模型并非通用能力強(qiáng),而是在某些特定場(chǎng)景表現(xiàn)好。兩種情況都需要進(jìn)一步分析。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

AI 科技評(píng)論:如果未來(lái)世界模型取得新的突破,WorldArena 是否也需要重構(gòu)?

商宇:這是肯定的。模型和 Benchmark 應(yīng)該是螺旋上升的關(guān)系。通常是先出現(xiàn)一批模型,然后我們?cè)偎伎既绾蜗到y(tǒng)性評(píng)判這些模型。當(dāng)前 Benchmark 的設(shè)計(jì)針對(duì)的是當(dāng)前模型能力。隨著模型能力增強(qiáng),Benchmark 必須跟著進(jìn)化,否則會(huì)干擾研究判斷。

Benchmark 本應(yīng)起到牽引作用。如果模型已經(jīng)往前發(fā)展,而 Benchmark 仍停留在舊能力上,它就會(huì)從方向盤(pán)變成后視鏡。

從世界模型領(lǐng)域看,目前行業(yè)仍處于較早期階段。WorldArena 的一步,是從視覺(jué)導(dǎo)向走向功能導(dǎo)向。如果未來(lái)所有模型都能把當(dāng)前榜單刷到接近飽和,無(wú)法再體現(xiàn)差異,我們就需要引入更高標(biāo)準(zhǔn)、更有挑戰(zhàn)性的任務(wù),并適配新的模型能力。

例如,現(xiàn)在已有模型不再局限于單視角視頻生成,未來(lái)可能出現(xiàn)更多視角、更多模態(tài)。這些變化都需要后續(xù) Benchmark 納入。所以,WorldArena 不會(huì)是靜態(tài)框架,而應(yīng)該長(zhǎng)期迭代,并吸收社區(qū)共同發(fā)現(xiàn)的新問(wèn)題,持續(xù)推出更高質(zhì)量的評(píng)測(cè)任務(wù)。

AI 科技評(píng)論:能否介紹一下這次 CVPR workshop 挑戰(zhàn)賽的情況?

商宇:我們以 WorldArena Benchmark 為基礎(chǔ),在 CVPR 2026 組織了一個(gè)公開(kāi)挑戰(zhàn)賽。比賽內(nèi)容與我們的評(píng)測(cè)基本一致。

挑戰(zhàn)賽分為兩個(gè)賽道,對(duì)應(yīng)感知和功能兩個(gè)維度。Track 1 面向視頻生成質(zhì)量,會(huì)綜合 16 個(gè)感知質(zhì)量指標(biāo),評(píng)估世界模型的視頻生成能力。

Track 2 面向功能性評(píng)測(cè)。為了方便參賽團(tuán)隊(duì)實(shí)現(xiàn),我們優(yōu)先設(shè)置了數(shù)據(jù)引擎和策略評(píng)估兩個(gè)任務(wù)。這兩個(gè)任務(wù)能夠覆蓋現(xiàn)有大部分模型能力:文本可控視頻模型適合數(shù)據(jù)引擎任務(wù),動(dòng)作可控模型適合策略評(píng)估任務(wù)。

整個(gè)比賽周期約兩個(gè)月,從 3 月底開(kāi)始。目前處于中期階段,我們也準(zhǔn)備公布前一個(gè)月的中期成績(jī)。截至目前,比賽在社區(qū)中已有一定影響力。不到一個(gè)月內(nèi),提交次數(shù)接近 100 次,第一名成績(jī)也在持續(xù)刷新,參與比較積極。

Track 2 目前參與人數(shù)相對(duì)少一些,因此機(jī)會(huì)可能更大,獎(jiǎng)金也更多,但難度確實(shí)更高。參賽隊(duì)伍覆蓋學(xué)術(shù)界、工業(yè)界和初創(chuàng)公司。我們希望在 CVPR 會(huì)議現(xiàn)場(chǎng)與大家進(jìn)一步交流,并把挑戰(zhàn)賽中的觀(guān)察和 insight 呈現(xiàn)給社區(qū)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

對(duì)話(huà)清華商宇丨從生成視頻到支撐行動(dòng),世界模型需要新的評(píng)測(cè)標(biāo)準(zhǔn)

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)