日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給徐咪
發(fā)送

0

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻

本文作者: 徐咪   2025-10-17 17:58
導語:本次WoW具身世界模型的開源,進一步展現(xiàn)了北京人形機器人創(chuàng)新中心在大腦方面的領先實力。

近年來機器人的“體能”正在以肉眼可見的速度進步——后空翻、跑酷、馬拉松,這些曾經只屬于人類的運動能力,如今機器人也能輕松完成。然而,讓機器人完成一個后空翻很難,但讓它“理解”面前的水杯為什么倒下后水會灑出來,或許更難。

繼Deepseek在大語言模型開源促進行業(yè)發(fā)展后,北京人形機器人創(chuàng)新中心再次打破邊界并開源了全新的世界模型架構,提出了一個讓機器人真正“看見、理解并行動于世界”的具身世界模型——WoW(World-Omniscient World Model),幫助具身智能機器人快速學習掌握各項技能,助力行業(yè)打造“最好用”的機器人。

一經發(fā)布,該模型便受到學術界產業(yè)界廣泛關注,其中Huggingface官方留言:Excellent work,并重點推薦希望上傳更多內容。斯坦福具身智能大佬 、PI創(chuàng)始人、清華合作文章也引用了WoW具身世界模型技術報告。這意味著北京人形機器人創(chuàng)新中心在具身世界模型領域走在世界前列。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

這不僅僅是一次視覺模型的升級,更是一個融合了視覺、動作、物理感知與推理的統(tǒng)一世界生成框架。 它讓 AI 不再只是“看視頻”或“生成圖像”,而是能通過交互學習世界的物理規(guī)律,并在真實環(huán)境中自主操作。如果說GPT系列讓機器“讀懂語言”,Sora系列是在“看世界”,那么 WoW 就是讓機器人“理解物理世界”,并且給到算法觸摸世界的雙手。創(chuàng)新的技術架構、完全開源的策略、完整的工具支持,使得WoW有望成為世界模型領域的“Deepseek"。

相較于 Sora 2, WoW 具身世界模型 在模擬機器人操作的時空一致性、物理推理能力表現(xiàn)更為出色。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成依次抓取火方塊,柔性方塊,水方塊

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成打開喬布斯自傳書

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 Sora 2生成依次抓取火方塊,柔性方塊,水方塊

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 Sora 2生成打開喬布斯自傳書

創(chuàng)新的技術架構體系,重新定義世界模型能力邊界

北京人形提出了一個全新的多模態(tài)大模型框架,將世界生成(World Generation)、動作預測(Action Inference)、視覺理解(Vision-Language Models, VLM) 和自我反思(Refiner Agent)融合為一個統(tǒng)一系統(tǒng),成功解決傳統(tǒng)架構物理一致性、因果推理和跨本體跨場景跨動作泛化方面的局限。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW 是一個融合了感知、預測、判斷、反思與行動五個環(huán)節(jié)的具身世界模型。它從真實的機器人交互數(shù)據(jù)中學習,能在已知與未知場景中生成高質量、物理一致的機器人視頻,最終讓想象中的動作真正落地于現(xiàn)實執(zhí)行。

WoW具身世界模型系統(tǒng)由四個核心組件構成:

DiT 世界生成基座模型(Diffusion Transformer) —— 具備真實世界推理與生成能力的[物理引擎+想象系統(tǒng)]

WoW具身世界模型能夠根據(jù)環(huán)境狀態(tài)與歷史幀,預測未來場景、推演物理演化、還原動態(tài)因果鏈。在此基礎上,北京人形從800萬條海量機器人與物理世界交互軌跡, 并自建數(shù)據(jù)優(yōu)化精煉管線,篩選出200 萬條高質量的訓練集,訓練了多個版本的世界模型, 從 1.3B → 2B → 7B → 14B 參數(shù)的全系列擴展,并驗證了隨著模型規(guī)模提升,物理一致性與生成穩(wěn)定性以及泛化性呈顯著上升趨勢。

域內(In-domain)泛化生成:

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成打開洗碗機

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW生成打開水龍頭放下蘋果

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成機械臂生成依次按下紅色按鈕,收拾餐具,按下綠色開關(長程任務)

域外(Out-of-domain)泛化生成:

(a)北京人形具身天工2.0

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW生成具身天工2.0把橙子放進盤子里

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW生成具身天工2.0倒酒                      

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成具身天工2.0把面包放進面包機

(b)更有趣的泛化

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW生成其他類型機器人打招呼

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW生成從梵高的向日葵畫里拿出向日葵

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoW生成機械臂夾爪工作軌跡流

WoW 不是在記憶訓練場景,而是在學習“物理規(guī)律的抽象本質”,具備跨機器人形態(tài)泛化、任務泛化、場景泛化全方位能力,這類“視覺+物理”的泛化能力,是通向具身智能(Embodied Intelligence)的關鍵指標。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 機器人本體形態(tài)泛化

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 機器人動作任務泛化

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻

    圖 更多泛化能力

SOPHIA 自反范式(Solver–Critic–Refiner) —— 業(yè)內首次提出SOPHIA框架,讓世界模型“自己教自己”。

WoW 具身世界模型遵循 SOPHIA 范式——將大語言模型 (LLM) 與 擴散 Transformer (DiT) 結合起來,在語言引導下生成物理上合理的未來,通過“生成預測(predict)—批評(critic)—修正(refine)”的迭代循環(huán)機制,將“想象(imagination)”與“推理(reasoning)”統(tǒng)一為具身智能的基本組成部分,正類似于人類智能“想象-驗證-修正-再想象”的核心特征,讓模型越看越準,越生成越真實。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 左側展示了 動態(tài)評論模型(Dynamic Critic Model Team),它通過真實與合成視頻的標注訓練,學會判斷生成畫面的物理合理性。右側展示 Refiner Agent(優(yōu)化智能體),根據(jù)評論模型的反饋不斷改寫提示詞、重新生成視頻,形成一個“生成—批評—改進”的閉環(huán)優(yōu)化過程。

FM-IDM 逆動力學模型(Flow-Mask Inverse Dynamics) —— 從視頻到動作,給算法觸摸世界的雙手

WoW具身世界模型實現(xiàn)[視頻生成]和[機器人動作]閉環(huán),通過給定連續(xù)兩幀預測視頻,F(xiàn)M-IDM能夠計算出機器人末端執(zhí)行器的動作變化量,從視覺“想象”中反推出真實可執(zhí)行的運動指令,讓模型真正實現(xiàn)從視頻到行動的閉環(huán),意味著AI不再停留在“想象中”,而能真正“動手”去驗證自己的理解,標志著真正實現(xiàn)從生成到執(zhí)行的跨越。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 給定連續(xù)兩幀預測視頻,F(xiàn)M-IDM(Flow-Mask Inverse Dynamics Model)能夠計算出機器人末端執(zhí)行器的動作變化量(ΔAction),從視覺“想象”中反推出真實可執(zhí)行的運動指令,讓模型真正實現(xiàn)從視頻到行動的閉環(huán)。

WoWBench 世界基準 —— 全球首個針對具身世界模型的綜合基準,讓“想象力”第一次有了可量化的科學標準

北京人形提出了專測“物理一致性與因果推理”的新基準 WoWBench, 也是全球首個針對具身世界模型的綜合基準,從四大核心維度評估模型能力——感知理解、預測推理、決策與規(guī)劃、泛化執(zhí)行,覆蓋包括視覺保真與時間一致、指令理解與語義正確性、物理與因果推理、規(guī)劃與任務分解等多個指標,采用混合評測機制(專家模型+GPT或精調VLM+人類專家)進行評分,確保模型表現(xiàn)與人類認知保持一致。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoWBench 圍繞五個核心組成部分構建:(左上)多維評測體系,從視頻質量、規(guī)劃推理、物理規(guī)律、指令理解四個角度評價生成結果;(中上)對應具身世界模型的四大核心能力——感知、規(guī)劃、預測與泛化;(右上)依托多源數(shù)據(jù)構建流程,融合自采、開源與AI生成數(shù)據(jù),并結合 GPT 預篩選 + 人類標注 的混合機制,形成高質量的視頻–指令對(圖中三張餅圖展示了數(shù)據(jù)分布統(tǒng)計);(中部)采用雙評測機制:專家模型評估運動與一致性,GPT或精調VLM評估指令理解與任務規(guī)劃;(底部)還邀請了12位領域專家進行人工評審,確保模型表現(xiàn)與人類認知一致。

實踐測評,WoW性能領先強勢基線模型

經評測驗證 WoW具身世界模型,區(qū)別于傳統(tǒng)僅追求視覺保真度的視頻生成,WoW 的“自我優(yōu)化循環(huán)(SOPHIA 框架)”使模型能從推理—生成—反思的閉環(huán)中不斷改進,在WoWBench四大指標中全面領先,未加入SOPHIA Agent自優(yōu)化模塊前,WoW-DiT在人類與自動評測中已經均取得最高分(Overall = 49.39),遠超Cosmos-Predict、CogVideoX等強勢基線模型,加入 SOPHIA Agent自優(yōu)化模塊(Self-Optimization Framework) 后,總體評分更是進一步提升至 51.97,超過所有對比模型。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

表 WoW-DiT本身已經在人類與自動評測中均取得最高分

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

表 加入  SOPHIA Agent自優(yōu)化模塊(Self-Optimization Framework) 后,WoW+Agent 的總體評分進一步提升至 51.97,超過所有對比模型。

WoW具身世界模型學習到的不僅具備外觀一致性,并且具備物理機制的一致性,在物理模擬指標量化測評中,在復雜動力學(軟體、流體、光學)等場景中全面領先,特別是非剛體動力學的柔性物體或流體中優(yōu)勢顯著。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

表 物理模擬指標量化

在不同難度的機器人實驗中,WoW具身世界模型驅動的FM-IDM中,簡單任務成功率高達94.5%,遠超傳統(tǒng)逆動力學基線模型,中等難度的成功率達到 75.2% (創(chuàng)下新SOTA,尤其在中等任務上顯著超越其他方法),當部署到實際機械臂上,WoW 生成的動作幾乎可直接執(zhí)行,實現(xiàn)“從像素到動作”的完整閉環(huán)。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

表 不同難度級別下的視頻回放成功率基準

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

 圖 WoW 在真實機器人環(huán)境中的有效性。(左)展示了 WoW 在真實機器人上執(zhí)行的 簡單與中等難度任務 的成功軌跡示例。 (右)展示三種不同世界模型骨干(backbone)在現(xiàn)實世界準確性比較的定量結果。在所有基礎模型中,微調都極大地提高了現(xiàn)實世界中的性能,其中 WoW-cosmos2 達到了 最高得分,展現(xiàn)了最優(yōu)的實際執(zhí)行能力。

從 3萬 到 200萬 條交互軌跡,WoW 的性能幾乎呈冪律增長——證明真實交互數(shù)據(jù)比純視覺數(shù)據(jù)更能塑造“世界理解力”。14B 參數(shù)版本在復雜物理任務上表現(xiàn)最穩(wěn)健,此外7B模型也能在效率與效果間取得理想平衡。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 WoWBench 各模型多維細粒度性能對比圖

開源開放,構建世界模型的研究基礎設施

北京人形機器人創(chuàng)新中心開源WoW具身世界模型部分模型權重,推理代碼與WoWBench,這種程度的開源,使得全球研究者不僅能夠復現(xiàn)論文結果,更能夠在WoW的基礎上進行深入研究和應用開發(fā),大大降低了世界模型研究的入門門檻,加速具身智能機器人走入生活方方面面。

開源部分模型權重:包含1.3B、2B、7B、14B三個參數(shù)量級的預訓練模型。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

開源訓練推理代碼:從數(shù)據(jù)預處理到模型部署推理的流程代碼。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

開源WoWBench評估基準:首個專門針對具身世界模型的綜合測試標準。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

應用前景廣闊,實現(xiàn)從技術到產業(yè)的全面賦能

北京人形發(fā)布的WoW具身世界模型,憑借創(chuàng)新的技術架構,優(yōu)越的性能表現(xiàn)以及開源開放合作賦能,助力具身智能機器人多場景落地。

學術研究層面:北京人形為世界模型研究提供統(tǒng)一的基準平臺和可比較的評估體系,并將WoWBench基準和模型開源,加速研究進展,促進科研復現(xiàn)。

技術演進層面:智能體自我訓練平臺,北京人形提供自優(yōu)化接口,WoW世界模型可作為交互式生成模擬沙盒,使VLM在長時序任務規(guī)劃中“自我調試邏輯錯誤”,可顯著提升模型在模糊任務中的自我修正與反思能力。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

產業(yè)應用層面:一方面WoW具身世界模型可以實現(xiàn)數(shù)據(jù)遷移與擴增,從少量真實數(shù)據(jù)出發(fā),生成更多合成樣本,完成“想象-生成-再標注-遷移”的自循環(huán)過程,讓AI擁有“自我造數(shù)”能力。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 少量真是數(shù)據(jù)出發(fā),生成更多合成樣本

另一方面WoW具身世界模型可以從視覺“想象”中反推真實可執(zhí)行的動作指令,可遷移真實機器人本體上執(zhí)行抓取、裝配等各類操作任務,使機器人具備了在復雜環(huán)境中自主理解與執(zhí)行自然任務指令的能力。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻 

圖 想象遷移真實機器人本體

WoW通過系統(tǒng)性結合完成了 想象世界 → 理解物理 → 生成視頻 → 執(zhí)行動作 → 再學習 的邏輯閉環(huán),當 AI 擁有“手”和“身體”,能夠真實地探索世界、干預世界、理解因果、積累經驗,它將不再只是世界的觀察者,而成為一個真正的智能體。

此前,北京人形機器人創(chuàng)新中心“具身天工Ultra”獲得全球首個人形機器人半程馬拉松冠軍,并且采用”全自主“方式在首屆世界人形機器人運動會,獲得100米短跑項目的冠軍,成為人形機器人史上首個百米“飛人”,充分展示其“最能跑”的領先技術實力;基于”慧思開物“平臺下的”具身大小腦協(xié)同,北京人形僅憑天軼2.0一款機器人,在首屆世界人形機器人運動會一舉斬獲一金三銀一銅的優(yōu)異成績,表現(xiàn)出卓越的泛化能力——面對毫米級物料插裝、復雜路徑搬運、行李識別與運送等任務,均能在無人干預下高效完成,能夠在多個垂直場景中同時達到頂尖水平,且在效率上不輸專用機器人,同樣也證明了其“最好用”。

本次WoW具身世界模型的開源,進一步展現(xiàn)了北京人形機器人創(chuàng)新中心在大腦方面的領先實力,從[理解世界]到[重建世界],WoW具身世界模型讓我們看到人工智能真正成為具身智能體的未來,圍繞“最能跑、最好用”北京人形機器人創(chuàng)新中心將持續(xù)開源開放,加速具身智能落地應用。

論文地址: https://arxiv.org/pdf/2509.22642
項目地址: https://wow-world-model.github.io/#
開源代碼地址: https://wow-world-model.github.io/
開源模型地址:https://huggingface.co/WoW-world-model

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

Sora 2 之后,北京人形WoW具身世界模型帶來aha時刻

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說