日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發(fā)私信給徐咪

發(fā)送

0

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

本文作者：徐咪

2025-10-17 17:58

導語：本次WoW具身世界模型的開源，進一步展現(xiàn)了北京人形機器人創(chuàng)新中心在大腦方面的領(lǐng)先實力。

近年來機器人的“體能”正在以肉眼可見的速度進步——后空翻、跑酷、馬拉松，這些曾經(jīng)只屬于人類的運動能力，如今機器人也能輕松完成。然而，讓機器人完成一個后空翻很難，但讓它“理解”面前的水杯為什么倒下后水會灑出來，或許更難。

繼Deepseek在大語言模型開源促進行業(yè)發(fā)展后，北京人形機器人創(chuàng)新中心再次打破邊界并開源了全新的世界模型架構(gòu)，提出了一個讓機器人真正“看見、理解并行動于世界”的具身世界模型——WoW（World-Omniscient World Model），幫助具身智能機器人快速學習掌握各項技能，助力行業(yè)打造“最好用”的機器人。

一經(jīng)發(fā)布，該模型便受到學術(shù)界產(chǎn)業(yè)界廣泛關(guān)注，其中Huggingface官方留言：Excellent work，并重點推薦希望上傳更多內(nèi)容。斯坦福具身智能大佬、PI創(chuàng)始人、清華合作文章也引用了WoW具身世界模型技術(shù)報告。這意味著北京人形機器人創(chuàng)新中心在具身世界模型領(lǐng)域走在世界前列。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

這不僅僅是一次視覺模型的升級，更是一個融合了視覺、動作、物理感知與推理的統(tǒng)一世界生成框架。它讓 AI 不再只是“看視頻”或“生成圖像”，而是能通過交互學習世界的物理規(guī)律，并在真實環(huán)境中自主操作。如果說GPT系列讓機器“讀懂語言”，Sora系列是在“看世界”，那么 WoW 就是讓機器人“理解物理世界”，并且給到算法觸摸世界的雙手。創(chuàng)新的技術(shù)架構(gòu)、完全開源的策略、完整的工具支持，使得WoW有望成為世界模型領(lǐng)域的“Deepseek"。

相較于 Sora 2， WoW 具身世界模型在模擬機器人操作的時空一致性、物理推理能力表現(xiàn)更為出色。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成依次抓取火方塊，柔性方塊，水方塊

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成打開喬布斯自傳書

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 Sora 2生成依次抓取火方塊，柔性方塊，水方塊

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 Sora 2生成打開喬布斯自傳書

創(chuàng)新的技術(shù)架構(gòu)體系，重新定義世界模型能力邊界

北京人形提出了一個全新的多模態(tài)大模型框架，將世界生成（World Generation）、動作預測（Action Inference）、視覺理解（Vision-Language Models, VLM）和自我反思（Refiner Agent）融合為一個統(tǒng)一系統(tǒng)，成功解決傳統(tǒng)架構(gòu)物理一致性、因果推理和跨本體跨場景跨動作泛化方面的局限。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW 是一個融合了感知、預測、判斷、反思與行動五個環(huán)節(jié)的具身世界模型。它從真實的機器人交互數(shù)據(jù)中學習，能在已知與未知場景中生成高質(zhì)量、物理一致的機器人視頻，最終讓想象中的動作真正落地于現(xiàn)實執(zhí)行。

WoW具身世界模型系統(tǒng)由四個核心組件構(gòu)成：

DiT 世界生成基座模型（Diffusion Transformer） —— 具備真實世界推理與生成能力的[物理引擎+想象系統(tǒng)]

WoW具身世界模型能夠根據(jù)環(huán)境狀態(tài)與歷史幀，預測未來場景、推演物理演化、還原動態(tài)因果鏈。在此基礎(chǔ)上，北京人形從800萬條海量機器人與物理世界交互軌跡, 并自建數(shù)據(jù)優(yōu)化精煉管線，篩選出200 萬條高質(zhì)量的訓練集，訓練了多個版本的世界模型，從 1.3B → 2B → 7B → 14B 參數(shù)的全系列擴展，并驗證了隨著模型規(guī)模提升，物理一致性與生成穩(wěn)定性以及泛化性呈顯著上升趨勢。

域內(nèi)(In-domain)泛化生成：

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成打開洗碗機

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成打開水龍頭放下蘋果

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成機械臂生成依次按下紅色按鈕，收拾餐具，按下綠色開關(guān)(長程任務)

域外（Out-of-domain）泛化生成：

(a)北京人形具身天工2.0

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成具身天工2.0把橙子放進盤子里

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成具身天工2.0倒酒

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成具身天工2.0把面包放進面包機

(b)更有趣的泛化

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成其他類型機器人打招呼

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成從梵高的向日葵畫里拿出向日葵

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW生成機械臂夾爪工作軌跡流

WoW 不是在記憶訓練場景，而是在學習“物理規(guī)律的抽象本質(zhì)”，具備跨機器人形態(tài)泛化、任務泛化、場景泛化全方位能力，這類“視覺+物理”的泛化能力，是通向具身智能（Embodied Intelligence）的關(guān)鍵指標。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖機器人本體形態(tài)泛化

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖機器人動作任務泛化

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖更多泛化能力

SOPHIA 自反范式（Solver–Critic–Refiner） —— 業(yè)內(nèi)首次提出SOPHIA框架，讓世界模型“自己教自己”。

WoW 具身世界模型遵循 SOPHIA 范式——將大語言模型 (LLM) 與擴散 Transformer (DiT) 結(jié)合起來，在語言引導下生成物理上合理的未來，通過“生成預測（predict）—批評（critic）—修正（refine）”的迭代循環(huán)機制，將“想象（imagination）”與“推理（reasoning）”統(tǒng)一為具身智能的基本組成部分，正類似于人類智能“想象-驗證-修正-再想象”的核心特征，讓模型越看越準，越生成越真實。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖左側(cè)展示了動態(tài)評論模型（Dynamic Critic Model Team），它通過真實與合成視頻的標注訓練，學會判斷生成畫面的物理合理性。右側(cè)展示 Refiner Agent（優(yōu)化智能體），根據(jù)評論模型的反饋不斷改寫提示詞、重新生成視頻，形成一個“生成—批評—改進”的閉環(huán)優(yōu)化過程。

FM-IDM 逆動力學模型（Flow-Mask Inverse Dynamics） —— 從視頻到動作，給算法觸摸世界的雙手

WoW具身世界模型實現(xiàn)[視頻生成]和[機器人動作]閉環(huán)，通過給定連續(xù)兩幀預測視頻，F(xiàn)M-IDM能夠計算出機器人末端執(zhí)行器的動作變化量，從視覺“想象”中反推出真實可執(zhí)行的運動指令，讓模型真正實現(xiàn)從視頻到行動的閉環(huán)，意味著AI不再停留在“想象中”，而能真正“動手”去驗證自己的理解，標志著真正實現(xiàn)從生成到執(zhí)行的跨越。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖給定連續(xù)兩幀預測視頻，F(xiàn)M-IDM（Flow-Mask Inverse Dynamics Model）能夠計算出機器人末端執(zhí)行器的動作變化量（ΔAction），從視覺“想象”中反推出真實可執(zhí)行的運動指令，讓模型真正實現(xiàn)從視頻到行動的閉環(huán)。

WoWBench 世界基準 —— 全球首個針對具身世界模型的綜合基準，讓“想象力”第一次有了可量化的科學標準

北京人形提出了專測“物理一致性與因果推理”的新基準 WoWBench，也是全球首個針對具身世界模型的綜合基準，從四大核心維度評估模型能力——感知理解、預測推理、決策與規(guī)劃、泛化執(zhí)行，覆蓋包括視覺保真與時間一致、指令理解與語義正確性、物理與因果推理、規(guī)劃與任務分解等多個指標，采用混合評測機制（專家模型+GPT或精調(diào)VLM+人類專家）進行評分，確保模型表現(xiàn)與人類認知保持一致。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoWBench 圍繞五個核心組成部分構(gòu)建：（左上）多維評測體系，從視頻質(zhì)量、規(guī)劃推理、物理規(guī)律、指令理解四個角度評價生成結(jié)果；（中上）對應具身世界模型的四大核心能力——感知、規(guī)劃、預測與泛化；（右上）依托多源數(shù)據(jù)構(gòu)建流程，融合自采、開源與AI生成數(shù)據(jù)，并結(jié)合 GPT 預篩選 + 人類標注的混合機制，形成高質(zhì)量的視頻–指令對（圖中三張餅圖展示了數(shù)據(jù)分布統(tǒng)計）；（中部）采用雙評測機制：專家模型評估運動與一致性，GPT或精調(diào)VLM評估指令理解與任務規(guī)劃；（底部）還邀請了12位領(lǐng)域?qū)＜疫M行人工評審，確保模型表現(xiàn)與人類認知一致。

實踐測評，WoW性能領(lǐng)先強勢基線模型

經(jīng)評測驗證 WoW具身世界模型，區(qū)別于傳統(tǒng)僅追求視覺保真度的視頻生成，WoW 的“自我優(yōu)化循環(huán)（SOPHIA 框架）”使模型能從推理—生成—反思的閉環(huán)中不斷改進，在WoWBench四大指標中全面領(lǐng)先，未加入SOPHIA Agent自優(yōu)化模塊前，WoW-DiT在人類與自動評測中已經(jīng)均取得最高分（Overall = 49.39），遠超Cosmos-Predict、CogVideoX等強勢基線模型，加入 SOPHIA Agent自優(yōu)化模塊（Self-Optimization Framework）后，總體評分更是進一步提升至 51.97，超過所有對比模型。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

表 WoW-DiT本身已經(jīng)在人類與自動評測中均取得最高分

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

表加入 SOPHIA Agent自優(yōu)化模塊（Self-Optimization Framework）后，WoW+Agent 的總體評分進一步提升至 51.97，超過所有對比模型。

WoW具身世界模型學習到的不僅具備外觀一致性，并且具備物理機制的一致性，在物理模擬指標量化測評中，在復雜動力學（軟體、流體、光學）等場景中全面領(lǐng)先，特別是非剛體動力學的柔性物體或流體中優(yōu)勢顯著。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

表物理模擬指標量化

在不同難度的機器人實驗中，WoW具身世界模型驅(qū)動的FM-IDM中，簡單任務成功率高達94.5%，遠超傳統(tǒng)逆動力學基線模型，中等難度的成功率達到 75.2% (創(chuàng)下新SOTA，尤其在中等任務上顯著超越其他方法），當部署到實際機械臂上，WoW 生成的動作幾乎可直接執(zhí)行，實現(xiàn)“從像素到動作”的完整閉環(huán)。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

表不同難度級別下的視頻回放成功率基準

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoW 在真實機器人環(huán)境中的有效性。(左)展示了 WoW 在真實機器人上執(zhí)行的簡單與中等難度任務的成功軌跡示例。 (右）展示三種不同世界模型骨干(backbone)在現(xiàn)實世界準確性比較的定量結(jié)果。在所有基礎(chǔ)模型中，微調(diào)都極大地提高了現(xiàn)實世界中的性能，其中 WoW-cosmos2 達到了最高得分，展現(xiàn)了最優(yōu)的實際執(zhí)行能力。

從 3萬到 200萬條交互軌跡，WoW 的性能幾乎呈冪律增長——證明真實交互數(shù)據(jù)比純視覺數(shù)據(jù)更能塑造“世界理解力”。14B 參數(shù)版本在復雜物理任務上表現(xiàn)最穩(wěn)健，此外7B模型也能在效率與效果間取得理想平衡。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖 WoWBench 各模型多維細粒度性能對比圖

開源開放，構(gòu)建世界模型的研究基礎(chǔ)設(shè)施

北京人形機器人創(chuàng)新中心開源WoW具身世界模型部分模型權(quán)重，推理代碼與WoWBench，這種程度的開源，使得全球研究者不僅能夠復現(xiàn)論文結(jié)果，更能夠在WoW的基礎(chǔ)上進行深入研究和應用開發(fā)，大大降低了世界模型研究的入門門檻，加速具身智能機器人走入生活方方面面。

開源部分模型權(quán)重：包含1.3B、2B、7B、14B三個參數(shù)量級的預訓練模型。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

開源訓練推理代碼：從數(shù)據(jù)預處理到模型部署推理的流程代碼。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

開源WoWBench評估基準：首個專門針對具身世界模型的綜合測試標準。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

應用前景廣闊，實現(xiàn)從技術(shù)到產(chǎn)業(yè)的全面賦能

北京人形發(fā)布的WoW具身世界模型，憑借創(chuàng)新的技術(shù)架構(gòu)，優(yōu)越的性能表現(xiàn)以及開源開放合作賦能，助力具身智能機器人多場景落地。

學術(shù)研究層面：北京人形為世界模型研究提供統(tǒng)一的基準平臺和可比較的評估體系，并將WoWBench基準和模型開源，加速研究進展，促進科研復現(xiàn)。

技術(shù)演進層面：智能體自我訓練平臺，北京人形提供自優(yōu)化接口，WoW世界模型可作為交互式生成模擬沙盒，使VLM在長時序任務規(guī)劃中“自我調(diào)試邏輯錯誤”，可顯著提升模型在模糊任務中的自我修正與反思能力。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

產(chǎn)業(yè)應用層面：一方面WoW具身世界模型可以實現(xiàn)數(shù)據(jù)遷移與擴增，從少量真實數(shù)據(jù)出發(fā)，生成更多合成樣本，完成“想象-生成-再標注-遷移”的自循環(huán)過程，讓AI擁有“自我造數(shù)”能力。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖少量真是數(shù)據(jù)出發(fā)，生成更多合成樣本

另一方面WoW具身世界模型可以從視覺“想象”中反推真實可執(zhí)行的動作指令，可遷移真實機器人本體上執(zhí)行抓取、裝配等各類操作任務，使機器人具備了在復雜環(huán)境中自主理解與執(zhí)行自然任務指令的能力。

Sora 2 之后，北京人形WoW具身世界模型帶來aha時刻

圖想象遷移真實機器人本體

WoW通過系統(tǒng)性結(jié)合完成了想象世界 → 理解物理 → 生成視頻 → 執(zhí)行動作 → 再學習的邏輯閉環(huán)，當 AI 擁有“手”和“身體”，能夠真實地探索世界、干預世界、理解因果、積累經(jīng)驗，它將不再只是世界的觀察者，而成為一個真正的智能體。

此前，北京人形機器人創(chuàng)新中心“具身天工Ultra”獲得全球首個人形機器人半程馬拉松冠軍，并且采用”全自主“方式在首屆世界人形機器人運動會，獲得100米短跑項目的冠軍，成為人形機器人史上首個百米“飛人”，充分展示其“最能跑”的領(lǐng)先技術(shù)實力；基于”慧思開物“平臺下的”具身大小腦協(xié)同，北京人形僅憑天軼2.0一款機器人，在首屆世界人形機器人運動會一舉斬獲一金三銀一銅的優(yōu)異成績，表現(xiàn)出卓越的泛化能力——面對毫米級物料插裝、復雜路徑搬運、行李識別與運送等任務，均能在無人干預下高效完成，能夠在多個垂直場景中同時達到頂尖水平，且在效率上不輸專用機器人，同樣也證明了其“最好用”。

本次WoW具身世界模型的開源，進一步展現(xiàn)了北京人形機器人創(chuàng)新中心在大腦方面的領(lǐng)先實力，從[理解世界]到[重建世界]，WoW具身世界模型讓我們看到人工智能真正成為具身智能體的未來，圍繞“最能跑、最好用”北京人形機器人創(chuàng)新中心將持續(xù)開源開放，加速具身智能落地應用。

論文地址: https://arxiv.org/pdf/2509.22642
項目地址: https://wow-world-model.github.io/#
開源代碼地址: https://wow-world-model.github.io/
開源模型地址：https://huggingface.co/WoW-world-model

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

徐咪

編輯

發(fā)私信

當月熱門文章

最新文章

熱門搜索

人工智能 Android 智能汽車特朗普 ImageNet 奇點蘇寧掃地機器人今日頭條 CPU 聯(lián)通

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說