0
| 本文作者: 業(yè)界評論 | 2026-03-27 13:12 |
3月27日,在中關(guān)村論壇“全球?qū)υ挕被顒?dòng)現(xiàn)場,由北京中關(guān)村學(xué)院與中關(guān)村人工智能研究院孵化的首家具身智能企業(yè)——深度機(jī)智,正式發(fā)布首個(gè)以人類學(xué)習(xí)范式構(gòu)建的PhysBrain 1.0具身通用智能基座模型。
PhysBrain 1.0體系以PhysBrain基座模型為核心,融合TwinBrainVLA原創(chuàng)雙腦架構(gòu)與LangForce訓(xùn)練策略,三大核心技術(shù)協(xié)同發(fā)力,首次通過海量人類第一視角視頻,規(guī)?;瘶?gòu)建高質(zhì)量物理常識訓(xùn)練語料,成功突破具身智能數(shù)據(jù)獲取與模型訓(xùn)練的核心瓶頸,激發(fā)出模型的“類人”物理智能,推動(dòng)模型從“模仿動(dòng)作”向“理解物理”的關(guān)鍵“范式躍遷”。
在國際權(quán)威測評榜單中,PhysBrain 1.0在空間智能、具身交互等多項(xiàng)權(quán)威評測中超越多家頭部公司,達(dá)到行業(yè) SOTA(業(yè)界最優(yōu))成績,全面對標(biāo)全球頂尖水平。
推出人類學(xué)習(xí)全新模型架構(gòu),重構(gòu)具身智能底層邏輯
此前,全球主流機(jī)器人技術(shù)路線本質(zhì)是教機(jī)器人“怎么做”,通過大模型擬合真機(jī)或者仿真得到的軌跡數(shù)據(jù),試圖逼近通用具身智能。然而,如此訓(xùn)練的模型缺乏對真實(shí)物理世界理解,同一場景,換了不同視角后便極易識別失效,本質(zhì)上只是為機(jī)器人注入了擬合軌跡的數(shù)據(jù),而沒有為其注入物理世界的真實(shí)交互邏輯,導(dǎo)致擬合軌跡的效率極低。本質(zhì)上,模型只記住了動(dòng)作,卻沒有學(xué)會為什么要這樣做。
而深度機(jī)智給出了另一種思路,讓機(jī)器人像人一樣學(xué)習(xí),先具備世界物理常識,再執(zhí)行具體任務(wù)。簡單來說就是“知其然,更要知其所以然?!?這種“先理解,后行動(dòng)”的理念,讓具身智能的發(fā)展擁有了非線性突破的可能。
深度機(jī)智此次推出的 PhysBrain1.0 具身通用智能大模型,實(shí)現(xiàn)了三個(gè)層面的核心突破:
1、數(shù)據(jù)來源創(chuàng)新:從“軌跡數(shù)據(jù)”到“人類第一視角交互數(shù)據(jù)”
深度機(jī)智率先以海量人類第一視角交互數(shù)據(jù)為核心訓(xùn)練語料,而非依賴昂貴的機(jī)器人閉環(huán)仿真數(shù)據(jù)、遙操作數(shù)據(jù)。通過首創(chuàng)的ICDC 情境數(shù)采體系,以佩戴式第一視角設(shè)備為主,無需在手部佩戴機(jī)械裝備,在真實(shí)工作情境中采集原生第一視角多模態(tài)數(shù)據(jù),讓模型訓(xùn)練數(shù)據(jù)與人類真實(shí)操作邏輯、物理世界規(guī)律的對齊。
人類數(shù)據(jù)天然蘊(yùn)含任務(wù)多樣性、場景多樣性與處理方式多樣性,讓模型從源頭獲得對物理交互的深層理解,而非局限于軌跡擬合,這正是后續(xù)泛化能力的根基。
2、數(shù)據(jù)使用創(chuàng)新:從“簡單擬合軌跡”到“提取物理交互常識”
深度機(jī)智的數(shù)據(jù)增強(qiáng)管線,將海量人類第一視角視頻中的空間關(guān)系、力學(xué)邏輯、因果推理等隱性經(jīng)驗(yàn),規(guī)模化提取為結(jié)構(gòu)化監(jiān)督信號,并壓縮進(jìn)多模態(tài)大模型。這一過程讓PhysBrain1.0模型在訓(xùn)練中真正掌握“為什么這樣做”的物理因果,而非“怎么做”的動(dòng)作軌跡,從“模仿動(dòng)作”走向“理解物理”,物理常識的注入,是模型具備通用智能的關(guān)鍵一步。
3、模型架構(gòu)創(chuàng)新:從“記憶動(dòng)作數(shù)據(jù)”到“學(xué)習(xí)世界規(guī)律”
PhysBrain 1.0采用多模態(tài)大模型架構(gòu),讓具身智能不再像大語言模型一樣推理“下一個(gè)token”,而是將物理常識內(nèi)化于參數(shù)之中,讓模型具備對物理世界理解的時(shí)空一致性,在有限數(shù)據(jù)下實(shí)現(xiàn)真正的泛化能力。
原創(chuàng)性TwinBrainVLA “雙腦融合” 架構(gòu)解決具身微調(diào)中存在的災(zāi)難性遺忘行業(yè)難題。左腦凍結(jié),完整保留通用語義理解能力與語言智能;右腦可訓(xùn)練,專注學(xué)習(xí)精細(xì)動(dòng)作策略。兩者協(xié)同,讓PhysBrain1.0模型在做任務(wù)時(shí),真正實(shí)現(xiàn)“通專融合”。
獨(dú)創(chuàng)LangForce訓(xùn)練方案,打破VLA學(xué)習(xí)中的視覺捷徑困境。通過貝葉斯分解強(qiáng)制模型在生成動(dòng)作前必須最大化動(dòng)作與指令的互信息,讓機(jī)器人真正“聽懂指令”再行動(dòng),在保留大模型原有語言能力的同時(shí),大幅提升從未見過場景下的泛化成功率。
通過上述三個(gè)維度的創(chuàng)新,PhysBrain1.0 第一次開始“像人一樣思考,同時(shí)像人一樣行動(dòng)”。
在最新的 SimplerEnv 測試中,PhysBrain1.0跑出了 80.2% 的平均成功率,超越了行業(yè)標(biāo)桿 Pi0.5 ( 57.1%),達(dá)到行業(yè)SOTA,這一結(jié)果進(jìn)一步說明,在具身智能領(lǐng)域,物理常識要比動(dòng)作模仿更加重要,具身智能必須先具備“物理常識”,才能更高效地學(xué)習(xí)動(dòng)作。此外從行業(yè)角度而言,深度機(jī)智已躋身行業(yè)第一梯隊(duì),具備與國際大廠對標(biāo)的產(chǎn)品技術(shù)實(shí)力。
不止于模型,打通“具身智能全鏈路”
本次中關(guān)村論壇活動(dòng),深度機(jī)智不僅帶來全新模型,更首次展示基于人類學(xué)習(xí)技術(shù)路線的完整全棧能力。
基于全新范式具身通用智能大腦PhysBrain1.0,深度機(jī)智推出了全球首款斷電自主站立的全尺寸擬人體機(jī)器人 Prime 。該機(jī)器人專為通用具身智能模型研發(fā),全身諧波關(guān)節(jié),搭配高自由度靈巧手,可實(shí)現(xiàn)高精度的精細(xì)操作,具備高度類人化的動(dòng)作靈活性與環(huán)境適應(yīng)性。
讓機(jī)器人不止能實(shí)現(xiàn)“取咖啡”等簡單工作,還應(yīng)該進(jìn)入“人類最需要的地方”,落地 “險(xiǎn)、臟、累、 難、奇” 等場景,讓機(jī)器人服務(wù)于人類的工作、生活現(xiàn)實(shí)場景,成為“真正能干活”的機(jī)器人。
此外,為持續(xù)完善物理智能數(shù)據(jù)引擎,深度機(jī)智推出了便攜式數(shù)采智能終端,可實(shí)現(xiàn)在多元場景中低成本高效率地獲取多模態(tài)人類第一視角數(shù)據(jù),構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù)閉環(huán)。
在數(shù)據(jù)標(biāo)注方面,深度機(jī)智通過標(biāo)準(zhǔn)化人類行為數(shù)據(jù),構(gòu)建“物理世界知識庫”,建立人類第一視角數(shù)據(jù)物理常識標(biāo)準(zhǔn)平臺,為行業(yè)提供可復(fù)用的具身智能數(shù)據(jù)基礎(chǔ)設(shè)施。
深度機(jī)智通過打通數(shù)據(jù)采集、常識標(biāo)注、模型架構(gòu)、訓(xùn)練算法、擬人本體等各個(gè)關(guān)鍵環(huán)節(jié),構(gòu)建了“機(jī)器人大腦全鏈路”,該公司也是我國少數(shù)具備全棧能力的具身智能公司。
具身智能的“中國時(shí)刻”,從“模仿動(dòng)作”到“理解世界”
技術(shù)演進(jìn)的本質(zhì),是認(rèn)知范式的躍遷。從信息智能到物理智能,全球人工智能發(fā)展正在進(jìn)入一個(gè)全新的階段。
過去,美國在大模型領(lǐng)域建立了范式優(yōu)勢,歐洲定義了工業(yè)機(jī)器人體系,而或許現(xiàn)在,在具身智能這一新一代核心賽道上,中國企業(yè),正憑借自主創(chuàng)新,正在實(shí)現(xiàn)從跟跑到并跑乃至領(lǐng)跑的跨越。
目前物理智能是大模型能力的一個(gè)重要板塊,尚處于行業(yè)發(fā)展早期,中國團(tuán)隊(duì)有機(jī)會率先實(shí)現(xiàn)從0到1的突破。
其次,具身智能是實(shí)現(xiàn)物理智能的加速器,而中國在機(jī)器人硬件產(chǎn)業(yè)以及大模型上所積累的相對優(yōu)勢,為中國具身智能創(chuàng)業(yè)公司提供了快速成長的土壤。
此外,李飛飛、Yann LeCun、謝賽寧等都是具身智能領(lǐng)域的早期開拓者,而最近我們也慢慢看到,越來越多中國創(chuàng)業(yè)者、學(xué)者的名字和面孔出現(xiàn)在具身智能的關(guān)鍵領(lǐng)域和核心期刊上,這正說明在具身智能領(lǐng)域,中國創(chuàng)業(yè)者正在迎頭趕上。
而以深度機(jī)智為代表的一批中國創(chuàng)新力量,正從“模仿動(dòng)作”,走向“理解世界”。這不僅是一項(xiàng)顛覆性技術(shù)突破,更是一條通往物理世界AGI的新路徑。
屬于機(jī)器人的時(shí)代正在到來,而這一次,中國正走在前面。
雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。