日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給鄭佳美
發(fā)送

0

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

本文作者: 鄭佳美   2026-01-22 16:18
導(dǎo)語:Being-H0.5:通用模型接近專用,長程雙臂更穩(wěn),部署機(jī)制作用明確。

如果說過去幾年大模型革命解決的是“機(jī)器會不會說話、會不會看圖”,那么機(jī)器人行業(yè)真正的問題是另一層:機(jī)器能不能在真實世界里把理解變成行動,并且在長期、重復(fù)、帶噪聲的執(zhí)行過程中始終穩(wěn)定可控。

具身智能的難點(diǎn)從來不在于讓機(jī)器人做出一次漂亮的demo,而在于讓它在換環(huán)境、換物體、換硬件、換任務(wù)鏈之后仍然可靠工作?,F(xiàn)實中,機(jī)器人策略的通用化被三道結(jié)構(gòu)性門檻牢牢卡住。

第一道門檻是形態(tài)割裂。機(jī)械臂、夾爪、靈巧手、人形上肢的關(guān)節(jié)定義與動作空間完全不同,導(dǎo)致數(shù)據(jù)難以共享,一個模型往往只能綁定一種硬件,換平臺就等于重訓(xùn)。

第二道門檻是數(shù)據(jù)成本與覆蓋。真實機(jī)器人數(shù)據(jù)昂貴、稀缺、分布窄,既難覆蓋長程任務(wù),也難覆蓋復(fù)雜交互,更難支撐跨形態(tài)泛化。

第三道門檻則來自部署系統(tǒng)本身。大量視覺語言動作模型在仿真或離線評估中表現(xiàn)不錯,但一上真機(jī)就會暴露出控制頻率不同步、動作抖動、誤差累積、雙臂互相干擾等問題,本質(zhì)上不是模型不聰明,而是缺少面向真實閉環(huán)系統(tǒng)的穩(wěn)定性機(jī)制。

因此,行業(yè)在表面上看是在追逐更高的benchmark 成功率,但底層競爭其實正在轉(zhuǎn)向另一種能力:誰能把通用策略訓(xùn)練出來,并把它穩(wěn)定地部署到真實機(jī)器人上,誰就有可能率先跨過從研究走向產(chǎn)品的那道門檻。

在這樣的背景下,智在無界創(chuàng)始人盧宗青團(tuán)隊提出論文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,并給出了一條更接近工程閉環(huán)的通用操控路線。

他們并不是單純依靠更大的模型或更多的機(jī)器人數(shù)據(jù)堆疊性能,而是從根問題入手:通過以人類為中心的大規(guī)模操控數(shù)據(jù)建立跨形態(tài)動作先驗,通過統(tǒng)一state-action 空間解決不同硬件之間動作語言不一致的障礙,并結(jié)合更強(qiáng)的動作生成建模能力與面向真實系統(tǒng)的穩(wěn)定部署機(jī)制,系統(tǒng)性回答通用機(jī)器人策略能否在多形態(tài)平臺上穩(wěn)定工作并真正實現(xiàn)部署這一核心問題。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

通用接近專用

這項工作的實驗結(jié)果并不是簡單地說明成功率更高,而是圍繞一個核心問題展開:一個模型能否同時學(xué)會操控不同形態(tài)的機(jī)器人,甚至包括人手的動作方式,并且在真實機(jī)器人上部署時依然保持穩(wěn)定可靠。

因此,研究團(tuán)隊將實驗結(jié)果主要分為三類進(jìn)行呈現(xiàn),分別是真實機(jī)器人結(jié)果、仿真基準(zhǔn)結(jié)果和消融實驗結(jié)果。

在真實機(jī)器人實驗中,研究人員設(shè)計了兩種模型設(shè)置。一種是Being-H0.5-specialist 專用型,主要用于某一種機(jī)器人,進(jìn)行了更強(qiáng)的對齊與適配,目標(biāo)是追求最大性能。另一種是Being-H0.5-generalist 通用型,同一個模型需要適應(yīng)不同機(jī)器人形態(tài),目標(biāo)是提升泛化與遷移能力。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

整體實驗結(jié)論表明,專用型模型的整體表現(xiàn)最好,而通用型模型僅略低,二者在很多任務(wù)類別中的差距并不大,尤其是在共享技能強(qiáng)、動作模式類似的任務(wù)上表現(xiàn)非常接近。

進(jìn)一步來看,研究團(tuán)隊按能力需求將真實機(jī)器人任務(wù)劃分為空間類任務(wù)Spatial、長程任務(wù)Long-horizon、雙臂任務(wù)Bimanual 和泛化任務(wù)Generalization,并發(fā)現(xiàn)Being-H0.5 相比π0.5 的提升幅度最大出現(xiàn)在Long-horizon 和Bimanual 兩類任務(wù)中。

這一點(diǎn)非常關(guān)鍵,因為長程任務(wù)往往包含多個步驟,微小的動作誤差會不斷累積,極容易導(dǎo)致后續(xù)任務(wù)失敗,而雙臂任務(wù)需要兩只手之間保持實時協(xié)同,對動作時序與空間耦合要求更高,因此這兩類任務(wù)最能檢驗策略是否真正具備可部署的穩(wěn)定性。

此外,研究過程中還發(fā)現(xiàn),在某些任務(wù)例如清桌子這一類容器整理和收納交互場景中,通用型模型甚至可能接近或超過專用型模型的表現(xiàn)。直觀來看,這類任務(wù)需要反復(fù)使用抓取、移動、放置等通用子技能,而通用型模型由于在更多機(jī)器人和更多任務(wù)中學(xué)習(xí)過類似動作結(jié)構(gòu),往往表現(xiàn)得更穩(wěn)定,相比之下專用型模型雖然對單一機(jī)器人更強(qiáng),但也更容易對某些特定動作習(xí)慣產(chǎn)生過擬合。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

在關(guān)鍵消融實驗中,研究團(tuán)隊重點(diǎn)分析了UniHand-2.0 預(yù)訓(xùn)練是否必要。實驗結(jié)論表明,對于專用型模型來說,即使沒有UniHand-2.0 預(yù)訓(xùn)練,也能夠通過后續(xù)的機(jī)器人微調(diào)學(xué)習(xí)到不少能力,但對于通用型模型來說,如果缺少UniHand-2.0 預(yù)訓(xùn)練則會出現(xiàn)明顯性能崩塌,在多機(jī)器人混合學(xué)習(xí)中更容易表現(xiàn)出能力不足或不穩(wěn)定。

這說明 UniHand-2.0 的作用并不僅僅是擴(kuò)大數(shù)據(jù)規(guī)模,而是為訓(xùn)練過程提供了一種跨形態(tài)共享的操控先驗,使模型能夠理解操控動作的合理分布,從而更有效地吸收來自不同機(jī)器人形態(tài)的動作數(shù)據(jù)。為了支撐這種跨形態(tài)操控能力學(xué)習(xí),研究團(tuán)隊構(gòu)建的UniHand-2.0 總規(guī)模超過35,000 hours,包含120B tokens 與400M samples,并融合了人類第一視角手部操作數(shù)據(jù)16K hours、機(jī)器人操控數(shù)據(jù)14K hours 覆蓋 30種機(jī)器人形態(tài),以及視覺語言理解數(shù)據(jù)約 5K equivalent hours,為模型提供了更豐富的動作先驗與語義對齊基礎(chǔ)。

在仿真基準(zhǔn)實驗中,Being-H0.5在 LIBERO benchmark 上取得了非常強(qiáng)的表現(xiàn),平均成功率達(dá)到98.9%,在更困難的長程子集LIBERO-Long 上也達(dá)到了97.4%,并且僅使用 224×224 的 RGB 圖像輸入。

考慮到 LIBERO 具有多任務(wù)、多場景以及明顯的長程操作鏈特點(diǎn),這樣接近 99% 的成功率表明模型不僅能夠執(zhí)行動作,還具備很強(qiáng)的任務(wù)穩(wěn)定性、閉環(huán)糾錯能力以及對序列動作結(jié)構(gòu)的學(xué)習(xí)能力。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

此外,在RoboCasa 廚房任務(wù)中,這一基準(zhǔn)包含 24 個任務(wù),更接近真實家庭場景,涉及多對象、多容器以及頻繁接觸交互過程,Being-H0.5在整體對比中同樣領(lǐng)先多個基線方法,包括部分 3D方法,這說明模型不僅在桌面任務(wù)上有效,也能夠在更復(fù)雜的家庭操作場景中保持較強(qiáng)性能,并且在RoboCasa benchmark 上給出了53.9% 的成功率表現(xiàn)。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

最后,在部署相關(guān)實驗中,研究團(tuán)隊強(qiáng)調(diào)模型的真實可用性不僅取決于訓(xùn)練策略,也依賴部署系統(tǒng)的穩(wěn)定性,因此引入了MPG 和 UAC 兩個關(guān)鍵機(jī)制。MPG 的作用是抑制不合理動作輸出,使動作保持在合理分布的流形附近,UAC的作用是解決感知幀率與控制頻率不同步的問題。

消融結(jié)果顯示,一旦去掉 MPG 和 UAC,長程任務(wù)的性能下降最明顯,雙臂任務(wù)也會明顯變差,更容易出現(xiàn)抖動、猶豫或修正過度等現(xiàn)象。這一結(jié)果說明,部署時的穩(wěn)定性機(jī)制對長程和雙臂任務(wù)的可靠執(zhí)行至關(guān)重要,而這也體現(xiàn)了這項工作相比許多只關(guān)注離線評估或仿真成功率的研究,更重視真實部署系統(tǒng)中時序和穩(wěn)定性問題的解決。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

對齊與生成并重

為了達(dá)到以上效果,研究團(tuán)隊主要設(shè)計了五個階段,包括訓(xùn)練數(shù)據(jù)體系構(gòu)建、跨形態(tài)動作對齊、模型訓(xùn)練架構(gòu)設(shè)計、下游評估驗證以及消融實驗分析。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

首先在數(shù)據(jù)構(gòu)建階段,研究人員搭建了UniHand-2.0 數(shù)據(jù)集,這套數(shù)據(jù)并不是傳統(tǒng)意義上只收集機(jī)器人數(shù)據(jù),而是融合了三類來源,包括人類第一視角手部操作數(shù)據(jù)16K hours、機(jī)器人操控數(shù)據(jù)14K hours 覆蓋 30種機(jī)器人形態(tài),以及視覺語言理解數(shù)據(jù)約 5K equivalent hours。同時,UniHand-2.0的總規(guī)模超過 35,000 hours,包含 120B tokens 與 400M samples,為跨形態(tài)操控能力學(xué)習(xí)提供了更扎實的數(shù)據(jù)基礎(chǔ)。雷峰網(wǎng)

這樣設(shè)計的核心動機(jī)是緩解真實機(jī)器人數(shù)據(jù)昂貴、稀缺且覆蓋范圍有限的問題,同時利用人類手部動作數(shù)據(jù)的豐富性與自然性提供更大規(guī)模的操控先驗,并通過VLM 數(shù)據(jù)補(bǔ)齊語言理解與場景語義的能力缺口,從而形成面向操控任務(wù)的多模態(tài)預(yù)訓(xùn)練材料庫。

其次在跨形態(tài)對齊階段,這項工作引入Unified State-Action Space 解決不同形態(tài)動作空間不一致帶來的訓(xùn)練困難,例如人手關(guān)節(jié)空間與機(jī)器人關(guān)節(jié)空間不相同,不同機(jī)器人之間action 維度也存在差異,若直接拼接action 進(jìn)行訓(xùn)練會導(dǎo)致模型混亂。

為此,研究人員將不同形態(tài)的狀態(tài)與動作映射到統(tǒng)一state-action 空間,使模型學(xué)習(xí)通用操控語義而非某一種硬件的關(guān)節(jié)角度,從而實現(xiàn)跨機(jī)器人知識共享與遷移。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

在模型訓(xùn)練架構(gòu)上,研究團(tuán)隊采用MoT 與 MoF 的組合,使模型同時具備理解能力與動作生成能力,其中Understanding Expert 負(fù)責(zé)圖像與語言信息的理解并形成任務(wù)意圖表示,Action Expert 負(fù)責(zé)連續(xù)動作輸出與長序列控制,并通過Mixture of Flow MoF 提升動作生成的表達(dá)能力,最終形成Being-H0.5 模型體系。

隨后在下游評估階段,研究人員采用真實機(jī)器人與仿真基準(zhǔn)相結(jié)合的方式進(jìn)行驗證,仿真部分在LIBERO 和RoboCasa 上評估以保證可復(fù)現(xiàn)性與橫向?qū)Ρ刃?,真實機(jī)器人部分則用于檢驗閉環(huán)控制表現(xiàn)以及硬件噪聲、時序不同步與誤差累積條件下的部署穩(wěn)定性,并通過specialist 與generalist 的對比進(jìn)一步衡量通用模型帶來的性能代價。

最后在消融實驗中,研究團(tuán)隊從三方面驗證關(guān)鍵設(shè)計的有效性,包括去掉UniHand-2.0 預(yù)訓(xùn)練以檢驗human-centric pretrain 對generalist 的必要性,去掉MPG 與 UAC 以評估部署穩(wěn)定性機(jī)制是否關(guān)鍵,以及通過凍結(jié)不同層數(shù)探索全量更新與部分更新在性能與穩(wěn)定性上的差異,從而更系統(tǒng)地分析模型能力來源與關(guān)鍵模塊貢獻(xiàn)。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

從研究走向落地

從實驗意義來看,這項工作的結(jié)果為通用機(jī)器人策略的發(fā)展提供了關(guān)鍵證據(jù)。首先,它證明跨形態(tài)統(tǒng)一動作學(xué)習(xí)是可行的。傳統(tǒng)機(jī)器人學(xué)習(xí)往往一個模型只適配一種硬件,換機(jī)器人就要重訓(xùn),數(shù)據(jù)也難以共享,導(dǎo)致訓(xùn)練成本高且復(fù)用效率低。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

而工實驗結(jié)果表明,只要實現(xiàn) action space 的統(tǒng)一并配合足夠強(qiáng)的預(yù)訓(xùn)練,多機(jī)器人共享同一套策略是能夠做到的,并且generalist 的性能只比specialist 略低,甚至在不少任務(wù)上接近,這直接提升了機(jī)器人基礎(chǔ)模型路線的現(xiàn)實可行性。

其次,這項工作強(qiáng)調(diào)人類手部視頻與動作數(shù)據(jù)并不是輔助,而是通用策略的底座。消融實驗顯示,UniHand-2.0的人類中心預(yù)訓(xùn)練是generalist 模型保持穩(wěn)定能力的關(guān)鍵因素,這意味著人類動作數(shù)據(jù)為策略提供了更合理、更自然的動作先驗,從而增強(qiáng)其泛化能力與跨機(jī)器人遷移能力。

同時 UniHand-2.0 總規(guī)模超過 35,000 hours,包含 120B tokens 與 400M samples,也說明這種人類中心預(yù)訓(xùn)練具備足夠的數(shù)據(jù)支撐。

第三,工作指出了機(jī)器人智能真正難點(diǎn)在于可部署的長程穩(wěn)定性,而不僅是離線或仿真成功率。許多視覺語言動作模型在仿真中表現(xiàn)不錯,但部署到真實機(jī)器人時容易出現(xiàn)抖動、動作發(fā)散、延遲累積失敗,甚至雙臂互相干擾。

研究通過 MPG 與UAC 的實驗結(jié)果說明,要讓foundation policy 真正可部署,必須顯式解決動作分布約束與異步控制問題,使策略在真實系統(tǒng)中保持穩(wěn)定可靠。

最后,研究也提供了一個較清晰的通用模型訓(xùn)練范式,即通過大規(guī)模人類中心數(shù)據(jù)建立操控先驗,通過統(tǒng)一state-action 空間實現(xiàn)跨形態(tài)對齊,通過更強(qiáng)動作生成建模能力提升控制表達(dá),并結(jié)合穩(wěn)定部署機(jī)制提高真實環(huán)境下的執(zhí)行可靠性。

整體來看,它不是依靠某一個單點(diǎn)技巧,而是從數(shù)據(jù)、對齊、生成到部署穩(wěn)定性進(jìn)行了端到端的全鏈路構(gòu)建,因此更具備可擴(kuò)展性,也更接近通用機(jī)器人操控智能的發(fā)展方向。

研究背后的科研團(tuán)隊

盧宗青,北京大學(xué)計算機(jī)學(xué)院長聘副教授,國家青年人才,北京智源學(xué)者;主要研究強(qiáng)化學(xué)習(xí)、多模態(tài)大模型和具身智能,發(fā)表領(lǐng)域頂級論文100余篇,擔(dān)任ICML、ICLR、NeurIPS等機(jī)器學(xué)習(xí)會議領(lǐng)域主席;獲國家自然科學(xué)基金原創(chuàng)探索項目資助。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

參考鏈接:https://z0ngqing.github.io/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

盧宗青團(tuán)隊新作:人類先驗打底,統(tǒng)一動作對齊,通用機(jī)器人模型正在落地

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說