日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機(jī)器人 正文
發(fā)私信給陳淑瑜
發(fā)送

0

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作

導(dǎo)語:該研究創(chuàng)新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”,在無需任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下,實現(xiàn)了強(qiáng)大的零樣本機(jī)器人操作能力。

來源:公眾號“機(jī)器之心”

原文鏈接:https://mp.weixin.qq.com/s/uTffZgN0uuiknCcIY-VGYw


本文的共同第一作者為新加坡國立大學(xué)博士生陳浩楠,新加坡國立大學(xué)碩士生郭京翔。合作者為汪邦駿、張?zhí)眍?、黃敘川、鄭博仁、侯懿文、鐵宸睿、鄧家俊。通訊作者為新加坡國立大學(xué)計算機(jī)學(xué)院助理教授邵林,研究方向為機(jī)器人和人工智能。

在具身智能領(lǐng)域,機(jī)器人操作的泛化能力一直是一個核心挑戰(zhàn)。當(dāng)前,視覺 - 語言 - 動作(VLA)模型主要分為兩大范式:端到端模型與分層模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])嚴(yán)重依賴海量的 “指令 - 視覺 - 動作” 成對數(shù)據(jù),獲取成本極高,導(dǎo)致其在面對新任務(wù)或新場景時零樣本泛化能力受限。

另一方面,分層 VLA 模型試圖通過引入視覺語言模型(VLM)作為高層規(guī)劃器來緩解數(shù)據(jù)依賴,但其生成的中間表示(如語言描述 [3]、關(guān)鍵點 [4] 或價值圖 [5])往往缺乏復(fù)雜操作所需的精確幾何細(xì)節(jié),或者需要底層策略進(jìn)行額外的動作數(shù)據(jù)訓(xùn)練。

為了突破這一瓶頸,來自新加坡國立大學(xué)(NUS)的邵林團(tuán)隊提出了一種全新的解耦式分層框架 —— Goal-VLA。該研究創(chuàng)新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”,在無需任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下,實現(xiàn)了強(qiáng)大的零樣本機(jī)器人操作能力。目前,該論文已被機(jī)器人領(lǐng)域頂級會議 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。


ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


  • 論文標(biāo)題:Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation

  • 論文鏈接:https://arxiv.org/abs/2506.23919

  • 項目主頁:https://nus-lins-lab.github.io/goalvlaweb/


Goal-VLA:物體目標(biāo)狀態(tài)作為連接高低層策略的接口


Goal-VLA 的核心洞察是使用物體目標(biāo)狀態(tài)表示來連接高層語義推理與底層動作控制。

與受限于特定機(jī)器人運動學(xué)的傳統(tǒng)智能體中心(Agent-centric)世界模型不同,Goal-VLA 的世界模型聚焦于圖像空間中的語義目標(biāo),即需要操作的物體的目標(biāo)位姿。這使得系統(tǒng)可以將高層規(guī)劃與底層控制徹底解耦:高層 VLM 提供泛化性極強(qiáng)的視覺目標(biāo),專門的空間基準(zhǔn)模塊將其轉(zhuǎn)化為明確的空間指導(dǎo),最終由免訓(xùn)練的底層策略完成物理執(zhí)行。整個框架僅需用戶的自然語言指令和單視角 RGB-D 圖像即可運行,無需預(yù)先掃描地圖或已知物體網(wǎng)格。

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


Goal-VLA 的執(zhí)行流程分為三個關(guān)鍵階段:

1. 目標(biāo)狀態(tài)推理(Goal State Reasoning) 

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


該模塊負(fù)責(zé)將用戶抽象的自然語言指令轉(zhuǎn)化為具體且合理的視覺目標(biāo)。系統(tǒng)首先利用文本 VLM 豐富用戶的簡短指令,將簡短指令轉(zhuǎn)化為包含豐富細(xì)節(jié)的提示詞。 圖像生成 VLM(Gemini 2.5 Flash-image)據(jù)此生成候選目標(biāo)圖像。為了解決生成圖像可能存在的物理或語義不合理性,研究團(tuán)隊提出了一種迭代的 “合成 - 反思”(Reflection-through-Synthesis)機(jī)制。為了讓驗證模型能夠清晰地評估該圖像的物理可行性,系統(tǒng)使用 Grounded SAM [6] 從候選圖像中分割出目標(biāo)物體,并將其作為 “虛擬目標(biāo)” 半透明地疊加到初始場景圖像上。評估模型(Reflector VLM)對合成圖像進(jìn)行審查。若生成的圖像不符合任務(wù)語義(例如目標(biāo)物體的位置不可達(dá)或者錯誤),Reflector 會輸出包含糾正反饋的修改提示,指導(dǎo)生成器重新生成,直至目標(biāo)圖像被驗證通過 或者達(dá)到最大迭代次數(shù)。

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


2. 空間基準(zhǔn)計算(Spatial Grounding) 

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作

該模塊負(fù)責(zé)將 2D 視覺目標(biāo)轉(zhuǎn)化為精確的 3D 空間變換。由于生成的目標(biāo)圖像在實例級外觀上可能存在偏差,傳統(tǒng)的光流估計容易失效。為了解決這個問題,Goal-VLA 提取像素級語義特征,通過計算相似度來建立初始幀與目標(biāo)幀之間的像素匹配。結(jié)合初始真實深度圖與目標(biāo)預(yù)測深度圖(使用 Depth Anything V2 [7] 估計并經(jīng)深度對齊校準(zhǔn)),系統(tǒng)將 2D 像素提升為 3D 點云 ,并使用 Umeyama 算法 [8] 求解出最優(yōu)的旋轉(zhuǎn)(Rotation)和平移(Translation)矩陣。


3. 底層策略(Low-level Policy)

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作

底層策略將高層提供的物體目標(biāo)位姿轉(zhuǎn)化為可執(zhí)行動作。接觸模塊在物體點云表面采樣,并篩選出無碰撞的最優(yōu)接觸位姿(例如抓取的姿態(tài))。系統(tǒng)假設(shè)抓取后夾爪與物體的相對位姿保持不變,將空間基準(zhǔn)模塊計算出的物體變換矩陣應(yīng)用于夾爪,推導(dǎo)出最終的目標(biāo)位姿。最后,運動規(guī)劃器(Motion Planning Module)生成從當(dāng)前構(gòu)型到目標(biāo)位姿的無碰撞軌跡,完成任務(wù)執(zhí)行。


實驗結(jié)果與分析

研究團(tuán)隊在 RLBench [9] 仿真環(huán)境(8 個任務(wù))和真實的 UFACTORY X-ARM 7 機(jī)械臂(4 個任務(wù))上進(jìn)行了廣泛的評估。所有評估均在嚴(yán)格的零樣本設(shè)定下進(jìn)行。

仿真環(huán)境基準(zhǔn)測試 (RLBench)

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


在 RLBench 的 8 個涵蓋抓取、放置、插拔等復(fù)雜技能的任務(wù)中(每個任務(wù)測試 100 次),Goal-VLA 展現(xiàn)了顯著的性能提升,實現(xiàn)了 59.9% 的平均成功率。相比之下,基于關(guān)鍵點的分層模型 MOKA [4] 僅為 26.0%。而嚴(yán)重依賴帶有動作成對數(shù)據(jù)的端到端模型 OpenVLA [2] 和 Pi0 [10],在未經(jīng)過微調(diào)的零樣本測試中幾乎完全失敗。

真實世界機(jī)械臂實驗


ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作

研究團(tuán)隊使用 7-DOF UFACTORY X-ARM 7 機(jī)械臂測試了 4 個具有挑戰(zhàn)性的物理任務(wù):番茄入鍋(測試包含關(guān)系的推理)、桌面清掃(測試工具使用和間接操作)、精確稱重(測試高精度放置)以及直立瓶子(測試姿態(tài)重定向)。


Goal-VLA 達(dá)到了 60% 的平均成功率,遠(yuǎn)超其他基線方法。這一結(jié)果證明了 Goal-VLA 生成顯式 3D 目標(biāo)位姿的策略,能夠為真實世界中的復(fù)雜操作提供精確的空間指導(dǎo)。

仿真環(huán)境與真實實驗共同證明,Goal VLA 框架能夠?qū)崿F(xiàn)跨物體、跨環(huán)境、跨任務(wù)和跨本體的零樣本執(zhí)行能力。


消融實驗

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA:生成式大模型化身「世界模型」,實現(xiàn)零樣本機(jī)器人操作


研究團(tuán)隊對高層推理模塊進(jìn)行了消融分析。單獨增加輸入提示詞增強(qiáng)(Input Enhancement)帶來了 27.5% 的成功率提升。而完整的 “合成 - 反思” 循環(huán)機(jī)制,將模型的基礎(chǔ)成功率從 40.0% 躍升至 83.8%,當(dāng)允許最大 3 次反思迭代時,成功率進(jìn)一步攀升至 88.8%。這證明了視覺反饋和自我糾正在圖像生成過程中的必要性。


總結(jié)

Goal-VLA 為解決機(jī)器人操作泛化難題提供了一種具有高度啟發(fā)性的解耦范式。其核心貢獻(xiàn)在于:

  • 引入圖像生成式 VLM 作為 “以物體為中心的世界模型”,生成目標(biāo)物體狀態(tài)并將其作為高層語義推理與底層動作控制之間的橋梁。

  • 通過 “合成 - 反思” 迭代機(jī)制,將生成的虛擬目標(biāo)圖像疊加到當(dāng)前觀測場景中進(jìn)行視覺審查與修正,大幅提升了生成目標(biāo)的物理可行性。

  • 在完全不需要訓(xùn)練和任務(wù)特定微調(diào)的情況下,Goal-VLA 在仿真與真實世界中,跨越不同的操作任務(wù)、環(huán)境、物體類別甚至機(jī)器人本體,均展現(xiàn)出了穩(wěn)定的零樣本泛化能力。


參考文獻(xiàn)

[1] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.

[2] Kim, Moo Jin, et al. "Openvla: An open-source vision-language-action model." arXiv preprint arXiv:2406.09246 (2024).

[3] Ahn, Michael, et al. "Do as i can, not as i say: Grounding language in robotic affordances." arXiv preprint arXiv:2204.01691 (2022).

[4] Liu, Fangchen, et al. "Moka: Open-world robotic manipulation through mark-based visual prompting." arXiv preprint arXiv:2403.03174 (2024).

[5] Huang, Wenlong, et al. "Voxposer: Composable 3d value maps for robotic manipulation with language models." arXiv preprint arXiv:2307.05973 (2023).

[6] Ren, Tianhe, et al. "Grounded sam: Assembling open-world models for diverse visual tasks." arXiv preprint arXiv:2401.14159 (2024).

[7] Yang, Lihe, et al. "Depth anything v2." Advances in Neural Information Processing Systems 37 (2024): 21875-21911.

[8] Umeyama, Shinji. "Least-squares estimation of transformation parameters between two point patterns." IEEE Transactions on pattern analysis and machine intelligence 13.4 (2002): 376-380.

[9] James, Stephen, et al. "Rlbench: The robot learning benchmark & learning environment." IEEE Robotics and Automation Letters 5.2 (2020): 3019-3026.

[10] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).



雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說