ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA：生成式大模型化身「世界模型」，實現(xiàn)零樣本機(jī)器人操作

本文作者：陳淑瑜

2026-05-25 16:37

導(dǎo)語：該研究創(chuàng)新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”，在無需任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下，實現(xiàn)了強(qiáng)大的零樣本機(jī)器人操作能力。

來源：公眾號“機(jī)器之心”

原文鏈接：https://mp.weixin.qq.com/s/uTffZgN0uuiknCcIY-VGYw

本文的共同第一作者為新加坡國立大學(xué)博士生陳浩楠，新加坡國立大學(xué)碩士生郭京翔。合作者為汪邦駿、張?zhí)眍?、黃敘川、鄭博仁、侯懿文、鐵宸睿、鄧家俊。通訊作者為新加坡國立大學(xué)計算機(jī)學(xué)院助理教授邵林，研究方向為機(jī)器人和人工智能。

在具身智能領(lǐng)域，機(jī)器人操作的泛化能力一直是一個核心挑戰(zhàn)。當(dāng)前，視覺 - 語言 - 動作（VLA）模型主要分為兩大范式：端到端模型與分層模型。端到端 VLA 模型（如 RT-2 [1], OpenVLA [2]）嚴(yán)重依賴海量的 “指令 - 視覺 - 動作” 成對數(shù)據(jù)，獲取成本極高，導(dǎo)致其在面對新任務(wù)或新場景時零樣本泛化能力受限。

另一方面，分層 VLA 模型試圖通過引入視覺語言模型（VLM）作為高層規(guī)劃器來緩解數(shù)據(jù)依賴，但其生成的中間表示（如語言描述 [3]、關(guān)鍵點 [4] 或價值圖 [5]）往往缺乏復(fù)雜操作所需的精確幾何細(xì)節(jié)，或者需要底層策略進(jìn)行額外的動作數(shù)據(jù)訓(xùn)練。

為了突破這一瓶頸，來自新加坡國立大學(xué)（NUS）的邵林團(tuán)隊提出了一種全新的解耦式分層框架 —— Goal-VLA。該研究創(chuàng)新性地將圖像生成式 VLM 作為 “以物體為中心的世界模型”，在無需任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下，實現(xiàn)了強(qiáng)大的零樣本機(jī)器人操作能力。目前，該論文已被機(jī)器人領(lǐng)域頂級會議 IEEE International Conference on Robotics & Automation（ICRA 2026）接收。

ICRA 2026 | NUS邵林團(tuán)隊提出Goal-VLA：生成式大模型化身「世界模型」，實現(xiàn)零樣本機(jī)器人操作

論文標(biāo)題：Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation
論文鏈接：https://arxiv.org/abs/2506.23919
項目主頁：https://nus-lins-lab.github.io/goalvlaweb/

Goal-VLA：物體目標(biāo)狀態(tài)作為連接高低層策略的接口

Goal-VLA 的核心洞察是使用物體目標(biāo)狀態(tài)表示來連接高層語義推理與底層動作控制。

與受限于特定機(jī)器人運動學(xué)的傳統(tǒng)智能體中心（Agent-centric）世界模型不同，Goal-VLA 的世界模型聚焦于圖像空間中的語義目標(biāo)，即需要操作的物體的目標(biāo)位姿。這使得系統(tǒng)可以將高層規(guī)劃與底層控制徹底解耦：高層 VLM 提供泛化性極強(qiáng)的視覺目標(biāo)，專門的空間基準(zhǔn)模塊將其轉(zhuǎn)化為明確的空間指導(dǎo)，最終由免訓(xùn)練的底層策略完成物理執(zhí)行。整個框架僅需用戶的自然語言指令和單視角 RGB-D 圖像即可運行，無需預(yù)先掃描地圖或已知物體網(wǎng)格。

Goal-VLA 的執(zhí)行流程分為三個關(guān)鍵階段：

1. 目標(biāo)狀態(tài)推理（Goal State Reasoning）

該模塊負(fù)責(zé)將用戶抽象的自然語言指令轉(zhuǎn)化為具體且合理的視覺目標(biāo)。系統(tǒng)首先利用文本 VLM 豐富用戶的簡短指令，將簡短指令轉(zhuǎn)化為包含豐富細(xì)節(jié)的提示詞。圖像生成 VLM（Gemini 2.5 Flash-image）據(jù)此生成候選目標(biāo)圖像。為了解決生成圖像可能存在的物理或語義不合理性，研究團(tuán)隊提出了一種迭代的 “合成 - 反思”（Reflection-through-Synthesis）機(jī)制。為了讓驗證模型能夠清晰地評估該圖像的物理可行性，系統(tǒng)使用 Grounded SAM [6] 從候選圖像中分割出目標(biāo)物體，并將其作為 “虛擬目標(biāo)” 半透明地疊加到初始場景圖像上。評估模型（Reflector VLM）對合成圖像進(jìn)行審查。若生成的圖像不符合任務(wù)語義（例如目標(biāo)物體的位置不可達(dá)或者錯誤），Reflector 會輸出包含糾正反饋的修改提示，指導(dǎo)生成器重新生成，直至目標(biāo)圖像被驗證通過或者達(dá)到最大迭代次數(shù)。

2. 空間基準(zhǔn)計算（Spatial Grounding）

該模塊負(fù)責(zé)將 2D 視覺目標(biāo)轉(zhuǎn)化為精確的 3D 空間變換。由于生成的目標(biāo)圖像在實例級外觀上可能存在偏差，傳統(tǒng)的光流估計容易失效。為了解決這個問題，Goal-VLA 提取像素級語義特征，通過計算相似度來建立初始幀與目標(biāo)幀之間的像素匹配。結(jié)合初始真實深度圖與目標(biāo)預(yù)測深度圖（使用 Depth Anything V2 [7] 估計并經(jīng)深度對齊校準(zhǔn)），系統(tǒng)將 2D 像素提升為 3D 點云，并使用 Umeyama 算法 [8] 求解出最優(yōu)的旋轉(zhuǎn)（Rotation）和平移（Translation）矩陣。

3. 底層策略（Low-level Policy）

底層策略將高層提供的物體目標(biāo)位姿轉(zhuǎn)化為可執(zhí)行動作。接觸模塊在物體點云表面采樣，并篩選出無碰撞的最優(yōu)接觸位姿（例如抓取的姿態(tài)）。系統(tǒng)假設(shè)抓取后夾爪與物體的相對位姿保持不變，將空間基準(zhǔn)模塊計算出的物體變換矩陣應(yīng)用于夾爪，推導(dǎo)出最終的目標(biāo)位姿。最后，運動規(guī)劃器（Motion Planning Module）生成從當(dāng)前構(gòu)型到目標(biāo)位姿的無碰撞軌跡，完成任務(wù)執(zhí)行。

實驗結(jié)果與分析

研究團(tuán)隊在 RLBench [9] 仿真環(huán)境（8 個任務(wù)）和真實的 UFACTORY X-ARM 7 機(jī)械臂（4 個任務(wù)）上進(jìn)行了廣泛的評估。所有評估均在嚴(yán)格的零樣本設(shè)定下進(jìn)行。

仿真環(huán)境基準(zhǔn)測試 (RLBench)

在 RLBench 的 8 個涵蓋抓取、放置、插拔等復(fù)雜技能的任務(wù)中（每個任務(wù)測試 100 次），Goal-VLA 展現(xiàn)了顯著的性能提升，實現(xiàn)了 59.9% 的平均成功率。相比之下，基于關(guān)鍵點的分層模型 MOKA [4] 僅為 26.0%。而嚴(yán)重依賴帶有動作成對數(shù)據(jù)的端到端模型 OpenVLA [2] 和 Pi0 [10]，在未經(jīng)過微調(diào)的零樣本測試中幾乎完全失敗。

真實世界機(jī)械臂實驗

研究團(tuán)隊使用 7-DOF UFACTORY X-ARM 7 機(jī)械臂測試了 4 個具有挑戰(zhàn)性的物理任務(wù)：番茄入鍋（測試包含關(guān)系的推理）、桌面清掃（測試工具使用和間接操作）、精確稱重（測試高精度放置）以及直立瓶子（測試姿態(tài)重定向）。

Goal-VLA 達(dá)到了 60% 的平均成功率，遠(yuǎn)超其他基線方法。這一結(jié)果證明了 Goal-VLA 生成顯式 3D 目標(biāo)位姿的策略，能夠為真實世界中的復(fù)雜操作提供精確的空間指導(dǎo)。

仿真環(huán)境與真實實驗共同證明，Goal VLA 框架能夠?qū)崿F(xiàn)跨物體、跨環(huán)境、跨任務(wù)和跨本體的零樣本執(zhí)行能力。

消融實驗

研究團(tuán)隊對高層推理模塊進(jìn)行了消融分析。單獨增加輸入提示詞增強(qiáng)（Input Enhancement）帶來了 27.5% 的成功率提升。而完整的 “合成 - 反思” 循環(huán)機(jī)制，將模型的基礎(chǔ)成功率從 40.0% 躍升至 83.8%，當(dāng)允許最大 3 次反思迭代時，成功率進(jìn)一步攀升至 88.8%。這證明了視覺反饋和自我糾正在圖像生成過程中的必要性。

總結(jié)

Goal-VLA 為解決機(jī)器人操作泛化難題提供了一種具有高度啟發(fā)性的解耦范式。其核心貢獻(xiàn)在于：

引入圖像生成式 VLM 作為 “以物體為中心的世界模型”，生成目標(biāo)物體狀態(tài)并將其作為高層語義推理與底層動作控制之間的橋梁。
通過 “合成 - 反思” 迭代機(jī)制，將生成的虛擬目標(biāo)圖像疊加到當(dāng)前觀測場景中進(jìn)行視覺審查與修正，大幅提升了生成目標(biāo)的物理可行性。
在完全不需要訓(xùn)練和任務(wù)特定微調(diào)的情況下，Goal-VLA 在仿真與真實世界中，跨越不同的操作任務(wù)、環(huán)境、物體類別甚至機(jī)器人本體，均展現(xiàn)出了穩(wěn)定的零樣本泛化能力。

參考文獻(xiàn)

[1] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.

[2] Kim, Moo Jin, et al. "Openvla: An open-source vision-language-action model." arXiv preprint arXiv:2406.09246 (2024).

[3] Ahn, Michael, et al. "Do as i can, not as i say: Grounding language in robotic affordances." arXiv preprint arXiv:2204.01691 (2022).

[4] Liu, Fangchen, et al. "Moka: Open-world robotic manipulation through mark-based visual prompting." arXiv preprint arXiv:2403.03174 (2024).

[5] Huang, Wenlong, et al. "Voxposer: Composable 3d value maps for robotic manipulation with language models." arXiv preprint arXiv:2307.05973 (2023).

[6] Ren, Tianhe, et al. "Grounded sam: Assembling open-world models for diverse visual tasks." arXiv preprint arXiv:2401.14159 (2024).

[7] Yang, Lihe, et al. "Depth anything v2." Advances in Neural Information Processing Systems 37 (2024): 21875-21911.

[8] Umeyama, Shinji. "Least-squares estimation of transformation parameters between two point patterns." IEEE Transactions on pattern analysis and machine intelligence 13.4 (2002): 376-380.

[9] James, Stephen, et al. "Rlbench: The robot learning benchmark & learning environment." IEEE Robotics and Automation Letters 5.2 (2020): 3019-3026.

[10] Black, Kevin, et al. "$\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章