浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃

本文作者：業(yè)界評論

2026-05-02 10:29

導(dǎo)語：近日，由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學(xué)、浙江大學(xué)等多家高校與科研機構(gòu)共同完成的機器人空間智能研究 “A retrieval-augmented fram

近日，由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學(xué)、浙江大學(xué)等多家高校與科研機構(gòu)共同完成的機器人空間智能研究 “A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation”發(fā)表于國際頂級機器人學(xué)術(shù)期刊《Science Robotics》。該研究提出名為RAM（Retrieval-Augmented Manipulation）的三維空間理解與操作模型，為提升機器人在復(fù)雜長程任務(wù)中的操作可靠性提供了新的技術(shù)路徑。

技術(shù)背景：大模型時代，機器人的空間智能難題

以視覺語言大模型（VLM）為代表的 AI 技術(shù)正在提升機器人理解自然語言指令和分解復(fù)雜任務(wù)的能力。但從“聽懂指令”到“完成動作”之間，仍存在關(guān)鍵鴻溝：機器人需要在三維空間中理解物體的位置、朝向、尺度、可操作區(qū)域及相互關(guān)系，并將這些信息轉(zhuǎn)化為可執(zhí)行的運動約束。

現(xiàn)有大模型多依賴二維圖文數(shù)據(jù)訓(xùn)練，缺乏直接的物理世界經(jīng)驗，在推理物體位姿和空間關(guān)系時容易產(chǎn)生不符合物理規(guī)律的判斷。如何讓模型獲得可驗證、可遷移的三維空間知識，并將高層語義規(guī)劃與底層物理執(zhí)行連接起來，是具身智能和機器人操作領(lǐng)域的重要問題。

研究成果：RAM框架，用“知識檢索”讓機器人讀懂三維世界

針對這一挑戰(zhàn)，RAM 借鑒檢索增強生成（RAG）的思想，為大模型配備可查詢的外部三維知識庫。機器人執(zhí)行任務(wù)時，模型可以按需檢索物體類別、幾何屬性、功能平面、抓取點等空間先驗信息，從而彌補視覺語言模型自身三維空間理解不足的問題。與將知識隱含在模型參數(shù)中不同，RAM 的空間知識更加顯式、可解釋，也便于擴展。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃 RAM框架整體流程示意圖

RAM 由三個模塊組成。首先是物體類別級知識引擎，研究團隊為每類物體建立標準化三維模板，并標注姿態(tài)、尺寸、對稱性、抓取點和功能平面等信息。實驗顯示，這類模板可遷移到不同形狀、尺寸和紋理外觀的同類物體實例上，減少對每個具體物體逐一建模和標注的依賴。

第二個模塊是三維視覺接地模型，負責把知識庫中的標準化先驗遷移到真實場景中的具體物體上。該模型基于視覺基礎(chǔ)模型 DINO 構(gòu)建，結(jié)合二維圖像特征與三維點云信息，建立觀測物體與模板之間的對應(yīng)關(guān)系，從而獲得物體姿態(tài)、抓取方式和功能平面等信息。該模塊主要基于合成數(shù)據(jù)訓(xùn)練，并在真實場景實驗中展現(xiàn)出對多種未見物體實例的泛化能力。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃三維空間知識向真實場景物體的遷移示例

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃面向鉸接物體的三維空間知識遷移示例

第三個模塊是檢索增強任務(wù)規(guī)劃器。它將接地后的空間信息以結(jié)構(gòu)化文本形式注入大模型上下文，使大模型在分解復(fù)雜指令時能夠生成帶有明確空間約束的操作步驟。例如，對于“把碗放在盤子上”，系統(tǒng)會將“底面與頂面平行對齊”“中心點在水平方向?qū)R”等約束納入規(guī)劃，再轉(zhuǎn)化為機器人的運動軌跡。

實機驗證：從指令執(zhí)行到自主決策，檢驗空間智能

為檢驗 RAM的空間智能水平，研究團隊在真實機器人平臺上設(shè)計了三個層次遞進的系統(tǒng)實驗，涵蓋 14 項空間操作任務(wù)、31 個物體實例和 11 個物體類別。

第一類實驗面向語言指令驅(qū)動的空間操作，包括單物體單步、多物體單步和多物體多步任務(wù)，測試機器人對位置、朝向、空間關(guān)系和長程規(guī)劃的理解能力。在總計 120 次重復(fù)測試中，RAM 取得 89.17% 的平均成功率。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃空間語言指令驅(qū)動的機器人操作結(jié)果評估

第二類實驗面向圖像引導(dǎo)的空間操作。以看圖擺放餐具為例，機器人需要從二維參考圖中推理物體的三維相對位置和朝向，并映射到當前工作空間中順序執(zhí)行。在多種參考圖和隨機初始位置測試中，RAM 取得 92.00% 的平均成功率。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃圖像引導(dǎo)的機器人操作任務(wù)示例

第三類實驗面向基于空間推理的自主決策。研究團隊通過改變臺面高度和物品尺寸構(gòu)造約束場景，檢驗系統(tǒng)能否根據(jù)物理條件選擇合適策略。當直接操作受限時，RAM 能規(guī)劃借助中間工具的間接操作方案，體現(xiàn)了其對空間約束的自適應(yīng)規(guī)劃能力。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃基于空間約束的自適應(yīng)任務(wù)決策

此外，團隊構(gòu)建了面向機器人操作場景的空間理解問答評測集，從相對位置、旋轉(zhuǎn)方向、操作可行性、任務(wù)規(guī)劃和尺寸估計等維度評估模型的空間認知能力。結(jié)果顯示，在該評測集覆蓋的多類空間推理任務(wù)中，RAM 整體表現(xiàn)優(yōu)于多種代表性視覺語言大模型。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃機器人空間理解問答評測

除核心任務(wù)外，RAM 還展現(xiàn)出一定通用性與擴展性。在模型層面，它可適配 GPT、Claude 和 Qwen-VL 等主流大模型；在操作對象上，從剛體擴展到鉸接物體和可變形物體；在硬件平臺方面，也已在包括配備五指靈巧手的人形機器人等多個平臺上完成驗證。

算法賦能平臺，為人形機器人注入空間智能

人形機器人要走向真實應(yīng)用場景，不僅需要硬件本體、靈巧手和運動控制能力，也需要理解三維環(huán)境、判斷物理約束并規(guī)劃可執(zhí)行動作的算法能力。RAM 所展示的空間智能路徑，與浙江人形機器人創(chuàng)新中心長期關(guān)注的人形機器人平臺建設(shè)、靈巧操作和具身智能方向高度相關(guān)。

目前，中心圍繞關(guān)節(jié)模組、執(zhí)行器、整機系統(tǒng)、五指靈巧手和運動控制系統(tǒng)等方向開展研發(fā)，同時在視覺感知、三維重建、運動規(guī)劃、軌跡優(yōu)化和大模型驅(qū)動的具身智能算法方面持續(xù)布局，為前沿算法的部署、測試和工程驗證提供平臺基礎(chǔ)。

產(chǎn)業(yè)布局：從前沿技術(shù)到多元場景落地

空間智能技術(shù)的研究也為人形機器人未來走向復(fù)雜應(yīng)用場景提供了支撐。圍繞平臺建設(shè)與場景需求，浙江人形機器人創(chuàng)新中心正持續(xù)關(guān)注三維感知、任務(wù)規(guī)劃、靈巧操作和具身智能等關(guān)鍵能力的融合發(fā)展，推動相關(guān)技術(shù)在工業(yè)制造、家庭服務(wù)、智能康養(yǎng)等場景中的探索驗證與逐步落地。

面向智能康養(yǎng)等更具挑戰(zhàn)性的場景，機器人需要在與人近距離交互的環(huán)境下完成物品遞送、生活輔助等任務(wù)，對空間感知準確性與操作安全性提出更高要求。中心已在深圳成立邇伴智能機器人有限公司，聚焦面向養(yǎng)老康養(yǎng)場景的人形機器人產(chǎn)品與解決方案研發(fā)。

未來，浙江人形機器人創(chuàng)新中心將繼續(xù)推動前沿研究與工程實踐之間的銜接，圍繞機器人空間認知、長程任務(wù)規(guī)劃和自主決策等方向開展探索，助力人形機器人在更復(fù)雜、更真實的環(huán)境中實現(xiàn)可靠操作與智能協(xié)作。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

業(yè)界評論

編輯

發(fā)私信

當月熱門文章

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics：機器人空間智能突破，賦能人形機器人長程任務(wù)規(guī)劃