日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給業(yè)界評論
發(fā)送

0

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃

本文作者: 業(yè)界評論   2026-05-02 10:29
導(dǎo)語:近日,由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學(xué)、浙江大學(xué)等多家高校與科研機構(gòu)共同完成的機器人空間智能研究 “A retrieval-augmented fram

近日,由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學(xué)、浙江大學(xué)等多家高校與科研機構(gòu)共同完成的機器人空間智能研究 “A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation”發(fā)表于國際頂級機器人學(xué)術(shù)期刊《Science Robotics》。該研究提出名為RAM(Retrieval-Augmented Manipulation)的三維空間理解與操作模型,為提升機器人在復(fù)雜長程任務(wù)中的操作可靠性提供了新的技術(shù)路徑。


技術(shù)背景:大模型時代,機器人的空間智能難題

以視覺語言大模型(VLM)為代表的 AI 技術(shù)正在提升機器人理解自然語言指令和分解復(fù)雜任務(wù)的能力。但從“聽懂指令”到“完成動作”之間,仍存在關(guān)鍵鴻溝:機器人需要在三維空間中理解物體的位置、朝向、尺度、可操作區(qū)域及相互關(guān)系,并將這些信息轉(zhuǎn)化為可執(zhí)行的運動約束。

現(xiàn)有大模型多依賴二維圖文數(shù)據(jù)訓(xùn)練,缺乏直接的物理世界經(jīng)驗,在推理物體位姿和空間關(guān)系時容易產(chǎn)生不符合物理規(guī)律的判斷。如何讓模型獲得可驗證、可遷移的三維空間知識,并將高層語義規(guī)劃與底層物理執(zhí)行連接起來,是具身智能和機器人操作領(lǐng)域的重要問題。


研究成果:RAM框架,用“知識檢索”讓機器人讀懂三維世界

針對這一挑戰(zhàn),RAM 借鑒檢索增強生成(RAG)的思想,為大模型配備可查詢的外部三維知識庫。機器人執(zhí)行任務(wù)時,模型可以按需檢索物體類別、幾何屬性、功能平面、抓取點等空間先驗信息,從而彌補視覺語言模型自身三維空間理解不足的問題。與將知識隱含在模型參數(shù)中不同,RAM 的空間知識更加顯式、可解釋,也便于擴展。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃RAM框架整體流程示意圖

RAM 由三個模塊組成。首先是物體類別級知識引擎,研究團隊為每類物體建立標準化三維模板,并標注姿態(tài)、尺寸、對稱性、抓取點和功能平面等信息。實驗顯示,這類模板可遷移到不同形狀、尺寸和紋理外觀的同類物體實例上,減少對每個具體物體逐一建模和標注的依賴。

第二個模塊是三維視覺接地模型,負責把知識庫中的標準化先驗遷移到真實場景中的具體物體上。該模型基于視覺基礎(chǔ)模型 DINO 構(gòu)建,結(jié)合二維圖像特征與三維點云信息,建立觀測物體與模板之間的對應(yīng)關(guān)系,從而獲得物體姿態(tài)、抓取方式和功能平面等信息。該模塊主要基于合成數(shù)據(jù)訓(xùn)練,并在真實場景實驗中展現(xiàn)出對多種未見物體實例的泛化能力。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃三維空間知識向真實場景物體的遷移示例

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃面向鉸接物體的三維空間知識遷移示例

第三個模塊是檢索增強任務(wù)規(guī)劃器。它將接地后的空間信息以結(jié)構(gòu)化文本形式注入大模型上下文,使大模型在分解復(fù)雜指令時能夠生成帶有明確空間約束的操作步驟。例如,對于“把碗放在盤子上”,系統(tǒng)會將“底面與頂面平行對齊”“中心點在水平方向?qū)R”等約束納入規(guī)劃,再轉(zhuǎn)化為機器人的運動軌跡。


實機驗證:從指令執(zhí)行到自主決策,檢驗空間智能

為檢驗 RAM的空間智能水平,研究團隊在真實機器人平臺上設(shè)計了三個層次遞進的系統(tǒng)實驗,涵蓋 14 項空間操作任務(wù)、31 個物體實例和 11 個物體類別。

第一類實驗面向語言指令驅(qū)動的空間操作,包括單物體單步、多物體單步和多物體多步任務(wù),測試機器人對位置、朝向、空間關(guān)系和長程規(guī)劃的理解能力。在總計 120 次重復(fù)測試中,RAM 取得 89.17% 的平均成功率。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃 

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃空間語言指令驅(qū)動的機器人操作結(jié)果評估

第二類實驗面向圖像引導(dǎo)的空間操作。以看圖擺放餐具為例,機器人需要從二維參考圖中推理物體的三維相對位置和朝向,并映射到當前工作空間中順序執(zhí)行。在多種參考圖和隨機初始位置測試中,RAM 取得 92.00% 的平均成功率。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃圖像引導(dǎo)的機器人操作任務(wù)示例

第三類實驗面向基于空間推理的自主決策。研究團隊通過改變臺面高度和物品尺寸構(gòu)造約束場景,檢驗系統(tǒng)能否根據(jù)物理條件選擇合適策略。當直接操作受限時,RAM 能規(guī)劃借助中間工具的間接操作方案,體現(xiàn)了其對空間約束的自適應(yīng)規(guī)劃能力。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃 

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃基于空間約束的自適應(yīng)任務(wù)決策

此外,團隊構(gòu)建了面向機器人操作場景的空間理解問答評測集,從相對位置、旋轉(zhuǎn)方向、操作可行性、任務(wù)規(guī)劃和尺寸估計等維度評估模型的空間認知能力。結(jié)果顯示,在該評測集覆蓋的多類空間推理任務(wù)中,RAM 整體表現(xiàn)優(yōu)于多種代表性視覺語言大模型。

浙江人形聯(lián)合香港中文大學(xué)登Science Robotics:機器人空間智能突破,賦能人形機器人長程任務(wù)規(guī)劃機器人空間理解問答評測

除核心任務(wù)外,RAM 還展現(xiàn)出一定通用性與擴展性。在模型層面,它可適配 GPT、Claude 和 Qwen-VL 等主流大模型;在操作對象上,從剛體擴展到鉸接物體和可變形物體;在硬件平臺方面,也已在包括配備五指靈巧手的人形機器人等多個平臺上完成驗證。


算法賦能平臺,為人形機器人注入空間智能

人形機器人要走向真實應(yīng)用場景,不僅需要硬件本體、靈巧手和運動控制能力,也需要理解三維環(huán)境、判斷物理約束并規(guī)劃可執(zhí)行動作的算法能力。RAM 所展示的空間智能路徑,與浙江人形機器人創(chuàng)新中心長期關(guān)注的人形機器人平臺建設(shè)、靈巧操作和具身智能方向高度相關(guān)。

目前,中心圍繞關(guān)節(jié)模組、執(zhí)行器、整機系統(tǒng)、五指靈巧手和運動控制系統(tǒng)等方向開展研發(fā),同時在視覺感知、三維重建、運動規(guī)劃、軌跡優(yōu)化和大模型驅(qū)動的具身智能算法方面持續(xù)布局,為前沿算法的部署、測試和工程驗證提供平臺基礎(chǔ)。


產(chǎn)業(yè)布局:從前沿技術(shù)到多元場景落地

空間智能技術(shù)的研究也為人形機器人未來走向復(fù)雜應(yīng)用場景提供了支撐。圍繞平臺建設(shè)與場景需求,浙江人形機器人創(chuàng)新中心正持續(xù)關(guān)注三維感知、任務(wù)規(guī)劃、靈巧操作和具身智能等關(guān)鍵能力的融合發(fā)展,推動相關(guān)技術(shù)在工業(yè)制造、家庭服務(wù)、智能康養(yǎng)等場景中的探索驗證與逐步落地。

面向智能康養(yǎng)等更具挑戰(zhàn)性的場景,機器人需要在與人近距離交互的環(huán)境下完成物品遞送、生活輔助等任務(wù),對空間感知準確性與操作安全性提出更高要求。中心已在深圳成立邇伴智能機器人有限公司,聚焦面向養(yǎng)老康養(yǎng)場景的人形機器人產(chǎn)品與解決方案研發(fā)。

未來,浙江人形機器人創(chuàng)新中心將繼續(xù)推動前沿研究與工程實踐之間的銜接,圍繞機器人空間認知、長程任務(wù)規(guī)劃和自主決策等方向開展探索,助力人形機器人在更復(fù)雜、更真實的環(huán)境中實現(xiàn)可靠操作與智能協(xié)作。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說