日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機器人 正文
發(fā)私信給陳淑瑜
發(fā)送

0

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

本文作者: 陳淑瑜   2026-05-25 16:47 專題:ICRA 國際機器人與自動化會議
導(dǎo)語:NavSpace 首次將評估從靜態(tài)感知推向持續(xù)推理,為攻克機器人“聽懂方位詞卻不會動”的技術(shù)瓶頸提供了關(guān)鍵標尺。

來源:公眾號“北京大學(xué)前沿計算研究中心”

解讀鏈接:https://mp.weixin.qq.com/s/tqnWuw9kG4a4WGPXe2oxlQ


01

研究背景

當前具身智能正朝著通用人工智能的方向快速發(fā)展,具身智能提高的關(guān)鍵一步就是構(gòu)建出能夠根據(jù)人類指令在環(huán)境中移動的導(dǎo)航智能體。近年來,視覺語言導(dǎo)航(VLN)等任務(wù)得到了廣泛研究,但現(xiàn)有的評估任務(wù)主要關(guān)注多模態(tài)語言和視覺語義的理解,沒有系統(tǒng)地評估導(dǎo)航智能體的空間感知和推理能力。


為了全面暴露當前已有的導(dǎo)航模型的空間智能能力,并提供一套科學(xué)有效的評估基準,我們制作了 NavSpace,這是具身智能領(lǐng)域第一個基于空間智能的評估基準?;?NavSpace,我們進行了提高空間智能能力的探索,并且提出 SNav 模型作為 NavSpace 的基線。


論?地址:https://arxiv.org/abs/2510.08173

02

主要貢獻

本文實現(xiàn)三大核心突破:


  1. 提出首個空間智能導(dǎo)航基準 NavSpace:

基于問卷調(diào)查,NavSpace 包含 1228 個高質(zhì)量的軌跡-指令對,覆蓋垂直感知(Vertical Perception)、精確移動(Precise Movement)、視角轉(zhuǎn)換(Viewpoint Shifting)、空間關(guān)系(Spatial Relationship)、環(huán)境狀態(tài)(Environment State)和空間結(jié)構(gòu)(Space Structure)等六種空間智能能力,為評估導(dǎo)航智能體的空間智能提供了全面的基準,填補了具身導(dǎo)航在空間智能理解上缺少基準的短板。


  1. 全面評估 22 種導(dǎo)航智能體:

在 NavSpace 基準上,對包括輕量級導(dǎo)航模型、導(dǎo)航大模型、開源多模態(tài)大模型和閉源大語言模型在內(nèi)的 22 種導(dǎo)航智能體進行了綜合評估,體現(xiàn)空間智能基準對導(dǎo)航的重要性、多模態(tài)大模型在具身導(dǎo)航任務(wù)中的局限性、導(dǎo)航大模型相對于輕量級模型的優(yōu)勢以及提升導(dǎo)航智能體空間智能的有希望的方向等關(guān)鍵見解。


  1. 提出 SNav 模型:

SNav 是一個空間智能導(dǎo)航大模型,它在 NavSpace 基準和真實機器人測試中的所有類別都超越了現(xiàn)有模型,為未來的研究工作建立了一個強大的基線。


03

核心研究

NavSpace 基準測試構(gòu)建

我們構(gòu)建的 NavSpace 基準評測的定義遵循經(jīng)典的指令導(dǎo)航任務(wù) VLNCE 的設(shè)定,即給定 NavSpace 中的語言指令,給定導(dǎo)航智能體當前的第一視角觀測,導(dǎo)航智能體需要在時間步 t 內(nèi)預(yù)測下一個導(dǎo)航動作 a。由于設(shè)定與 VLNCE 相同,導(dǎo)航智能體一次可以預(yù)測的動作包括前進(forward)0.25米,左轉(zhuǎn)(turn left)30度,右轉(zhuǎn)(turn right)30度,停(stop)。如果智能體選擇停止,其若與目標的距離低于預(yù)定義的閾值則認定為導(dǎo)航成功。

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

上圖即是構(gòu)建 NavSpace 基準測試的全部過程,整個過程一共分為四步。


第一步是問卷調(diào)查:受訪者首先需要仔細閱讀空間智能的詳細定義,并確認自身已完全理解相關(guān)定義,隨后受訪者將看到 17 種可能需要空間智能的候選指令類型,受訪者需要在 17 種候選指令類型中選擇最多 6 種最符合空間智能定義的而且最符合具身智能需求的類別。最終我們一共收到 512 份問卷,通過完成時間等方式篩選出可靠的問卷得出 6 個最常被選中的類別:垂直感知、精確移動、視角轉(zhuǎn)換、空間關(guān)系、環(huán)境狀態(tài)和空間結(jié)構(gòu)。


第二步是軌跡收集:我們基于 Habitat 3.0 模擬器和 HM3D 場景構(gòu)建了數(shù)據(jù)收集平臺,包括前端標注的網(wǎng)頁和后端服務(wù)器,后端與模擬器接口并且存儲相關(guān)數(shù)據(jù)。標注員登錄之后通過鍵盤操控智能體運動,在第一人稱的 RGB 觀測下進行導(dǎo)航,在標注者熟悉場景布局后(即至少移動 200 步之后)開始記錄軌跡。我們的前端平臺會指定應(yīng)當標注的指令類型,標注者會在熟悉類別后尋找到合適的起點和終點位置,點擊“開始記錄軌跡”按鈕之后開始使用鍵盤操控智能體進行移動,到達終點之后點擊“停止記錄軌跡”按鈕結(jié)束記錄。


第三步是指令標注:為了提高標注效率,也為了確保語言的規(guī)范性,標注員可以使用 GPT-5 分析收集到的軌跡信息,GPT-5 會接收坐標信息,動作信息和第一人稱視角的圖片,但是由于 GPT-5 本身也不具備空間智能的能力,其生成的指令是模板狀態(tài)的,仍然需要標注員依靠自身觀測將其補全。


第四步是人工交叉驗證:為了確保每條指令可執(zhí)行,每條指令必須由未見過該指令的標注者再次驗證。如果標注者能成功到達目標位置,則指令有效;否則,指令將被丟棄并重新標注。


經(jīng)過這四步驟,我們構(gòu)建出 NavSpace,其一共包含 6 類,共 1228 條高質(zhì)量指令。


NavSpace指令類別

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

上圖為 NavSpace 中的指令類別。這六類指令是根據(jù)問卷調(diào)查結(jié)果確定的。所有導(dǎo)航軌跡與指令均通過我們設(shè)計的平臺,從 HM3D 場景數(shù)據(jù)集中人工采集而來。


第一類是垂直高度感知( Vertical Perception),在具身智能領(lǐng)域跨越樓層的指令較為稀少,而且其指令多數(shù)聚焦于上/下樓梯之類的表述。這樣的表述測評的是模型跟隨指令的能力,即看到樓梯就向上/下走,并無法測評模型對整個房間空間結(jié)構(gòu)的感知。為此我們設(shè)計出這一類指令,其中包含帶有絕對樓層的描述、帶有相對樓層的描述、帶有特殊高度的描述。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 3.0 米的范圍內(nèi)。


第二類是精準移動(Precise Movement),其包含一系列精度極高的移動和旋轉(zhuǎn)動作,具身導(dǎo)航智能體需要通過環(huán)境推知自身的距離和方位,而不是簡單的遵循指令。我們希望通過這一類測評出導(dǎo)航智能體對角度和方位的細微理解能力。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 1.0 米的范圍內(nèi)。


第三類是視角轉(zhuǎn)換(Viewpoint Shifting),其包含帶有想象表述的指令。具身導(dǎo)航體需要想象自己是某個物體,以另一個物體為視覺中心進行移動的判定。這要求具身智能體擁有空間想象和空間轉(zhuǎn)換的能力。不同于先前研究視角轉(zhuǎn)換的一些工作,我們的視角轉(zhuǎn)換更關(guān)注長距離記憶和調(diào)取歷史的能力。例如:想象你是前方的那臺電視。朝你的左前方移動,沿著走廊走到盡頭,在白色門前停下。具身智能體不僅要成功判斷電視的左前方其實是自身的右前方,還需要將判斷轉(zhuǎn)化為可執(zhí)行的動作。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。


第四類是空間關(guān)系(Spatial Relationship),其主要關(guān)注的是數(shù)詞量詞的空間關(guān)系和多個物體的空間關(guān)系。例如:沿著走廊走,在你左側(cè)的第三扇門左轉(zhuǎn),在臥室的椅子旁邊停下。具身智能體需要能夠成功分辨左手邊第三扇門是哪一扇,并且將觀察判斷轉(zhuǎn)化為行動。同樣,這一類里也有“下樓去客廳,停在兩張棕色沙發(fā)的中間”這樣的指令,其測試的是具身智能體對多個室內(nèi)物體方位關(guān)系的理解。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。


第五類是環(huán)境狀態(tài)(Environment State),具身智能體需要在導(dǎo)航過程中準確感知環(huán)境狀態(tài),并且基于環(huán)境狀態(tài)做出動作的不同調(diào)整。例如:穿過走廊走到門廳,在儲物柜旁邊等待;如果你看到鑰匙,就停下,否則去前門查看。具身智能體需要到達指定地點之后根據(jù)當前的狀態(tài)判斷進一步的動作。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。


第六類是空間結(jié)構(gòu)(Space Structure),這一類測評的能力是具身智能體是否理解空間布局,并且基于空間布局和指令產(chǎn)生正確的動作,比如環(huán)繞、往返和到達最遠/最近的地方。例如:“繞著八人餐桌走一圈”需要智能體感知到桌子作為一個物理實體,并且產(chǎn)生完整的一周繞行回到原位置?!白叩阶呃缺M頭房間里的沙發(fā)那里,然后返回?!眲t需要智能體明確往返的含義,并且理解走廊的物理結(jié)構(gòu)?!吧蠘牵ツ阌覀?cè)的那個房間,在最遠的沙發(fā)旁停下。”則需要智能體識別最遠和最近等空間特征的信息。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 1.0 米的范圍內(nèi)。


SNav 模型

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

為了給 NavSpace 提供一個可靠的基線,我們提出了 SNav 模型,模型結(jié)構(gòu)如上圖所示。


SNav 模型使用 SigLIP 當作視頻編碼器,每8幀接收觀測的 RGB 圖作為一組,經(jīng)過編碼器提取視覺編碼特征,再經(jīng)過兩層 MLP 投影到語言模型的輸入空間中。指令同樣經(jīng)過 tokenizer,與提取的視覺特征一起通過 Qwen2 的解碼器,輸出一連串的動作(前進、左轉(zhuǎn)、右轉(zhuǎn)、停止等)。整個模型采用 Llava-Video-7b 作為主干網(wǎng)絡(luò)。


使用導(dǎo)航動作預(yù)測(Navigation Action Prediction)、基于軌跡的指令生成(Trajectory-based Instruction Generation)和一般多模態(tài)數(shù)據(jù)回憶(General Multimodal Data Recall)三大任務(wù)進行共訓(xùn)練,使得模型更好理解和生成導(dǎo)航指令。


為了進一步提高 SNav 的空間智能能力,我們設(shè)計出全套的數(shù)據(jù)增強管線,從現(xiàn)有數(shù)據(jù)出發(fā)生成需要空間推理和感知的導(dǎo)航數(shù)據(jù),使用這些數(shù)據(jù)對模型進行微調(diào)。對于垂直高度感知,我們借用已有的 R2RCE 指令,對每條指令先進行垂直高度的篩選,之后利用 GPT-5 檢測是否有 stairs 語義出現(xiàn),篩選出跨越樓層的指令之后利用點云劃分的方式確定具體樓層,進而產(chǎn)生帶有垂直高度信息的指令。對于精準移動,我們采用 shortestpathplanner 的方式在場景里隨機采點并且構(gòu)建路徑,將動作記錄并且經(jīng)由 GPT-5 paraphrase 形成一類數(shù)據(jù)。對于環(huán)境狀態(tài),我們規(guī)劃路徑后將采樣的圖片提供給 GPT-5,分析出可觀測物體、不可觀測物體和描述信息,之后根據(jù)模板改寫為特定格式的指令。同樣對于空間關(guān)系,我們也有基于正則表達式的方式篩選路徑。


04

實驗測評

NavSpace 評測

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

我們系統(tǒng)評測了 22 個現(xiàn)有的導(dǎo)航智能體,包括輕量級模型、導(dǎo)航大模型、開源多模態(tài)大模型和閉源頂尖多模態(tài)大模型。我們評測了隨機猜測基線,包括隨機水平,即以 25% 的概率隨機選擇四個導(dǎo)航動作之一,也包括頻率水平,即以軌跡數(shù)據(jù)中觀察到的動作頻率進行導(dǎo)航動作選擇。


評測的結(jié)果是開源多模態(tài)大模型在 NavSpace 上的表現(xiàn)較差,其平均成功率低于 10%,與基于頻率的隨機猜測水平相當。專有大語言模型的性能優(yōu)于開源模型,其中 GPT-5 表現(xiàn)最好,但所有專有大語言模型的平均成功率仍低于 20%。輕量級的導(dǎo)航模型在需要空間智能的導(dǎo)航指令上表現(xiàn)不佳,成功率極低。導(dǎo)航大模型表現(xiàn)強于輕量級模型,展現(xiàn)出一定的空間智能能力。而我們的 SNav 模型在 NavSpace 上的表現(xiàn)超過了所有現(xiàn)有的導(dǎo)航模型和多模態(tài)大語言模型,是最強的基線模型。消融實驗表明,所提出的指令生成流程對提升 SNav 的空間智能有顯著幫助。


真機測評

我們在真實世界環(huán)境中對 SNav 模型進行了測試,包括辦公室、校園和戶外環(huán)境,測試涵蓋了除去垂直高度感知之外的五類空間智能導(dǎo)航指令。

ICRA 2026 | NavSpace:為機器人裝上“空間大腦”,從此不再迷路

上圖為 SNav 真實世界部署的定性結(jié)果。評估的指令涵蓋了 NavSpace 中提出的五種類別。測試環(huán)境包括辦公室、校園建筑和戶外區(qū)域。


我們使用 AgiBot Lingxi D1 四足機器人,該機器人配備了單目 RGB 相機和運動控制 API。機器人接收到導(dǎo)航指令后,將 RGB 觀測傳輸?shù)竭h程服務(wù)器上的導(dǎo)航模型(搭載 NVIDIA A100 GPU),模型預(yù)測動作并通過 D1 的運動 API 執(zhí)行。


SNav 在真實世界測試中的表現(xiàn)優(yōu)于 NaVid 和 NaVILA,成功率為 32%,遠高于 NaVid 的 14% 和 NaVILA 的 6%,真機測試結(jié)果表面,SNav 在實際應(yīng)用中有較好的空間智能和導(dǎo)航能力。


05

討論與未來展望

我們發(fā)現(xiàn)在已有的空間智能評測標準上(如 VSI-Bench 和 SpatialBench)表現(xiàn)較好的 MLLMs 幾乎無法完成 NavSpace 里的導(dǎo)航任務(wù),這可能是因為現(xiàn)有的空間智能評測標準都是靜態(tài)評估,模型只需要預(yù)測一個固定的數(shù)字或者做出選擇題即可,而我們的 NavSpace 需要模型在場景中進行動態(tài)運動和推理,這對于具身任務(wù)是至關(guān)重要的。因此我們的評測標準更抓住了具身導(dǎo)航的核心需求。


為了進一步探尋 MLLMs 為何在 NavSpace 上表現(xiàn)不佳,我們通過詢問 GPT-5 的方式發(fā)現(xiàn)其有一些時候能夠正確回答關(guān)于具體距離、視角轉(zhuǎn)換和環(huán)境狀態(tài)的問題,但是當其預(yù)測動作的時候錯誤率陡然提高。為此我們認為當前 MLLMs 表現(xiàn)不佳的原因一方面是空間感知能力不佳,另一方面是由于模型視覺感知和動作的推理不一致性導(dǎo)致的錯誤,模型無法整體化理解視覺感知和動作。


我們的測評發(fā)現(xiàn)就算輕量級的導(dǎo)航模型能夠在 R2R 等特定導(dǎo)航任務(wù)中取得較高的分數(shù),其無法有效泛化到 NavSpace 等需要空間智能的任務(wù)中,這說明輕量級的導(dǎo)航模型并不理解場景中的空間關(guān)系。


基于我們的數(shù)據(jù)增強管線和分析,我們認為導(dǎo)航大模型的導(dǎo)航能力主要依靠多模態(tài)能力,其指令跟隨能力并不出眾,因為其在精準移動和空間結(jié)構(gòu)等對多模態(tài)視覺信息需求較弱的任務(wù)中表現(xiàn)顯著不佳。為此,我們認為未來的研究應(yīng)該聚焦于同時提高模型對空間的感知,也提高模型將視覺信息轉(zhuǎn)化為正確動作的能力。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說