ICRA 2026 | NavSpace：為機器人裝上“空間大腦”，從此不再迷路

本文作者：陳淑瑜

2026-05-25 16:47

導(dǎo)語：NavSpace 首次將評估從靜態(tài)感知推向持續(xù)推理，為攻克機器人“聽懂方位詞卻不會動”的技術(shù)瓶頸提供了關(guān)鍵標尺。

來源：公眾號“北京大學(xué)前沿計算研究中心”

解讀鏈接：https://mp.weixin.qq.com/s/tqnWuw9kG4a4WGPXe2oxlQ

研究背景

當前具身智能正朝著通用人工智能的方向快速發(fā)展，具身智能提高的關(guān)鍵一步就是構(gòu)建出能夠根據(jù)人類指令在環(huán)境中移動的導(dǎo)航智能體。近年來，視覺語言導(dǎo)航（VLN）等任務(wù)得到了廣泛研究，但現(xiàn)有的評估任務(wù)主要關(guān)注多模態(tài)語言和視覺語義的理解，沒有系統(tǒng)地評估導(dǎo)航智能體的空間感知和推理能力。

為了全面暴露當前已有的導(dǎo)航模型的空間智能能力，并提供一套科學(xué)有效的評估基準，我們制作了 NavSpace，這是具身智能領(lǐng)域第一個基于空間智能的評估基準?；?NavSpace，我們進行了提高空間智能能力的探索，并且提出 SNav 模型作為 NavSpace 的基線。

論?地址：https://arxiv.org/abs/2510.08173

主要貢獻

本文實現(xiàn)三大核心突破：

提出首個空間智能導(dǎo)航基準 NavSpace：

基于問卷調(diào)查，NavSpace 包含 1228 個高質(zhì)量的軌跡-指令對，覆蓋垂直感知（Vertical Perception）、精確移動（Precise Movement）、視角轉(zhuǎn)換（Viewpoint Shifting）、空間關(guān)系（Spatial Relationship）、環(huán)境狀態(tài)（Environment State）和空間結(jié)構(gòu)（Space Structure）等六種空間智能能力，為評估導(dǎo)航智能體的空間智能提供了全面的基準，填補了具身導(dǎo)航在空間智能理解上缺少基準的短板。

全面評估 22 種導(dǎo)航智能體：

在 NavSpace 基準上，對包括輕量級導(dǎo)航模型、導(dǎo)航大模型、開源多模態(tài)大模型和閉源大語言模型在內(nèi)的 22 種導(dǎo)航智能體進行了綜合評估，體現(xiàn)空間智能基準對導(dǎo)航的重要性、多模態(tài)大模型在具身導(dǎo)航任務(wù)中的局限性、導(dǎo)航大模型相對于輕量級模型的優(yōu)勢以及提升導(dǎo)航智能體空間智能的有希望的方向等關(guān)鍵見解。

提出 SNav 模型：

SNav 是一個空間智能導(dǎo)航大模型，它在 NavSpace 基準和真實機器人測試中的所有類別都超越了現(xiàn)有模型，為未來的研究工作建立了一個強大的基線。

核心研究

NavSpace 基準測試構(gòu)建

我們構(gòu)建的 NavSpace 基準評測的定義遵循經(jīng)典的指令導(dǎo)航任務(wù) VLNCE 的設(shè)定，即給定 NavSpace 中的語言指令，給定導(dǎo)航智能體當前的第一視角觀測，導(dǎo)航智能體需要在時間步 t 內(nèi)預(yù)測下一個導(dǎo)航動作 a。由于設(shè)定與 VLNCE 相同，導(dǎo)航智能體一次可以預(yù)測的動作包括前進（forward）0.25米，左轉(zhuǎn)（turn left）30度，右轉(zhuǎn)（turn right）30度，停（stop）。如果智能體選擇停止，其若與目標的距離低于預(yù)定義的閾值則認定為導(dǎo)航成功。

ICRA 2026 | NavSpace：為機器人裝上“空間大腦”，從此不再迷路

上圖即是構(gòu)建 NavSpace 基準測試的全部過程，整個過程一共分為四步。

第一步是問卷調(diào)查：受訪者首先需要仔細閱讀空間智能的詳細定義，并確認自身已完全理解相關(guān)定義，隨后受訪者將看到 17 種可能需要空間智能的候選指令類型，受訪者需要在 17 種候選指令類型中選擇最多 6 種最符合空間智能定義的而且最符合具身智能需求的類別。最終我們一共收到 512 份問卷，通過完成時間等方式篩選出可靠的問卷得出 6 個最常被選中的類別：垂直感知、精確移動、視角轉(zhuǎn)換、空間關(guān)系、環(huán)境狀態(tài)和空間結(jié)構(gòu)。

第二步是軌跡收集：我們基于 Habitat 3.0 模擬器和 HM3D 場景構(gòu)建了數(shù)據(jù)收集平臺，包括前端標注的網(wǎng)頁和后端服務(wù)器，后端與模擬器接口并且存儲相關(guān)數(shù)據(jù)。標注員登錄之后通過鍵盤操控智能體運動，在第一人稱的 RGB 觀測下進行導(dǎo)航，在標注者熟悉場景布局后（即至少移動 200 步之后）開始記錄軌跡。我們的前端平臺會指定應(yīng)當標注的指令類型，標注者會在熟悉類別后尋找到合適的起點和終點位置，點擊“開始記錄軌跡”按鈕之后開始使用鍵盤操控智能體進行移動，到達終點之后點擊“停止記錄軌跡”按鈕結(jié)束記錄。

第三步是指令標注：為了提高標注效率，也為了確保語言的規(guī)范性，標注員可以使用 GPT-5 分析收集到的軌跡信息，GPT-5 會接收坐標信息，動作信息和第一人稱視角的圖片，但是由于 GPT-5 本身也不具備空間智能的能力，其生成的指令是模板狀態(tài)的，仍然需要標注員依靠自身觀測將其補全。

第四步是人工交叉驗證：為了確保每條指令可執(zhí)行，每條指令必須由未見過該指令的標注者再次驗證。如果標注者能成功到達目標位置，則指令有效；否則，指令將被丟棄并重新標注。

經(jīng)過這四步驟，我們構(gòu)建出 NavSpace，其一共包含 6 類，共 1228 條高質(zhì)量指令。

NavSpace指令類別

上圖為 NavSpace 中的指令類別。這六類指令是根據(jù)問卷調(diào)查結(jié)果確定的。所有導(dǎo)航軌跡與指令均通過我們設(shè)計的平臺，從 HM3D 場景數(shù)據(jù)集中人工采集而來。

第一類是垂直高度感知（ Vertical Perception），在具身智能領(lǐng)域跨越樓層的指令較為稀少，而且其指令多數(shù)聚焦于上/下樓梯之類的表述。這樣的表述測評的是模型跟隨指令的能力，即看到樓梯就向上/下走，并無法測評模型對整個房間空間結(jié)構(gòu)的感知。為此我們設(shè)計出這一類指令，其中包含帶有絕對樓層的描述、帶有相對樓層的描述、帶有特殊高度的描述。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 3.0 米的范圍內(nèi)。

第二類是精準移動（Precise Movement），其包含一系列精度極高的移動和旋轉(zhuǎn)動作，具身導(dǎo)航智能體需要通過環(huán)境推知自身的距離和方位，而不是簡單的遵循指令。我們希望通過這一類測評出導(dǎo)航智能體對角度和方位的細微理解能力。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 1.0 米的范圍內(nèi)。

第三類是視角轉(zhuǎn)換（Viewpoint Shifting），其包含帶有想象表述的指令。具身導(dǎo)航體需要想象自己是某個物體，以另一個物體為視覺中心進行移動的判定。這要求具身智能體擁有空間想象和空間轉(zhuǎn)換的能力。不同于先前研究視角轉(zhuǎn)換的一些工作，我們的視角轉(zhuǎn)換更關(guān)注長距離記憶和調(diào)取歷史的能力。例如：想象你是前方的那臺電視。朝你的左前方移動，沿著走廊走到盡頭，在白色門前停下。具身智能體不僅要成功判斷電視的左前方其實是自身的右前方，還需要將判斷轉(zhuǎn)化為可執(zhí)行的動作。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。

第四類是空間關(guān)系（Spatial Relationship），其主要關(guān)注的是數(shù)詞量詞的空間關(guān)系和多個物體的空間關(guān)系。例如：沿著走廊走，在你左側(cè)的第三扇門左轉(zhuǎn)，在臥室的椅子旁邊停下。具身智能體需要能夠成功分辨左手邊第三扇門是哪一扇，并且將觀察判斷轉(zhuǎn)化為行動。同樣，這一類里也有“下樓去客廳，停在兩張棕色沙發(fā)的中間”這樣的指令，其測試的是具身智能體對多個室內(nèi)物體方位關(guān)系的理解。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。

第五類是環(huán)境狀態(tài)（Environment State），具身智能體需要在導(dǎo)航過程中準確感知環(huán)境狀態(tài)，并且基于環(huán)境狀態(tài)做出動作的不同調(diào)整。例如：穿過走廊走到門廳，在儲物柜旁邊等待；如果你看到鑰匙，就停下，否則去前門查看。具身智能體需要到達指定地點之后根據(jù)當前的狀態(tài)判斷進一步的動作。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 2.0 米的范圍內(nèi)。

第六類是空間結(jié)構(gòu)（Space Structure），這一類測評的能力是具身智能體是否理解空間布局，并且基于空間布局和指令產(chǎn)生正確的動作，比如環(huán)繞、往返和到達最遠/最近的地方。例如：“繞著八人餐桌走一圈”需要智能體感知到桌子作為一個物理實體，并且產(chǎn)生完整的一周繞行回到原位置?！白叩阶呃缺M頭房間里的沙發(fā)那里，然后返回?！眲t需要智能體明確往返的含義，并且理解走廊的物理結(jié)構(gòu)?！吧蠘牵ツ阌覀?cè)的那個房間，在最遠的沙發(fā)旁停下。”則需要智能體識別最遠和最近等空間特征的信息。成功導(dǎo)航的標準被設(shè)定為到達最終目的地 1.0 米的范圍內(nèi)。

SNav 模型

為了給 NavSpace 提供一個可靠的基線，我們提出了 SNav 模型，模型結(jié)構(gòu)如上圖所示。

SNav 模型使用 SigLIP 當作視頻編碼器，每8幀接收觀測的 RGB 圖作為一組，經(jīng)過編碼器提取視覺編碼特征，再經(jīng)過兩層 MLP 投影到語言模型的輸入空間中。指令同樣經(jīng)過 tokenizer，與提取的視覺特征一起通過 Qwen2 的解碼器，輸出一連串的動作（前進、左轉(zhuǎn)、右轉(zhuǎn)、停止等）。整個模型采用 Llava-Video-7b 作為主干網(wǎng)絡(luò)。

使用導(dǎo)航動作預(yù)測（Navigation Action Prediction）、基于軌跡的指令生成（Trajectory-based Instruction Generation）和一般多模態(tài)數(shù)據(jù)回憶（General Multimodal Data Recall）三大任務(wù)進行共訓(xùn)練，使得模型更好理解和生成導(dǎo)航指令。

為了進一步提高 SNav 的空間智能能力，我們設(shè)計出全套的數(shù)據(jù)增強管線，從現(xiàn)有數(shù)據(jù)出發(fā)生成需要空間推理和感知的導(dǎo)航數(shù)據(jù)，使用這些數(shù)據(jù)對模型進行微調(diào)。對于垂直高度感知，我們借用已有的 R2RCE 指令，對每條指令先進行垂直高度的篩選，之后利用 GPT-5 檢測是否有 stairs 語義出現(xiàn)，篩選出跨越樓層的指令之后利用點云劃分的方式確定具體樓層，進而產(chǎn)生帶有垂直高度信息的指令。對于精準移動，我們采用 shortestpathplanner 的方式在場景里隨機采點并且構(gòu)建路徑，將動作記錄并且經(jīng)由 GPT-5 paraphrase 形成一類數(shù)據(jù)。對于環(huán)境狀態(tài)，我們規(guī)劃路徑后將采樣的圖片提供給 GPT-5，分析出可觀測物體、不可觀測物體和描述信息，之后根據(jù)模板改寫為特定格式的指令。同樣對于空間關(guān)系，我們也有基于正則表達式的方式篩選路徑。

實驗測評

NavSpace 評測

我們系統(tǒng)評測了 22 個現(xiàn)有的導(dǎo)航智能體，包括輕量級模型、導(dǎo)航大模型、開源多模態(tài)大模型和閉源頂尖多模態(tài)大模型。我們評測了隨機猜測基線，包括隨機水平，即以 25% 的概率隨機選擇四個導(dǎo)航動作之一，也包括頻率水平，即以軌跡數(shù)據(jù)中觀察到的動作頻率進行導(dǎo)航動作選擇。

評測的結(jié)果是開源多模態(tài)大模型在 NavSpace 上的表現(xiàn)較差，其平均成功率低于 10%，與基于頻率的隨機猜測水平相當。專有大語言模型的性能優(yōu)于開源模型，其中 GPT-5 表現(xiàn)最好，但所有專有大語言模型的平均成功率仍低于 20%。輕量級的導(dǎo)航模型在需要空間智能的導(dǎo)航指令上表現(xiàn)不佳，成功率極低。導(dǎo)航大模型表現(xiàn)強于輕量級模型，展現(xiàn)出一定的空間智能能力。而我們的 SNav 模型在 NavSpace 上的表現(xiàn)超過了所有現(xiàn)有的導(dǎo)航模型和多模態(tài)大語言模型，是最強的基線模型。消融實驗表明，所提出的指令生成流程對提升 SNav 的空間智能有顯著幫助。

真機測評

我們在真實世界環(huán)境中對 SNav 模型進行了測試，包括辦公室、校園和戶外環(huán)境，測試涵蓋了除去垂直高度感知之外的五類空間智能導(dǎo)航指令。

上圖為 SNav 真實世界部署的定性結(jié)果。評估的指令涵蓋了 NavSpace 中提出的五種類別。測試環(huán)境包括辦公室、校園建筑和戶外區(qū)域。

我們使用 AgiBot Lingxi D1 四足機器人，該機器人配備了單目 RGB 相機和運動控制 API。機器人接收到導(dǎo)航指令后，將 RGB 觀測傳輸?shù)竭h程服務(wù)器上的導(dǎo)航模型（搭載 NVIDIA A100 GPU），模型預(yù)測動作并通過 D1 的運動 API 執(zhí)行。

SNav 在真實世界測試中的表現(xiàn)優(yōu)于 NaVid 和 NaVILA，成功率為 32%，遠高于 NaVid 的 14% 和 NaVILA 的 6%，真機測試結(jié)果表面，SNav 在實際應(yīng)用中有較好的空間智能和導(dǎo)航能力。

討論與未來展望

我們發(fā)現(xiàn)在已有的空間智能評測標準上（如 VSI-Bench 和 SpatialBench）表現(xiàn)較好的 MLLMs 幾乎無法完成 NavSpace 里的導(dǎo)航任務(wù)，這可能是因為現(xiàn)有的空間智能評測標準都是靜態(tài)評估，模型只需要預(yù)測一個固定的數(shù)字或者做出選擇題即可，而我們的 NavSpace 需要模型在場景中進行動態(tài)運動和推理，這對于具身任務(wù)是至關(guān)重要的。因此我們的評測標準更抓住了具身導(dǎo)航的核心需求。

為了進一步探尋 MLLMs 為何在 NavSpace 上表現(xiàn)不佳，我們通過詢問 GPT-5 的方式發(fā)現(xiàn)其有一些時候能夠正確回答關(guān)于具體距離、視角轉(zhuǎn)換和環(huán)境狀態(tài)的問題，但是當其預(yù)測動作的時候錯誤率陡然提高。為此我們認為當前 MLLMs 表現(xiàn)不佳的原因一方面是空間感知能力不佳，另一方面是由于模型視覺感知和動作的推理不一致性導(dǎo)致的錯誤，模型無法整體化理解視覺感知和動作。

我們的測評發(fā)現(xiàn)就算輕量級的導(dǎo)航模型能夠在 R2R 等特定導(dǎo)航任務(wù)中取得較高的分數(shù)，其無法有效泛化到 NavSpace 等需要空間智能的任務(wù)中，這說明輕量級的導(dǎo)航模型并不理解場景中的空間關(guān)系。

基于我們的數(shù)據(jù)增強管線和分析，我們認為導(dǎo)航大模型的導(dǎo)航能力主要依靠多模態(tài)能力，其指令跟隨能力并不出眾，因為其在精準移動和空間結(jié)構(gòu)等對多模態(tài)視覺信息需求較弱的任務(wù)中表現(xiàn)顯著不佳。為此，我們認為未來的研究應(yīng)該聚焦于同時提高模型對空間的感知，也提高模型將視覺信息轉(zhuǎn)化為正確動作的能力。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章