ICRA 2026 | 像素級相對 3D 地圖領航！MASt3R-Nav：打造高精度無全局重建視覺導航新范式

本文作者：吳思夢

2026-06-01 15:19

專題：ICRA 國際機器人與自動化會議

導語：傳統(tǒng)機器人導航依賴嚴苛的全局三維重建或簡化成圖像/物體粗粒度表征，丟失精細幾何細節(jié)、導航容錯率極低。ICRA 2026全新力作MASt3R-Nav另辟蹊徑

原文作者：公眾號“視覺語言導航”

原文鏈接：https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ

作者：Vansh Garg1?, Rohit Jayanti1?, Krish Pandya1?, Sarthak Chittawar1?, Siddharth Tourani2,3, Muhammad Haris Khan3, Sourav Garg1?, Madhava Krishna1?
單位：1印度海德拉巴國際信息技術研究所機器人研究中心，2德國海德堡大學，3穆罕默德·本·扎耶德人工智能大學
論文標題：MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
論文鏈接：https://arxiv.org/abs/2605.24111
項目主頁：https://mast3r-nav.github.io/
代碼鏈接：https://github.com/vanshg1729/mast3r-nav

研究背景

ICRA 2026 | 像素級相對 3D 地圖領航！MASt3R-Nav：打造高精度無全局重建視覺導航新范式

視覺導航是自主機器人、智能移動設備的核心能力，而環(huán)境表征方式直接決定導航精度、魯棒性與落地門檻。當前主流視覺導航方案各有致命短板，始終難以兼顧精度、效率與通用性：

? 經典全局度量3D地圖：依托占據(jù)柵格、SLAM重建全局一致幾何地圖，雖能實現(xiàn)精準路徑規(guī)劃，但高度依賴高精度全局位姿配準、完整3D點云重建，算力開銷大、對環(huán)境變化敏感，一旦匹配誤差累積直接導航失效。

? 圖像相對拓撲導航：以關鍵幀圖像為地圖節(jié)點，依靠幀間視覺相似度構建拓撲邊，完全弱化三維幾何約束。優(yōu)勢是輕量化，但功能極度受限，僅能實現(xiàn)簡單示教-復現(xiàn)，無法自主規(guī)劃新路徑、應對未知岔路與場景變化。

? 物體相對語義導航：將環(huán)境抽象為柜子、墻面、桌椅等語義物體，以物體為子目標做路徑規(guī)劃。雖能提升規(guī)劃容錯性，但過度語義抽象丟失底層幾何細節(jié)，墻面邊界、斜坡、微小障礙物等信息被抹平，極易出現(xiàn)決策偏差、走錯路線、碰撞風險。

除此之外，現(xiàn)有方案普遍存在規(guī)劃與控制割裂痛點：控制器只能接收單一粗粒度子目標，沒有連續(xù)的局部代價梯度引導，無法自主修正規(guī)劃路徑的微小誤差，復雜室內場景適應性極差。在此背景下，論文立足像素級局部相對幾何，跳出全局重建與高層抽象的固有思維，打造全新的像素級導航范式。

主要貢獻

全新像素級地圖表征：提出MASt3R-Nav拓撲導航流水線，構建像素-相對3D連通性地圖，僅利用像素間局部相對幾何關系，無需全局坐標一致性、無需精準位姿估計、無需額外深度傳感器，大幅降低建圖與導航門檻。
首創(chuàng)WayPixel代價圖中間表征：設計稠密像素級WayPixel Costmap，作為路徑規(guī)劃與控制器的通用接口。完整保留墻面、坡度、遮擋物等精細幾何梯度，彌補圖像級、物體級表征細節(jié)丟失的硬傷。
定制化PixelReact學習控制器：專為WayPixel代價圖設計軌跡預測控制器，利用像素稠密代價梯度自主修正路徑偏差，對規(guī)劃瑕疵具備強魯棒性，精準輸出機器人局部鳥瞰視角軌跡路點。
全場景嚴苛驗證：在4類高難度導航任務中全面超越GNM、ObjectReact等SOTA算法；仿真訓練模型可直接部署真實P3DX移動機器人，實現(xiàn)零微調仿真到現(xiàn)實遷移，落地實用性拉滿。

研究方法

MASt3R-Nav整體架構分為骨干模型、離線建圖、在線執(zhí)行、控制器訓練四大核心環(huán)節(jié)，同時引入圖結構精簡策略，在保證幾何精度的前提下嚴控計算開銷。

1. 核心骨干：MASt3R 3D基礎模型

全程采用凍結預訓練的MASt3R作為視覺感知骨干，輸入任意RGB圖像對，即可輸出兩大核心能力：

跨幀稠密像素匹配關系；
逐像素相對3D坐標。

定義像素與之間3D歐氏距離：

僅靠單目RGB圖像+基礎模型，就能獲取可靠的相對三維幾何，擺脫硬件依賴。

2. 離線建圖：像素級拓撲地圖構建

機器人遍歷環(huán)境采集圖像序列，構建像素拓撲圖：

節(jié)點N：只保留參與跨幀匹配的有效像素，過濾無幾何關聯(lián)冗余像素；
邊E： 分為兩類：

幀間邊：不同圖像中匹配的同一物理像素，代價置為0，實現(xiàn)跨幀坐標關聯(lián)；
幀內邊：同一張圖像內的有效像素互連，代價由3D歐氏距離決定；

為解決百萬級像素圖計算爆炸問題，采用三重優(yōu)化：僅保留有匹配像素、用歐氏最小生成樹EMST替代全連接、運行時動態(tài)激活孤立像素，在保留幾何完整性的同時，大幅壓縮圖規(guī)模。

3. 在線執(zhí)行：定位 + WayPixel稠密代價圖生成

這是導航的核心環(huán)節(jié)，三步生成全覆蓋像素代價梯度：

像素級定位：當前實時圖像與歷史子圖做稠密匹配，選取匹配度最高的子圖完成機器人定位；
稀疏代價初始化：用Dijkstra算法預計算地圖所有像素到目標的最短路徑代價，實時匹配像素直接繼承地圖像素規(guī)劃代價；
全局代價傳播：將稀疏匹配像素的代價，擴散至整張圖像所有未匹配像素，生成WayPixel代價圖。

最終畫面中每一個像素都擁有指向目標的連續(xù)代價梯度，為控制器提供細粒度決策依據(jù)。

4. 訓練階段：PixelReact控制器

沿用成熟的模仿學習框架，網(wǎng)絡由卷積編碼器+MLP解碼器組成：

編碼器輸入WayPixel代價圖，提取稠密幾何特征；
解碼器一次性預測未來10個局部2D軌跡路點；
以真實最優(yōu)路徑為監(jiān)督，采用L2回歸損失訓練，完美擬合最優(yōu)導航軌跡，兼容各類室內布局。

實驗設置

為公平對比算法性能，論文搭建標準化、多維度的實驗評測體系：

評測數(shù)據(jù)集：采用HM3D-IIN數(shù)據(jù)集驗證集，包含36個獨立室內場景，單場景設置獨立導航任務，覆蓋住宅、辦公等復雜環(huán)境；
四大高難度導航任務

軌跡模仿：復刻機器人歷史遍歷路徑；
陌生目標導航：前往見過但未走到的目標，需自主規(guī)劃新路線；
捷徑規(guī)劃：避開原遍歷路線，自主尋找更短通行路徑；
反向遍歷：逆著歷史軌跡完成導航，考驗大視角匹配能力；
核心評估指標采用機器人導航通用權威指標：SPL（路徑加權成功率）、SSPL（軟路徑加權成功率），兼顧任務完成度與路徑效率；
成功判定標準：機器人300步內抵達目標1米范圍內，判定導航成功；
軟硬件部署：仿真基于Habitat平臺；真實硬件采用P3DX移動機器人+RealSense RGB相機；算法評測服務器配置AMD Ryzen 9 7950X + RTX A4000 16GB。