日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
機器人 正文
發(fā)私信給吳思夢
發(fā)送

0

ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

本文作者: 吳思夢   2026-06-01 15:19 專題:ICRA 國際機器人與自動化會議
導語:傳統(tǒng)機器人導航依賴嚴苛的全局三維重建或簡化成圖像/物體粗粒度表征,丟失精細幾何細節(jié)、導航容錯率極低。ICRA 2026全新力作MASt3R-Nav另辟蹊徑


原文作者:公眾號“視覺語言導航”

原文鏈接:https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ


  • 作者:Vansh Garg1?, Rohit Jayanti1?, Krish Pandya1?, Sarthak Chittawar1?, Siddharth Tourani2,3, Muhammad Haris Khan3, Sourav Garg1?, Madhava Krishna1?
  • 單位:1印度海德拉巴國際信息技術研究所機器人研究中心,2德國海德堡大學,3穆罕默德·本·扎耶德人工智能大學
  • 論文標題:MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
  • 論文鏈接:https://arxiv.org/abs/2605.24111
  • 項目主頁:https://mast3r-nav.github.io/
  • 代碼鏈接:https://github.com/vanshg1729/mast3r-nav

研究背景

ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

視覺導航是自主機器人、智能移動設備的核心能力,而環(huán)境表征方式直接決定導航精度、魯棒性與落地門檻。當前主流視覺導航方案各有致命短板,始終難以兼顧精度、效率與通用性:

經典全局度量3D地圖: 依托占據(jù)柵格、SLAM重建全局一致幾何地圖,雖能實現(xiàn)精準路徑規(guī)劃,但高度依賴高精度全局位姿配準、完整3D點云重建,算力開銷大、對環(huán)境變化敏感,一旦匹配誤差累積直接導航失效。

圖像相對拓撲導航: 以關鍵幀圖像為地圖節(jié)點,依靠幀間視覺相似度構建拓撲邊,完全弱化三維幾何約束。優(yōu)勢是輕量化,但功能極度受限,僅能實現(xiàn)簡單示教-復現(xiàn),無法自主規(guī)劃新路徑、應對未知岔路與場景變化。

物體相對語義導航: 將環(huán)境抽象為柜子、墻面、桌椅等語義物體,以物體為子目標做路徑規(guī)劃。雖能提升規(guī)劃容錯性,但過度語義抽象丟失底層幾何細節(jié),墻面邊界、斜坡、微小障礙物等信息被抹平,極易出現(xiàn)決策偏差、走錯路線、碰撞風險。

除此之外,現(xiàn)有方案普遍存在規(guī)劃與控制割裂痛點:控制器只能接收單一粗粒度子目標,沒有連續(xù)的局部代價梯度引導,無法自主修正規(guī)劃路徑的微小誤差,復雜室內場景適應性極差。 在此背景下,論文立足像素級局部相對幾何,跳出全局重建與高層抽象的固有思維,打造全新的像素級導航范式。

主要貢獻

ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式
  1. 全新像素級地圖表征: 提出MASt3R-Nav拓撲導航流水線,構建像素-相對3D連通性地圖,僅利用像素間局部相對幾何關系,無需全局坐標一致性、無需精準位姿估計、無需額外深度傳感器,大幅降低建圖與導航門檻。
  2. 首創(chuàng)WayPixel代價圖中間表征: 設計稠密像素級WayPixel Costmap,作為路徑規(guī)劃與控制器的通用接口。完整保留墻面、坡度、遮擋物等精細幾何梯度,彌補圖像級、物體級表征細節(jié)丟失的硬傷。
  3. 定制化PixelReact學習控制器: 專為WayPixel代價圖設計軌跡預測控制器,利用像素稠密代價梯度自主修正路徑偏差,對規(guī)劃瑕疵具備強魯棒性,精準輸出機器人局部鳥瞰視角軌跡路點。
  4. 全場景嚴苛驗證: 在4類高難度導航任務中全面超越GNM、ObjectReact等SOTA算法;仿真訓練模型可直接部署真實P3DX移動機器人,實現(xiàn)零微調仿真到現(xiàn)實遷移,落地實用性拉滿。

研究方法

MASt3R-Nav整體架構分為骨干模型、離線建圖、在線執(zhí)行、控制器訓練四大核心環(huán)節(jié),同時引入圖結構精簡策略,在保證幾何精度的前提下嚴控計算開銷。

ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

1. 核心骨干:MASt3R 3D基礎模型

全程采用凍結預訓練的MASt3R作為視覺感知骨干,輸入任意RGB圖像對,即可輸出兩大核心能力:

  • 跨幀稠密像素匹配關系;
  • 逐像素相對3D坐標 。

定義像素之間3D歐氏距離:

僅靠單目RGB圖像+基礎模型,就能獲取可靠的相對三維幾何,擺脫硬件依賴。

2. 離線建圖:像素級拓撲地圖構建

機器人遍歷環(huán)境采集圖像序列,構建像素拓撲圖 

  • 節(jié)點N:只保留參與跨幀匹配的有效像素,過濾無幾何關聯(lián)冗余像素;
  • 邊E: 分為兩類:
  1. 幀間邊:不同圖像中匹配的同一物理像素,代價置為0,實現(xiàn)跨幀坐標關聯(lián);
  2. 幀內邊:同一張圖像內的有效像素互連,代價由3D歐氏距離決定;

為解決百萬級像素圖計算爆炸問題,采用三重優(yōu)化:僅保留有匹配像素、用歐氏最小生成樹EMST替代全連接、運行時動態(tài)激活孤立像素,在保留幾何完整性的同時,大幅壓縮圖規(guī)模。

3. 在線執(zhí)行:定位 + WayPixel稠密代價圖生成

ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

這是導航的核心環(huán)節(jié),三步生成全覆蓋像素代價梯度:

  1. 像素級定位:當前實時圖像與歷史子圖做稠密匹配,選取匹配度最高的子圖完成機器人定位;
  2. 稀疏代價初始化:用Dijkstra算法預計算地圖所有像素到目標的最短路徑代價,實時匹配像素直接繼承地圖像素規(guī)劃代價;
  3. 全局代價傳播:將稀疏匹配像素的代價,擴散至整張圖像所有未匹配像素,生成WayPixel代價圖。

最終畫面中每一個像素都擁有指向目標的連續(xù)代價梯度,為控制器提供細粒度決策依據(jù)。

4. 訓練階段:PixelReact控制器

沿用成熟的模仿學習框架,網(wǎng)絡由卷積編碼器+MLP解碼器組成:

  • 編碼器輸入WayPixel代價圖,提取稠密幾何特征;
  • 解碼器一次性預測未來10個局部2D軌跡路點;
  • 以真實最優(yōu)路徑為監(jiān)督,采用L2回歸損失訓練,完美擬合最優(yōu)導航軌跡,兼容各類室內布局。

實驗設置

為公平對比算法性能,論文搭建標準化、多維度的實驗評測體系:

  1. 評測數(shù)據(jù)集:采用HM3D-IIN數(shù)據(jù)集驗證集,包含36個獨立室內場景,單場景設置獨立導航任務,覆蓋住宅、辦公等復雜環(huán)境;
  2. 四大高難度導航任務
  • 軌跡模仿:復刻機器人歷史遍歷路徑;
  • 陌生目標導航:前往見過但未走到的目標,需自主規(guī)劃新路線;
  • 捷徑規(guī)劃:避開原遍歷路線,自主尋找更短通行路徑;
  • 反向遍歷:逆著歷史軌跡完成導航,考驗大視角匹配能力;
  • 核心評估指標采用機器人導航通用權威指標:SPL(路徑加權成功率)、SSPL(軟路徑加權成功率),兼顧任務完成度與路徑效率;
  • 成功判定標準:機器人300步內抵達目標1米范圍內,判定導航成功;
  • 軟硬件部署:仿真基于Habitat平臺;真實硬件采用P3DX移動機器人+RealSense RGB相機;算法評測服務器配置AMD Ryzen 9 7950X + RTX A4000 16GB。
  • 實驗結果

    1. 表征維度 ablation 對比

    ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

    單純更換圖像匹配器,無法提升物體級導航上限;而像素級WayPixel表征+PixelReact控制器組合,SPL從傳統(tǒng)物體級51.51%飆升至81.77% ,證明像素細粒度幾何表征才是性能突破關鍵。

    2. 與SOTA算法全方位PK

    ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

    MASt3R-Nav在軌跡模仿、陌生目標、捷徑規(guī)劃三大任務上大幅領跑:

    • 模仿任務SPL高達93.94% ,超過往最優(yōu)模型10個百分點;
    • 陌生目標、捷徑任務性能較物體級基線近乎翻倍
    • 僅反向遍歷任務受大視角匹配歧義影響性能略低,四項任務平均SPL 52.79% ,綜合實力斷層領先。

    3. 圖結構效率權衡

    ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

    采用EMST精簡策略后,幀內邊數(shù)從466萬驟減至2.4萬,Dijkstra規(guī)劃耗時從9.0s壓縮至1.4s,算力大幅下降的同時,導航性能無任何衰減;冗余全像素匹配反而會引入噪聲、降低成功率,充分驗證稀疏像素幾何的有效性。

    4. 大規(guī)模環(huán)境可擴展性

    ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

    環(huán)境從1層擴展至3層大型辦公樓宇,算法運行耗時、內存占用均呈線性增長;即便擁有8萬像素節(jié)點的超大地圖,總運行時長不足5分鐘,存儲僅540.18MB,完全支持大型園區(qū)、樓宇規(guī)?;渴稹?/span>

    5. 真實機器人落地實測

    ICRA 2026 | 像素級相對 3D 地圖領航!MASt3R-Nav:打造高精度無全局重建視覺導航新范式

    僅在仿真HM3D數(shù)據(jù)集訓練的模型,無需任何微調,可直接部署真實未知室內環(huán)境。機器人依托WayPixel代價圖精準感知障礙物、預判通行方向,平穩(wěn)規(guī)劃軌跡抵達目標,仿真遷移現(xiàn)實能力極強。

    總結與未來工作

    研究核心總結

    MASt3R-Nav的誕生,徹底打破了機器人視覺導航的固有設計思路:

    • 摒棄全局3D重建與繁瑣位姿標定,依托像素相對3D連通性輕量化建圖;
    • WayPixel代價圖鎖住精細幾何細節(jié),解決物體級表征抽象過度、決策失誤痛點;
    • PixelReact控制器利用稠密梯度容錯規(guī)劃誤差,導航更穩(wěn)定、更智能;
    • 兼顧精度、算力、可擴展性與落地性,仿真、真實機器人雙場景全面驗證價值。

    未來研究方向

    1. 探索像素幾何+物體語義混合表征,融合兩者優(yōu)勢,補齊反向軌跡導航短板;
    2. 優(yōu)化MASt3R大視角圖像匹配策略,提升極端視角、低重疊場景下的定位規(guī)劃精度;
    3. 進一步輕量化模型與圖結構,適配小型無人機、家用服務機器人等低算力終端設備。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說