日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

本文作者: 陳淑瑜   2026-05-26 14:37 專題:ICRA 國際機器人與自動化會議
導語:本文提出的GGD -SLAM框架采用可泛化的運動模型,無需預定義語義標注或深度輸入即可應(yīng)對動態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。



來源:公眾號“新機器視覺”


原文鏈接:https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA


ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

題目:GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu

來源: IEEE International Conference on Robotics and Automation(ICRA 2026)

論文鏈接: https://arxiv.org/abs/2604.12837

1

概述

視覺SLAM算法通過探索三維高斯點擴散(3D Gaussian Splatting,3DGS)表示方法實現(xiàn)了顯著改進,尤其在生成高保真密集地圖方面表現(xiàn)突出。然而,這些算法依賴于靜態(tài)環(huán)境假設(shè),在動態(tài)環(huán)境中性能會大幅下降。本文提出的GGD -SLAM框架采用可泛化的運動模型,無需預定義語義標注或深度輸入即可應(yīng)對動態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。具體而言,該系統(tǒng)采用先進先出(First-In-First-Out,FIFO)隊列管理傳入幀,并通過順序注意力機制實現(xiàn)動態(tài)語義特征提?。煌瑫r整合動態(tài)特征增強器以分離靜態(tài)與動態(tài)成分。此外,為最小化動態(tài)干擾項對靜態(tài)成分的影響,我們提出利用靜態(tài)信息采樣填補被遮擋區(qū)域的方法,并設(shè)計了面向動態(tài)環(huán)境的抗干擾結(jié)構(gòu)相似性(

Structure Similarity Index Measure,SSIM)損失函數(shù),顯著提升了系統(tǒng)的魯棒性?;谡鎸嵤澜鐒討B(tài)數(shù)據(jù)集的實驗表明,所提系統(tǒng)在動態(tài)場景下的相機位姿估計和密集地圖重建任務(wù)中均達到業(yè)界領(lǐng)先水平。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖1 研究動機:左圖:DyPho?SLAM 需要特定語義標簽和深度輸入來去除動態(tài)物體;右圖:WildGS?SLAM中的ML受限于單一場景的渲染效果;本文提出的GGD?SLAM引入了通用運動模型,無需語義標簽或深度輸入,減少了對單場景3DGS渲染損失監(jiān)督的依賴。

2

研究方法

給定單目相機(內(nèi)參已知)以固定幀率拍攝、包含動態(tài)物體的圖像序列 I={Ii}i=1N(Ii∈RH×W×3),本文目標是求解對應(yīng)的相機位姿矩陣 T={Ti}i=1N,并逐幀更新高斯參數(shù) G={μjj,∑j,cj}j=1n(G)。

高斯參數(shù)由空間位置 μj、不透明度 αj、協(xié)方差矩陣 ∑j 和基于球諧函數(shù)的顏色系數(shù) cj 共同表征。求解 T 和 G 需滿足兩個核心要求:1)最小化絕對軌跡誤差的均方根值;2)實現(xiàn)最優(yōu)的高斯渲染效果,以精準表征靜態(tài)環(huán)境。

所提 GGD-SLAM 算法的整體流程通過一系列關(guān)聯(lián)模塊完成動態(tài)環(huán)境下的定位與稠密建圖任務(wù),整體框架如圖 2 所示。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖 2 GGD-SLAM 算法流程圖

2.1 通用運動模型

本文核心創(chuàng)新在于設(shè)計適用于時序圖像序列的動態(tài)語義提取通用運動模型,專門面向增量式 SLAM 系統(tǒng)(算法 1)。該模型無需單場景在線訓練,可作為 GS-SLAM 系統(tǒng)的強魯棒先驗。

1)數(shù)據(jù)預處理

輸入圖像 It 經(jīng)預訓練 DINOv2 特征提取器,得到圖像特征 xt=DINOv2(It)∈RH′×W′×C。其中,H′、W′ 為分塊嵌入后特征圖的空間下采樣維度,C 為通道維度。

但 xt 僅捕捉 It 的結(jié)構(gòu)特征與靜態(tài)語義信息,缺乏建模場景演化所需的時序動態(tài)信息。為此,引入先進先出隊列 Qt,逐幀聚合時序特征用于動態(tài)語義提取,更新規(guī)則如下:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

隊列未滿時,在前端補零向量以維持時序一致性。動態(tài)語義由 L 幀間時序變化決定 ——L 越大,運動推理的時序上下文越豐富。

2)時序注意力機制

獲取當前幀結(jié)構(gòu)特征 xt 與歷史特征隊列 Qt 后,通過注意力機制融合上下文信息:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

其中,Qt∈R(1×H′×W′)×C為當前幀特征生成的查詢向量;Kt,Vt∈R(L×H′×W′)×C由歷史特征生成,用于構(gòu)建時序檢索索引,實現(xiàn)跨幀特征匹配;輸出Fattn,t∈RH′×W′×C為融合時序信息的增強特征,用于通用運動語義分割。

為強化動靜分離效果,將 Fattn,t 輸入動態(tài)頭與靜態(tài)頭兩個獨立分支,得到解耦特征:動態(tài)屬性增強系數(shù) D∈RH′×W′×C、靜態(tài)分量抑制系數(shù) S∈RH′×W′×C。再通過門控注意力機制融合:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

式中,⊙ 為哈達瑪積,平衡系數(shù) α 為可學習參數(shù)(初始值 0.5)。增強特征 Fenh,t 與原始結(jié)構(gòu)特征 xt 拼接后輸入前饋網(wǎng)絡(luò),輸出低分辨率動態(tài)概率圖 Mraw,t∈RH′×W′;經(jīng)雙線性插值得到全分辨率動態(tài)概率圖 Mt∈RH×W,像素值大小直接表示該位置為動態(tài)區(qū)域的概率。

3)模型訓練

為訓練能捕捉時空特征的通用運動模型,基于真實動態(tài)掩碼 Mgt,t∈RH×W 設(shè)計監(jiān)督損失函數(shù):

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
  • 基礎(chǔ)損失Lbase:計算 Mgt,t 與 Mt 的像素級絕對誤差,保證幾何精度。

  • 正則損失Lreg:引入二值熵懲罰項:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

針對 0.5 附近的模糊預測,在中間值處梯度最大,推動輸出收斂至 {0,1}。

  • Dice 損失 Ldice:彌補像素級損失對結(jié)構(gòu)完整性捕捉不足的缺陷:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

概率化輸出易引入動態(tài)關(guān)聯(lián)錯誤,模糊邊緣會降低跟蹤精度。推理階段采用大津自適應(yīng)閾值法對概率圖二值化,得到原始掩碼 Mraw,t;再用圓盤形結(jié)構(gòu)元 Kr 做形態(tài)學膨脹,細化動態(tài)物體邊緣,輸出通用動態(tài)先驗二值掩碼 Mt

2.2 跟蹤模塊

基于現(xiàn)有研究基礎(chǔ),引入 Metric3D-v2 輸出的尺度感知單目深度估計 Dest∈RH×W,利用其跨場景零樣本泛化能力提升位姿估計魯棒性。

位姿估計采用 DROID-SLAM 的稠密光束平差法(DBA)框架,構(gòu)建幀圖 G=(V,E):V 為關(guān)鍵幀集合,E 為關(guān)鍵幀間共視約束。目標是優(yōu)化相機位姿 T[?],并估計關(guān)鍵幀單目深度圖 d[?]∈RH×W。

動態(tài)點會導致因子圖構(gòu)建錯誤,降低計算效率與系統(tǒng)性能。為此,利用通用運動模型輸出動態(tài)先驗,完全剔除動態(tài)區(qū)域殘差:提取靜態(tài)分量 S[?]=1?M[?],∑[?] 為 DROID-SLAM 基礎(chǔ)協(xié)方差權(quán)重,將動態(tài)干擾轉(zhuǎn)化為可處理的優(yōu)化約束:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
  • 第一項:DROID-SLAM 單目位姿估計目標,動態(tài)區(qū)域殘差權(quán)重置零,排除非靜態(tài)干擾、提升效率;

  • 第二項:深度監(jiān)督損失,利用神經(jīng)深度預測約束深度估計;

  • 第三項:軌跡平滑正則化,懲罰相鄰幀間位姿突變。

2.3 建圖模塊

1 )通用運動模型引導的不確定性估計

基于WildGS-SLAM的不確定性感知框架,將特征 xt輸入淺層MLP P,預測不確定性圖 Ut=P(xt)∈RH×W。該方法可處理模糊干擾、提升渲染質(zhì)量,但過度依賴單場景3DGS渲染損失,單幀輸入易導致動態(tài)誤判。

為此,融合聚合時序特征的通用運動模型,將其作為時序先驗嵌入原框架:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
  • L3DGS:渲染圖像與輸入圖像的重建誤差,定義見式 (12);

  • LregU:不確定性正則項,LregU=logUt,防止不確定性值趨于無窮;

  • Lprior:先驗?zāi)P驼`差:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

式中,Tmax 為動態(tài)區(qū)域目標不確定性閾值。該損失緩解不確定性感知方法的動態(tài)誤判,同時兼容噪聲、光照變化等靜態(tài)干擾。

2)增量式高斯地圖構(gòu)建

獲取新關(guān)鍵幀后,增量式創(chuàng)建高斯以優(yōu)化地圖:對圖像中新觀測特征點,初始化高斯參數(shù) —— 顏色 c? 取對應(yīng)像素顏色,空間位置 μ? 由像素反投影得到,不透明度 α? 初始化為 0.5,半徑初始化為 0.1。

當幀中存在動態(tài)物體時,通過動態(tài)區(qū)域鄰域隨機采樣維持遮擋區(qū)域幾何連續(xù)性:為當前幀靜態(tài)高斯的二維坐標 (μ?,x?,y) 構(gòu)建 KD 樹;對動態(tài)點 μi∈Mt,查詢其 k 近鄰靜態(tài)高斯,隨機采樣鄰域內(nèi)靜態(tài)點,替換動態(tài)點的深度與顏色屬性:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

再對遮擋點執(zhí)行尺度擴張與不透明度增強,緩解遮擋區(qū)域點云稀疏導致的優(yōu)化效率下降問題

3)高斯參數(shù)更新

高斯地圖渲染RGB圖像流程:按視角深度對3D 高斯排序,通過 α 混合投影渲染像素顏色 Ir 與深度 Dr

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

通過梯度下降迭代更新高斯參數(shù),最小化建圖損失:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
  • L3DGS:渲染圖像與輸入圖像、深度估計的殘差,通過不確定性圖逐元素加權(quán):

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM
  • Liso:尺度正則項,抑制稀疏區(qū)域偽影;

  • Lssim:傳統(tǒng)SSIM損失計算局部亮度、對比度、空間相關(guān)性,動態(tài)場景中易受干擾。傳統(tǒng)方法先算SSIM 圖再剔除動態(tài)區(qū)域,仍會殘留污染(如圖3)。本文提出動態(tài)自適應(yīng)SSIM:用單位卷積核 wunit 與靜態(tài)分量St做哈達瑪積 與卷積,生成自適應(yīng)核 wad(O) 并統(tǒng)計有效靜態(tài)像素數(shù) Nad(O),僅在純靜態(tài)區(qū)域計算 SSIM:

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

對比度與空間相關(guān)性計算同理,最終得到純凈的動態(tài)自適應(yīng) SSIM 圖。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖 3 動態(tài)自適應(yīng) SSIM 示意圖

3

實驗

3.1 跟蹤性能評估

為驗證本文提出的通用動態(tài)語義提取網(wǎng)絡(luò),以 fr3/w/half 序列為例進行可視化(圖4)?;趩螏瑘D像的特定標簽分割在小目標、快速運動模糊物體、相機大幅運動場景下易出現(xiàn)誤分類;WildGS?SLAM 的不確定性感知方法在背景區(qū)域極易誤判,導致有效圖像信息不足,進而降低定位精度與背景重建質(zhì)量。相比之下,本文的通用動態(tài)語義提取網(wǎng)絡(luò)可基于歷史幀提取運動物體語義,提取效果優(yōu)異。僅使用基礎(chǔ)損失進行像素級學習會限制結(jié)構(gòu)特征保留,產(chǎn)生明顯噪聲;在第 800 幀中,椅子在單幀下看似靜止,但在長期歷史觀測中存在運動,模型可準確將其判定為動態(tài)。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖 4:不同動態(tài)提取器在 fr3/w/half 序列上的定性結(jié)果

表 1:在 TUM 與 Bonn 挑戰(zhàn)性數(shù)據(jù)集動態(tài)場景下的相機跟蹤結(jié)果

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

表1給出 TUM 與波恩動態(tài)場景下的相機跟蹤結(jié)果。基于 RGBD 的方法因深度傳感器提供精確絕對尺度,定位精度表現(xiàn)較強。盡管 Dy3DGS?SLAM、WildGS?SLAM 等單目動態(tài) SLAM 系統(tǒng)具備動態(tài)物體處理能力,但因缺乏精準的動態(tài)干擾識別方法、引入錯誤數(shù)據(jù)關(guān)聯(lián),性能仍低于本文方法。本文方法結(jié)合高效的、面向增量式 SLAM 輸入的通用運動模型,在 fr3/w/half、bonn/crowd2 等高動態(tài)序列中實現(xiàn)了超越 RGBD 方法的跟蹤精度。在 TUM 與波恩數(shù)據(jù)集上的消融實驗(表2)驗證了各模塊的有效性:通用先驗、大津二值化、平滑項均能提升系統(tǒng)魯棒性。

表 2:在 Bonn RGB?D 動態(tài)數(shù)據(jù)集上的消融實驗

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

3.2 建圖性能評估

將本文方法與開源 3DGS SLAM 算法對比,評估建圖能力。如圖 5 所示:DG?SLAM、DyPho?SLAM 需要語義標簽與深度輸入;MonoGS、Splatam 在動態(tài)干擾下性能嚴重下降;WildGS?SLAM 依賴 3DGS 渲染,相機大幅運動后背景渲染效果差,導致動態(tài)物體誤判、系統(tǒng)性能下降,且邊緣物體遮擋去除不徹底,殘留偽影。本文 GGD?SLAM 可有效消除動態(tài)干擾,同時保持高質(zhì)量背景渲染。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖 5:當前主流高斯濺射 SLAM 方法的渲染結(jié)果對比

如表3 所示,本文方法在 TUM、波恩動態(tài)序列上,單目 3DGS 類方法中取得最優(yōu)性能。針對干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復的消融實驗(表4)驗證了建圖模塊的有效性。

表 3:在 TUM 與 Bonn 動態(tài)數(shù)據(jù)集上的建圖結(jié)果

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

表 4:干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復方法的消融實驗

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

3.3 更通用場景下的驗證

在更通用的 Wild?SLAM 數(shù)據(jù)集上驗證本文的通用動態(tài)語義提取網(wǎng)絡(luò)(圖 6)。模型成功分割各類運動物體,引導不確定性生成,實現(xiàn)高質(zhì)量渲染。與 TUM、波恩數(shù)據(jù)集相比,Wild?SLAM 數(shù)據(jù)集圖像分辨率更高、相機運動更平緩,3DGS 渲染質(zhì)量更易達到較高水平。在此條件下,不確定性感知機制可有效適配,GGD?SLAM 與 WildGS?SLAM 均取得極高性能。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖 6:本文 GGD?SLAM 在 Wild?SLAM 數(shù)據(jù)集上的效果展示

4

結(jié)論

本文提出了GGD?SLAM,一種具備泛化能力且魯棒的框架,可在動態(tài)環(huán)境中實現(xiàn)定位與真實感稠密建圖。

為解決動態(tài)目標剔除難題,本文提出一種泛化型動態(tài)提取器,該方法利用歷史幀隊列上的注意力機制提取動態(tài)語義。此外,本方法還與背景一致性建圖流程相結(jié)合,以最小化動態(tài)目標對靜態(tài)分量的影響。

大量實驗表明,GGD?SLAM 在真實感建圖方面顯著優(yōu)于現(xiàn)有 SOTA SLAM 方法。

未來工作中,我們旨在實現(xiàn)動態(tài)目標運動的實時重建與完全遮擋區(qū)域的修復,同時保證靜態(tài)場景的穩(wěn)定性。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICRA 2026丨GGD-SLAM:面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說