ICRA 2026丨GGD-SLAM：面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

本文作者：陳淑瑜

2026-05-26 14:37

專題：ICRA 國際機器人與自動化會議

導語：本文提出的GGD -SLAM框架采用可泛化的運動模型，無需預定義語義標注或深度輸入即可應(yīng)對動態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。

來源：公眾號“新機器視覺”

原文鏈接：https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA

ICRA 2026丨GGD-SLAM：面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

題目：GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu

來源: IEEE International Conference on Robotics and Automation(ICRA 2026)

論文鏈接: https://arxiv.org/abs/2604.12837

概述

視覺SLAM算法通過探索三維高斯點擴散（3D Gaussian Splatting，3DGS）表示方法實現(xiàn)了顯著改進，尤其在生成高保真密集地圖方面表現(xiàn)突出。然而，這些算法依賴于靜態(tài)環(huán)境假設(shè)，在動態(tài)環(huán)境中性能會大幅下降。本文提出的GGD -SLAM框架采用可泛化的運動模型，無需預定義語義標注或深度輸入即可應(yīng)對動態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。具體而言，該系統(tǒng)采用先進先出（First-In-First-Out，FIFO）隊列管理傳入幀，并通過順序注意力機制實現(xiàn)動態(tài)語義特征提?。煌瑫r整合動態(tài)特征增強器以分離靜態(tài)與動態(tài)成分。此外，為最小化動態(tài)干擾項對靜態(tài)成分的影響，我們提出利用靜態(tài)信息采樣填補被遮擋區(qū)域的方法，并設(shè)計了面向動態(tài)環(huán)境的抗干擾結(jié)構(gòu)相似性（

Structure Similarity Index Measure，SSIM）損失函數(shù)，顯著提升了系統(tǒng)的魯棒性?；谡鎸嵤澜鐒討B(tài)數(shù)據(jù)集的實驗表明，所提系統(tǒng)在動態(tài)場景下的相機位姿估計和密集地圖重建任務(wù)中均達到業(yè)界領(lǐng)先水平。

ICRA 2026丨GGD-SLAM：面向動態(tài)環(huán)境、基于通用運動模型的單目3D高斯濺射SLAM

圖1 研究動機：左圖：DyPho?SLAM 需要特定語義標簽和深度輸入來去除動態(tài)物體；右圖：WildGS?SLAM中的ML受限于單一場景的渲染效果；本文提出的GGD?SLAM引入了通用運動模型，無需語義標簽或深度輸入，減少了對單場景3DGS渲染損失監(jiān)督的依賴。

研究方法

給定單目相機（內(nèi)參已知）以固定幀率拍攝、包含動態(tài)物體的圖像序列 I={Ii}_i=1^N（I_i∈R^H×W×3），本文目標是求解對應(yīng)的相機位姿矩陣 T={T_i}_i=1^N，并逐幀更新高斯參數(shù) G={μ_j,α_j,∑_j,c_j}_j=1^n(G)。

高斯參數(shù)由空間位置 μ_j、不透明度 α_j、協(xié)方差矩陣 ∑_j 和基于球諧函數(shù)的顏色系數(shù) c_j 共同表征。求解 T 和 G 需滿足兩個核心要求：1）最小化絕對軌跡誤差的均方根值；2）實現(xiàn)最優(yōu)的高斯渲染效果，以精準表征靜態(tài)環(huán)境。

所提 GGD-SLAM 算法的整體流程通過一系列關(guān)聯(lián)模塊完成動態(tài)環(huán)境下的定位與稠密建圖任務(wù)，整體框架如圖 2 所示。

圖 2 GGD-SLAM 算法流程圖

2.1 通用運動模型

本文核心創(chuàng)新在于設(shè)計適用于時序圖像序列的動態(tài)語義提取通用運動模型，專門面向增量式 SLAM 系統(tǒng)（算法 1）。該模型無需單場景在線訓練，可作為 GS-SLAM 系統(tǒng)的強魯棒先驗。

1）數(shù)據(jù)預處理

輸入圖像 I_t 經(jīng)預訓練 DINOv2 特征提取器，得到圖像特征 x_t=DINOv2(I_t)∈R^{H′×W′×C}。其中，H′、W′ 為分塊嵌入后特征圖的空間下采樣維度，C 為通道維度。

但 x_t 僅捕捉 I_t 的結(jié)構(gòu)特征與靜態(tài)語義信息，缺乏建模場景演化所需的時序動態(tài)信息。為此，引入先進先出隊列 Q_t，逐幀聚合時序特征用于動態(tài)語義提取，更新規(guī)則如下：

隊列未滿時，在前端補零向量以維持時序一致性。動態(tài)語義由 L 幀間時序變化決定 ——L 越大，運動推理的時序上下文越豐富。

2）時序注意力機制

獲取當前幀結(jié)構(gòu)特征 x_t 與歷史特征隊列 Q_t 后，通過注意力機制融合上下文信息：

其中，Q_t∈R^{(1×H′×W′)×C}為當前幀特征生成的查詢向量；K_t,V_t∈R^{(L×H′×W′)×C}由歷史特征生成，用于構(gòu)建時序檢索索引，實現(xiàn)跨幀特征匹配；輸出F_attn,_t∈R^{H′×W′×C}為融合時序信息的增強特征，用于通用運動語義分割。

為強化動靜分離效果，將 F_attn,_t 輸入動態(tài)頭與靜態(tài)頭兩個獨立分支，得到解耦特征：動態(tài)屬性增強系數(shù) D∈R^{H′×W′×C}、靜態(tài)分量抑制系數(shù) S∈R^{H′×W′×C}。再通過門控注意力機制融合：

式中，⊙ 為哈達瑪積，平衡系數(shù) α 為可學習參數(shù)（初始值 0.5）。增強特征 F_enh,_t 與原始結(jié)構(gòu)特征 x_t 拼接后輸入前饋網(wǎng)絡(luò)，輸出低分辨率動態(tài)概率圖 M_raw,_t∈R^H′×W′；經(jīng)雙線性插值得到全分辨率動態(tài)概率圖 M_t∈R^H×W，像素值大小直接表示該位置為動態(tài)區(qū)域的概率。

3）模型訓練

為訓練能捕捉時空特征的通用運動模型，基于真實動態(tài)掩碼 M_gt,_t∈R^H×W 設(shè)計監(jiān)督損失函數(shù)：

基礎(chǔ)損失L_base：計算 M_gt,t 與 M_t 的像素級絕對誤差，保證幾何精度。
正則損失L_reg：引入二值熵懲罰項：

針對 0.5 附近的模糊預測，在中間值處梯度最大，推動輸出收斂至 {0,1}。

Dice 損失 L_dice：彌補像素級損失對結(jié)構(gòu)完整性捕捉不足的缺陷：

概率化輸出易引入動態(tài)關(guān)聯(lián)錯誤，模糊邊緣會降低跟蹤精度。推理階段采用大津自適應(yīng)閾值法對概率圖二值化，得到原始掩碼 M_raw,t；再用圓盤形結(jié)構(gòu)元 K_r 做形態(tài)學膨脹，細化動態(tài)物體邊緣，輸出通用動態(tài)先驗二值掩碼 M_t。

2.2 跟蹤模塊

基于現(xiàn)有研究基礎(chǔ)，引入 Metric3D-v2 輸出的尺度感知單目深度估計 D_est∈R^H×W，利用其跨場景零樣本泛化能力提升位姿估計魯棒性。

位姿估計采用 DROID-SLAM 的稠密光束平差法（DBA）框架，構(gòu)建幀圖 G=(V,E)：V 為關(guān)鍵幀集合，E 為關(guān)鍵幀間共視約束。目標是優(yōu)化相機位姿 T_[?]，并估計關(guān)鍵幀單目深度圖 d_[?]∈R^H×W。

動態(tài)點會導致因子圖構(gòu)建錯誤，降低計算效率與系統(tǒng)性能。為此，利用通用運動模型輸出動態(tài)先驗，完全剔除動態(tài)區(qū)域殘差：提取靜態(tài)分量 S_[?]=1?M_[?]，∑_[?] 為 DROID-SLAM 基礎(chǔ)協(xié)方差權(quán)重，將動態(tài)干擾轉(zhuǎn)化為可處理的優(yōu)化約束：

第一項：DROID-SLAM 單目位姿估計目標，動態(tài)區(qū)域殘差權(quán)重置零，排除非靜態(tài)干擾、提升效率；
第二項：深度監(jiān)督損失，利用神經(jīng)深度預測約束深度估計；
第三項：軌跡平滑正則化，懲罰相鄰幀間位姿突變。

2.3 建圖模塊

1 ）通用運動模型引導的不確定性估計

基于WildGS-SLAM的不確定性感知框架，將特征 x_t輸入淺層MLP P，預測不確定性圖 U_t=P(x_t)∈R^H×W。該方法可處理模糊干擾、提升渲染質(zhì)量，但過度依賴單場景3DGS渲染損失，單幀輸入易導致動態(tài)誤判。

為此，融合聚合時序特征的通用運動模型，將其作為時序先驗嵌入原框架：

L_3DGS：渲染圖像與輸入圖像的重建誤差，定義見式 (12)；
L_regU：不確定性正則項，L_reg_U=logU_t，防止不確定性值趨于無窮；
L_prior：先驗?zāi)Ｐ驼`差：

式中，T_max 為動態(tài)區(qū)域目標不確定性閾值。該損失緩解不確定性感知方法的動態(tài)誤判，同時兼容噪聲、光照變化等靜態(tài)干擾。

2）增量式高斯地圖構(gòu)建

獲取新關(guān)鍵幀后，增量式創(chuàng)建高斯以優(yōu)化地圖：對圖像中新觀測特征點，初始化高斯參數(shù) —— 顏色 c_? 取對應(yīng)像素顏色，空間位置 μ_? 由像素反投影得到，不透明度 α_? 初始化為 0.5，半徑初始化為 0.1。

當幀中存在動態(tài)物體時，通過動態(tài)區(qū)域鄰域隨機采樣維持遮擋區(qū)域幾何連續(xù)性：為當前幀靜態(tài)高斯的二維坐標 (μ_?,x,μ_?,y) 構(gòu)建 KD 樹；對動態(tài)點 μ_i∈M_t，查詢其 k 近鄰靜態(tài)高斯，隨機采樣鄰域內(nèi)靜態(tài)點，替換動態(tài)點的深度與顏色屬性：

再對遮擋點執(zhí)行尺度擴張與不透明度增強，緩解遮擋區(qū)域點云稀疏導致的優(yōu)化效率下降問題

3）高斯參數(shù)更新

高斯地圖渲染RGB圖像流程：按視角深度對3D 高斯排序，通過 α 混合投影渲染像素顏色 I_r 與深度 D_r：

通過梯度下降迭代更新高斯參數(shù)，最小化建圖損失：

L_3DGS：渲染圖像與輸入圖像、深度估計的殘差，通過不確定性圖逐元素加權(quán)：

L_iso：尺度正則項，抑制稀疏區(qū)域偽影；
L_ssim：傳統(tǒng)SSIM損失計算局部亮度、對比度、空間相關(guān)性，動態(tài)場景中易受干擾。傳統(tǒng)方法先算SSIM 圖再剔除動態(tài)區(qū)域，仍會殘留污染（如圖3）。本文提出動態(tài)自適應(yīng)SSIM：用單位卷積核 w_unit 與靜態(tài)分量S_t做哈達瑪積與卷積，生成自適應(yīng)核 w_ad(O) 并統(tǒng)計有效靜態(tài)像素數(shù) N^ad(O)，僅在純靜態(tài)區(qū)域計算 SSIM：

對比度與空間相關(guān)性計算同理，最終得到純凈的動態(tài)自適應(yīng) SSIM 圖。

圖 3 動態(tài)自適應(yīng) SSIM 示意圖

實驗

3.1 跟蹤性能評估

為驗證本文提出的通用動態(tài)語義提取網(wǎng)絡(luò)，以 fr3/w/half 序列為例進行可視化（圖4）?；趩螏瑘D像的特定標簽分割在小目標、快速運動模糊物體、相機大幅運動場景下易出現(xiàn)誤分類；WildGS?SLAM 的不確定性感知方法在背景區(qū)域極易誤判，導致有效圖像信息不足，進而降低定位精度與背景重建質(zhì)量。相比之下，本文的通用動態(tài)語義提取網(wǎng)絡(luò)可基于歷史幀提取運動物體語義，提取效果優(yōu)異。僅使用基礎(chǔ)損失進行像素級學習會限制結(jié)構(gòu)特征保留，產(chǎn)生明顯噪聲；在第 800 幀中，椅子在單幀下看似靜止，但在長期歷史觀測中存在運動，模型可準確將其判定為動態(tài)。

圖 4：不同動態(tài)提取器在 fr3/w/half 序列上的定性結(jié)果

表 1：在 TUM 與 Bonn 挑戰(zhàn)性數(shù)據(jù)集動態(tài)場景下的相機跟蹤結(jié)果

表1給出 TUM 與波恩動態(tài)場景下的相機跟蹤結(jié)果。基于 RGBD 的方法因深度傳感器提供精確絕對尺度，定位精度表現(xiàn)較強。盡管 Dy3DGS?SLAM、WildGS?SLAM 等單目動態(tài) SLAM 系統(tǒng)具備動態(tài)物體處理能力，但因缺乏精準的動態(tài)干擾識別方法、引入錯誤數(shù)據(jù)關(guān)聯(lián)，性能仍低于本文方法。本文方法結(jié)合高效的、面向增量式 SLAM 輸入的通用運動模型，在 fr3/w/half、bonn/crowd2 等高動態(tài)序列中實現(xiàn)了超越 RGBD 方法的跟蹤精度。在 TUM 與波恩數(shù)據(jù)集上的消融實驗（表2）驗證了各模塊的有效性：通用先驗、大津二值化、平滑項均能提升系統(tǒng)魯棒性。

表 2：在 Bonn RGB?D 動態(tài)數(shù)據(jù)集上的消融實驗

3.2 建圖性能評估

將本文方法與開源 3DGS SLAM 算法對比，評估建圖能力。如圖 5 所示：DG?SLAM、DyPho?SLAM 需要語義標簽與深度輸入；MonoGS、Splatam 在動態(tài)干擾下性能嚴重下降；WildGS?SLAM 依賴 3DGS 渲染，相機大幅運動后背景渲染效果差，導致動態(tài)物體誤判、系統(tǒng)性能下降，且邊緣物體遮擋去除不徹底，殘留偽影。本文 GGD?SLAM 可有效消除動態(tài)干擾，同時保持高質(zhì)量背景渲染。

圖 5：當前主流高斯濺射 SLAM 方法的渲染結(jié)果對比

如表3 所示，本文方法在 TUM、波恩動態(tài)序列上，單目 3DGS 類方法中取得最優(yōu)性能。針對干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復的消融實驗（表4）驗證了建圖模塊的有效性。

表 3：在 TUM 與 Bonn 動態(tài)數(shù)據(jù)集上的建圖結(jié)果

表 4：干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復方法的消融實驗

3.3 更通用場景下的驗證

在更通用的 Wild?SLAM 數(shù)據(jù)集上驗證本文的通用動態(tài)語義提取網(wǎng)絡(luò)（圖 6）。模型成功分割各類運動物體，引導不確定性生成，實現(xiàn)高質(zhì)量渲染。與 TUM、波恩數(shù)據(jù)集相比，Wild?SLAM 數(shù)據(jù)集圖像分辨率更高、相機運動更平緩，3DGS 渲染質(zhì)量更易達到較高水平。在此條件下，不確定性感知機制可有效適配，GGD?SLAM 與 WildGS?SLAM 均取得極高性能。