復旦可信具身智能研究院&上海交大：給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

本文作者：鄭佳美

2026-05-21 11:29

導語：從街景到仿真，離線地理信息正在成為車輛理解復雜道路的新線索。

復旦可信具身智能研究院&上海交大：給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

從街景到仿真，離線地理信息正在成為車輛理解復雜道路的新線索。

作者丨鄭佳美

編輯丨馬曉寧

大模型的發(fā)展表明，智能體不能只依賴一次性的上下文輸入，還需要能夠檢索、利用和管理長期記憶。自動駕駛也正在走向類似的路徑：車輛不應只是根據(jù)當前攝像頭和傳感器看到的內(nèi)容做即時判斷，而應具備一種可檢索的空間記憶，能夠調(diào)取當前位置長期積累的道路結(jié)構(gòu)信息。對于自動駕駛來說，這種記憶可以來自街景圖、衛(wèi)星圖、歷史地圖和車隊經(jīng)驗，從而當傳感器“看不清、看不全、看不遠”時，車輛仍然能理解自己所在的道路空間。

在真實道路上，這類問題幾乎無處不在。夜間經(jīng)過一個沒有路燈的路口，攝像頭里車道線被陰影吞沒，雨天行駛在城區(qū)主干道，玻璃反光和水霧讓路沿、人行橫道變得模糊，駛?cè)霃碗s立交或多岔路口時，車端傳感器看到的只是當前一小段畫面，卻需要對完整道路結(jié)構(gòu)做出判斷。

人類司機在這種情況下，往往不會只依賴眼前一幀畫面。我們會調(diào)動對道路的記憶：這里原本有幾條車道，路口在哪里分叉，人行橫道大概在什么位置，前方是不是高架匝道。

也就是說，人類駕駛天然具備一種“空間記憶”。但長期以來，自動駕駛模型大多仍被限制在實時傳感器輸入之內(nèi)，車輛只能根據(jù)當前攝像頭、激光雷達或 IMU 看到的信息進行判斷。一旦遇到遮擋、低光、雨霧和長尾場景，模型就容易失去穩(wěn)定的空間參考。

正是在這一背景下，由復旦大學可信具身智能研究院&上海交大團隊提出了論文《Spatial Retrieval Augmented Autonomous Driving》。這項工作的關(guān)鍵思路不是再給車輛增加一種昂貴傳感器，而是讓自動駕駛系統(tǒng)學會“回憶”當前位置的地理信息：根據(jù)車輛 GPS 和位姿，檢索對應位置的街景圖、衛(wèi)星圖等歷史地理圖像，再將這些 Geo 信息與車載相機特征融合，為模型提供額外的道路結(jié)構(gòu)參考。

更重要的是，這篇論文并沒有把 Geo 圖像包裝成萬能答案。研究結(jié)果反而清楚地表明：地理圖像最擅長補充的是穩(wěn)定、長期存在的道路結(jié)構(gòu)信息，例如車道線、道路邊界、人行道、建筑和可行駛區(qū)域，而對于車輛、行人等實時變化的動態(tài)目標，它的幫助十分有限。

這一結(jié)論讓這項研究的意義更加明確——Geo 不是要替代實時感知，而是要成為自動駕駛系統(tǒng)中的一種空間先驗，讓車輛在看不清當前世界時，仍然能夠參考“這條路原本是什么樣子”。

因此，這項工作真正打開的不是某個單一指標的提升，而是一種新的自動駕駛范式：從“只依賴當前傳感器”走向“實時感知 + 歷史地理記憶”。在自動駕駛進入長尾場景、安全冗余和世界模型競爭的新階段后，這種檢索增強式思路，可能會成為下一代自動駕駛系統(tǒng)理解道路空間的重要補充。

論文地址：https://arxiv.org/pdf/2512.06865

Geo 的適用邊界

整體來看，研究團隊發(fā)現(xiàn)不同任務對地理圖像的受益程度差異明顯。靜態(tài)道路結(jié)構(gòu)相關(guān)任務提升較大，比如在線建圖、占用預測和世界模型，而動態(tài)目標相關(guān)任務提升較小，例如 3D 目標檢測。

研究人員認為，這是因為地理圖像能夠提供道路、車道、人行道和建筑等穩(wěn)定背景信息，但無法反映當前時刻道路上的車輛和行人等動態(tài)目標，因此它更適合作為空間結(jié)構(gòu)參考。

在線建圖是提升最明顯的任務。因為這類任務主要識別車道線、道路邊界和人行橫道等靜態(tài)元素，所以 Geo 圖像能夠有效補充道路結(jié)構(gòu)信息。

研究中，MapTR 的 mAP 從 50.3 提升到 61.2，MapTRv2 的 mAP 從 61.5 提升到 73.4。研究人員發(fā)現(xiàn)，在低曝光、雨天和遮擋場景下，加入 Geo 后模型能夠恢復更多道路細節(jié)，說明地理圖像相當于為模型提供了當前位置原本的道路結(jié)構(gòu)參考。

占用預測同樣獲得提升，但幅度沒有在線建圖那么明顯。Geo 的作用主要集中在可行駛區(qū)域、人行道和地形等靜態(tài)區(qū)域。實驗中，F(xiàn)BOcc 的整體 mIoU 從 39.11 提升到 39.74，其中可行駛區(qū)域從 80.07 提升到 82.47。研究人員認為，這說明 Geo 更適合幫助模型理解道路空間結(jié)構(gòu)，而不是實時動態(tài)物體信息。

相比之下，目標檢測提升非常有限。BEVFormer 的 mAP 僅從 41.60 提升到 41.64。研究團隊指出，目標檢測主要關(guān)注當前車輛和行人，而 Geo 圖像屬于離線地圖或街景信息，無法反映實時動態(tài)場景，因此幫助較小。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

端到端規(guī)劃中，Geo 對軌跡誤差影響不大，但能夠提升安全性。實驗結(jié)果顯示，Night 場景下碰撞率從 0.55% 降到 0.48%。研究人員認為，這說明 Geo 不一定讓軌跡預測更接近真實軌跡，但在夜間、雨霧和復雜路口等低能見度環(huán)境中，能夠提供更穩(wěn)定的道路參考，從而降低碰撞風險。

世界模型也是受益較明顯的任務。研究人員發(fā)現(xiàn)，長時間生成駕駛視頻時，模型容易出現(xiàn)道路漂移和背景不一致問題，而 Geo 圖像能夠提供真實道路結(jié)構(gòu)約束。實驗中，UVG 的 FVD 從 36.10 降到 29.97，說明生成結(jié)果更加穩(wěn)定，幻覺現(xiàn)象也更少。

最后，消融實驗進一步驗證了方法有效性。沒有 Geo 時，靜態(tài) mIoU 為 46.66，加入 Geo 后提升到 47.86。研究團隊認為，這說明性能提升并不是偶然結(jié)果，Geo 圖像、位置編碼以及可靠性估計模塊都對整體性能提升起到了重要作用。

從地理檢索到可靠融合

研究團隊首先基于 nuScenes 構(gòu)建了一個新的擴展數(shù)據(jù)集 nuScenes-Geography，希望讓自動駕駛模型除了使用車載攝像頭信息外，還能夠利用當前位置對應的地理圖像信息。

研究人員先根據(jù) nuScenes 中提供的車輛位姿數(shù)據(jù)，計算每一幀對應的經(jīng)緯度坐標，再通過 Google Maps API 獲取對應位置的街景圖和衛(wèi)星圖。得到地理圖像后，研究人員進一步將這些圖像與車載相機畫面進行空間對齊，使模型能夠同時看到“當前車載視角”和“當前位置對應的歷史地理視角”。

實驗結(jié)果顯示，train split 中可用地理圖像占 94.32%，val split 中占 92.41%，說明大部分場景都能夠成功獲取 Geo 信息，數(shù)據(jù)覆蓋率較高，實驗并不是只在少量理想樣本中進行。

在構(gòu)建數(shù)據(jù)集過程中，研究團隊發(fā)現(xiàn)街景圖并不是按車輛每一幀單獨采集的，很多連續(xù)車載幀實際上會對應同一個街景位置。如果按照每一幀單獨下載街景圖，不僅會產(chǎn)生大量重復數(shù)據(jù)，也會造成很高的存儲和計算成本。

因此研究人員沒有采用逐幀下載方式，而是讓每個街景位置只下載一次數(shù)據(jù)。為了盡可能覆蓋不同方向的視角，研究團隊會在同一個街景位置下載 18 個不同方向的街景視角，并將這些視角合成為全景圖。

之后，系統(tǒng)再根據(jù)當前車載相機的方向、位置和視角參數(shù)，從全景圖中重新投影得到與當前駕駛視角更接近的 Geo 圖像。研究結(jié)果顯示，這種方法相比逐幀下載街景裁剪圖節(jié)省超過 70% 的存儲空間，同時還能減少重復數(shù)據(jù)，提高系統(tǒng)實際部署時的可行性。

研究人員還發(fā)現(xiàn)，Geo 圖像并不一定始終可靠?，F(xiàn)實場景中可能出現(xiàn)街景缺失、街景數(shù)據(jù)過時、GPS 定位誤差、高架道路與地面道路混淆以及道路施工導致環(huán)境變化等問題。例如，街景圖可能拍攝于數(shù)月甚至數(shù)年前，而當前道路結(jié)構(gòu)已經(jīng)發(fā)生變化。如果模型完全依賴這些 Geo 信息，就可能出現(xiàn)錯誤判斷。

因此研究團隊專門設計了可靠性估計模塊 REG，用來判斷當前檢索到的 Geo 圖像是否可信。研究人員會同時考慮 Geo 圖像與當前車載圖像之間的視覺相似性，以及地理位置之間的匹配程度，從而決定模型應該多大程度使用 Geo 信息。

為了訓練這個模塊，研究團隊人工標注了 1800 個錯位樣本。實驗中，train split 的錯位圖像占 4.93%，缺失圖像占 0.75%，val split 的錯位圖像占 6.88%，缺失圖像占 0.71%。這些結(jié)果說明研究并沒有默認 Geo 永遠正確，而是讓模型在 Geo 信息可信時增強使用，在 Geo 不可靠時降低影響，從而提高整體系統(tǒng)穩(wěn)定性。雷峰網(wǎng)

完成數(shù)據(jù)處理后，研究團隊開始把 Geo 接入不同自動駕駛?cè)蝿罩羞M行驗證。對于車端任務，研究人員首先從車載圖像中提取 BEV 特征，再把檢索到的 Geo 圖像編碼成另一組特征，隨后通過適配模塊將兩種特征融合到同一個空間表示中。

研究團隊希望讓模型不僅能夠利用當前傳感器看到的信息，還能夠利用當前位置對應的歷史道路結(jié)構(gòu)信息。研究覆蓋了多個任務，包括 3D 目標檢測、在線建圖、占用預測以及端到端規(guī)劃。對于世界模型任務，研究人員采用了不同策略。

由于世界模型需要生成未來駕駛視頻，因此系統(tǒng)會根據(jù)未來軌跡提前檢索對應位置的地理圖像，再利用這些 Geo 信息約束未來場景生成過程。研究團隊希望通過這種方式減少長時間視頻生成中的道路漂移、背景變化和場景幻覺問題。

整個實驗流程的核心目標，是驗證 Geo 是否能夠成為自動駕駛系統(tǒng)中的一種“空間記憶”。研究團隊并不是只想證明某一個模型在指標上略有提升，而是希望說明自動駕駛模型除了依賴當前傳感器外，還能夠通過檢索當前位置的歷史地理圖像獲得額外空間參考信息。

因此，研究人員把 Geo 接入多個不同任務和模型中，希望驗證這種方法是否具備通用性，以及它究竟更適合哪些類型的自動駕駛?cè)蝿铡?/span>

從感知增強到仿真約束 Geo

研究團隊最重要的貢獻，并不只是提升了幾個實驗指標，而是提出了一種新的自動駕駛思路。過去的自動駕駛系統(tǒng)主要依賴實時傳感器輸入，也就是車輛只能根據(jù)“當前看到的內(nèi)容”進行判斷，而這項研究證明，自動駕駛還可以主動檢索當前位置對應的歷史地理圖像，從而獲得一種類似“空間記憶”的能力。這意味著自動駕駛模型開始從單純的實時感知，轉(zhuǎn)向“實時感知 + 歷史空間記憶”結(jié)合的方式。

研究團隊認為，這項研究真正的重要性，在于打開了“檢索增強自動駕駛”這一新方向。過去自動駕駛研究更多關(guān)注傳感器、模型結(jié)構(gòu)和端到端學習，而這項研究開始嘗試把外部地理信息引入自動駕駛系統(tǒng)。

未來還可以繼續(xù)擴展，例如利用車隊歷史數(shù)據(jù)替代公開地圖，或者同時檢索多個附近視角，從而進一步提升自動駕駛系統(tǒng)的空間理解能力。

成果背后的科研團隊

賈蕭松，復旦大學可信具身智能研究院助理教授，研究院是復旦面向下一代人工智能設立的校級實體化科研機構(gòu)，重點研究 AI 如何從數(shù)字空間走向物理世界。它不只關(guān)注具身智能體“能不能感知、能不能行動”，也關(guān)注它們在真實環(huán)境中是否安全、可靠、可控。研究院圍繞具身基礎(chǔ)模型、數(shù)據(jù)引擎、具身交互、本體研制和可信機制五大方向展開布局，試圖打通從模型、數(shù)據(jù)、硬件到安全評估的全鏈條，為工業(yè)生產(chǎn)、智能制造等場景提供底層技術(shù)支撐。

官網(wǎng)主頁：https://teai.fudan.edu.cn/

賈蕭松本博畢業(yè)于上海交通大學，導師為嚴駿馳教授，其研究主要圍繞自動駕駛與具身智能展開，覆蓋端到端自動駕駛、閉環(huán)評測、世界模型、強化學習、軌跡預測、多傳感器融合等方向，同時也關(guān)注利用生成式模型和重建式模型構(gòu)建更真實的世界模擬器，并結(jié)合模仿學習與強化學習訓練端到端決策智能體。在學術(shù)成果方面，他已在 IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR 等國際頂級會議和期刊發(fā)表論文 40余篇，其參與研究曾獲得 ICCV 2021 Mair2 Workshop 最佳學生論文獎和 CVPR 2023 最佳論文獎，另有研究成果獲得 2025年 Waymo 仿真智能體世界模型挑戰(zhàn)賽冠軍。谷歌學術(shù)引用 4000 余次。此外，他還擔任 NeurIPS與ICLR的Area Chair和TPAMI、TRO等期刊的審稿人。