日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

本文作者: 鄭佳美   2026-05-21 11:29 專題:CVPR 計算機視覺與模式識別會議
導語:從街景到仿真,離線地理信息正在成為車輛理解復雜道路的新線索。
復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026
從街景到仿真,離線地理信息正在成為車輛理解復雜道路的新線索。

    作者丨鄭佳美

    編輯丨馬曉寧

                                                                                                               

大模型的發(fā)展表明,智能體不能只依賴一次性的上下文輸入,還需要能夠檢索、利用和管理長期記憶。自動駕駛也正在走向類似的路徑:車輛不應只是根據(jù)當前攝像頭和傳感器看到的內(nèi)容做即時判斷,而應具備一種可檢索的空間記憶,能夠調(diào)取當前位置長期積累的道路結(jié)構(gòu)信息。對于自動駕駛來說,這種記憶可以來自街景圖、衛(wèi)星圖、歷史地圖和車隊經(jīng)驗,從而當傳感器“看不清、看不全、看不遠”時,車輛仍然能理解自己所在的道路空間。

在真實道路上,這類問題幾乎無處不在。夜間經(jīng)過一個沒有路燈的路口,攝像頭里車道線被陰影吞沒,雨天行駛在城區(qū)主干道,玻璃反光和水霧讓路沿、人行橫道變得模糊,駛?cè)霃碗s立交或多岔路口時,車端傳感器看到的只是當前一小段畫面,卻需要對完整道路結(jié)構(gòu)做出判斷。

人類司機在這種情況下,往往不會只依賴眼前一幀畫面。我們會調(diào)動對道路的記憶:這里原本有幾條車道,路口在哪里分叉,人行橫道大概在什么位置,前方是不是高架匝道。

也就是說,人類駕駛天然具備一種“空間記憶”。但長期以來,自動駕駛模型大多仍被限制在實時傳感器輸入之內(nèi),車輛只能根據(jù)當前攝像頭、激光雷達或 IMU 看到的信息進行判斷。一旦遇到遮擋、低光、雨霧和長尾場景,模型就容易失去穩(wěn)定的空間參考。

正是在這一背景下,由復旦大學可信具身智能研究院&上海交大團隊提出了論文《Spatial Retrieval Augmented Autonomous Driving》。這項工作的關(guān)鍵思路不是再給車輛增加一種昂貴傳感器,而是讓自動駕駛系統(tǒng)學會“回憶”當前位置的地理信息:根據(jù)車輛 GPS 和位姿,檢索對應位置的街景圖、衛(wèi)星圖等歷史地理圖像,再將這些 Geo 信息與車載相機特征融合,為模型提供額外的道路結(jié)構(gòu)參考。

更重要的是,這篇論文并沒有把 Geo 圖像包裝成萬能答案。研究結(jié)果反而清楚地表明:地理圖像最擅長補充的是穩(wěn)定、長期存在的道路結(jié)構(gòu)信息,例如車道線、道路邊界、人行道、建筑和可行駛區(qū)域,而對于車輛、行人等實時變化的動態(tài)目標,它的幫助十分有限。

這一結(jié)論讓這項研究的意義更加明確——Geo 不是要替代實時感知,而是要成為自動駕駛系統(tǒng)中的一種空間先驗,讓車輛在看不清當前世界時,仍然能夠參考“這條路原本是什么樣子”。

因此,這項工作真正打開的不是某個單一指標的提升,而是一種新的自動駕駛范式:從“只依賴當前傳感器”走向“實時感知 + 歷史地理記憶”。在自動駕駛進入長尾場景、安全冗余和世界模型競爭的新階段后,這種檢索增強式思路,可能會成為下一代自動駕駛系統(tǒng)理解道路空間的重要補充。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

論文地址:https://arxiv.org/pdf/2512.06865

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

01


Geo 的適用邊界

整體來看,研究團隊發(fā)現(xiàn)不同任務對地理圖像的受益程度差異明顯。靜態(tài)道路結(jié)構(gòu)相關(guān)任務提升較大,比如在線建圖、占用預測和世界模型,而動態(tài)目標相關(guān)任務提升較小,例如 3D 目標檢測。

研究人員認為,這是因為地理圖像能夠提供道路、車道、人行道和建筑等穩(wěn)定背景信息,但無法反映當前時刻道路上的車輛和行人等動態(tài)目標,因此它更適合作為空間結(jié)構(gòu)參考。

在線建圖是提升最明顯的任務。因為這類任務主要識別車道線、道路邊界和人行橫道等靜態(tài)元素,所以 Geo 圖像能夠有效補充道路結(jié)構(gòu)信息。

研究中,MapTR 的 mAP 從 50.3 提升到 61.2,MapTRv2 的 mAP 從 61.5 提升到 73.4。研究人員發(fā)現(xiàn),在低曝光、雨天和遮擋場景下,加入 Geo 后模型能夠恢復更多道路細節(jié),說明地理圖像相當于為模型提供了當前位置原本的道路結(jié)構(gòu)參考。

占用預測同樣獲得提升,但幅度沒有在線建圖那么明顯。Geo 的作用主要集中在可行駛區(qū)域、人行道和地形等靜態(tài)區(qū)域。實驗中,F(xiàn)BOcc 的整體 mIoU 從 39.11 提升到 39.74,其中可行駛區(qū)域從 80.07 提升到 82.47。研究人員認為,這說明 Geo 更適合幫助模型理解道路空間結(jié)構(gòu),而不是實時動態(tài)物體信息。

相比之下,目標檢測提升非常有限。BEVFormer 的 mAP 僅從 41.60 提升到 41.64。研究團隊指出,目標檢測主要關(guān)注當前車輛和行人,而 Geo 圖像屬于離線地圖或街景信息,無法反映實時動態(tài)場景,因此幫助較小。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

端到端規(guī)劃中,Geo 對軌跡誤差影響不大,但能夠提升安全性。實驗結(jié)果顯示,Night 場景下碰撞率從 0.55% 降到 0.48%。研究人員認為,這說明 Geo 不一定讓軌跡預測更接近真實軌跡,但在夜間、雨霧和復雜路口等低能見度環(huán)境中,能夠提供更穩(wěn)定的道路參考,從而降低碰撞風險。

世界模型也是受益較明顯的任務。研究人員發(fā)現(xiàn),長時間生成駕駛視頻時,模型容易出現(xiàn)道路漂移和背景不一致問題,而 Geo 圖像能夠提供真實道路結(jié)構(gòu)約束。實驗中,UVG 的 FVD 從 36.10 降到 29.97,說明生成結(jié)果更加穩(wěn)定,幻覺現(xiàn)象也更少。

最后,消融實驗進一步驗證了方法有效性。沒有 Geo 時,靜態(tài) mIoU 為 46.66,加入 Geo 后提升到 47.86。研究團隊認為,這說明性能提升并不是偶然結(jié)果,Geo 圖像、位置編碼以及可靠性估計模塊都對整體性能提升起到了重要作用。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026
復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

02


從地理檢索到可靠融合

研究團隊首先基于 nuScenes 構(gòu)建了一個新的擴展數(shù)據(jù)集 nuScenes-Geography,希望讓自動駕駛模型除了使用車載攝像頭信息外,還能夠利用當前位置對應的地理圖像信息。

研究人員先根據(jù) nuScenes 中提供的車輛位姿數(shù)據(jù),計算每一幀對應的經(jīng)緯度坐標,再通過 Google Maps API 獲取對應位置的街景圖和衛(wèi)星圖。得到地理圖像后,研究人員進一步將這些圖像與車載相機畫面進行空間對齊,使模型能夠同時看到“當前車載視角”和“當前位置對應的歷史地理視角”。

實驗結(jié)果顯示,train split 中可用地理圖像占 94.32%,val split 中占 92.41%,說明大部分場景都能夠成功獲取 Geo 信息,數(shù)據(jù)覆蓋率較高,實驗并不是只在少量理想樣本中進行。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

在構(gòu)建數(shù)據(jù)集過程中,研究團隊發(fā)現(xiàn)街景圖并不是按車輛每一幀單獨采集的,很多連續(xù)車載幀實際上會對應同一個街景位置。如果按照每一幀單獨下載街景圖,不僅會產(chǎn)生大量重復數(shù)據(jù),也會造成很高的存儲和計算成本。

因此研究人員沒有采用逐幀下載方式,而是讓每個街景位置只下載一次數(shù)據(jù)。為了盡可能覆蓋不同方向的視角,研究團隊會在同一個街景位置下載 18 個不同方向的街景視角,并將這些視角合成為全景圖。

之后,系統(tǒng)再根據(jù)當前車載相機的方向、位置和視角參數(shù),從全景圖中重新投影得到與當前駕駛視角更接近的 Geo 圖像。研究結(jié)果顯示,這種方法相比逐幀下載街景裁剪圖節(jié)省超過 70% 的存儲空間,同時還能減少重復數(shù)據(jù),提高系統(tǒng)實際部署時的可行性。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

研究人員還發(fā)現(xiàn),Geo 圖像并不一定始終可靠?,F(xiàn)實場景中可能出現(xiàn)街景缺失、街景數(shù)據(jù)過時、GPS 定位誤差、高架道路與地面道路混淆以及道路施工導致環(huán)境變化等問題。例如,街景圖可能拍攝于數(shù)月甚至數(shù)年前,而當前道路結(jié)構(gòu)已經(jīng)發(fā)生變化。如果模型完全依賴這些 Geo 信息,就可能出現(xiàn)錯誤判斷。

因此研究團隊專門設計了可靠性估計模塊 REG,用來判斷當前檢索到的 Geo 圖像是否可信。研究人員會同時考慮 Geo 圖像與當前車載圖像之間的視覺相似性,以及地理位置之間的匹配程度,從而決定模型應該多大程度使用 Geo 信息。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

為了訓練這個模塊,研究團隊人工標注了 1800 個錯位樣本。實驗中,train split 的錯位圖像占 4.93%,缺失圖像占 0.75%,val split 的錯位圖像占 6.88%,缺失圖像占 0.71%。這些結(jié)果說明研究并沒有默認 Geo 永遠正確,而是讓模型在 Geo 信息可信時增強使用,在 Geo 不可靠時降低影響,從而提高整體系統(tǒng)穩(wěn)定性。雷峰網(wǎng)

完成數(shù)據(jù)處理后,研究團隊開始把 Geo 接入不同自動駕駛?cè)蝿罩羞M行驗證。對于車端任務,研究人員首先從車載圖像中提取 BEV 特征,再把檢索到的 Geo 圖像編碼成另一組特征,隨后通過適配模塊將兩種特征融合到同一個空間表示中。

研究團隊希望讓模型不僅能夠利用當前傳感器看到的信息,還能夠利用當前位置對應的歷史道路結(jié)構(gòu)信息。研究覆蓋了多個任務,包括 3D 目標檢測、在線建圖、占用預測以及端到端規(guī)劃。對于世界模型任務,研究人員采用了不同策略。

由于世界模型需要生成未來駕駛視頻,因此系統(tǒng)會根據(jù)未來軌跡提前檢索對應位置的地理圖像,再利用這些 Geo 信息約束未來場景生成過程。研究團隊希望通過這種方式減少長時間視頻生成中的道路漂移、背景變化和場景幻覺問題。

整個實驗流程的核心目標,是驗證 Geo 是否能夠成為自動駕駛系統(tǒng)中的一種“空間記憶”。研究團隊并不是只想證明某一個模型在指標上略有提升,而是希望說明自動駕駛模型除了依賴當前傳感器外,還能夠通過檢索當前位置的歷史地理圖像獲得額外空間參考信息。

因此,研究人員把 Geo 接入多個不同任務和模型中,希望驗證這種方法是否具備通用性,以及它究竟更適合哪些類型的自動駕駛?cè)蝿铡?/span>

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026
復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

03


從感知增強到仿真約束 Geo

研究團隊最重要的貢獻,并不只是提升了幾個實驗指標,而是提出了一種新的自動駕駛思路。過去的自動駕駛系統(tǒng)主要依賴實時傳感器輸入,也就是車輛只能根據(jù)“當前看到的內(nèi)容”進行判斷,而這項研究證明,自動駕駛還可以主動檢索當前位置對應的歷史地理圖像,從而獲得一種類似“空間記憶”的能力。這意味著自動駕駛模型開始從單純的實時感知,轉(zhuǎn)向“實時感知 + 歷史空間記憶”結(jié)合的方式。

研究團隊認為,這項研究真正的重要性,在于打開了“檢索增強自動駕駛”這一新方向。過去自動駕駛研究更多關(guān)注傳感器、模型結(jié)構(gòu)和端到端學習,而這項研究開始嘗試把外部地理信息引入自動駕駛系統(tǒng)。

未來還可以繼續(xù)擴展,例如利用車隊歷史數(shù)據(jù)替代公開地圖,或者同時檢索多個附近視角,從而進一步提升自動駕駛系統(tǒng)的空間理解能力。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

04


成果背后的科研團隊

賈蕭松,復旦大學可信具身智能研究院助理教授,研究院是復旦面向下一代人工智能設立的校級實體化科研機構(gòu),重點研究 AI 如何從數(shù)字空間走向物理世界。它不只關(guān)注具身智能體“能不能感知、能不能行動”,也關(guān)注它們在真實環(huán)境中是否安全、可靠、可控。研究院圍繞具身基礎(chǔ)模型、數(shù)據(jù)引擎、具身交互、本體研制和可信機制五大方向展開布局,試圖打通從模型、數(shù)據(jù)、硬件到安全評估的全鏈條,為工業(yè)生產(chǎn)、智能制造等場景提供底層技術(shù)支撐。

官網(wǎng)主頁:https://teai.fudan.edu.cn/

賈蕭松本博畢業(yè)于上海交通大學,導師為嚴駿馳教授,其研究主要圍繞自動駕駛與具身智能展開,覆蓋端到端自動駕駛、閉環(huán)評測、世界模型、強化學習、軌跡預測、多傳感器融合等方向,同時也關(guān)注利用生成式模型和重建式模型構(gòu)建更真實的世界模擬器,并結(jié)合模仿學習與強化學習訓練端到端決策智能體。在學術(shù)成果方面,他已在 IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR 等國際頂級會議和期刊發(fā)表論文 40余篇,其參與研究曾獲得 ICCV 2021 Mair2 Workshop 最佳學生論文獎和 CVPR 2023 最佳論文獎,另有研究成果獲得 2025年 Waymo 仿真智能體世界模型挑戰(zhàn)賽冠軍。谷歌學術(shù)引用 4000 余次。此外,他還擔任 NeurIPS與ICLR的Area Chair和TPAMI、TRO等期刊的審稿人。

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

參考鏈接:https://jiaxiaosong1002.github.io/

這次去 CVPR 現(xiàn)場,一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么:把你最關(guān)注的10個大會報告,每頁PPT都拍下來

你能獲得什么?

認識大牛:你將可以進入CVPR名師博士社群;

錢多活少:提供豐厚獎金,任務量精簡;

聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術(shù)社區(qū)做貢獻、認識更多大牛,歡迎聯(lián)系我們:[添加微信號:MS_Yahei]

限額5位,先到先得

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

復旦可信具身智能研究院&上海交大:給自動駕駛裝上可檢索的「空間記憶」丨CVPR 2026

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說