ICRA 2026｜清華大學&高德聯(lián)合發(fā)布SSM-VLA："空間感知+動態(tài)預判"，讓機器人"看見"物理世界

本文作者：陳淑瑜

2026-05-25 13:53

導語：SSM-VLA（Seeing Space and Motion），通過創(chuàng)新的"遠視潛動作建模"技術，讓機器人首次具備了幾何感知的場景理解能力和多尺度時序建模能力

來源：公眾號“高德技術”

原文鏈接：https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA

論文主題｜Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA

在機器人"大腦"的進化之路上，如何讓AI真正理解三維空間的結構關系，并預判物體的運動軌跡，一直是困擾業(yè)界的難題。近日，清華大學深圳國際研究生院與阿里巴巴集團旗下高德地圖聯(lián)合研究團隊發(fā)布了一項突破性成果——SSM-VLA（Seeing Space and Motion），通過創(chuàng)新的"遠視潛動作建模"技術，讓機器人首次具備了幾何感知的場景理解能力和多尺度時序建模能力，在多項機器人操控基準測試中創(chuàng)下 SOTA 成績。

關鍵挑戰(zhàn)：為什么機器人"看不準、想不遠"？

如果把機器人比作廚師，現(xiàn)有的VLA模型就像一位"色盲且健忘"的學徒：它能讀出菜譜（語言理解），卻分不清食材的遠近深淺（空間感知弱）；剛看一眼鍋里的狀態(tài)就忘了（時序建模差），導致動作斷斷續(xù)續(xù)、缺乏連貫性。

具體而言，當前主流方法存在兩大結構性缺陷：

瓶頸一：空間感知"浮于表面"

現(xiàn)有VLA模型多采用端到端訓練的RGB編碼器，其視覺表征偏向顏色、紋理等表層語義，缺乏對物體關系、場景布局、深度信息的顯式建模。這就像讓一位平面設計師去當建筑師——審美在線，但看不懂施工圖。結果是：機器人能認出"紅色積木"，卻判斷不好"它離我有多遠"、"該從哪個角度抓取"。

瓶頸二：時序建模"鼠目寸光"

絕大多數(shù)潛在動作模型（LAM）僅輸入兩幀圖像（當前幀+目標幀）來預測動作，這種"稀疏采樣"方式丟失了大量動態(tài)信息：物體的運動趨勢、接觸瞬間的力學變化、長程任務的階段性規(guī)劃。就像僅看一張起點和終點的照片，難以推斷中間經歷了什么，導致動作預測不穩(wěn)定、物理合理性差。

這兩大缺陷相互交織：缺乏幾何感知導致動作在3D空間中"對不準"，缺乏時序建模導致動作在時間維度上"接不上"。機器人看似在執(zhí)行任務，實則在"盲人摸象"。

核心貢獻：SSM-VLA的三大創(chuàng)新設計

面對上述挑戰(zhàn)，研究團隊從空間編碼、時序建模、推理范式三個維度進行系統(tǒng)性重構，提出SSM-VLA框架：

1. Farsighted-LAM：看得深、看得遠的潛在動作模型

幾何感知空間編碼：引入凍結的DINOv2編碼器，提取富含結構先驗的視覺特征（空間布局、隱式深度、物體關系），讓潛在動作扎根于三維物理空間
多幀時序建模：突破傳統(tǒng)兩幀限制，同時處理當前幀+未來N個關鍵幀，捕捉從細微操作到長程規(guī)劃的完整動態(tài)譜系
RGB-D聯(lián)合監(jiān)督：解碼器同時重建未來幀的RGB和深度圖，確保潛在動作既包含語義內容（外觀），也包含幾何結構（空間）

2. 視覺思維鏈（Visual Chain-of-Thought）：先想象、再行動

受人類"三思而后行"的認知模式啟發(fā)，SSM-VLA在輸出最終動作前，先顯式預測未來視覺狀態(tài)（RGB+深度）。這種"想象-推理-執(zhí)行"的級聯(lián)范式，不僅增強了模型的時空理解能力，更提供了可解釋的中間表征——你可以直觀地看到機器人"腦海中的畫面"是否與物理規(guī)律一致。

3. 多模態(tài)協(xié)同注意力：三階段漸進式推理

通過精心設計的注意力掩碼機制，SSM-VLA在一個統(tǒng)一Transformer內實現(xiàn)三階段協(xié)同：

階段1（視覺預測）：基于歷史觀測和指令，生成下一幀視覺狀態(tài)
階段2（潛在動作規(guī)劃）：基于預測幀，生成長程潛在動作序列
階段3（動作執(zhí)行）：融合全部信息，輸出最終機器人動作

這種"雙向+單向+因果"的混合注意力結構，既保證了信息流的完整性，又維持了時序因果性。

技術架構詳解

Farsighted-LAM：如何學習"空間-時序"統(tǒng)一的潛在動作？

Farsighted-LAM架構與 Latent action 可視化

編碼器處理DINOv2特征序列，預測離散潛在動作；解碼器利用當前幀和潛在動作重建未來幀的RGB與深度。

編碼器設計：

輸入：當前幀RGB-D + 未來N幀RGB
特征提?。簝鼋YDINOv2編碼器提取幾何-語義豐富的視覺特征
時空Transformer：通過可學習的潛在動作查詢（Latent Action Queries），自回歸地生成未來N個時間步的連續(xù)潛在向量
向量量化：通過最近鄰查找映射到離散碼本，形成緊湊的潛在動作表征

解碼器設計：

輸入：當前幀RGB-D + 離散潛在動作
約束條件：禁止訪問中間幀，強制潛在動作承載從當前到未來的全部空間-時序信息
輸出：重建未來幀的RGB和深度圖
損失函數(shù)：L2+LPIPS光度損失 + 梯度感知深度損失，確保外觀真實且?guī)缀我恢?/span>

SSM-VLA三階段級聯(lián)策略

SSM-VLA三階段級聯(lián)架構

Stage 1預測視覺狀態(tài)，Stage 2推斷潛在動作，Stage 3生成最終動作。

Stage 1：視覺思維鏈預測

輸入：歷史觀測（t-H到t）+ 語言指令
輸出：下一幀視覺狀態(tài)（RGB+深度）
監(jiān)督：與真實下一幀計算重建損失
深度處理：對于無傳感器深度數(shù)據(jù)，通過SfM稀疏對齊生成偽深度標簽

Stage 2：遠視潛在動作推斷

輸入：歷史上下文 + 預測幀特征
輸出：未來N步的潛在動作序列
監(jiān)督：與預訓練Farsighted-LAM編碼器生成的ground-truth潛在動作計算交叉熵損失

Stage 3：動作生成

輸入：歷史上下文 + 預測幀 + 完整潛在動作計劃
輸出：機器人動作
實現(xiàn)：基于條件流匹配（Flow Matching）的擴散策略，DiT網(wǎng)絡作為去噪器

實驗結果：全面刷新SOTA，零樣本泛化能力驚艷

仿真環(huán)境：CALVIN基準測試領跑
在最具挑戰(zhàn)性的CALVIN ABC-D基準上（訓練于A/B/C環(huán)境，零樣本測試于未見過的D環(huán)境，完成1000條指令鏈、每條5個連續(xù)任務），SSM-VLA展現(xiàn)出強大的多任務學習與泛化能力：

SSM-VLA以平均4.38個連續(xù)任務的完成長度，超越所有對比方法，創(chuàng)下新紀錄。
真實世界：AgileX Piper機器人驗證

研究團隊還在真實場景中使用AgileX Piper機械臂進行驗證，任務為"將粉色玩具放入盒子"。模型先在Open-X-Embodiment等大規(guī)模數(shù)據(jù)集上預訓練，僅通過50條人類演示微調即成功部署。面對雜亂、非結構化的真實環(huán)境，機器人展現(xiàn)出優(yōu)異的泛化能力。

為證明各模塊的有效性，研究團隊進行了嚴謹?shù)南诜治觯?/span>

"遠視"結構的價值：使用3幀上下文（LAM 3-frame）相比單幀（LAM 1-frame）平均任務鏈長度提升0.1，相比移除LAM（w/o LAM）提升0.21，證明多幀觀測對平滑、物理合理的動作空間學習至關重要；

多模態(tài)協(xié)同注意力機制：相比簡單的因果注意力，結構化注意力機制將平均完成長度從3.70大幅提升至4.38，凸顯了其整合過去、現(xiàn)在與未來預測信息的能力；

幾何先驗的貢獻：引入深度監(jiān)督后，平均完成長度從4.27提升至4.38，驗證了顯式3D幾何信息對空間關系推理與抓取姿態(tài)估計的積極作用。