尋找 AI 的「第三語言」：中間表示如何打通多模態(tài)鴻溝｜ CVPR 2026

本文作者：陳淑瑜

2026-05-22 11:45

導(dǎo)語：在不能直接相連的信號(hào)之間，安插一個(gè)它們都能讀懂的中介。

“請(qǐng)把杯子拿起來”。

這句話對(duì)你來說輕而易舉。因?yàn)槟憧吹搅吮?，理解了“拿起來”的含義，手自然地伸過去、捏住、提起。但對(duì)一個(gè) AI 系統(tǒng)來說，這中間隔著數(shù)道幾乎不可逾越的鴻溝：語言到動(dòng)作、動(dòng)作到視覺、視覺到空間、空間到執(zhí)行。

傳統(tǒng)做法是強(qiáng)迫模型學(xué)會(huì)直接映射，通過輸入一段文字或一組動(dòng)作參數(shù)，讓其直接輸出像素級(jí)的視頻幀或關(guān)節(jié)角度。這種方法在受限環(huán)境和充足標(biāo)注數(shù)據(jù)下勉強(qiáng)可行，但一旦面對(duì)真實(shí)世界的復(fù)雜性，系統(tǒng)就會(huì)崩潰，因?yàn)轼櫆咸珜?，直接跨越注定失敗?/span>

清華大學(xué)智能產(chǎn)業(yè)研究院趙昊團(tuán)隊(duì)在 CVPR 2026 發(fā)表的四篇論文，共享著同一個(gè)設(shè)計(jì)哲學(xué)：當(dāng)兩種模態(tài)之間的鴻溝太大，真正的解法是為它們搭橋，找到一種“第三語言”。這個(gè)“第三語言”，就是中間表示。

這四篇論文分別從動(dòng)作到視頻、圖像到 4D 場景、首幀到未來視頻、異構(gòu)硬件到統(tǒng)一策略四個(gè)不同的角度，驗(yàn)證了同一個(gè)核心假設(shè)：引入合適的中間表示，比強(qiáng)迫模型學(xué)會(huì)直接映射更有效。

尋找 AI 的「第三語言」：中間表示如何打通多模態(tài)鴻溝｜ CVPR 2026

ORV：當(dāng)機(jī)器人看視頻時(shí)，它在看什么？

機(jī)器人學(xué)習(xí)領(lǐng)域有一個(gè)看似簡單卻長期未能很好解決的問題：如何讓機(jī)器人通過觀看人類操作視頻來學(xué)習(xí)新技能？

這個(gè)問題的困難程度遠(yuǎn)超想象。對(duì)人類來說直觀的東西，對(duì)機(jī)器人來說卻是無法理解的數(shù)據(jù)流，因?yàn)橐曨l是一幀幀像素，動(dòng)作是七維或更高維的連續(xù)控制信號(hào)，這兩種表示之間存在巨大的“表征鴻溝”。

現(xiàn)有的機(jī)器人視頻生成方法通常采用端到端的方式：輸入動(dòng)作序列，直接輸出對(duì)應(yīng)的視頻幀。這種做法在實(shí)踐中面臨兩個(gè)根本性問題：

動(dòng)作空間和像素空間的結(jié)構(gòu)差異太大，動(dòng)作是低維的連續(xù)向量，像素是高維的離散網(wǎng)格，強(qiáng)行讓模型學(xué)習(xí)從前者到后者的直接映射，就像讓一個(gè)只會(huì)說中文的人直接聽懂法語，中間沒有任何翻譯。
缺乏結(jié)構(gòu)化約束：生成的視頻往往在多視角一致性上表現(xiàn)糟糕。同一個(gè)動(dòng)作從兩個(gè)不同視角看，本應(yīng)是同一個(gè) 3D 事件的不同投影，但端到端模型經(jīng)常會(huì)生成兩個(gè)視角下完全不一致的像素。

這個(gè)問題背后有一個(gè)更深層的原因：人類在理解動(dòng)作時(shí)，是在一個(gè)抽象的 3D 空間表示中進(jìn)行思考，而不是通過和機(jī)器人一樣通過像素去構(gòu)造世界。當(dāng)你看到一只手伸向杯子，你腦中構(gòu)建的是一個(gè) 3D 的“手——杯關(guān)系”，如果機(jī)器人也能在這個(gè) 3D 空間表示中進(jìn)行推理，那么它對(duì)動(dòng)作的理解將會(huì)深刻得多。

ORV（Occupancy-centric Robot Video Generation）正是從這個(gè)洞察出發(fā)的。

它的核心思路是：在動(dòng)作空間和像素空間之間，插入 Occupancy 作為中間表示，讓動(dòng)作先變成 4D Occupancy，再從 Occupancy 渲染成視頻。

什么是 Occupancy？

它是一個(gè)結(jié)構(gòu)化的 3D 表示，通過在空間中的每個(gè)體素上標(biāo)記“是否被占據(jù)”，來實(shí)現(xiàn)對(duì)場景幾何的緊湊描述。

當(dāng)動(dòng)作被轉(zhuǎn)換成增加了時(shí)間維度的 4D Occupancy 序列，動(dòng)作的空間含義就被顯式地表達(dá)了出來。此時(shí)的邏輯從抽象的“關(guān)節(jié)角度變化了這么多”轉(zhuǎn)變?yōu)榫呦蟮摹笆衷?3D 空間中移動(dòng)到了這里，與物體發(fā)生了這樣的交互”。

同時(shí)，Occupancy 天然地解決了多視角一致性的問題：一旦擁有了 4D Occupancy，從任意視角渲染出對(duì)應(yīng)的視頻幀就變成了一個(gè)確定性的投影問題，從不同視角投影出的視頻自然高度一致。

ORV 框架

ORV 的技術(shù)實(shí)現(xiàn)分為兩個(gè)階段。

第一階段是 Action-to-Occupancy 映射：給定一個(gè)機(jī)器人動(dòng)作序列，訓(xùn)練一個(gè)條件擴(kuò)散模型，將其轉(zhuǎn)換成未來若干幀的 4D Occupancy 序列。
第二階段是 Occupancy-to-Video 渲染：利用可微分的體素渲染技術(shù)，將 4D Occupancy 序列從指定相機(jī)視角渲染成 2D 視頻幀。

兩步映射，每一步的鴻溝都比直接從動(dòng)作到視頻窄得多。

這個(gè)設(shè)計(jì)的價(jià)值很快在實(shí)驗(yàn)中得到了驗(yàn)證。ORV 在多個(gè)標(biāo)準(zhǔn)機(jī)器人視頻生成 benchmark 上進(jìn)行了評(píng)估，結(jié)果顯示它在 FVD（Fréchet Video Distance）上比最強(qiáng)的端到端基線降低了 18.8%，生成的視頻在視覺質(zhì)量和時(shí)間一致性上都顯著更優(yōu)。

更有說服力的是，當(dāng)把這些生成的視頻用于訓(xùn)練機(jī)器人策略時(shí)，ORV 生成的視頻幫助策略在真實(shí)機(jī)器人任務(wù)上取得了 +6.4% 的成功率提升。這 6.4% 的飛躍，本質(zhì)上驗(yàn)證了“第三語言”假設(shè)：更好的中間表示能帶來更高的生成質(zhì)量，并讓生成的數(shù)據(jù)對(duì)下游任務(wù)更有價(jià)值。

ORV 訓(xùn)練數(shù)據(jù)集整理流程

由于在 Occupancy 空間中進(jìn)行推理，ORV 學(xué)到的動(dòng)作-Occupancy 映射在一定程度上是物理真實(shí)的，且不依賴于特定的視覺紋理。這使得它能夠在仿真環(huán)境中訓(xùn)練，并直接在真實(shí)機(jī)器人上生成視頻，實(shí)現(xiàn)了 Sim-to-Real 的跨域遷移。而 Occupancy 作為可解釋的結(jié)構(gòu)化表示，其生成的序列可以被人類直接觀察和理解，這對(duì)于機(jī)器人學(xué)習(xí)系統(tǒng)的調(diào)試和安全驗(yàn)證至關(guān)重要。

從更廣闊的視角看，ORV 揭示了一個(gè)在多模態(tài) AI 中具有普適性的設(shè)計(jì)原則：當(dāng)你試圖在兩個(gè)差異巨大的模態(tài)之間建立映射時(shí)，不要強(qiáng)迫模型直接消化，而是為它們找到一種中間表示，讓映射分兩步走。這個(gè)原則，正是后續(xù)幾篇論文共同的方法論基礎(chǔ)。

論文鏈接：https://arxiv.org/abs/2506.03079

DGGT：無需姿態(tài)的動(dòng)態(tài)場景重建

從 NeRF 到 3D Gaussian Splatting，從單目深度估計(jì)到多視角立體視覺，3D 和 4D 重建在近年取得了令人矚目的進(jìn)展。但幾乎所有方法都在默默接受一個(gè)假設(shè)：你必須知道相機(jī)的位姿。

這個(gè)假設(shè)在受控環(huán)境下是合理的，你可以預(yù)先標(biāo)定好相機(jī)，或者用 COLMAP 等工具從輸入圖像中估計(jì)位姿。但一旦離開受控環(huán)境，在動(dòng)態(tài)場景、弱紋理區(qū)域或相機(jī)快速運(yùn)動(dòng)時(shí)，位姿估計(jì)的誤差就會(huì)直接傳遞到最終的重建結(jié)果中。

這主要是因?yàn)槲蛔斯烙?jì)和場景重建是兩個(gè)分離的步驟，前者的誤差無法被后者糾正，從而導(dǎo)致誤差累積。

但類比人類的視覺，我們?cè)诳匆唤M圖片時(shí)，即使不知道精確的相機(jī)位姿，也能理解場景的 3D 結(jié)構(gòu)。由此可見，相機(jī)位姿或許并不是 4D 重建的必要條件，它只是技術(shù)實(shí)現(xiàn)中的一個(gè)“便利假設(shè)”：它強(qiáng)行把“場景內(nèi)容”和“觀察視角”捆綁在了一起，而這兩者其實(shí)是可分離的信息。

DGGT（Dynamic Gaussian Graph Transformer）做了一個(gè)大膽的事情——把相機(jī)位姿從“輸入”變成了“輸出”。它提出了一個(gè)端到端的框架，輸入一組無關(guān)聯(lián)的圖像，可以是單目視頻，也可以是多視角圖像，甚至可以是完全無序的圖像集合；輸出兩個(gè)東西：場景的 4D 動(dòng)態(tài)表示，以及每張輸入圖像對(duì)應(yīng)的相機(jī)位姿。

這個(gè)設(shè)計(jì)讓模型在學(xué)會(huì)重建場景的同時(shí)，自己推斷出每張圖像是從哪個(gè)視角拍攝的。這聽起來像是一個(gè)“不知道位姿就沒法重建，不知道重建就沒法估計(jì)位姿”的惡性循環(huán)，但 DGGT 通過 Transformer 架構(gòu)的全局注意力機(jī)制，實(shí)現(xiàn)了位姿推斷和場景重建的相互迭代優(yōu)化。

整體架構(gòu)圖

DGGT 的核心表示是 Gaussian Map。每個(gè)場景被表示為一組包含位置、協(xié)方差、顏色、不透明度以及時(shí)間維度動(dòng)態(tài)變化的 4D Gaussian 參數(shù)。

作為一種顯式的 3D 表示，它不像 NeRF 的隱式表示那樣需要體積渲染；它不僅可微、可端到端訓(xùn)練，而且非常高效。最重要的是，它是與相機(jī)位姿解耦的。

一旦擁有了 Gaussian Map 作為場景的 4D 表示，相機(jī)位姿的估計(jì)就簡化為了一個(gè)對(duì)齊問題：通過調(diào)整相機(jī)位姿，使得從當(dāng)前位姿渲染出的視圖與輸入圖像最匹配。渲染、比較、調(diào)整位姿、調(diào)整 Gaussian Map，整個(gè)過程循環(huán)迭代，端到端地進(jìn)行。

DGGT 是成為首個(gè)真正實(shí)現(xiàn)無位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于靜態(tài) 3D 重建且需要額外約束，而 DGGT 能夠同時(shí)處理動(dòng)態(tài)場景和未知位姿，且不需要任何位姿標(biāo)注。

更令人印象深刻的是它的泛化能力：在 Waymo 數(shù)據(jù)集上訓(xùn)練的 DGGT，可以直接零樣本遷移到 nuScenes 數(shù)據(jù)集上進(jìn)行 4D 重建，LPIPS 降低了 61.4%。這個(gè)跨數(shù)據(jù)集的泛化能力，很大程度上得益于 Gaussian Map 作為與位姿解耦的中間表示。

DGGT 的另一個(gè)精巧設(shè)計(jì)是“Lifespan Head”。在 4D 動(dòng)態(tài)場景中，不同的 Gaussian 有不同的“生命周期”：墻壁和地板在整個(gè)時(shí)間序列中都存在，而移動(dòng)的車輛和行人只在某些時(shí)間幀中出現(xiàn)。

Lifespan Head 的作用就是預(yù)測(cè)每個(gè) Gaussian 的出現(xiàn)和消失時(shí)間。論文的消融實(shí)驗(yàn)顯示，去掉該模塊會(huì)導(dǎo)致 PSNR（峰值信噪比）下降 3.2 dB。這再次驗(yàn)證了中間表示的力量：引入一個(gè)專門的中間預(yù)測(cè)目標(biāo)，如每個(gè) Gaussian 的生命周期，模型能學(xué)會(huì)更好的 4D 場景動(dòng)態(tài)建模。

在速度方面，傳統(tǒng) 4D 重建方法通常需要數(shù)分鐘到數(shù)小時(shí)來重建一個(gè)動(dòng)態(tài)場景，而 DGGT 的前向傳播只需要 0.4 秒。這種高效率意味著 DGGT 可以被部署在需要實(shí)時(shí) 4D 重建的應(yīng)用場景中，例如自動(dòng)駕駛的實(shí)時(shí)環(huán)境建模和機(jī)器人的實(shí)時(shí)場景理解。

只需0.4 秒的前向傳播

DGGT 最深刻的啟示在于：它挑戰(zhàn)了“需要多少先驗(yàn)知識(shí)”這個(gè)根本問題。在傳統(tǒng)流程中，相機(jī)內(nèi)參、外參、深度圖或點(diǎn)云等先驗(yàn)知識(shí)就像拐杖，雖然讓問題變得可解，但也讓整個(gè)系統(tǒng)變得脆弱。DGGT 的方向是扔掉這些拐杖，因?yàn)橐粋€(gè)好的中間表示應(yīng)該能夠從數(shù)據(jù)中自己學(xué)會(huì)這些信息。

這個(gè)思想，與 ORV 的“Occupancy 作為中間表示”形成了有趣的呼應(yīng)：ORV 用Occupancy 讓動(dòng)作和視頻之間的鴻溝變窄了；DGGT 中，Gaussian Map 讓圖像和 4D 場景之間的鴻溝變窄了。兩篇論文雖然應(yīng)用場景截然不同，但共享著同一個(gè)設(shè)計(jì)哲學(xué)——找到一個(gè)與輸入/輸出解耦的中間表示，讓復(fù)雜的問題分解成兩個(gè)簡單的問題。

論文鏈接：https://arxiv.org/abs/2512.03004

PAM：三級(jí)“翻譯鏈”的精巧設(shè)計(jì)

如果要讓一個(gè) AI 模型預(yù)測(cè)“接下來會(huì)發(fā)生什么”（例如給定一張起始幀圖像和一系列動(dòng)作，生成接下來若干幀的視頻），那你將會(huì)面臨一個(gè)由幾何、外觀、時(shí)序交織而成的巨大組合復(fù)雜性問題。

這個(gè)被稱為“視頻預(yù)測(cè)”的任務(wù)極其困難，因?yàn)檫@些因素在像素層面高度耦合。

現(xiàn)有的方法大致分為兩類。一類是端到端方法，直接用巨大的視頻生成模型從起始幀+動(dòng)作生成未來幀。Sora、VideoPoet 等大模型是這類方法的代表，它們?cè)谏少|(zhì)量上令人印象深刻，但計(jì)算成本極高，生成結(jié)果的可控性也差；另一類是解耦方法，試圖把視頻預(yù)測(cè)分解成幾個(gè)子問題，可控性更好，但子問題之間的誤差會(huì)累積，手工設(shè)計(jì)的解耦方式也往往不是最優(yōu)的。

PAM（Pose-Appearance-Motion）走的是一條中間路線。它設(shè)計(jì)了一個(gè)三級(jí)級(jí)聯(lián)的“翻譯鏈”，每一級(jí)解決一個(gè)相對(duì)簡單的問題，每一級(jí)的輸出作為下一級(jí)的輸入。

第一級(jí)是 Pose（姿態(tài)）預(yù)測(cè)。給定起始幀和動(dòng)作序列，模型預(yù)測(cè)未來每一幀的“姿態(tài)表示”，這一級(jí)解決的是“東西會(huì)去哪”的問題，不涉及物體長什么樣，只涉及它們的空間位置和姿態(tài)變化。
第二級(jí)是 Appearance（外觀）遷移。給定起始幀中的真實(shí)外觀信息和第一級(jí)預(yù)測(cè)的姿態(tài)序列，模型將外觀信息“遷移”到每一幀的姿態(tài)上。這一級(jí)只解決“它長什么樣”，不涉及運(yùn)動(dòng)軌跡。個(gè)姿態(tài)上”。
第三級(jí)是 Motion（運(yùn)動(dòng)）精細(xì)化。在前兩級(jí)輸出的基礎(chǔ)上，模型對(duì)像素級(jí)的動(dòng)態(tài)細(xì)節(jié)（如陰影變化、遮擋處理、紋理細(xì)節(jié)）進(jìn)行雕琢，解決“它怎么動(dòng)”的最終質(zhì)感。

這個(gè)三級(jí)級(jí)聯(lián)的設(shè)計(jì)有幾個(gè)精妙之處。

首先，它成功分解了組合復(fù)雜性，分開處理姿態(tài)、外觀、運(yùn)動(dòng)比混合處理要簡單得多。其次，每一級(jí)都變成了相對(duì)簡單的映射問題，每一個(gè)局部映射的鴻溝都比直接端到端映射要窄得多。第三，級(jí)聯(lián)設(shè)計(jì)帶來了極好的可控性，你可以獨(dú)立地修改姿態(tài)、更換外觀或微調(diào)運(yùn)動(dòng)細(xì)節(jié)，每一級(jí)的輸出都做到了可解釋、可編輯。

“三級(jí)級(jí)聯(lián)”架構(gòu)圖

PAM 的實(shí)驗(yàn)結(jié)果令人印象深刻。在分辨率方面，此前的機(jī)器人視頻預(yù)測(cè)方法受限于計(jì)算成本和模型容量，通常只能生成 256×256 分辨率的視頻，這個(gè)分辨率對(duì)于實(shí)際應(yīng)用來說太低了，PAM 將生成分辨率提升到 480×720，像素量是此前方法的 3.3 倍到 4.5 倍，這種提升得益于級(jí)聯(lián)設(shè)計(jì)分?jǐn)偭擞?jì)算壓力。在質(zhì)量上，其 FVD 相比最強(qiáng)基線降低了約 25%（從 38.83 降至 29.13），且推理速度不減。

但 PAM 最有說服力的實(shí)驗(yàn)在于對(duì)下游任務(wù)的賦能。在機(jī)器人抓取任務(wù)的測(cè)試中，使用 50% 真實(shí)數(shù)據(jù) + 50% PAM 合成數(shù)據(jù)訓(xùn)練的模型，達(dá)到了與 100% 真實(shí)數(shù)據(jù)訓(xùn)練相當(dāng)?shù)男阅堋?/span> 這標(biāo)志著合成數(shù)據(jù)對(duì)下游任務(wù)的“可用性”終于跨過了臨界點(diǎn)——從早期的“湊數(shù)”變成了真正“可用”。

使用不同比例真實(shí)數(shù)據(jù)的數(shù)據(jù)增強(qiáng)分析

PAM 還實(shí)現(xiàn)了與所有現(xiàn)有方法的本質(zhì)區(qū)別：零真實(shí)首幀依賴。此前的視頻預(yù)測(cè)方法都需要至少一幀真實(shí)的起始幀作為參考，而 PAM 通過將姿態(tài)、外觀、運(yùn)動(dòng)三級(jí)完全解耦，使得即使在沒有真實(shí)首幀的情況下（比如只有文字描述或者語義布局），也能生成合理的視頻。它把視頻預(yù)測(cè)從一個(gè)“基于參考的渲染問題”提升到了一個(gè)“從結(jié)構(gòu)化表示生成視頻的問題”，大大擴(kuò)展了應(yīng)用范圍。

PAM 最值得思考的地方在于它展示了“中間表示”可以串聯(lián)成鏈。ORV 中有一個(gè)中間表示（Occupancy），DGGT 中有一個(gè)中間表示（Gaussian Map），到了 PAM，中間表示變成了三個(gè)級(jí)聯(lián)的表示（Pose → Appearance → Motion）。

這暗示了一個(gè)可能的通用設(shè)計(jì)模式：當(dāng)一個(gè)直接映射的鴻溝仍然太寬時(shí)，可以嘗試在中間插入多個(gè)級(jí)聯(lián)的表示，讓復(fù)雜性逐層分解。

這個(gè)模式在人類認(rèn)知中也能找到對(duì)應(yīng)，當(dāng)你想象“接下來會(huì)發(fā)生什么”時(shí)，你并不是一次性地在腦海中渲染出完整的未來畫面，而是先想“大概會(huì)發(fā)生什么”，再想“涉及的東西長什么樣”，最后補(bǔ)充細(xì)節(jié)。

論文鏈接：https://arxiv.org/abs/2603.22193

UniDex：讓所有靈巧手說同一種語言

靈巧手是實(shí)現(xiàn)通用機(jī)器人操作的關(guān)鍵硬件。

從 6 自由度的簡單二指夾爪，到 24 自由度的 Shadow Hand，不同靈巧手有不同的自由度數(shù)量、不同的關(guān)節(jié)結(jié)構(gòu)、不同的驅(qū)動(dòng)方式。但這個(gè)領(lǐng)域有一個(gè)長期困擾研究者和工程師的問題：硬件碎片化。

為一個(gè)靈巧手訓(xùn)練的策略，往往無法直接遷移到另一個(gè)靈巧手上。如果想在不同硬件平臺(tái)上都實(shí)現(xiàn)靈巧操作，基本上需要為每一個(gè)平臺(tái)單獨(dú)收集數(shù)據(jù)、單獨(dú)訓(xùn)練策略，這在工程上是無法擴(kuò)展的。更深層的問題在于，整個(gè)領(lǐng)域的研究也因硬件碎片化而各自為政，不同硬件上得到的實(shí)驗(yàn)結(jié)果甚至無法直接對(duì)比。

這個(gè)問題本質(zhì)上也是一個(gè)“模態(tài)鴻溝”問題。不同的靈巧手雖然都旨在實(shí)現(xiàn)“靈巧操作”，但它們的“動(dòng)作語言”完全不同。直接在兩種完全無關(guān)的機(jī)械關(guān)節(jié)語言之間做映射，就像在兩種完全無關(guān)的語言之間直接翻譯，幾乎是不可能的任務(wù)。

UniDex 提出了一個(gè)優(yōu)雅的解法：設(shè)計(jì)一個(gè)統(tǒng)一的動(dòng)作空間，讓所有靈巧手都“說同一種語言”。這個(gè)統(tǒng)一的空間叫做 FAAS（Function-Actuator-Aligned Space）。

FAAS 不再用“關(guān)節(jié)角度”來描述靈巧手的動(dòng)作，而是用“功能”來描述，比如“捏住這個(gè)物體”、“包裹住這個(gè)物體”、“用拇指和食指夾住這個(gè)物體”，這些是與具體硬件無關(guān)的高層語義。

具體來說，F(xiàn)AAS 對(duì)每一種靈巧手定義了一個(gè)“功能基元”集合（如 pinch、wrap、press 等），每個(gè)功能基元對(duì)應(yīng)一組通過運(yùn)動(dòng)學(xué)逆向求解得到的關(guān)節(jié)角度配置。每種靈巧手的動(dòng)作都被投影到這個(gè)共享的功能基元空間上，相當(dāng)于做了一次“翻譯”：把 Allegro Hand 的 16 個(gè)關(guān)節(jié)角度翻譯成“它在執(zhí)行哪個(gè)功能基元”，再把“這個(gè)功能基元”翻譯成 Shadow Hand 的 24 個(gè)關(guān)節(jié)角度。

策略在這個(gè)統(tǒng)一的空間上訓(xùn)練并輸出與硬件無關(guān)的“功能基元”，需要在具體硬件上執(zhí)行時(shí)，只需將其轉(zhuǎn)換成該硬件的關(guān)節(jié)角度即可。

UniDex-VLA 的概述

這個(gè)設(shè)計(jì)的精妙之處在于，它把“硬件異構(gòu)性”從“策略學(xué)習(xí)階段”推遲到了“執(zhí)行階段”。策略學(xué)習(xí)只需要在統(tǒng)一的 FAAS 空間中進(jìn)行，不需要關(guān)心具體硬件；硬件的差異由 FAAS 的投影層來處理。這就像是你用中文寫文章，需要發(fā)表時(shí)再翻譯成英文、法文、日文其他語言一樣，文章的核心內(nèi)容只需要?jiǎng)?chuàng)作一次。

UniDex 的實(shí)驗(yàn)結(jié)果令人印象深刻。在一個(gè)靈巧手上訓(xùn)練的策略，可以直接部署到另一個(gè)完全不同的靈巧手上，無需任何微調(diào)。論文在 8 種靈巧手上驗(yàn)證了這種零樣本跨手遷移能力，涵蓋了 6 自由度到 24 自由度的廣泛范圍，這意味著機(jī)器人操作策略的“硬件依賴性”可以被消除。

同時(shí)，UniDex 構(gòu)建了包含 50K+ 軌跡的大規(guī)模靈巧操作數(shù)據(jù)集，為全行業(yè)提供了一個(gè)寶貴的統(tǒng)一基準(zhǔn)。在面對(duì)困難的多階段工具使用任務(wù)時(shí)，UniDex 取得了 81% 的任務(wù)完成率，達(dá)到了此前方法難以企及的高度。

UniDex 的介紹

FAAS 作為中間表示的意義，與前幾篇論文一脈相承。 UniDex 用 FAAS 彌合了異構(gòu)硬件與統(tǒng)一策略之間的鴻溝。

論文鏈接：https://arxiv.org/abs/2603.22264

結(jié)語

回顧這四篇論文，一個(gè)清晰的設(shè)計(jì)模式浮現(xiàn)出來：當(dāng)兩種模態(tài)之間的鴻溝太大，直接映射注定失敗。真正的解法，是為它們找到一種“第三語言”。

ORV 用 Occupancy 作為動(dòng)作和視頻之間的第三語言；DGGT 用 Gaussian Map 作為圖像和 4D 場景之間的第三語言；PAM 用 Pose、Appearance、Motion 三級(jí)級(jí)聯(lián)作為首幀和未來視頻之間的第三語言；UniDex 用 FAAS 作為異構(gòu)硬件和統(tǒng)一策略之間的第三語言。

這四篇論文不僅僅是四篇獨(dú)立的 CVPR 2026 論文。它們共同指向了一個(gè)可能在多模態(tài) AI 中具有普適性的設(shè)計(jì)原則：中間表示是消除鴻溝的系統(tǒng)性解法。

這個(gè)原則的實(shí)踐意義是明確的：下次你面對(duì)一個(gè)多模態(tài) AI 問題，在急著擴(kuò)大模型、增加數(shù)據(jù)之前，先問問自己：這兩種模態(tài)之間的鴻溝是什么？有沒有一種中間表示，可以讓這個(gè)鴻溝變窄？

有時(shí)候，一個(gè)好的中間表示，勝過十個(gè)更大的模型。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。