0
| 本文作者: 陳淑瑜 | 2026-05-22 11:45 | 專題:CVPR 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議 |
這句話對(duì)你來說輕而易舉。因?yàn)槟憧吹搅吮?,理解了“拿起來”的含義,手自然地伸過去、捏住、提起。但對(duì)一個(gè) AI 系統(tǒng)來說,這中間隔著數(shù)道幾乎不可逾越的鴻溝:語言到動(dòng)作、動(dòng)作到視覺、視覺到空間、空間到執(zhí)行。
傳統(tǒng)做法是強(qiáng)迫模型學(xué)會(huì)直接映射,通過輸入一段文字或一組動(dòng)作參數(shù),讓其直接輸出像素級(jí)的視頻幀或關(guān)節(jié)角度。這種方法在受限環(huán)境和充足標(biāo)注數(shù)據(jù)下勉強(qiáng)可行,但一旦面對(duì)真實(shí)世界的復(fù)雜性,系統(tǒng)就會(huì)崩潰,因?yàn)轼櫆咸珜?,直接跨越注定失敗?/span>
清華大學(xué)智能產(chǎn)業(yè)研究院趙昊團(tuán)隊(duì)在 CVPR 2026 發(fā)表的四篇論文,共享著同一個(gè)設(shè)計(jì)哲學(xué):當(dāng)兩種模態(tài)之間的鴻溝太大,真正的解法是為它們搭橋,找到一種“第三語言”。這個(gè)“第三語言”,就是中間表示。
這四篇論文分別從動(dòng)作到視頻、圖像到 4D 場景、首幀到未來視頻、異構(gòu)硬件到統(tǒng)一策略四個(gè)不同的角度,驗(yàn)證了同一個(gè)核心假設(shè):引入合適的中間表示,比強(qiáng)迫模型學(xué)會(huì)直接映射更有效。

01
機(jī)器人學(xué)習(xí)領(lǐng)域有一個(gè)看似簡單卻長期未能很好解決的問題:如何讓機(jī)器人通過觀看人類操作視頻來學(xué)習(xí)新技能?
這個(gè)問題的困難程度遠(yuǎn)超想象。對(duì)人類來說直觀的東西,對(duì)機(jī)器人來說卻是無法理解的數(shù)據(jù)流,因?yàn)橐曨l是一幀幀像素,動(dòng)作是七維或更高維的連續(xù)控制信號(hào),這兩種表示之間存在巨大的“表征鴻溝”。
現(xiàn)有的機(jī)器人視頻生成方法通常采用端到端的方式:輸入動(dòng)作序列,直接輸出對(duì)應(yīng)的視頻幀。這種做法在實(shí)踐中面臨兩個(gè)根本性問題:
動(dòng)作空間和像素空間的結(jié)構(gòu)差異太大,動(dòng)作是低維的連續(xù)向量,像素是高維的離散網(wǎng)格,強(qiáng)行讓模型學(xué)習(xí)從前者到后者的直接映射,就像讓一個(gè)只會(huì)說中文的人直接聽懂法語,中間沒有任何翻譯。
缺乏結(jié)構(gòu)化約束:生成的視頻往往在多視角一致性上表現(xiàn)糟糕。同一個(gè)動(dòng)作從兩個(gè)不同視角看,本應(yīng)是同一個(gè) 3D 事件的不同投影,但端到端模型經(jīng)常會(huì)生成兩個(gè)視角下完全不一致的像素。
這個(gè)問題背后有一個(gè)更深層的原因:人類在理解動(dòng)作時(shí),是在一個(gè)抽象的 3D 空間表示中進(jìn)行思考,而不是通過和機(jī)器人一樣通過像素去構(gòu)造世界。當(dāng)你看到一只手伸向杯子,你腦中構(gòu)建的是一個(gè) 3D 的“手——杯關(guān)系”,如果機(jī)器人也能在這個(gè) 3D 空間表示中進(jìn)行推理,那么它對(duì)動(dòng)作的理解將會(huì)深刻得多。
ORV(Occupancy-centric Robot Video Generation)正是從這個(gè)洞察出發(fā)的。
它的核心思路是:在動(dòng)作空間和像素空間之間,插入 Occupancy 作為中間表示,讓動(dòng)作先變成 4D Occupancy,再從 Occupancy 渲染成視頻。
什么是 Occupancy?
它是一個(gè)結(jié)構(gòu)化的 3D 表示,通過在空間中的每個(gè)體素上標(biāo)記“是否被占據(jù)”,來實(shí)現(xiàn)對(duì)場景幾何的緊湊描述。
當(dāng)動(dòng)作被轉(zhuǎn)換成增加了時(shí)間維度的 4D Occupancy 序列,動(dòng)作的空間含義就被顯式地表達(dá)了出來。此時(shí)的邏輯從抽象的“關(guān)節(jié)角度變化了這么多”轉(zhuǎn)變?yōu)榫呦蟮摹笆衷?3D 空間中移動(dòng)到了這里,與物體發(fā)生了這樣的交互”。
同時(shí),Occupancy 天然地解決了多視角一致性的問題:一旦擁有了 4D Occupancy,從任意視角渲染出對(duì)應(yīng)的視頻幀就變成了一個(gè)確定性的投影問題,從不同視角投影出的視頻自然高度一致。

ORV 框架
ORV 的技術(shù)實(shí)現(xiàn)分為兩個(gè)階段。
第一階段是 Action-to-Occupancy 映射:給定一個(gè)機(jī)器人動(dòng)作序列,訓(xùn)練一個(gè)條件擴(kuò)散模型,將其轉(zhuǎn)換成未來若干幀的 4D Occupancy 序列。
第二階段是 Occupancy-to-Video 渲染:利用可微分的體素渲染技術(shù),將 4D Occupancy 序列從指定相機(jī)視角渲染成 2D 視頻幀。
兩步映射,每一步的鴻溝都比直接從動(dòng)作到視頻窄得多。
這個(gè)設(shè)計(jì)的價(jià)值很快在實(shí)驗(yàn)中得到了驗(yàn)證。ORV 在多個(gè)標(biāo)準(zhǔn)機(jī)器人視頻生成 benchmark 上進(jìn)行了評(píng)估,結(jié)果顯示它在 FVD(Fréchet Video Distance)上比最強(qiáng)的端到端基線降低了 18.8%,生成的視頻在視覺質(zhì)量和時(shí)間一致性上都顯著更優(yōu)。
更有說服力的是,當(dāng)把這些生成的視頻用于訓(xùn)練機(jī)器人策略時(shí),ORV 生成的視頻幫助策略在真實(shí)機(jī)器人任務(wù)上取得了 +6.4% 的成功率提升。這 6.4% 的飛躍,本質(zhì)上驗(yàn)證了“第三語言”假設(shè):更好的中間表示能帶來更高的生成質(zhì)量,并讓生成的數(shù)據(jù)對(duì)下游任務(wù)更有價(jià)值。

ORV 訓(xùn)練數(shù)據(jù)集整理流程
由于在 Occupancy 空間中進(jìn)行推理,ORV 學(xué)到的動(dòng)作-Occupancy 映射在一定程度上是物理真實(shí)的,且不依賴于特定的視覺紋理。這使得它能夠在仿真環(huán)境中訓(xùn)練,并直接在真實(shí)機(jī)器人上生成視頻,實(shí)現(xiàn)了 Sim-to-Real 的跨域遷移。而 Occupancy 作為可解釋的結(jié)構(gòu)化表示,其生成的序列可以被人類直接觀察和理解,這對(duì)于機(jī)器人學(xué)習(xí)系統(tǒng)的調(diào)試和安全驗(yàn)證至關(guān)重要。
從更廣闊的視角看,ORV 揭示了一個(gè)在多模態(tài) AI 中具有普適性的設(shè)計(jì)原則:當(dāng)你試圖在兩個(gè)差異巨大的模態(tài)之間建立映射時(shí),不要強(qiáng)迫模型直接消化,而是為它們找到一種中間表示,讓映射分兩步走。這個(gè)原則,正是后續(xù)幾篇論文共同的方法論基礎(chǔ)。

論文鏈接:https://arxiv.org/abs/2506.03079

02
從 NeRF 到 3D Gaussian Splatting,從單目深度估計(jì)到多視角立體視覺,3D 和 4D 重建在近年取得了令人矚目的進(jìn)展。但幾乎所有方法都在默默接受一個(gè)假設(shè):你必須知道相機(jī)的位姿。
這個(gè)假設(shè)在受控環(huán)境下是合理的,你可以預(yù)先標(biāo)定好相機(jī),或者用 COLMAP 等工具從輸入圖像中估計(jì)位姿。但一旦離開受控環(huán)境,在動(dòng)態(tài)場景、弱紋理區(qū)域或相機(jī)快速運(yùn)動(dòng)時(shí),位姿估計(jì)的誤差就會(huì)直接傳遞到最終的重建結(jié)果中。
這主要是因?yàn)槲蛔斯烙?jì)和場景重建是兩個(gè)分離的步驟,前者的誤差無法被后者糾正,從而導(dǎo)致誤差累積。
但類比人類的視覺,我們?cè)诳匆唤M圖片時(shí),即使不知道精確的相機(jī)位姿,也能理解場景的 3D 結(jié)構(gòu)。由此可見,相機(jī)位姿或許并不是 4D 重建的必要條件,它只是技術(shù)實(shí)現(xiàn)中的一個(gè)“便利假設(shè)”:它強(qiáng)行把“場景內(nèi)容”和“觀察視角”捆綁在了一起,而這兩者其實(shí)是可分離的信息。
DGGT(Dynamic Gaussian Graph Transformer)做了一個(gè)大膽的事情——把相機(jī)位姿從“輸入”變成了“輸出”。它提出了一個(gè)端到端的框架,輸入一組無關(guān)聯(lián)的圖像,可以是單目視頻,也可以是多視角圖像,甚至可以是完全無序的圖像集合;輸出兩個(gè)東西:場景的 4D 動(dòng)態(tài)表示,以及每張輸入圖像對(duì)應(yīng)的相機(jī)位姿。
這個(gè)設(shè)計(jì)讓模型在學(xué)會(huì)重建場景的同時(shí),自己推斷出每張圖像是從哪個(gè)視角拍攝的。這聽起來像是一個(gè)“不知道位姿就沒法重建,不知道重建就沒法估計(jì)位姿”的惡性循環(huán),但 DGGT 通過 Transformer 架構(gòu)的全局注意力機(jī)制,實(shí)現(xiàn)了位姿推斷和場景重建的相互迭代優(yōu)化。

整體架構(gòu)圖
DGGT 的核心表示是 Gaussian Map。每個(gè)場景被表示為一組包含位置、協(xié)方差、顏色、不透明度以及時(shí)間維度動(dòng)態(tài)變化的 4D Gaussian 參數(shù)。
作為一種顯式的 3D 表示,它不像 NeRF 的隱式表示那樣需要體積渲染;它不僅可微、可端到端訓(xùn)練,而且非常高效。最重要的是,它是與相機(jī)位姿解耦的。
一旦擁有了 Gaussian Map 作為場景的 4D 表示,相機(jī)位姿的估計(jì)就簡化為了一個(gè)對(duì)齊問題:通過調(diào)整相機(jī)位姿,使得從當(dāng)前位姿渲染出的視圖與輸入圖像最匹配。渲染、比較、調(diào)整位姿、調(diào)整 Gaussian Map,整個(gè)過程循環(huán)迭代,端到端地進(jìn)行。
DGGT 是成為首個(gè)真正實(shí)現(xiàn)無位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于靜態(tài) 3D 重建且需要額外約束,而 DGGT 能夠同時(shí)處理動(dòng)態(tài)場景和未知位姿,且不需要任何位姿標(biāo)注。
更令人印象深刻的是它的泛化能力:在 Waymo 數(shù)據(jù)集上訓(xùn)練的 DGGT,可以直接零樣本遷移到 nuScenes 數(shù)據(jù)集上進(jìn)行 4D 重建,LPIPS 降低了 61.4%。這個(gè)跨數(shù)據(jù)集的泛化能力,很大程度上得益于 Gaussian Map 作為與位姿解耦的中間表示。
DGGT 的另一個(gè)精巧設(shè)計(jì)是“Lifespan Head”。在 4D 動(dòng)態(tài)場景中,不同的 Gaussian 有不同的“生命周期”:墻壁和地板在整個(gè)時(shí)間序列中都存在,而移動(dòng)的車輛和行人只在某些時(shí)間幀中出現(xiàn)。
Lifespan Head 的作用就是預(yù)測(cè)每個(gè) Gaussian 的出現(xiàn)和消失時(shí)間。論文的消融實(shí)驗(yàn)顯示,去掉該模塊會(huì)導(dǎo)致 PSNR(峰值信噪比)下降 3.2 dB。這再次驗(yàn)證了中間表示的力量:引入一個(gè)專門的中間預(yù)測(cè)目標(biāo),如每個(gè) Gaussian 的生命周期,模型能學(xué)會(huì)更好的 4D 場景動(dòng)態(tài)建模。
在速度方面,傳統(tǒng) 4D 重建方法通常需要數(shù)分鐘到數(shù)小時(shí)來重建一個(gè)動(dòng)態(tài)場景,而 DGGT 的前向傳播只需要 0.4 秒。這種高效率意味著 DGGT 可以被部署在需要實(shí)時(shí) 4D 重建的應(yīng)用場景中,例如自動(dòng)駕駛的實(shí)時(shí)環(huán)境建模和機(jī)器人的實(shí)時(shí)場景理解。

只需0.4 秒的前向傳播
DGGT 最深刻的啟示在于:它挑戰(zhàn)了“需要多少先驗(yàn)知識(shí)”這個(gè)根本問題。在傳統(tǒng)流程中,相機(jī)內(nèi)參、外參、深度圖或點(diǎn)云等先驗(yàn)知識(shí)就像拐杖,雖然讓問題變得可解,但也讓整個(gè)系統(tǒng)變得脆弱。DGGT 的方向是扔掉這些拐杖,因?yàn)橐粋€(gè)好的中間表示應(yīng)該能夠從數(shù)據(jù)中自己學(xué)會(huì)這些信息。
這個(gè)思想,與 ORV 的“Occupancy 作為中間表示”形成了有趣的呼應(yīng):ORV 用Occupancy 讓動(dòng)作和視頻之間的鴻溝變窄了;DGGT 中,Gaussian Map 讓圖像和 4D 場景之間的鴻溝變窄了。兩篇論文雖然應(yīng)用場景截然不同,但共享著同一個(gè)設(shè)計(jì)哲學(xué)——找到一個(gè)與輸入/輸出解耦的中間表示,讓復(fù)雜的問題分解成兩個(gè)簡單的問題。

論文鏈接:https://arxiv.org/abs/2512.03004

03
如果要讓一個(gè) AI 模型預(yù)測(cè)“接下來會(huì)發(fā)生什么”(例如給定一張起始幀圖像和一系列動(dòng)作,生成接下來若干幀的視頻),那你將會(huì)面臨一個(gè)由幾何、外觀、時(shí)序交織而成的巨大組合復(fù)雜性問題。
這個(gè)被稱為“視頻預(yù)測(cè)”的任務(wù)極其困難,因?yàn)檫@些因素在像素層面高度耦合。
現(xiàn)有的方法大致分為兩類。一類是端到端方法,直接用巨大的視頻生成模型從起始幀+動(dòng)作生成未來幀。Sora、VideoPoet 等大模型是這類方法的代表,它們?cè)谏少|(zhì)量上令人印象深刻,但計(jì)算成本極高,生成結(jié)果的可控性也差;另一類是解耦方法,試圖把視頻預(yù)測(cè)分解成幾個(gè)子問題,可控性更好,但子問題之間的誤差會(huì)累積,手工設(shè)計(jì)的解耦方式也往往不是最優(yōu)的。
PAM(Pose-Appearance-Motion)走的是一條中間路線。它設(shè)計(jì)了一個(gè)三級(jí)級(jí)聯(lián)的“翻譯鏈”,每一級(jí)解決一個(gè)相對(duì)簡單的問題,每一級(jí)的輸出作為下一級(jí)的輸入。
第一級(jí)是 Pose(姿態(tài))預(yù)測(cè)。給定起始幀和動(dòng)作序列,模型預(yù)測(cè)未來每一幀的“姿態(tài)表示”,這一級(jí)解決的是“東西會(huì)去哪”的問題,不涉及物體長什么樣,只涉及它們的空間位置和姿態(tài)變化。
第二級(jí)是 Appearance(外觀)遷移。給定起始幀中的真實(shí)外觀信息和第一級(jí)預(yù)測(cè)的姿態(tài)序列,模型將外觀信息“遷移”到每一幀的姿態(tài)上。這一級(jí)只解決“它長什么樣”,不涉及運(yùn)動(dòng)軌跡。個(gè)姿態(tài)上”。
第三級(jí)是 Motion(運(yùn)動(dòng))精細(xì)化。在前兩級(jí)輸出的基礎(chǔ)上,模型對(duì)像素級(jí)的動(dòng)態(tài)細(xì)節(jié)(如陰影變化、遮擋處理、紋理細(xì)節(jié))進(jìn)行雕琢,解決“它怎么動(dòng)”的最終質(zhì)感。
這個(gè)三級(jí)級(jí)聯(lián)的設(shè)計(jì)有幾個(gè)精妙之處。
首先,它成功分解了組合復(fù)雜性,分開處理姿態(tài)、外觀、運(yùn)動(dòng)比混合處理要簡單得多。其次,每一級(jí)都變成了相對(duì)簡單的映射問題,每一個(gè)局部映射的鴻溝都比直接端到端映射要窄得多。第三,級(jí)聯(lián)設(shè)計(jì)帶來了極好的可控性,你可以獨(dú)立地修改姿態(tài)、更換外觀或微調(diào)運(yùn)動(dòng)細(xì)節(jié),每一級(jí)的輸出都做到了可解釋、可編輯。

“三級(jí)級(jí)聯(lián)”架構(gòu)圖
PAM 的實(shí)驗(yàn)結(jié)果令人印象深刻。在分辨率方面,此前的機(jī)器人視頻預(yù)測(cè)方法受限于計(jì)算成本和模型容量,通常只能生成 256×256 分辨率的視頻,這個(gè)分辨率對(duì)于實(shí)際應(yīng)用來說太低了,PAM 將生成分辨率提升到 480×720,像素量是此前方法的 3.3 倍到 4.5 倍,這種提升得益于級(jí)聯(lián)設(shè)計(jì)分?jǐn)偭擞?jì)算壓力。在質(zhì)量上,其 FVD 相比最強(qiáng)基線降低了約 25%(從 38.83 降至 29.13),且推理速度不減。
但 PAM 最有說服力的實(shí)驗(yàn)在于對(duì)下游任務(wù)的賦能。在機(jī)器人抓取任務(wù)的測(cè)試中,使用 50% 真實(shí)數(shù)據(jù) + 50% PAM 合成數(shù)據(jù)訓(xùn)練的模型,達(dá)到了與 100% 真實(shí)數(shù)據(jù)訓(xùn)練相當(dāng)?shù)男阅堋?/span> 這標(biāo)志著合成數(shù)據(jù)對(duì)下游任務(wù)的“可用性”終于跨過了臨界點(diǎn)——從早期的“湊數(shù)”變成了真正“可用”。

使用不同比例真實(shí)數(shù)據(jù)的數(shù)據(jù)增強(qiáng)分析
PAM 還實(shí)現(xiàn)了與所有現(xiàn)有方法的本質(zhì)區(qū)別:零真實(shí)首幀依賴。此前的視頻預(yù)測(cè)方法都需要至少一幀真實(shí)的起始幀作為參考,而 PAM 通過將姿態(tài)、外觀、運(yùn)動(dòng)三級(jí)完全解耦,使得即使在沒有真實(shí)首幀的情況下(比如只有文字描述或者語義布局),也能生成合理的視頻。它把視頻預(yù)測(cè)從一個(gè)“基于參考的渲染問題”提升到了一個(gè)“從結(jié)構(gòu)化表示生成視頻的問題”,大大擴(kuò)展了應(yīng)用范圍。
PAM 最值得思考的地方在于它展示了“中間表示”可以串聯(lián)成鏈。ORV 中有一個(gè)中間表示(Occupancy),DGGT 中有一個(gè)中間表示(Gaussian Map),到了 PAM,中間表示變成了三個(gè)級(jí)聯(lián)的表示(Pose → Appearance → Motion)。
這暗示了一個(gè)可能的通用設(shè)計(jì)模式:當(dāng)一個(gè)直接映射的鴻溝仍然太寬時(shí),可以嘗試在中間插入多個(gè)級(jí)聯(lián)的表示,讓復(fù)雜性逐層分解。
這個(gè)模式在人類認(rèn)知中也能找到對(duì)應(yīng),當(dāng)你想象“接下來會(huì)發(fā)生什么”時(shí),你并不是一次性地在腦海中渲染出完整的未來畫面,而是先想“大概會(huì)發(fā)生什么”,再想“涉及的東西長什么樣”,最后補(bǔ)充細(xì)節(jié)。

論文鏈接:https://arxiv.org/abs/2603.22193

04
靈巧手是實(shí)現(xiàn)通用機(jī)器人操作的關(guān)鍵硬件。
從 6 自由度的簡單二指夾爪,到 24 自由度的 Shadow Hand,不同靈巧手有不同的自由度數(shù)量、不同的關(guān)節(jié)結(jié)構(gòu)、不同的驅(qū)動(dòng)方式。但這個(gè)領(lǐng)域有一個(gè)長期困擾研究者和工程師的問題:硬件碎片化。
為一個(gè)靈巧手訓(xùn)練的策略,往往無法直接遷移到另一個(gè)靈巧手上。如果想在不同硬件平臺(tái)上都實(shí)現(xiàn)靈巧操作,基本上需要為每一個(gè)平臺(tái)單獨(dú)收集數(shù)據(jù)、單獨(dú)訓(xùn)練策略,這在工程上是無法擴(kuò)展的。更深層的問題在于,整個(gè)領(lǐng)域的研究也因硬件碎片化而各自為政,不同硬件上得到的實(shí)驗(yàn)結(jié)果甚至無法直接對(duì)比。
這個(gè)問題本質(zhì)上也是一個(gè)“模態(tài)鴻溝”問題。不同的靈巧手雖然都旨在實(shí)現(xiàn)“靈巧操作”,但它們的“動(dòng)作語言”完全不同。直接在兩種完全無關(guān)的機(jī)械關(guān)節(jié)語言之間做映射,就像在兩種完全無關(guān)的語言之間直接翻譯,幾乎是不可能的任務(wù)。
UniDex 提出了一個(gè)優(yōu)雅的解法:設(shè)計(jì)一個(gè)統(tǒng)一的動(dòng)作空間,讓所有靈巧手都“說同一種語言”。這個(gè)統(tǒng)一的空間叫做 FAAS(Function-Actuator-Aligned Space)。

FAAS 不再用“關(guān)節(jié)角度”來描述靈巧手的動(dòng)作,而是用“功能”來描述,比如“捏住這個(gè)物體”、“包裹住這個(gè)物體”、“用拇指和食指夾住這個(gè)物體”,這些是與具體硬件無關(guān)的高層語義。
具體來說,F(xiàn)AAS 對(duì)每一種靈巧手定義了一個(gè)“功能基元”集合(如 pinch、wrap、press 等),每個(gè)功能基元對(duì)應(yīng)一組通過運(yùn)動(dòng)學(xué)逆向求解得到的關(guān)節(jié)角度配置。每種靈巧手的動(dòng)作都被投影到這個(gè)共享的功能基元空間上,相當(dāng)于做了一次“翻譯”:把 Allegro Hand 的 16 個(gè)關(guān)節(jié)角度翻譯成“它在執(zhí)行哪個(gè)功能基元”,再把“這個(gè)功能基元”翻譯成 Shadow Hand 的 24 個(gè)關(guān)節(jié)角度。
策略在這個(gè)統(tǒng)一的空間上訓(xùn)練并輸出與硬件無關(guān)的“功能基元”,需要在具體硬件上執(zhí)行時(shí),只需將其轉(zhuǎn)換成該硬件的關(guān)節(jié)角度即可。

UniDex-VLA 的概述
這個(gè)設(shè)計(jì)的精妙之處在于,它把“硬件異構(gòu)性”從“策略學(xué)習(xí)階段”推遲到了“執(zhí)行階段”。策略學(xué)習(xí)只需要在統(tǒng)一的 FAAS 空間中進(jìn)行,不需要關(guān)心具體硬件;硬件的差異由 FAAS 的投影層來處理。這就像是你用中文寫文章,需要發(fā)表時(shí)再翻譯成英文、法文、日文其他語言一樣,文章的核心內(nèi)容只需要?jiǎng)?chuàng)作一次。
UniDex 的實(shí)驗(yàn)結(jié)果令人印象深刻。在一個(gè)靈巧手上訓(xùn)練的策略,可以直接部署到另一個(gè)完全不同的靈巧手上,無需任何微調(diào)。論文在 8 種靈巧手上驗(yàn)證了這種零樣本跨手遷移能力,涵蓋了 6 自由度到 24 自由度的廣泛范圍,這意味著機(jī)器人操作策略的“硬件依賴性”可以被消除。
同時(shí),UniDex 構(gòu)建了包含 50K+ 軌跡的大規(guī)模靈巧操作數(shù)據(jù)集,為全行業(yè)提供了一個(gè)寶貴的統(tǒng)一基準(zhǔn)。在面對(duì)困難的多階段工具使用任務(wù)時(shí),UniDex 取得了 81% 的任務(wù)完成率,達(dá)到了此前方法難以企及的高度。

UniDex 的介紹
FAAS 作為中間表示的意義,與前幾篇論文一脈相承。 UniDex 用 FAAS 彌合了異構(gòu)硬件與統(tǒng)一策略之間的鴻溝。

論文鏈接:https://arxiv.org/abs/2603.22264

05
回顧這四篇論文,一個(gè)清晰的設(shè)計(jì)模式浮現(xiàn)出來:當(dāng)兩種模態(tài)之間的鴻溝太大,直接映射注定失敗。真正的解法,是為它們找到一種“第三語言”。
ORV 用 Occupancy 作為動(dòng)作和視頻之間的第三語言;DGGT 用 Gaussian Map 作為圖像和 4D 場景之間的第三語言;PAM 用 Pose、Appearance、Motion 三級(jí)級(jí)聯(lián)作為首幀和未來視頻之間的第三語言;UniDex 用 FAAS 作為異構(gòu)硬件和統(tǒng)一策略之間的第三語言。
這四篇論文不僅僅是四篇獨(dú)立的 CVPR 2026 論文。它們共同指向了一個(gè)可能在多模態(tài) AI 中具有普適性的設(shè)計(jì)原則:中間表示是消除鴻溝的系統(tǒng)性解法。
這個(gè)原則的實(shí)踐意義是明確的:下次你面對(duì)一個(gè)多模態(tài) AI 問題,在急著擴(kuò)大模型、增加數(shù)據(jù)之前,先問問自己:這兩種模態(tài)之間的鴻溝是什么?有沒有一種中間表示,可以讓這個(gè)鴻溝變窄?
有時(shí)候,一個(gè)好的中間表示,勝過十個(gè)更大的模型。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章