日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給劉欣
發(fā)送

0

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

本文作者: 劉欣   2025-12-19 11:10
導(dǎo)語:物理動作前的思考,要用物理空間中的視頻進(jìn)行推理。

相比于虛擬世界,真實(shí)的世界充斥著動態(tài)變化的環(huán)境變量和各種各樣的物理規(guī)則,這要求基礎(chǔ)模型不僅具備強(qiáng)大的感知與計(jì)算能力,更需擁有理解物理規(guī)律、預(yù)判場景變化的綜合能力。

在此背景下,基礎(chǔ)模型的能力邊界不斷被突破,而新一代AI架構(gòu)與物理世界建模作為全球AI領(lǐng)域最核心的前沿探索方向之一,更是成為技術(shù)突破的關(guān)鍵抓手。

如何通過新一代AI架構(gòu)的創(chuàng)新迭代,賦能物理世界建模的精準(zhǔn)化、高效化,讓AI更好地理解、建模并交互物理環(huán)境。這是中山大學(xué)計(jì)算機(jī)學(xué)院的青年研究員、博士生導(dǎo)師,同時也是拓元智慧首席科學(xué)家的王廣潤博士所一直鉆研的問題。

2025年12月13日,在雷峰網(wǎng)舉辦的第八屆GAIR全球人工智能與機(jī)器人大會現(xiàn)場,王廣潤博士做了題為《創(chuàng)新基礎(chǔ)模型,強(qiáng)化物理世界建?!返姆窒怼?/p>

以下為他的演講內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))/AI科技評論做了不改變原意的編輯:

我的題目是《創(chuàng)新基礎(chǔ)模型,強(qiáng)化物理世界建模》,我們實(shí)驗(yàn)室叫HCP,大概在十幾年前就取這個名字了,其中就包括了physical intelligence,我們知道在具身智能領(lǐng)域有一家比較好的公司就叫Physical Intelligence,所以向大家匯報(bào)一下。

什么是物理空間智能

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們希望物理空間模型能夠成為“物理世界操作系統(tǒng)”的內(nèi)核,也希望未來的物理空間的智能能夠通過相對應(yīng)的圖靈測試:可以看到這是一個比較臟亂的房間,當(dāng)我們早上出去的時候,這個房間還很臟亂,回來之后它就變得很干凈了,以至于我們分不清這個房間是人打掃的還是有一個AI來幫我們打掃的。有人認(rèn)為這樣就通過了圖靈測試,但是我不這么認(rèn)為。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

今天在做物理模型或具身智能的時候,經(jīng)常能聽到一個詞叫端到端,其實(shí)端到端這個詞很早以前就有了。我這邊放了兩個slide:左邊是十年前王曉剛老師在波士頓的演講,他就提到了端到端;右邊是何愷明老師在2016年紐約的一個匯報(bào)。

大家可能認(rèn)為端到端有一些比較好的特點(diǎn),是非端到端的分層學(xué)習(xí)所不具備的。我們今天在做物理建模的時候,也希望我們的物理模型能實(shí)現(xiàn)相對應(yīng)的端到端,其中包括把模型里面的感知、規(guī)劃和執(zhí)行用端到端來實(shí)現(xiàn)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

如上圖所示,我們的模型是相應(yīng)的文本、圖象還有其他的信息,先前的做法會有一個感知,得到感知之后就做相應(yīng)的規(guī)劃,之后就會執(zhí)行。端到端的話就是把整個東西變成一個黑盒或者一個系統(tǒng),一口氣出來。

這樣的一個端到端的物理模型,它有很多的應(yīng)用,比如機(jī)器人、航天,還有自動駕駛等。我們最近有很多的相關(guān)工作。值得注意的是,前幾天航天已經(jīng)可以商業(yè)化使用了,所以這也是一個很好的方向。

但是端到端的特點(diǎn)就是需要非常多的數(shù)據(jù)來訓(xùn)練它,這也是為什么端到端和物理模型比較困難的原因。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

端到端的系統(tǒng)可以進(jìn)一步簡化成這樣的端到端:輸入為各式各樣的東西,比如圖象、文本還有其他的狀態(tài),輸出也是相應(yīng)的多模態(tài),例如文本和動作等等。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025


一個更加典范的端到端系統(tǒng)是這樣的,輸入是包括物理世界的一些東西,它經(jīng)過一個空間的建模,得到相應(yīng)的信息。然后我們再給一個指令,經(jīng)過物理建模之后,它會輸出物理世界的預(yù)測以及指令的分解。

不同的人對物理世界模型的理解不太一樣,有一些人認(rèn)為物理世界模型是對未來世界的預(yù)測、相應(yīng)的分解,這是我們說的一種物理世界模型的理解。在這一框架下,預(yù)測得到的未來物理世界狀態(tài)會與當(dāng)前的物理世界表示共同進(jìn)入空間建模與物理建模模塊,從而生成具體的動作決策;這些動作最終被執(zhí)行,用以與真實(shí)物理世界進(jìn)行交互。

特別值得注意的是,我們發(fā)現(xiàn)其中的空間建模模塊本身具備良好的自適應(yīng)能力,這是一個非常重要的特性。進(jìn)一步地,我們觀察到,現(xiàn)階段對大模型的微調(diào)在很大程度上可能只需要對空間建模中的一小部分參數(shù)進(jìn)行微調(diào),而其他模塊并不需要調(diào)整,相關(guān)原因我將在后文中進(jìn)一步說明。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們今天圍繞《創(chuàng)新基礎(chǔ)模型,強(qiáng)化物理世界建?!返念}目來講,主要包括三個方面的內(nèi)容,一個是框架,一個是模型,還有是基準(zhǔn)。

框架:全局迭代生成

框架的進(jìn)展近十年是非常緩慢的,大概在80年代到2017年,分別有三個相應(yīng)的框架,比如多層感知器,卷積神經(jīng)網(wǎng)絡(luò)以及Transformer等等,對應(yīng)著也有很多獎項(xiàng)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

但是從2017年1月之后一直到現(xiàn)在,現(xiàn)在馬上到2026年1月份了,這十年的進(jìn)展是比較緩慢的。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

雖然很緩慢,但還是有不同的研究機(jī)構(gòu)和很多的公司都想推進(jìn)框架。比如Deepseek它也一直想推進(jìn)一些新的架構(gòu)的發(fā)展,Demis Hassibis的一個雄心壯志是想推出一個新的架構(gòu),原話是:我們發(fā)明了Transformer,所以下一個出來的架構(gòu)可能也是我們做出來的。

我們的團(tuán)隊(duì)在框架探索方面也做了一些努力,包括在單元結(jié)算、結(jié)構(gòu)計(jì)算和推理計(jì)算方面提出了一些自己的框架,我今天主要介紹第三個。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

一個大模型的生成有幾種形式,最常見的一種是數(shù)據(jù)生成,好比左邊所示,它的字是一個一個出來的。這就是一個順序生成的過程。

還有一種方法是全局迭代生成,比如要生成一個結(jié)果,一段文本,它可能就是先出來一個文本的整體的框架,再進(jìn)行相應(yīng)的調(diào)整,一下子就出來整個文章,因?yàn)檫@樣的全局生成是非??斓摹?/p>

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

全局迭代生成有一些優(yōu)勢:首先它是一個考慮全局性的漸進(jìn)精化的過程,天然的自帶推理能力。以左邊這張圖為例,這是毛主席的一首詩詞,他在寫這首詞的時候可能先寫完,再對其中一些不滿意的地方修改,然后出來相應(yīng)的詩詞。這一種生成方式就是生成之后還會對其中一些進(jìn)行推理推敲。相比之下,現(xiàn)有大模型在生成時往往采用嚴(yán)格的順序生成方式,逐字輸出,一旦生成便無法回溯修改。這種方式更接近于“謄寫”而非“創(chuàng)作”,體現(xiàn)的是不同的生成范式。

全局迭代生成的第二個優(yōu)勢是很快,剛才的例子一眨眼就出來了,這里也體現(xiàn)了另一個例子,在代碼設(shè)計(jì)方面,它也是比逐個的自回歸生成快很多。

第三個優(yōu)勢是它能實(shí)現(xiàn)多模態(tài)的統(tǒng)一,因?yàn)槲覀兊膱D像也是這樣一個迭代的生成,如果文本和其他的模態(tài)也是這樣生成的話,都會有利于他們之間的統(tǒng)一。

剛剛講到了圖像的生成是利用一個連續(xù)的擴(kuò)散模型,是在連續(xù)信號上做這樣的生成,比如我要生成一個小鹿,它最開始的時候是相應(yīng)的一個噪聲,這個噪聲經(jīng)過幾次迭代之后,慢慢出來一個小鹿。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這個東西不可以直接用在語言上的,因?yàn)檎Z言是一個離散的信號,比如圖中的“this is a cat”,這就沒辦法往上面加噪聲,而且它的訓(xùn)練的損失函數(shù)也是一個交叉熵的損失函數(shù)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

在語言生成領(lǐng)域,已有一類方法被稱為離散擴(kuò)散模型,它主要有三種:第一種最傳統(tǒng),是用馬爾可夫的性質(zhì)實(shí)現(xiàn)它,一開始輸出相應(yīng)的文本,再跳轉(zhuǎn)別的文本,慢慢出現(xiàn)這種文本,但是這種方法是目前最差的,因?yàn)樗蕾囻R爾可夫的假設(shè),很容易形成這樣相應(yīng)的誤差。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

第二種方法是在連續(xù)的embedding空間中做擴(kuò)散,例如將輸入 “this is a cat” 映射到嵌入空間后,在該連續(xù)表示上進(jìn)行去噪。但這種方法存在天然缺陷:embedding模型和擴(kuò)散模型需要同時學(xué)習(xí),容易發(fā)生表示坍塌。模型可能走捷徑,將embedding投影到接近零的空間,使去噪變得過于容易,從而產(chǎn)生shortcut learning,最終難以學(xué)到有效表示。

為了避免shortcut learning,一種常見思路是借鑒Stable Diffusion的做法,先預(yù)訓(xùn)練一個自編碼器,將文本映射到連續(xù)的潛在空間中。然而,在這種分階段訓(xùn)練框架下,自編碼器本身的學(xué)習(xí)仍然較為困難,且整體的分階段訓(xùn)練在性能上往往并不理想。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

其實(shí)在擴(kuò)散語言模型中,現(xiàn)在用得最多的方法是基于mask的方法,這便是第三種方法。這個方法是把詞給隨機(jī)的蓋住,來預(yù)測蓋住的是什么詞語,通過交叉熵的形式預(yù)測出來。這種方法跟BERT架構(gòu)是非常接近的,它其實(shí)跟圖像領(lǐng)域的擴(kuò)散模型還是很不一樣,它是通過掩蓋的形式預(yù)測出來,我們也證明了它在超額風(fēng)險(xiǎn)上存在一些不足,所以現(xiàn)在的擴(kuò)散語言模型用這套方法還是不太理想。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

所以我們提出了一個非常不一樣的全新的擴(kuò)散模型,叫做原位推理的離散擴(kuò)散模型。原位的意思是指我們離散的信號可以編碼成這樣一個one-hot的表示,就是001這樣的一個編碼。我們可以直接在one-hot表示上加噪聲,然后給它去噪。這個方法是直接在離散信號上做加噪去噪,取得了意想不到的好的效果。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

它的前向過程是直接對one-hot進(jìn)行加噪,去噪就是給一個隨機(jī)的高斯噪聲,慢慢去噪,最后跟我們的離散擴(kuò)散模型非常的一致。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們也給出了一些理論上的分析,因?yàn)樗裱薚weddie’s formula這個比較著名的恒等式,所以滿足這個fisher divergence的特點(diǎn),所以使得它的訓(xùn)練和測試都非常穩(wěn)定。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們也做了一些相應(yīng)的實(shí)驗(yàn),比如這是單個token的生成,結(jié)果非常好。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

在一些文本生成的實(shí)驗(yàn)上,我們比現(xiàn)有的基于Mask的方法(MDD這一行)也有比較大的提升??梢钥吹綀D中的第二行的最后一列,這是現(xiàn)有的基于Mask的方法出來的結(jié)果,出來的句子其實(shí)是比較差的。相比之下,我們剛才非常簡單的方法,出來的效果就非常好。我們也正在準(zhǔn)備發(fā)布一個這樣的比較大的語言模型。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是去噪的過程,可以看到隨著迭代的變化,token從一個非常不確定的狀態(tài),慢慢的把離散信號給預(yù)測出來了。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是一個去噪的可視化結(jié)果,可以看出來,在第90的時候還是比較亂的,慢慢的到第10之后,相應(yīng)的文本就會出來。

模型:E0具身大模型

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

有了跟別人不一樣的框架之后,就開始訓(xùn)練我們的模型?,F(xiàn)在機(jī)器人的模型里面大家用的比較多的是VLA模型,但它存在著很多的瓶頸:首先,其泛化能力不是很強(qiáng),機(jī)器人在一個環(huán)境中使用,但是到另外一個環(huán)境,跌得特別厲害。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

其次,動作控制的精度仍然較為粗糙,例如讓機(jī)器人完成插插頭這類精細(xì)操作在實(shí)際中仍然非常困難。第三,則是建模范式上的不一致性。以剛才提到的經(jīng)典模型 Π0 和 Π0.5 為例,其前端依賴預(yù)訓(xùn)練的語言模型,采用的是離散建模過程,而后端則引入了基于連續(xù)信號的擴(kuò)散模型。這種從離散到連續(xù)的建模切換在范式上并不完全兼容。事實(shí)上,現(xiàn)有許多知名的VLA模型大致都可以歸為這兩類:要么基于離散建模,要么基于連續(xù)擴(kuò)散建模。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們提出了一種新的具身大模型E0,其核心采用了我們新提出的擴(kuò)散模型。該模型能夠?qū)崿F(xiàn)對動作精度的高分辨率建模與分級,從而具備更高的控制靈活性。此外,我們還引入了球面視角表示來訓(xùn)練模型,以增強(qiáng)其對復(fù)雜空間結(jié)構(gòu)的建模能力。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這就是我們提出的整體框架,其中包含一個VLM,以及我們剛剛提出的一種新的離散擴(kuò)散模型。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

可以看一下我們的結(jié)果:在很多數(shù)據(jù)集上都表現(xiàn)得非常優(yōu)秀,例如LIBERO、ManiSkill、VLABench上都取得非常好的效果,跟那些基線模型在相同情況下對比,可以發(fā)現(xiàn)我們在精細(xì)操作、場景理解、長程任務(wù)上都表現(xiàn)得非常突出。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這個是RoboTwin的另外一個數(shù)據(jù)集,可以看出左邊這一列是單臂的機(jī)器人,右邊是雙臂的機(jī)器人,我們的方法在很多任務(wù)上都有明顯的提升。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們的模型在真機(jī)實(shí)驗(yàn)上也比較優(yōu)秀,采用了五個短程任務(wù)和三個長程任務(wù)來做實(shí)驗(yàn)。最下面這行是跟 Π0 相比的結(jié)果,效果還是有比較大的提升,并且在很多的任務(wù)上有很強(qiáng)的泛化性。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

從消融實(shí)驗(yàn)可以看出來,我們支持任意大小的離散化分塊數(shù)量,控制程度可以非常的精細(xì),控制動作的維度跟真實(shí)的機(jī)器人接近時表現(xiàn)更好。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是LIBERO的數(shù)據(jù)集,是大家用得非常多的一個數(shù)據(jù)集,可以看到我們在很多任務(wù)上都做得非常好。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是另外一個數(shù)據(jù)集ManiSkill,有一個比較難的任務(wù)就是插銷和插插座,看起來這個任務(wù)簡單,但在真實(shí)的應(yīng)用中,插插座還是非常難的,因?yàn)槲覀兛梢宰龅椒浅>?xì)的控制,這種任務(wù)也完成的不錯。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是另外一個數(shù)據(jù)集上的結(jié)果VLABench,這里我們讓機(jī)器人打牌或打麻將,它能夠比較好的識別到我們要取的是哪張牌,哪個麻將,來進(jìn)行相應(yīng)的操作。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我們來看幾個真機(jī)的任務(wù),比如撿方塊、按按鈕、關(guān)微波爐門,開抽屜以及疊方塊等等,這些任務(wù)上都表現(xiàn)得非常棒。尤其是在長程任務(wù)上,例如先拉開抽屜再放入方塊、將碟子放入微波爐并關(guān)閉爐門、以及依次將方塊疊放在碟子上,模型展現(xiàn)出了非常穩(wěn)定且出色的表現(xiàn)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025


還在一些沒有見過的場景里面,它的泛化也是非常強(qiáng)的,這些都是我們沒有訓(xùn)練過的場景,以及在被人為打斷的任務(wù)中,它原來要拿兩個方塊,拿到一半的時候,有人把這個東西推開了,它還是很棒的執(zhí)行下來。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我這里還想分享一個觀點(diǎn),在具身機(jī)器人VLA的任務(wù)中,有一個比喻是:我們在一個監(jiān)控中心看不同房間的監(jiān)控視頻,通過監(jiān)控視頻來遙操我們的機(jī)器人做一些事情。

我的意思是:當(dāng)我們通過熟悉某一個房間中監(jiān)控視頻與機(jī)械臂運(yùn)動之間的對應(yīng)關(guān)系后,確實(shí)可以學(xué)會遠(yuǎn)程操控該房間內(nèi)的機(jī)器人完成任務(wù);但當(dāng)場景切換到另一個房間時,是否能夠立即泛化到新的監(jiān)控視頻與機(jī)械臂運(yùn)動關(guān)系,從而直接成功遙控另一臺機(jī)器人?實(shí)際上,這是做不到的。人已經(jīng)是一個非常泛化的智能體了,但是到了一個新場景,再去控制機(jī)器人的話還是做不到。這說明了一個問題,為什么現(xiàn)在具身智能這么難的原因,是因?yàn)槲覀冃枰M(jìn)行一個解耦,把物理模型和空間模型進(jìn)行解耦。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

我認(rèn)為人在相應(yīng)的環(huán)境下需要做相應(yīng)的適應(yīng)。舉個例子:一臺能夠在你家環(huán)境中完成家務(wù)的機(jī)器人,當(dāng)被部署到我家時,能否通過一次快速的環(huán)境適配過程(類似于機(jī)器自檢或校準(zhǔn)),同樣勝任我家環(huán)境中的家務(wù)任務(wù)?

所以我們提出的新方法,就是把物理模型解耦成兩部分,一個是物理建模,一個是空間建模。以圖中所示框架為例,這是一個典型的 Π0 / Π0.5 架構(gòu)。我們的實(shí)驗(yàn)表明,整個模型在適配新環(huán)境時無需對大部分模塊進(jìn)行微調(diào),只需在視覺模塊中調(diào)整約四千個或者4M個參數(shù),便可實(shí)現(xiàn)良好的適應(yīng)效果;僅使用一條樣本即可完成有效微調(diào)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這就是剛剛講的例子,我們在一個新的環(huán)境下不要調(diào)一個個具身模型有20億個參數(shù),只要對視覺模塊里面非常小的一部分參數(shù),用一條樣本來微調(diào),就已經(jīng)能達(dá)到很好的效果。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

這是微調(diào)前的視覺特征,去到一個新環(huán)境,如果沒有微調(diào),它相應(yīng)的視覺特征是比較混淆的。做一個小的微調(diào)之后,它的特征就可以分得比較清,就可以實(shí)現(xiàn)非常好的泛化。

值得注意的是,這一結(jié)論在真實(shí)機(jī)器人環(huán)境中同樣成立。眾所周知,現(xiàn)有的機(jī)器人模型在部署到真實(shí)環(huán)境時通常需要進(jìn)行一定程度的微調(diào);而在我們的方法中,即便是在真機(jī)條件下,也只需使用極少量的樣本(例如僅一條),并對視覺模塊中極少數(shù)參數(shù)進(jìn)行微調(diào),便能夠完成抓取任務(wù)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

關(guān)于世界模型我想舉一個例子,比如在這個圖的左下邊,輸入圖片以后,問車的狀態(tài)是怎么樣的。在語言模型里面會用語言的方式分析這個圖象,最終得出這個車門是打開的,這是語言模型的推理。

在物理世界中的推理顯然是不一樣的,如果問我掃地機(jī)器人能不能對房間進(jìn)行一個很好的打理,只用語言文本和多模態(tài)模型來推理其實(shí)是做不到的,它對空間的感知能力是很差的。

我們的方法是,我們在做相應(yīng)的物理動作前要進(jìn)行思考,這個思考是要用視頻的方式進(jìn)行,也就是我們要做相應(yīng)的規(guī)劃,在物理空間做相應(yīng)的視頻推理,才能給出來相應(yīng)的答案。

基準(zhǔn):無人化物理智能測評平臺

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

講完框架和模型之后,最后介紹一下基準(zhǔn)。具身智能這個領(lǐng)域很多都是用仿真的數(shù)據(jù)集來測試,真機(jī)上的話,大家都在自己的機(jī)器上做,你做你的,我做我的,比較難統(tǒng)一,也不是很公平,而且有些團(tuán)隊(duì)也沒有很好的真機(jī)基礎(chǔ)。

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

所以我們也提出了一個真實(shí)的評測基礎(chǔ),我們搭建了一個框架:用戶只需要在互聯(lián)網(wǎng)端調(diào)用相應(yīng)的框架,就可以在我們實(shí)驗(yàn)室的機(jī)器人來完成相應(yīng)的評測,進(jìn)行相應(yīng)的使用。

我今天分享就這么多,謝謝大家。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

中山大學(xué)王廣潤:大模型的微調(diào)只是對空間建模的微調(diào) | GAIR 2025

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說