日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

導(dǎo)語(yǔ):MangoBench:評(píng)估多智能體在多目標(biāo)任務(wù)中協(xié)作能力的離線基準(zhǔn)。

很多人其實(shí)已經(jīng)在不知不覺中接觸到了多智能體協(xié)作帶來(lái)的變化。

電商大促時(shí),倉(cāng)庫(kù)里往往不是一臺(tái)機(jī)器人在工作,而是一整組機(jī)器人同時(shí)分揀、運(yùn)輸、避讓和交接。自動(dòng)駕駛真正困難的地方,也不只是讓一輛車學(xué)會(huì)開,而是讓很多輛車在同一條路上彼此配合?,F(xiàn)實(shí)中的很多復(fù)雜任務(wù),本質(zhì)上都不是單個(gè)智能體可以獨(dú)立完成的,智能系統(tǒng)也是一樣。

但現(xiàn)實(shí)世界并不會(huì)給這些系統(tǒng)太多試錯(cuò)機(jī)會(huì)。倉(cāng)庫(kù)機(jī)器人撞一次貨架,工業(yè)機(jī)械臂裝錯(cuò)一次零件,代價(jià)都是真實(shí)的。也正因?yàn)槿绱?,越?lái)越多研究開始轉(zhuǎn)向離線強(qiáng)化學(xué)習(xí),也就是先利用已有數(shù)據(jù)訓(xùn)練策略,而不是依賴實(shí)時(shí)試錯(cuò)。

可一旦從單智能體走向多智能體,難度會(huì)迅速上升,因?yàn)橄到y(tǒng)不僅要學(xué)會(huì)做決策,還要在反饋有限的條件下學(xué)會(huì)協(xié)作。

這正是當(dāng)前行業(yè)里的一個(gè)現(xiàn)實(shí)瓶頸。很多方法在實(shí)驗(yàn)環(huán)境里效果不錯(cuò),但到了離線多智能體場(chǎng)景中,往往很快暴露出問(wèn)題。

一方面,真實(shí)任務(wù)里的獎(jiǎng)勵(lì)通常非常稀疏,模型很難知道自己到底哪一步做對(duì)了。另一方面,多智能體協(xié)作還會(huì)帶來(lái)責(zé)任分配問(wèn)題,也就是最后成功了,卻很難判斷到底是哪一個(gè)智能體起了關(guān)鍵作用。結(jié)果就是,系統(tǒng)明明有大量歷史數(shù)據(jù),卻依然學(xué)不會(huì)穩(wěn)定協(xié)作,更談不上面對(duì)新任務(wù)時(shí)的泛化能力。

在這樣的背景下,來(lái)自中山大學(xué)的郭裕蘭團(tuán)隊(duì)提出了 MangoBench,并在研究《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中,嘗試重新回答一個(gè)關(guān)鍵問(wèn)題,也就是當(dāng)多個(gè)智能體不能隨便試錯(cuò)時(shí),怎樣才能真正學(xué)會(huì)協(xié)作。

研究團(tuán)隊(duì)沒(méi)有繼續(xù)依賴傳統(tǒng)獎(jiǎng)勵(lì)驅(qū)動(dòng),而是把問(wèn)題改寫成目標(biāo)驅(qū)動(dòng),讓模型圍繞應(yīng)該到達(dá)什么狀態(tài)去學(xué)習(xí),從而為離線多智能體強(qiáng)化學(xué)習(xí)提供了一條更清晰的研究路徑。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

論文地址:https://wendyeewang.github.io/MangoBench/

性能分化的關(guān)鍵拐點(diǎn)

在難度適中的導(dǎo)航任務(wù)里,不同方法的表現(xiàn)差距已經(jīng)很明顯了。中山大學(xué)團(tuán)隊(duì)提出的 IHIQL 的成功率能達(dá)到 80% 到 95%,說(shuō)明它大多數(shù)時(shí)候都能把任務(wù)完成好。相比之下,ICRL 只有 40% 到 60%,GCMBC 只有 20% 到 40%,而 GCOMIGA 和 GCOMAR 基本接近 0%,幾乎等于沒(méi)學(xué)會(huì)。

換句話說(shuō),同樣是面對(duì)離線數(shù)據(jù),有的方法已經(jīng)能比較穩(wěn)定地找到路,有的方法卻連基本方向都抓不住。這說(shuō)明在獎(jiǎng)勵(lì)很少、反饋很弱的情況下,傳統(tǒng)的離線多智能體方法其實(shí)很容易失靈,而分層強(qiáng)化學(xué)習(xí)方法更容易學(xué)出效果。

當(dāng)任務(wù)再變難一點(diǎn),這種差距會(huì)被進(jìn)一步放大。所有方法的表現(xiàn)都會(huì)下降,但下降的程度并不一樣。IHIQL 雖然也會(huì)掉到 30% 到 40%,但至少還保留了一部分完成任務(wù)的能力。

ICRL 和 GCMBC 會(huì)掉到 10% 到 20% 左右,其他方法則幾乎完全不行了??梢园阉斫獬?,一開始大家都在考試,題目簡(jiǎn)單的時(shí)候還能看出誰(shuí)強(qiáng)誰(shuí)弱,題目一難,很多方法就直接交白卷了,只有少數(shù)方法還能繼續(xù)答題。IHIQL 的優(yōu)勢(shì),正體現(xiàn)在它遇到更復(fù)雜的環(huán)境時(shí)沒(méi)有一下子垮掉。

研究人員還專門看了另一件事,也就是把一個(gè)任務(wù)交給多個(gè)智能體時(shí),具體怎么分工會(huì)不會(huì)影響結(jié)果。比如有的設(shè)置是每個(gè)智能體負(fù)責(zé) 4 個(gè)部分,有的是每個(gè)智能體只負(fù)責(zé) 2 個(gè)部分。

結(jié)果發(fā)現(xiàn),不管是 2×4 還是 4×2,IHIQL 在中等難度任務(wù)里都能穩(wěn)定在約 90% 左右。這個(gè)結(jié)果可以理解成,它不是只會(huì)適應(yīng)某一種固定分工,而是更像抓住了任務(wù)本身該怎么完成,所以換一種分工方式,它照樣能做得不錯(cuò)。

到了機(jī)械臂任務(wù),這種差別就更容易看出來(lái)了。在同步協(xié)作的抬欄桿任務(wù)里,IHIQL 的成功率在 80% 以上,GCMBC 大約 60%,ICRL 大約 50%,模仿學(xué)習(xí)方法大約 40%。如果把這些方法想成幾組不同水平的工人,那么 IHIQL 這一組不但完成任務(wù)的概率更高,而且訓(xùn)練時(shí)間只有模仿學(xué)習(xí)方法的約 5%。

這說(shuō)明它不只是做得更好,而且學(xué)得更快,效率也更高。通俗一點(diǎn)說(shuō),就是它不但更會(huì)做事,而且更快進(jìn)入狀態(tài)。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

到了更復(fù)雜的異步協(xié)作任務(wù),情況就不一樣了,原本領(lǐng)先的方法不一定還能繼續(xù)領(lǐng)先。以放置食物這個(gè)任務(wù)為例,這類任務(wù)不是大家一起同時(shí)發(fā)力,而是要一個(gè)智能體先完成前面的動(dòng)作,另一個(gè)再接著往下做,所以更考驗(yàn)先后配合。

在這種情況下,ICRL 的表現(xiàn)最好,成功率大約在 30% 到 40% 之間,明顯高于 IHIQL 和 GCMBC,模仿學(xué)習(xí)方法甚至不到 10%。這說(shuō)明當(dāng)任務(wù)強(qiáng)調(diào)步驟之間的銜接時(shí),對(duì)比學(xué)習(xí)方法更容易學(xué)到這種順序關(guān)系。更重要的是,它不僅做得更好,訓(xùn)練時(shí)間還比模仿學(xué)習(xí)少了約 93%,也就是說(shuō),它不只是更會(huì)學(xué),而且學(xué)得還更快。

多目標(biāo)和單目標(biāo)的對(duì)比,則說(shuō)明了另一件很容易被忽視的事,那就是測(cè)試方式本身也會(huì)影響我們對(duì)模型的判斷。如果只用一個(gè)目標(biāo)去測(cè)試,同一個(gè)任務(wù)里,IHIQL 是 78%,GCMBC 是 22%,ICRL 是 37%。但換成多目標(biāo)評(píng)估后,它們分別提升到 82%、47% 和 56%。

這意味著很多方法其實(shí)并沒(méi)有我們?cè)瓉?lái)想的那么差,只是單目標(biāo)測(cè)試把它們的能力看窄了。換句話說(shuō),這些方法學(xué)到的并不只是某一個(gè)固定動(dòng)作,而是面對(duì)不同目標(biāo)時(shí),仍然能夠做出調(diào)整的能力,也就是更接近真正的泛化。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

在訓(xùn)練方式的對(duì)比里,研究人員發(fā)現(xiàn),并不是拿到更多全局信息,效果就一定更好。分布式方法 IHIQL 在中等任務(wù)里成功率大約是 95%,任務(wù)規(guī)模變大后還有大約 85%,到了超大規(guī)模任務(wù)也還能保持在 50% 左右。

相比之下,集中訓(xùn)練方法 HIQL-CTDE 在中等任務(wù)里還有大約 70%,但任務(wù)一變復(fù)雜,很快就掉到 44%,再往上甚至只剩下 1%,幾乎等于學(xué)不動(dòng)了。

這個(gè)結(jié)果可以理解成,分布式方法更像是把問(wèn)題拆開來(lái),各個(gè)智能體先管好自己那一部分,所以任務(wù)變難時(shí)還能穩(wěn)住。集中訓(xùn)練方法看起來(lái)掌握的信息更多,但也正因?yàn)橐瑫r(shí)處理太多全局信息,任務(wù)一復(fù)雜就容易顧不過(guò)來(lái),最后訓(xùn)練變得越來(lái)越不穩(wěn)定。

也就是說(shuō),在多智能體任務(wù)里,信息更多不一定更占優(yōu)勢(shì),關(guān)鍵還是系統(tǒng)能不能把復(fù)雜問(wèn)題處理得足夠清楚。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

把所有實(shí)驗(yàn)結(jié)果放在一起看,其實(shí)能得出幾個(gè)很清楚的判斷。首先,很多方法之所以一到復(fù)雜任務(wù)就失效,最根本的原因不是模型太弱,而是獎(jiǎng)勵(lì)信號(hào)太少。

因?yàn)樵谙∈瑾?jiǎng)勵(lì)條件下,系統(tǒng)大部分時(shí)候都得不到明確反饋,很難知道自己到底哪一步做對(duì)了,所以訓(xùn)練很容易陷入混亂。一旦把獎(jiǎng)勵(lì)變得更密集,性能就會(huì)明顯恢復(fù),這說(shuō)明問(wèn)題的關(guān)鍵不在模型本身,而在學(xué)習(xí)信號(hào)不夠。

其次,目前表現(xiàn)最穩(wěn)的還是分層方法。以 IHIQL 為代表的方法之所以更有效,是因?yàn)樗皇亲屇P鸵淮涡匀ソ鉀Q整個(gè)復(fù)雜任務(wù),而是把大任務(wù)拆成多個(gè)更小的步驟來(lái)學(xué)。

這樣做的好處是,模型更容易在中間過(guò)程里得到反饋,也更不容易在任務(wù)變復(fù)雜時(shí)一下子崩掉。所以從實(shí)驗(yàn)結(jié)果來(lái)看,分層策略更像是一種讓系統(tǒng)先學(xué)會(huì)一步一步完成任務(wù)的方法,而不是一上來(lái)就要求它掌握全部。

最后,這項(xiàng)研究還說(shuō)明了多智能體系統(tǒng)最難的地方,其實(shí)不只是學(xué)會(huì)做動(dòng)作,而是學(xué)會(huì)彼此配合。在簡(jiǎn)單任務(wù)里,多智能體有時(shí)還能比單智能體做得更好,因?yàn)榇蠹曳止ぶ笮矢摺?/p>

但一旦任務(wù)變復(fù)雜,需要更精細(xì)的協(xié)作和銜接時(shí),問(wèn)題就會(huì)立刻暴露出來(lái)。也就是說(shuō),真正卡住多智能體系統(tǒng)的,不只是學(xué)習(xí)能力,而是協(xié)同能力,這也是為什么協(xié)作會(huì)成為整個(gè)系統(tǒng)進(jìn)一步提升表現(xiàn)的最大瓶頸。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

從獎(jiǎng)勵(lì)驅(qū)動(dòng)到目標(biāo)驅(qū)動(dòng)

在實(shí)驗(yàn)設(shè)計(jì)上,研究團(tuán)隊(duì)先做了一件很關(guān)鍵的事,就是把原本的離線數(shù)據(jù)重新整理了一遍。原始數(shù)據(jù)里只有狀態(tài)和動(dòng)作,記錄的是系統(tǒng)當(dāng)時(shí)看到了什么、做了什么。

研究人員在這個(gè)基礎(chǔ)上又加進(jìn)了目標(biāo)和獎(jiǎng)勵(lì),也就是把原來(lái)的數(shù)據(jù)改造成了狀態(tài)、動(dòng)作、目標(biāo)、獎(jiǎng)勵(lì)這樣的形式。具體來(lái)說(shuō),他們會(huì)從已有軌跡里隨機(jī)挑出一個(gè)狀態(tài)當(dāng)作目標(biāo),再去判斷當(dāng)前行為有沒(méi)有朝這個(gè)目標(biāo)靠近,然后自動(dòng)生成對(duì)應(yīng)的獎(jiǎng)勵(lì)。

這樣一來(lái),同一批歷史數(shù)據(jù)就不再只能拿來(lái)學(xué)一個(gè)任務(wù),而是可以圍繞不同目標(biāo)反復(fù)使用,相當(dāng)于把原有數(shù)據(jù)的價(jià)值放大了。

這樣做的意義在于,它把原來(lái)的學(xué)習(xí)方式換了一種思路。傳統(tǒng)強(qiáng)化學(xué)習(xí)更像是讓模型一邊做一邊等反饋,問(wèn)題是這種反饋往往很少,很多時(shí)候模型根本不知道自己到底做得對(duì)不對(duì)。

加入目標(biāo)之后,情況就不一樣了。模型不再只是被動(dòng)等獎(jiǎng)勵(lì),而是會(huì)一直圍繞一個(gè)明確目標(biāo)去行動(dòng),判斷自己是不是在一步步接近它。換句話說(shuō),原本那種模糊又稀少的反饋,被變成了更直接、更容易理解的學(xué)習(xí)信號(hào),所以模型更容易學(xué)出有效策略。

為了讓結(jié)果更可靠,研究團(tuán)隊(duì)在實(shí)驗(yàn)設(shè)置上也做得比較嚴(yán)謹(jǐn)。運(yùn)動(dòng)任務(wù)一共訓(xùn)練了 100 萬(wàn)步,測(cè)試時(shí)還會(huì)換 5 個(gè)不同目標(biāo),并用 5 個(gè)隨機(jī)種子反復(fù)驗(yàn)證,也就是不只看一次結(jié)果,而是看它在不同條件下是不是都能穩(wěn)定表現(xiàn)。

操作任務(wù)也一樣,訓(xùn)練步數(shù)分別是 1.5 萬(wàn)和 3.88 萬(wàn),測(cè)試時(shí)還用了 100 個(gè)隨機(jī)種子。這樣做的目的很明確,就是盡量避免某一次訓(xùn)練碰巧表現(xiàn)好,確保最后看到的結(jié)果是穩(wěn)定的,而不是偶然的。

在任務(wù)安排上,研究人員也不是隨便選幾個(gè)場(chǎng)景,而是故意把難度一點(diǎn)點(diǎn)往上加。運(yùn)動(dòng)任務(wù)從較簡(jiǎn)單的迷宮開始,逐漸增加到更復(fù)雜的迷宮,最后再加入隨機(jī)傳送這樣的高難度設(shè)置。

操作任務(wù)則從需要同時(shí)配合的同步任務(wù),發(fā)展到需要講究先后順序的異步任務(wù)。這樣設(shè)計(jì),其實(shí)是想更系統(tǒng)地觀察模型在不同復(fù)雜度下的表現(xiàn),不只是看它能不能完成任務(wù),更想看它在任務(wù)越來(lái)越難時(shí),是否還具備泛化能力、長(zhǎng)期規(guī)劃能力和協(xié)作能力。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

換句話說(shuō),研究團(tuán)隊(duì)想測(cè)試的不是模型會(huì)不會(huì)做一道題,而是題目一旦變難,它還能不能繼續(xù)做下去。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

研究人員還專門分析了,為什么 CTDE 這種看上去信息更多的方法,最后反而表現(xiàn)不好。按直覺來(lái)說(shuō),既然它在訓(xùn)練時(shí)能看到更多全局信息,效果似乎應(yīng)該更好,但問(wèn)題恰恰也出在這里。

因?yàn)樗吹降臇|西太多了,全局狀態(tài)本質(zhì)上就是把所有智能體的狀態(tài)都拼在一起,這會(huì)讓問(wèn)題一下子變得非常大、非常復(fù)雜,模型需要同時(shí)處理的內(nèi)容也會(huì)迅速增加。

除此之外,CTDE 在訓(xùn)練時(shí)和執(zhí)行時(shí)其實(shí)并不是完全一致的。訓(xùn)練階段,模型會(huì)利用全局信息來(lái)學(xué)習(xí);但真正做決策時(shí),每個(gè)智能體又只能根據(jù)自己的局部信息行動(dòng)。這樣一來(lái),就會(huì)出現(xiàn)一種情況:訓(xùn)練時(shí)學(xué)到的東西,到了實(shí)際執(zhí)行時(shí)不一定能順利用上,這會(huì)讓優(yōu)化過(guò)程變得更困難。

還有一個(gè)更隱蔽的問(wèn)題在于目標(biāo)本身。CTDE 一方面要處理整體任務(wù)的全局目標(biāo),另一方面又要讓每個(gè)智能體根據(jù)自己的局部目標(biāo)去行動(dòng)。這樣就容易出現(xiàn)兩套目標(biāo)之間對(duì)不上的情況,也就是模型的一部分在學(xué)整體方向,另一部分卻在學(xué)局部細(xì)節(jié),最后很難配合到一起。

所以,CTDE 的問(wèn)題并不是信息不夠,而是信息太多、結(jié)構(gòu)太復(fù)雜,最后讓訓(xùn)練變得不穩(wěn)定。表面上看,它像是在幫模型看到更完整的全局;但實(shí)際上,正是這種額外的復(fù)雜性,讓它在任務(wù)一變難時(shí)更容易失效。

從方法到問(wèn)題本質(zhì)

從實(shí)驗(yàn)意義來(lái)看,研究團(tuán)隊(duì)最重要的貢獻(xiàn),不只是提出了一套新方法,而是更清楚地揭示了 Offline MARL 為什么一直很難真正做好。

研究結(jié)果說(shuō)明,問(wèn)題的核心并不只是模型能力強(qiáng)不強(qiáng),而是在訓(xùn)練過(guò)程中存在兩個(gè)更根本的障礙。第一個(gè)障礙是學(xué)習(xí)信號(hào)太弱,因?yàn)?reward 很稀疏,模型在大多數(shù)時(shí)候得不到明確反饋,Q- function 很難穩(wěn)定收斂,所以很多方法即使訓(xùn)練很久,效果仍然很差。

第二個(gè)障礙是責(zé)任分配問(wèn)題,也就是在多智能體協(xié)作中,很難判斷到底是哪一個(gè) agent 對(duì)最后的成功起了關(guān)鍵作用。一旦這個(gè)貢獻(xiàn)關(guān)系分不清,梯度更新就容易出錯(cuò),最后就會(huì)出現(xiàn)協(xié)作失敗。研究的價(jià)值就在于,它把多智能體離線強(qiáng)化學(xué)習(xí)最深層的困難點(diǎn)明確指出來(lái)了。

研究團(tuán)隊(duì)還說(shuō)明了 goal-conditioned 真正有效的原因。它的作用并不只是給模型多加一個(gè)目標(biāo)輸入,而是改變了整個(gè)學(xué)習(xí)方式。原來(lái)模型主要依賴 reward 來(lái)判斷行為好壞,這種信號(hào)很少,也不穩(wěn)定。

加入目標(biāo)之后,每個(gè) state 都能和某個(gè) goal 聯(lián)系起來(lái),學(xué)習(xí)信號(hào)就明顯變多了,模型也更容易知道自己應(yīng)該往什么方向調(diào)整。

這樣一來(lái),強(qiáng)化學(xué)習(xí)就不再只是盲目地追逐獎(jiǎng)勵(lì),而更像是在學(xué)習(xí)如何從當(dāng)前位置到達(dá)目標(biāo)位置。這種形式比單純依賴 reward 更穩(wěn)定,也更容易訓(xùn)練。

更重要的是,同一個(gè)模型可以面對(duì)不同目標(biāo)完成不同任務(wù),這說(shuō)明模型學(xué)到的不是死記硬背的固定動(dòng)作,而是具有一定泛化能力的行為策略。

研究人員進(jìn)一步說(shuō)明了為什么分層方法會(huì)更有效。原因在于,分層方法同時(shí)解決了兩個(gè)難題。一方面,它通過(guò)設(shè)置中間目標(biāo)緩解了稀疏獎(jiǎng)勵(lì)問(wèn)題,讓模型在任務(wù)還沒(méi)有最終完成之前,就已經(jīng)能得到階段性的反饋。

另一方面,它把原本很長(zhǎng)、很復(fù)雜的任務(wù)拆成多個(gè)更短、更容易處理的小任務(wù),從而減輕了長(zhǎng)時(shí)間依賴帶來(lái)的學(xué)習(xí)難度。換句話說(shuō),分層方法之所以有效,本質(zhì)上是因?yàn)樗岩粋€(gè)很難直接學(xué)會(huì)的大問(wèn)題,拆成了多個(gè)更容易逐步解決的小問(wèn)題。雷峰網(wǎng)

這一點(diǎn)對(duì)于多智能體任務(wù)尤其重要,因?yàn)槎嘀悄荏w系統(tǒng)本來(lái)就比單智能體更難協(xié)調(diào),如果沒(méi)有這種結(jié)構(gòu)化拆分,訓(xùn)練會(huì)更加不穩(wěn)定。

這項(xiàng)研究對(duì)普通人的影響也很實(shí)際。現(xiàn)實(shí)生活中很多場(chǎng)景并不允許系統(tǒng)反復(fù)試錯(cuò),比如自動(dòng)駕駛、倉(cāng)儲(chǔ)物流、工廠機(jī)械臂、醫(yī)院輔助機(jī)器人等。這些系統(tǒng)一旦出錯(cuò),代價(jià)往往很高,所以很多時(shí)候只能依賴已經(jīng)收集好的歷史數(shù)據(jù)進(jìn)行訓(xùn)練,也就是離線學(xué)習(xí)。

研究團(tuán)隊(duì)所做的工作,本質(zhì)上是在探索怎樣讓多個(gè)智能體在不能隨便試錯(cuò)的情況下,依然學(xué)會(huì)穩(wěn)定協(xié)作。這個(gè)方向如果繼續(xù)發(fā)展,未來(lái)普通人可能會(huì)直接受益于更安全的自動(dòng)駕駛系統(tǒng)、更高效的物流配送機(jī)器人、更穩(wěn)定的工業(yè)自動(dòng)化設(shè)備,以及更可靠的醫(yī)療和家庭輔助機(jī)器人。

MangoBench 背后的科研工作者

汪怡,中山大學(xué)在讀一年級(jí)博士生,主要研究方向?yàn)槿S視覺和強(qiáng)化學(xué)習(xí),師從郭裕蘭教授,于深圳河套學(xué)院實(shí)習(xí),完成此論文時(shí)期在中山大學(xué)讀本科。在 CVPR 等 CCF A 類會(huì)議發(fā)表多篇論文,參與中國(guó)圖學(xué)學(xué)會(huì)“奮發(fā)圖強(qiáng)”博士生 workshop,參與 China3DV 墻報(bào)展示,曾獲中山大學(xué)研究生校長(zhǎng)獎(jiǎng)學(xué)金等。

鐘檸澤,完成此論文時(shí)期在中山大學(xué)讀本科,與郭裕蘭教授合作,主要研究方向?yàn)闄C(jī)器人,三維視覺和強(qiáng)化學(xué)習(xí)。在 CVPR/ICLR/ACM MM 等 CCF A 類會(huì)議等發(fā)表論文,CVPR/NeurIPS/ECCV 審稿人,論文在China3DV/ChinaGraph 大會(huì)等展示,現(xiàn)在美國(guó)賓夕法尼亞大學(xué) GRASP Lab 讀研究生,與 Vijay Kumar 院長(zhǎng)合作。

符智恒,西澳大學(xué)博士,香港理工大學(xué)博士后,主要研究方向?yàn)槿S重建與生成。發(fā)表論文共 20 余篇(包括CVPR、ICCV、TIP、ECCV、IJCAI等),英文著作一部 Point Cloud Intelligence 。

王龍光,中山大學(xué)博士后,主要研究方向?yàn)榈讓右曈X和三維視覺。以第一作者身份發(fā)表 CCF A 類論文共 11 篇,谷歌學(xué)術(shù)總引用數(shù)為 7100 余次。入選中國(guó)科協(xié)青年人才托舉工程,連續(xù)三年入選全球前 2% 頂尖科學(xué)家榜單;主持國(guó)家及省部級(jí)項(xiàng)目 9 項(xiàng)。

張曄,中山大學(xué)副研究員,主要研究方向?yàn)榭臻g智能與三維視覺。發(fā)表學(xué)術(shù)論文 30 余篇,主持國(guó)家級(jí)和省部級(jí)項(xiàng)目3項(xiàng),曾擔(dān)任首屆中國(guó)空間智能大會(huì)本地主席。

郭裕蘭,中山大學(xué)教授,主要研究空間智能與三維視覺。主持國(guó)家自然科學(xué)基金聯(lián)合重點(diǎn)項(xiàng)目等 10 余項(xiàng),發(fā)表學(xué)術(shù)論文 200 余篇,谷歌學(xué)術(shù)引用 2 萬(wàn)余次,入選Clarivate全球高被引科學(xué)家。擔(dān)任中國(guó)圖象圖形學(xué)學(xué)會(huì)三維視覺專委會(huì)副主任,IEEE TIP 高級(jí)領(lǐng)域編輯(SAE)。曾擔(dān)任首屆中國(guó)空間智能大會(huì)主席,歷屆中國(guó)三維視覺大會(huì)組委會(huì)主席。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中山大學(xué)郭裕蘭團(tuán)隊(duì):數(shù)據(jù)充足卻訓(xùn)練失敗,多智能體到底卡在哪丨CVPR 2026

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)