日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給吳思?jí)?/span>
發(fā)送

0

ICRA 2026|美團(tuán)&北航提出LIBERO-X:五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

導(dǎo)語:把VLA評測從平均成功率推進(jìn)到魯棒性診斷


原文作者:公眾號(hào)“計(jì)算機(jī)頂會(huì)大全”

原文鏈接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

 

 

論文作者來自美團(tuán)和北京航空航天大學(xué)

論文鏈接:

arXiv預(yù)印本https://arxiv.org/abs/2602.06556

arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf

官方項(xiàng)目頁https://zackhxn.github.io/LIBERO-X/

 

LIBERO-X: Robustness Litmus for Vision-Language-Action Models


ICRA 2026|美團(tuán)&北航提出LIBERO-X:五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

過去,很多VLA模型在標(biāo)準(zhǔn)機(jī)器人基準(zhǔn)上表現(xiàn)不錯(cuò),但這并不等于它們真的具備真實(shí)部署能力。真實(shí)環(huán)境中的機(jī)器人任務(wù),往往會(huì)同時(shí)遇到物體位置變化、場景結(jié)構(gòu)變化、未見物體、視覺干擾和語言指令改寫等問題。


這篇論文提出LIBERO-X,核心不是再造一個(gè)更強(qiáng)模型,而是構(gòu)建一個(gè)更嚴(yán)格的VLA魯棒性評測基準(zhǔn),用來檢驗(yàn)現(xiàn)有視覺語言動(dòng)作模型到底穩(wěn)不穩(wěn)。方法上,LIBERO-X設(shè)計(jì)了五級(jí)遞進(jìn)式測試協(xié)議,從局部空間擾動(dòng)、大范圍空間擾動(dòng),到場景拓?fù)渲貥?gòu)、視覺屬性變化和語義等價(jià)指令改寫,逐層增加真實(shí)部署難度。同時(shí),它構(gòu)建了更高多樣性的訓(xùn)練數(shù)據(jù),并通過多標(biāo)簽診斷分析模型在交互類型、子任務(wù)數(shù)量、空間關(guān)系、物體屬性等維度上的失敗模式。

ICRA 2026|美團(tuán)&北航提出LIBERO-X:五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

實(shí)驗(yàn)結(jié)果顯示,多個(gè)代表性VLA模型在LIBERO-X上都會(huì)隨難度增加明顯掉點(diǎn),尤其在拓?fù)渥兓?、未見物體、語言改寫和多步長程任務(wù)中表現(xiàn)不穩(wěn)定。這說明現(xiàn)有VLA并不是不會(huì)完成任務(wù),而是缺少對復(fù)雜分布偏移的穩(wěn)定泛化能力。


這篇工作的價(jià)值在于,它把VLA評測從平均成功率推進(jìn)到魯棒性診斷。對具身智能研究來說,未來不僅要做更大的模型,也要做更真實(shí)的基準(zhǔn)、更細(xì)的失敗分析和更強(qiáng)的空間泛化、語言接地與長程執(zhí)行能力,這正是VLA實(shí)用化落地的重要發(fā)文切口。


雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

 

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說