0
| 本文作者: 吳思?jí)?/a> | 2026-05-28 15:42 | 專題:ICRA 國際機(jī)器人與自動(dòng)化會(huì)議 |
原文作者:公眾號(hào)“計(jì)算機(jī)頂會(huì)大全”
原文鏈接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA
論文作者來自美團(tuán)和北京航空航天大學(xué)
論文鏈接:
arXiv預(yù)印本https://arxiv.org/abs/2602.06556
arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf
官方項(xiàng)目頁https://zackhxn.github.io/LIBERO-X/
LIBERO-X: Robustness Litmus for Vision-Language-Action Models

過去,很多VLA模型在標(biāo)準(zhǔn)機(jī)器人基準(zhǔn)上表現(xiàn)不錯(cuò),但這并不等于它們真的具備真實(shí)部署能力。真實(shí)環(huán)境中的機(jī)器人任務(wù),往往會(huì)同時(shí)遇到物體位置變化、場景結(jié)構(gòu)變化、未見物體、視覺干擾和語言指令改寫等問題。
這篇論文提出LIBERO-X,核心不是再造一個(gè)更強(qiáng)模型,而是構(gòu)建一個(gè)更嚴(yán)格的VLA魯棒性評測基準(zhǔn),用來檢驗(yàn)現(xiàn)有視覺語言動(dòng)作模型到底穩(wěn)不穩(wěn)。方法上,LIBERO-X設(shè)計(jì)了五級(jí)遞進(jìn)式測試協(xié)議,從局部空間擾動(dòng)、大范圍空間擾動(dòng),到場景拓?fù)渲貥?gòu)、視覺屬性變化和語義等價(jià)指令改寫,逐層增加真實(shí)部署難度。同時(shí),它構(gòu)建了更高多樣性的訓(xùn)練數(shù)據(jù),并通過多標(biāo)簽診斷分析模型在交互類型、子任務(wù)數(shù)量、空間關(guān)系、物體屬性等維度上的失敗模式。

實(shí)驗(yàn)結(jié)果顯示,多個(gè)代表性VLA模型在LIBERO-X上都會(huì)隨難度增加明顯掉點(diǎn),尤其在拓?fù)渥兓?、未見物體、語言改寫和多步長程任務(wù)中表現(xiàn)不穩(wěn)定。這說明現(xiàn)有VLA并不是不會(huì)完成任務(wù),而是缺少對復(fù)雜分布偏移的穩(wěn)定泛化能力。
這篇工作的價(jià)值在于,它把VLA評測從平均成功率推進(jìn)到魯棒性診斷。對具身智能研究來說,未來不僅要做更大的模型,也要做更真實(shí)的基準(zhǔn)、更細(xì)的失敗分析和更強(qiáng)的空間泛化、語言接地與長程執(zhí)行能力,這正是VLA實(shí)用化落地的重要發(fā)文切口。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
本專題其他文章