ICRA 2026｜美團(tuán)&北航提出LIBERO-X：五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

本文作者：吳思?jí)?/a>

2026-05-28 15:42

專題：ICRA 國際機(jī)器人與自動(dòng)化會(huì)議

導(dǎo)語：把VLA評測從平均成功率推進(jìn)到魯棒性診斷

原文作者：公眾號(hào)“計(jì)算機(jī)頂會(huì)大全”

原文鏈接：https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

論文作者來自美團(tuán)和北京航空航天大學(xué)

論文鏈接：

arXiv預(yù)印本https://arxiv.org/abs/2602.06556

arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf

官方項(xiàng)目頁https://zackhxn.github.io/LIBERO-X/

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

ICRA 2026｜美團(tuán)&北航提出LIBERO-X：五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

過去，很多VLA模型在標(biāo)準(zhǔn)機(jī)器人基準(zhǔn)上表現(xiàn)不錯(cuò)，但這并不等于它們真的具備真實(shí)部署能力。真實(shí)環(huán)境中的機(jī)器人任務(wù)，往往會(huì)同時(shí)遇到物體位置變化、場景結(jié)構(gòu)變化、未見物體、視覺干擾和語言指令改寫等問題。

這篇論文提出LIBERO-X，核心不是再造一個(gè)更強(qiáng)模型，而是構(gòu)建一個(gè)更嚴(yán)格的VLA魯棒性評測基準(zhǔn)，用來檢驗(yàn)現(xiàn)有視覺語言動(dòng)作模型到底穩(wěn)不穩(wěn)。方法上，LIBERO-X設(shè)計(jì)了五級(jí)遞進(jìn)式測試協(xié)議，從局部空間擾動(dòng)、大范圍空間擾動(dòng)，到場景拓?fù)渲貥?gòu)、視覺屬性變化和語義等價(jià)指令改寫，逐層增加真實(shí)部署難度。同時(shí)，它構(gòu)建了更高多樣性的訓(xùn)練數(shù)據(jù)，并通過多標(biāo)簽診斷分析模型在交互類型、子任務(wù)數(shù)量、空間關(guān)系、物體屬性等維度上的失敗模式。

ICRA 2026｜美團(tuán)&北航提出LIBERO-X：五級(jí)遞進(jìn)測試揭示VLA模型魯棒性短板

實(shí)驗(yàn)結(jié)果顯示，多個(gè)代表性VLA模型在LIBERO-X上都會(huì)隨難度增加明顯掉點(diǎn)，尤其在拓?fù)渥兓?、未見物體、語言改寫和多步長程任務(wù)中表現(xiàn)不穩(wěn)定。這說明現(xiàn)有VLA并不是不會(huì)完成任務(wù)，而是缺少對復(fù)雜分布偏移的穩(wěn)定泛化能力。

這篇工作的價(jià)值在于，它把VLA評測從平均成功率推進(jìn)到魯棒性診斷。對具身智能研究來說，未來不僅要做更大的模型，也要做更真實(shí)的基準(zhǔn)、更細(xì)的失敗分析和更強(qiáng)的空間泛化、語言接地與長程執(zhí)行能力，這正是VLA實(shí)用化落地的重要發(fā)文切口。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章

專題

ICRA 國際機(jī)器人與自動(dòng)化會(huì)議

本專題其他文章

吳思?jí)?/span>

編輯

發(fā)私信

當(dāng)月熱門文章