0
| 本文作者: 陳淑瑜 | 2026-05-25 15:39 | 專題:ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議 |
原文鏈接:https://mp.weixin.qq.com/s/k-C_8ZHWktTRGa3kaq0Lcw
大語(yǔ)言模型驅(qū)動(dòng)的代碼生成技術(shù),正在深刻重塑機(jī)器人控制軟件的開發(fā)范式。曾經(jīng)高度依賴人工的繁瑣編程,如今只需簡(jiǎn)單的自然語(yǔ)言指令即可完成,開發(fā)效率實(shí)現(xiàn)了巨大的躍升。
然而,當(dāng)我們將這項(xiàng)技術(shù)推向真實(shí)工業(yè)生產(chǎn)線時(shí),一個(gè)關(guān)鍵問題凸顯出來(lái):面對(duì)工業(yè)場(chǎng)景對(duì)程序錯(cuò)誤零容忍的嚴(yán)苛要求,現(xiàn)有大模型真的能克服幻覺,勝任復(fù)雜的多機(jī)器人協(xié)作任務(wù)嗎?
在真實(shí)的工業(yè)車間中,制造任務(wù)往往具有極其嚴(yán)格的時(shí)序依賴和資源沖突限制。對(duì)于規(guī)劃與代碼生成系統(tǒng)而言,若僅依賴大模型純粹的「黑盒」推理,極易產(chǎn)生邏輯幻覺,生成的規(guī)劃和代碼往往看似合理,卻在底層執(zhí)行時(shí)因?yàn)橘Y源搶占或前置條件不滿足等原因?qū)е抡麄€(gè)產(chǎn)線停滯。為了解決這一痛點(diǎn),由深圳大學(xué)視比特機(jī)器人、卡爾頓大學(xué)與中科院工業(yè)人工智能研究所組成的聯(lián)合研究團(tuán)隊(duì)提出了一種全新的框架——IMR-LLM。該方法首次將大模型的泛化理解能力與工業(yè)運(yùn)籌學(xué)中的確定性算法融合,為工業(yè)多機(jī)器人任務(wù)規(guī)劃與執(zhí)行程序生成提供了系統(tǒng)性的解決方案,相關(guān)成果已被ICRA 2026接收。

圖1: IMR-LLM 框架概覽
論文標(biāo)題:
IMR-LLM: Industrial Multi-Robot Task Planning and Program Generation using Large Language Models
論文鏈接:
https://arxiv.org/pdf/2603.02669
項(xiàng)目主頁(yè):
https://xiangyusu611.github.io/imr-llm/
代碼鏈接:
https://github.com/XiangyuSu611/IMR-LLM-Code
現(xiàn)有范式的瓶頸:跨不過的物理與邏輯雙重「硬約束」
在工業(yè)多機(jī)器人協(xié)作任務(wù)中,系統(tǒng)通常需要回答兩個(gè)核心問題:“由哪臺(tái)機(jī)器人在什么時(shí)間完成任務(wù)的哪一部分?”以及“具體該怎么做?”。這兩個(gè)核心問題對(duì)應(yīng)了算法的兩項(xiàng)核心能力:高層任務(wù)規(guī)劃和底層執(zhí)行程序生成。
當(dāng)前主流的基于大模型的方法通常試圖讓 LLM 直接輸出規(guī)劃結(jié)果和執(zhí)行代碼。研究團(tuán)隊(duì)發(fā)現(xiàn),這種方法在面對(duì)復(fù)雜的工業(yè)約束時(shí)存在雙重瓶頸:
復(fù)雜依賴與資源互斥導(dǎo)致的“邏輯崩盤”:工業(yè)制造不僅有著極其嚴(yán)格的工序時(shí)序依賴,還存在無(wú)法逾越的互斥約束(例如多臺(tái)機(jī)器人競(jìng)爭(zhēng)獨(dú)占同一個(gè)加工機(jī)器)。面對(duì)這種復(fù)雜的資源搶占,純靠大模型的“黑盒”推理極易產(chǎn)生邏輯幻覺,給出的調(diào)度規(guī)劃往往看似合理,實(shí)則會(huì)引發(fā)死鎖與產(chǎn)線停滯。
“照貓畫虎”導(dǎo)致代碼難落地:在底層執(zhí)行程序的生成上,現(xiàn)有方法多依賴少樣本提示。這種方式極易讓生成的程序“過擬合”于特定的輸入示例,無(wú)法靈活適應(yīng)不同生產(chǎn)線實(shí)際的硬件配置與物理狀態(tài),最終導(dǎo)致大模型寫出的代碼可執(zhí)行性較低,難以真正在生產(chǎn)車間中部署。
簡(jiǎn)而言之,現(xiàn)有范式既無(wú)法在宏觀上保證多機(jī)調(diào)度的安全與高效,也難以在微觀上確保底層代碼的精準(zhǔn)執(zhí)行。這表明,想要讓大模型真正從“聰明的玩具”蛻變?yōu)楣I(yè)產(chǎn)線上的“可靠指揮官”,就必須打破純粹依賴語(yǔ)言大模型進(jìn)行端到端生成的“黑盒”,引入嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)化約束。
IMR-LLM 核心揭秘:大模型與結(jié)構(gòu)化約束的「強(qiáng)強(qiáng)聯(lián)合」
為了打破上述雙重瓶頸,解答好“宏觀如何調(diào)度”與“微觀如何執(zhí)行”這兩個(gè)核心問題,研究團(tuán)隊(duì)提出了 IMR-LLM 框架。

圖2: IMR-LLM 方法整體流程
該框架的核心想法是:不強(qiáng)迫大模型去強(qiáng)行求解復(fù)雜的數(shù)學(xué)調(diào)度,也不讓它依賴有限示例去機(jī)械套用底層的控制代碼;相反,應(yīng)充分發(fā)揮大模型強(qiáng)大的語(yǔ)義理解與情境匹配能力,讓它專注扮演高層約束的「翻譯官」與底層執(zhí)行的「導(dǎo)航員」。為此,IMR-LLM 將規(guī)劃與執(zhí)行徹底解耦,引入了兩種強(qiáng)大的結(jié)構(gòu)化約束工具:
1. 用析取圖建模時(shí)序與資源限制
為了克服大模型自由生成規(guī)劃所導(dǎo)致的邏輯缺陷,IMR-LLM引入了工業(yè)運(yùn)籌學(xué)中的經(jīng)典數(shù)學(xué)模型——析取圖,作為高層調(diào)度的核心約束。在此階段,大模型僅作為「翻譯官」,從指令與場(chǎng)景描述中推理并提取出完整的操作工序集、機(jī)器人分配方案以及工件內(nèi)部的執(zhí)行先后順序。這些具象化的要素隨即被嚴(yán)謹(jǐn)?shù)赜成錇槲鋈D中的頂點(diǎn)與有向邊。借助析取圖的圖結(jié)構(gòu),系統(tǒng)將所有復(fù)雜的工序先后順序與多機(jī)器人資源競(jìng)爭(zhēng)沖突進(jìn)行了硬性物理約束。通過調(diào)用確定性算法對(duì)該圖進(jìn)行求解,系統(tǒng)從根本上遏制了大模型的“邏輯幻覺”,確保得到的高層任務(wù)規(guī)劃無(wú)死鎖且全局最優(yōu)。
2. 用工序流程樹規(guī)范代碼生成流程
在獲取宏觀調(diào)度方案后,為避免傳統(tǒng)少樣本提示帶來(lái)的“機(jī)械套用、難以落地”問題,研究團(tuán)隊(duì)引入了第二個(gè)核心約束工具——工序流程樹。該樹形結(jié)構(gòu)將各類工序(如打磨、搬運(yùn)、焊接)的標(biāo)準(zhǔn)化流程與分支邏輯進(jìn)行了高度的結(jié)構(gòu)化編碼。在生成底層代碼時(shí),大模型在流程樹的「導(dǎo)航」下,實(shí)際上是將開放式的代碼生成轉(zhuǎn)化為了嚴(yán)謹(jǐn)?shù)?/span>“路徑選擇問題”。結(jié)合真實(shí)的物理環(huán)境狀態(tài),大模型只需在樹中推斷出一條從起點(diǎn)到終點(diǎn)的唯一分支,并將該分支上各節(jié)點(diǎn)預(yù)定義的代碼片段進(jìn)行拼接,即可獲得特定場(chǎng)景下的執(zhí)行函數(shù)。這種基于樹狀結(jié)構(gòu)引導(dǎo)的生成方式,為大模型劃定了安全的生成邊界,確保最終輸出的 Python 控制代碼契合當(dāng)前產(chǎn)線配置,具備較強(qiáng)的可執(zhí)行性。
實(shí)驗(yàn)表現(xiàn):在專屬工業(yè)基準(zhǔn) IMR-Bench 上的大幅超越
為了系統(tǒng)性且公平地評(píng)估大模型在真實(shí)制造環(huán)境中的能力,研究者基于視比特 KunWu 平臺(tái),專門構(gòu)建了挑戰(zhàn)性的工業(yè)多機(jī)器人協(xié)作基準(zhǔn)測(cè)試集——IMR-Bench 。該基準(zhǔn)提取自真實(shí)的工業(yè)環(huán)境,共包含 23 個(gè)復(fù)雜的物理場(chǎng)景,并根據(jù)實(shí)際生產(chǎn)需求設(shè)計(jì)了 50 個(gè)制造任務(wù)。為了全面探測(cè)模型的極限,這些任務(wù)被劃分為三個(gè)難度梯隊(duì):從基礎(chǔ)的單機(jī)操作,到簡(jiǎn)單的多機(jī)協(xié)同,再到最多涉及 7 臺(tái)機(jī)器人、多達(dá) 24 道工序混合并行的復(fù)雜協(xié)同任務(wù)。

圖3: IMR-Bench數(shù)據(jù)集概覽
在IMR-Bench的所有任務(wù)中,所提方法均展現(xiàn)了穩(wěn)定的性能提升。研究團(tuán)隊(duì)將IMR-LLM 與現(xiàn)有基于大模型的基線方法(如 SMART-LLM、LaMMA 及 LiP-LLM 的變體)進(jìn)行了綜合對(duì)比。

圖4: 與現(xiàn)有基線方法的對(duì)比
實(shí)驗(yàn)結(jié)果表明,得益于「析取圖」的宏觀約束與「工序流程樹」的微觀導(dǎo)航,IMR-LLM 在各項(xiàng)評(píng)估指標(biāo)上均取得了顯著的提升。尤其在面對(duì)“復(fù)雜多機(jī)器人任務(wù)”時(shí),基線方法常因邏輯缺陷或代碼執(zhí)行失敗導(dǎo)致其任務(wù)成功率(Success Rate, SR)出現(xiàn)明顯下降。相比之下,IMR-LLM 憑借嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)化約束,不僅保持了較高的調(diào)度效率(Scheduling Efficiency, SE),還有效保障了生成代碼的可執(zhí)行性(Executability, Exe),在最終的綜合成功率上實(shí)現(xiàn)了對(duì)現(xiàn)有范式的超越。
為了驗(yàn)證 IMR-LLM 在真實(shí)物理環(huán)境中的部署能力,研究團(tuán)隊(duì)在一個(gè)包含 3 臺(tái)真實(shí)機(jī)械臂的協(xié)作產(chǎn)線上進(jìn)行了測(cè)試,該實(shí)驗(yàn)場(chǎng)景涵蓋了視覺定位、工件抓取與多機(jī)協(xié)作搬運(yùn)等典型的工業(yè)操作流程。
在真機(jī)測(cè)試中,研究團(tuán)隊(duì)向系統(tǒng)輸入了自然語(yǔ)言任務(wù)指令及當(dāng)前產(chǎn)線的環(huán)境狀態(tài)描述。IMR-LLM 隨后自動(dòng)生成全局調(diào)度圖,并精準(zhǔn)匹配輸出了對(duì)應(yīng)的底層 Python 執(zhí)行代碼。為確保物理執(zhí)行的安全,研究團(tuán)隊(duì)首先在仿真引擎中對(duì)生成的代碼進(jìn)行運(yùn)行校驗(yàn);在確認(rèn)無(wú)死鎖與碰撞風(fēng)險(xiǎn)后,將代碼直接下發(fā)至物理機(jī)器人的底層控制器中執(zhí)行。最終,順利且準(zhǔn)確地完成了既定的多機(jī)協(xié)同任務(wù)。這一完整的部署流程,客觀驗(yàn)證了 IMR-LLM 框架在真實(shí)制造場(chǎng)景下從指令理解到機(jī)器人控制的可靠性。
總結(jié)與展望
IMR-LLM框架為大語(yǔ)言模型在嚴(yán)苛工業(yè)多機(jī)協(xié)作環(huán)境下的應(yīng)用提供了一種切實(shí)可行的解題思路。研究團(tuán)隊(duì)通過將任務(wù)規(guī)劃與底層代碼生成徹底解耦,并分別引入“析取圖”與“工序流程樹”作為宏觀與微觀的結(jié)構(gòu)化約束,成功彌合了大模型發(fā)散性推理與工業(yè)制造絕對(duì)正確性要求之間的鴻溝。IMR-Bench 與物理實(shí)機(jī)實(shí)驗(yàn)共同證明,該方法有效克服了傳統(tǒng)端到端生成易引發(fā)的邏輯死鎖與代碼失效問題,顯著提升了系統(tǒng)的綜合任務(wù)成功率與調(diào)度效率。
然而,真實(shí)的工業(yè)生產(chǎn)環(huán)境往往伴隨著不可預(yù)見的動(dòng)態(tài)干擾與不確定性。目前的 IMR-LLM 框架主要側(cè)重于靜態(tài)場(chǎng)景下的前置規(guī)劃與可靠執(zhí)行。在未來(lái)的工作中,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步探索底層執(zhí)行反饋機(jī)制的引入。通過構(gòu)建一個(gè)實(shí)時(shí)的“感知-推理-執(zhí)行-糾錯(cuò)”閉環(huán)系統(tǒng),團(tuán)隊(duì)期望增強(qiáng)IMR-LLM 在面對(duì)突發(fā)硬件故障或動(dòng)態(tài)需求變化時(shí)的自適應(yīng)能力,從而推動(dòng)大模型在更復(fù)雜、更開放的工業(yè)具身智能場(chǎng)景中扎實(shí)落地。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章