北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

本文作者：鄭佳美

2026-01-14 10:40

導(dǎo)語：當(dāng)機(jī)器人學(xué)會「為什么而抓」，智能才真正開始面對真實(shí)世界。

在機(jī)器人研究中，抓取這一看似基礎(chǔ)的問題正在成為決定上層智能能走多遠(yuǎn)的關(guān)鍵變量。今天的大模型已經(jīng)能夠理解語言、分析圖像、規(guī)劃任務(wù)，但在與世界發(fā)生真正物理接觸的那一刻，智能系統(tǒng)仍然顯得笨拙。

現(xiàn)有抓取研究大多停留在穩(wěn)定性層面，只要能夾住、不掉落，即視為成功。然而在人類的日?；顒又校ト膩聿皇悄康谋旧?，而是功能行為的起點(diǎn)。端起杯子是為了倒水，握住錘柄是為了敲擊，按住噴壺的扳機(jī)是為了噴灑。也正是在這一層意義上，功能性抓取比穩(wěn)定抓取更接近真實(shí)世界的智能。

難點(diǎn)在于，功能性抓取并不是簡單的幾何問題，而涉及對物體結(jié)構(gòu)、用途、操控部位以及抓取方式的綜合理解。尤其在靈巧手系統(tǒng)中，上百維的控制空間與復(fù)雜的接觸動力學(xué)疊加，使得傳統(tǒng)強(qiáng)化學(xué)習(xí)方法難以取得有效進(jìn)展。如何讓機(jī)器人自主學(xué)習(xí)到功能相關(guān)的抓取位置與合適的抓取姿態(tài)，一直缺乏系統(tǒng)而可驗(yàn)證的解決方案。

在這一背景下，北京大學(xué)盧宗青團(tuán)隊(duì)在論文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一種名為 DemoFunGrasp 方法，對功能性抓取進(jìn)行了重新建模。

研究團(tuán)隊(duì)將關(guān)注點(diǎn)從單純是否抓住物體，提升到如何圍繞物體的具體功能進(jìn)行抓取。他們把功能相關(guān)的位置以及抓取時所采用的姿態(tài)風(fēng)格納入到統(tǒng)一的學(xué)習(xí)框架之中，使功能目標(biāo)直接參與到策略優(yōu)化過程中，并在大規(guī)模仿真環(huán)境和真實(shí)機(jī)器人平臺上對這一框架進(jìn)行了系統(tǒng)驗(yàn)證，并取得了在仿真與真實(shí)場景中均表現(xiàn)穩(wěn)定、成功率超過70% 的功能性抓取效果。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

論文地址：https://arxiv.org/pdf/2512.13380v1

從「抓得住」走向「抓得對」

這項(xiàng)研究的實(shí)驗(yàn)首先證明了一個核心結(jié)論：研究團(tuán)隊(duì)所提出的 DemoFunGrasp 方法可以在大量不同形狀、不同功能、不同抓取風(fēng)格的物體上，實(shí)現(xiàn)可控的、語義明確的功能性抓取，而且不僅在仿真環(huán)境中有效，還能夠直接遷移到真實(shí)機(jī)器人平臺上。

論文的第一個重要實(shí)驗(yàn)結(jié)果，是在大規(guī)模仿真環(huán)境中取得了較高的抓取成功率。研究者在 IsaacGym 中構(gòu)建了包含三千多個不同物體的環(huán)境，這些物體來源于 DexGraspNet 和 YCB 數(shù)據(jù)集，形狀差異非常顯著，包括細(xì)長物體、球形物體、帶把手的容器、工具類物體等。

在這些場景中，機(jī)器人被要求在指定功能條件下完成抓取，例如抓住杯子的把手、抓住噴壺的扳機(jī)位置或抓住工具柄部。實(shí)驗(yàn)表明，在這種功能約束條件下，提出的方法仍然能夠保持較高的抓取成功率，說明所學(xué)到的策略不僅關(guān)注穩(wěn)定性，而且兼顧功能需求。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

第二個重要實(shí)驗(yàn)結(jié)果是功能區(qū)域?qū)?zhǔn)精度明顯提高。傳統(tǒng)抓取方法通常只要抓住即可，而不關(guān)心具體位置。為評價功能性，研究團(tuán)隊(duì)還定義了“成功抓取情況下，目標(biāo)功能點(diǎn)與實(shí)際接觸點(diǎn)的距離”這一指標(biāo)。

實(shí)驗(yàn)顯示，DemoFunGrasp 能夠顯著減小這兩者之間的距離，偏差在平均水平上大約降低到 3 厘米左右，而對比方法往往會偏離較遠(yuǎn)，甚至抓在完全不符合功能要求的位置上。

在具體物體上可以清楚看到這種差別，例如在錘子場景中，基線方法的抓取多集中在錘頭等穩(wěn)定區(qū)域，而 DemoFunGrasp 的接觸點(diǎn)主要分布在錘柄位置，在噴壺場景中，前者常抓在瓶身表面，后者則更多落在扳機(jī)或握持柄部附近，整體抓取位置明顯更加貼近功能區(qū)域。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

第三個重要實(shí)驗(yàn)結(jié)果是抓取風(fēng)格的多樣性與可控性。研究首先依據(jù)人類手部抓取分類體系，定義了一系列具有語義含義的抓取風(fēng)格，例如捏持、側(cè)持、小直徑抓等，并將其輸入到策略模型中，作為控制條件。

在抓取風(fēng)格的多樣性與可控性方面，實(shí)驗(yàn)首先在同一物體上施加不同的抓取風(fēng)格條件，例如捏持、側(cè)持、小直徑抓等，觀察由此產(chǎn)生的抓取結(jié)果。

實(shí)驗(yàn)發(fā)現(xiàn)，同一物體在不同風(fēng)格條件下，策略會主動生成截然不同的抓取姿態(tài)，而不是簡單改變少量關(guān)節(jié)角或進(jìn)行微弱擾動，表現(xiàn)出明顯的風(fēng)格差異。進(jìn)一步地，將大量抓取姿態(tài)映射到低維嵌入空間進(jìn)行可視化分析時可以看到，不同抓取風(fēng)格在嵌入空間中形成清晰分離的聚類，說明風(fēng)格信號被穩(wěn)定地編碼并作用于控制過程，模型真正學(xué)到的是結(jié)構(gòu)化、可控的抓取風(fēng)格，而非無意義的數(shù)值波動。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

第四個實(shí)驗(yàn)結(jié)果體現(xiàn)在真實(shí)機(jī)器人平臺上。實(shí)驗(yàn)中研究團(tuán)隊(duì)使用真實(shí) 7 自由度機(jī)械臂加靈巧手系統(tǒng)，對日常物體進(jìn)行功能抓取測試，包括水壺、碗、噴壺、香蕉、玩具以及各種工具。

在此場景中，機(jī)器人只依賴攝像頭圖像，而不再獲得仿真中的完美狀態(tài)信息。研究者沒有進(jìn)行額外的真實(shí)世界微調(diào)，而是將策略直接部署在現(xiàn)實(shí)環(huán)境中，仍取得了超過 70% 的抓取成功率。更重要的是，機(jī)器人不僅完成抓取行為，還能夠執(zhí)行功能相關(guān)的后續(xù)動作，例如提起壺柄倒水、抓住噴壺扳機(jī)進(jìn)行噴射等。這說明，策略不只是“抓住就好”，而是抓在真正能夠使用的位置。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

此外，研究還通過消融實(shí)驗(yàn)證明設(shè)計(jì)中的關(guān)鍵模塊都是必要的。例如，去掉可供性相關(guān)獎勵項(xiàng)后，成功率反而略有提升，卻明顯偏離功能區(qū)域，說明如果只追求穩(wěn)定，會犧牲功能正確性；去掉風(fēng)格擾動機(jī)制后，成功率大幅下降，表明風(fēng)格調(diào)節(jié)對策略探索具有重要意義；去掉尺寸歸一化后，大物體的學(xué)習(xí)變得極不穩(wěn)定，證明考慮尺度一致性至關(guān)重要。這些實(shí)驗(yàn)共同證明，論文中提出的具體設(shè)計(jì)不僅是附加裝飾，而是支撐整體性能的關(guān)鍵因素。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

把「怎么抓」提升到「為什么而抓」

為了得到上述實(shí)驗(yàn)結(jié)果，研究團(tuán)隊(duì)設(shè)計(jì)了一條較為清晰的方法路線，這條路線的核心思想，就是把“功能抓取”從直覺概念變成了建模良好的問題，然后再利用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)進(jìn)行求解。

首先，研究團(tuán)隊(duì)在任務(wù)建模上做了非常關(guān)鍵的一步：它沒有直接把抓取看作一個簡單的“手與物體相互接觸”的幾何問題，而是明確提出，功能抓取應(yīng)該由兩個互補(bǔ)部分共同定義，即抓取的功能性位置以及抓取的姿態(tài)風(fēng)格。功能位置用三維空間中的可供性點(diǎn)來描述，例如茶壺的把手位置、噴壺的扳機(jī)位置或剪刀的握柄位置。

抓取風(fēng)格則使用類別標(biāo)簽來表示，例如捏持、環(huán)握或側(cè)持等。這種分解使得功能抓取問題可以被表達(dá)為：在給定物體形狀、功能點(diǎn)和風(fēng)格標(biāo)簽的條件下，計(jì)算一個完整的抓握動作。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

接下來，研究引入了演示編輯強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)強(qiáng)化學(xué)習(xí)在 dexterous hand 場景下非常困難，因?yàn)殪`巧手具有二十多個甚至更多的自由度，動作空間極高，而且抓取涉及復(fù)雜的接觸動力學(xué)，探索過程容易失敗。為此，研究團(tuán)隊(duì)不是讓策略從零生成整條抓取軌跡，而是先準(zhǔn)備一條基礎(chǔ)示范軌跡，然后讓策略學(xué)習(xí)如何在這條軌跡附近進(jìn)行修改。示范軌跡可以理解為一種“基本抓取動作骨架”，而策略只做殘差式調(diào)整。

具體來說，策略輸出包括手腕位姿的整體變換，以及手指關(guān)節(jié)角的小幅變化，這些變化直接作用于演示軌跡，得到新的執(zhí)行動作。這種方式將原本需要在長時間序列中持續(xù)決策的問題，轉(zhuǎn)化為一次性的單步?jīng)Q策，從而大大降低了搜索空間和學(xué)習(xí)難度。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

在此基礎(chǔ)上，研究人員精心設(shè)計(jì)了獎勵函數(shù)，使策略不僅追求抓取成功，還要遵循功能約束與姿態(tài)風(fēng)格。獎勵包含四個核心部分：抓取是否最終成功、抓取接觸點(diǎn)與功能性可供性點(diǎn)的距離、抓取過程中是否靠近功能區(qū)域以及最終手部姿態(tài)與目標(biāo)風(fēng)格的差異。雷峰網(wǎng)

特別重要的是，他們還考慮到不同物體尺寸差異明顯，如果直接使用歐氏距離作為衡量標(biāo)準(zhǔn)，尺寸大的物體會被不公平地懲罰。因此，研究中引入了按物體尺寸進(jìn)行歸一化的距離測量方式，從而保證獎勵尺度一致，這使強(qiáng)化學(xué)習(xí)更加穩(wěn)定。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

之后，研究進(jìn)程并未停留在狀態(tài)級強(qiáng)化學(xué)習(xí)上，而是進(jìn)一步把策略遷移到視覺輸入空間。具體過程是，先利用上述狀態(tài)策略在仿真環(huán)境中大量收集成功的抓取軌跡，包括 RGB 圖像、手臂與手部的狀態(tài)、目標(biāo)功能點(diǎn)、抓取風(fēng)格標(biāo)簽以及控制動作。

然后，將這些數(shù)據(jù)作為監(jiān)督信號，訓(xùn)練一個視覺策略網(wǎng)絡(luò)，使其直接從原始圖像預(yù)測控制信號。這一步實(shí)際上相當(dāng)于進(jìn)行了一次模仿學(xué)習(xí)或策略蒸餾，它將“理想信息下學(xué)得的策略”轉(zhuǎn)化為“真實(shí)感知條件下可執(zhí)行策略”。訓(xùn)練過程中，作者對光照、材質(zhì)、相機(jī)位置等因素進(jìn)行了大規(guī)模隨機(jī)化，使視覺策略不依賴特定環(huán)境特點(diǎn)，從而能夠在真實(shí)世界中運(yùn)行。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

研究團(tuán)隊(duì)還將視覺語言模型引入系統(tǒng)中，使機(jī)器人能夠從語言中理解功能性抓取要求。當(dāng)用戶說“抓住噴壺的扳機(jī)”或“拿茶壺的把手”時，視覺語言模型會在圖像中定位對應(yīng)的功能區(qū)域，并將其轉(zhuǎn)換為可供性點(diǎn)作為抓取策略輸入。這樣，系統(tǒng)構(gòu)建起完整的鏈條：從語言理解，到視覺感知，到功能位置推理，再到靈巧手抓取控制。

當(dāng)控制難題被真正降維

這項(xiàng)研究的意義可以從三個層面理解：抓取目標(biāo)的轉(zhuǎn)變、學(xué)習(xí)方法的突破以及具身智能系統(tǒng)整體能力的提升。

首先，它改變了傳統(tǒng)機(jī)器人抓取的目標(biāo)。以往大多數(shù)機(jī)器人抓取研究，只要物體被抬起、不掉落，就認(rèn)為任務(wù)完成。然而在人類日常生活中，大多數(shù)抓取并不只是“抓住”，而是“為了使用”。例如抓杯子是為了倒水，抓剪刀是為了剪東西，抓噴壺是為了噴灑。

這項(xiàng)研究將功能性要求明確引入抓取環(huán)節(jié)，使機(jī)器人抓取從“幾何穩(wěn)定性問題”轉(zhuǎn)變?yōu)椤芭c物體功能緊密相關(guān)的語義問題”。這標(biāo)志著機(jī)器人操作從單純的物理行為向語義行為過渡，是邁向真正智能操作的關(guān)鍵一步。

其次，這項(xiàng)工作為 dexterous hand 的強(qiáng)化學(xué)習(xí)提供了新的解決路徑。靈巧手具有極高自由度和復(fù)雜接觸模式，直接在其動作空間上進(jìn)行強(qiáng)化學(xué)習(xí)往往極其困難，容易陷入探索失敗或收斂緩慢的問題。

論文提出的演示編輯式強(qiáng)化學(xué)習(xí)，通過構(gòu)造演示軌跡作為參考，將多步連續(xù)控制轉(zhuǎn)化為單步殘差決策，大幅降低了學(xué)習(xí)難度。這種思想不僅適用于抓取，還可能推廣到多種復(fù)雜操作任務(wù)，例如旋轉(zhuǎn)、插接、開合等，對整個 dexterous manipulation 領(lǐng)域具有啟發(fā)意義。

再次，論文提出的功能點(diǎn) + 抓取風(fēng)格表達(dá)方式，本身就是一種重要概念建模創(chuàng)新。它把功能抓取從模糊概念轉(zhuǎn)化為可計(jì)算、可組合、可條件控制的形式，使得抓取策略能夠接受來自人類語言、任務(wù)規(guī)劃器或感知系統(tǒng)的條件輸入。這為未來多模態(tài)機(jī)器人系統(tǒng)與人類自然交互提供了基礎(chǔ)。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

最后，這項(xiàng)研究實(shí)現(xiàn)了從語言、視覺到低層控制的完整閉環(huán)，機(jī)器人不再只是執(zhí)行剛性預(yù)設(shè)程序，而是能夠在理解任務(wù)語義后自主決定如何抓取和使用物體。這種能力是通用家庭機(jī)器人、服務(wù)機(jī)器人以及具身人工智能系統(tǒng)的關(guān)鍵能力之一，因此具有非常重要的理論與應(yīng)用價值。

讓抓取擁有「目的」的研究者

本論文通訊作者盧宗青為北京大學(xué)計(jì)算機(jī)學(xué)院長聘副教授、國家級青年人才、智源學(xué)者。長期擔(dān)任 NeurIPS、ICML、ICLR 等國際頂級會議的領(lǐng)域主席，提出 Video Tokenizer 技術(shù)以及 Retriever–Actor–Critic 框架，推動多模態(tài)模型與強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的深度結(jié)合，其研究成果已在多家頭部機(jī)器人企業(yè)開展場景驗(yàn)證與應(yīng)用合作。

盧宗青先后在東南大學(xué)獲得學(xué)士和碩士學(xué)位，2014 年于新加坡南洋理工大學(xué)獲得計(jì)算機(jī)博士學(xué)位，隨后于 2014 至 2017 年在美國賓州州立大學(xué)從事博士后研究。

2022 年，他擔(dān)任智源研究院多模態(tài)交互研究中心負(fù)責(zé)人，主持國家自然科學(xué)基金委原創(chuàng)探索計(jì)劃“通用智能體”項(xiàng)目。2023 年帶領(lǐng)團(tuán)隊(duì)研發(fā)通用智能體 Cradle，相關(guān)論文于 2025 年被 ICML 錄用。

2025 年 1 月，他創(chuàng)立北京智在無界科技有限公司（BeingBeyond），提出通過標(biāo)注 1500 萬條互聯(lián)網(wǎng)視頻中的人類關(guān)節(jié)動作數(shù)據(jù)構(gòu)建多模態(tài)姿態(tài)模型。同年 6 月，公司完成由聯(lián)想之星領(lǐng)投、智譜 Z 基金、燕緣創(chuàng)投和彬復(fù)資本跟投的數(shù)千萬元天使輪融資，資金主要用于模型迭代與產(chǎn)業(yè)化驗(yàn)證。

北大盧宗青團(tuán)隊(duì)新作：超 70% 實(shí)機(jī)成功率，支持語言指令的功能性抓取系統(tǒng)

參考鏈接：https://z0ngqing.github.io/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章