日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給鄭佳美
發(fā)送

0

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

本文作者: 鄭佳美   2026-01-14 10:40
導語:當機器人學會「為什么而抓」,智能才真正開始面對真實世界。

在機器人研究中,抓取這一看似基礎的問題正在成為決定上層智能能走多遠的關鍵變量。今天的大模型已經能夠理解語言、分析圖像、規(guī)劃任務,但在與世界發(fā)生真正物理接觸的那一刻,智能系統(tǒng)仍然顯得笨拙。

現(xiàn)有抓取研究大多停留在穩(wěn)定性層面,只要能夾住、不掉落,即視為成功。然而在人類的日常活動中,抓取從來不是目的本身,而是功能行為的起點。端起杯子是為了倒水,握住錘柄是為了敲擊,按住噴壺的扳機是為了噴灑。也正是在這一層意義上,功能性抓取比穩(wěn)定抓取更接近真實世界的智能。

難點在于,功能性抓取并不是簡單的幾何問題,而涉及對物體結構、用途、操控部位以及抓取方式的綜合理解。尤其在靈巧手系統(tǒng)中,上百維的控制空間與復雜的接觸動力學疊加,使得傳統(tǒng)強化學習方法難以取得有效進展。如何讓機器人自主學習到功能相關的抓取位置與合適的抓取姿態(tài),一直缺乏系統(tǒng)而可驗證的解決方案。

在這一背景下,北京大學盧宗青團隊在論文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一種名為 DemoFunGrasp 方法,對功能性抓取進行了重新建模。

研究團隊將關注點從單純是否抓住物體,提升到如何圍繞物體的具體功能進行抓取。他們把功能相關的位置以及抓取時所采用的姿態(tài)風格納入到統(tǒng)一的學習框架之中,使功能目標直接參與到策略優(yōu)化過程中,并在大規(guī)模仿真環(huán)境和真實機器人平臺上對這一框架進行了系統(tǒng)驗證,并取得了在仿真與真實場景中均表現(xiàn)穩(wěn)定、成功率超過70% 的功能性抓取效果。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

論文地址:https://arxiv.org/pdf/2512.13380v1

從「抓得住」走向「抓得對」

這項研究的實驗首先證明了一個核心結論:研究團隊所提出的 DemoFunGrasp 方法可以在大量不同形狀、不同功能、不同抓取風格的物體上,實現(xiàn)可控的、語義明確的功能性抓取,而且不僅在仿真環(huán)境中有效,還能夠直接遷移到真實機器人平臺上。

論文的第一個重要實驗結果,是在大規(guī)模仿真環(huán)境中取得了較高的抓取成功率。研究者在 IsaacGym 中構建了包含三千多個不同物體的環(huán)境,這些物體來源于 DexGraspNet 和 YCB 數(shù)據(jù)集,形狀差異非常顯著,包括細長物體、球形物體、帶把手的容器、工具類物體等。

在這些場景中,機器人被要求在指定功能條件下完成抓取,例如抓住杯子的把手、抓住噴壺的扳機位置或抓住工具柄部。實驗表明,在這種功能約束條件下,提出的方法仍然能夠保持較高的抓取成功率,說明所學到的策略不僅關注穩(wěn)定性,而且兼顧功能需求。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

第二個重要實驗結果是功能區(qū)域對準精度明顯提高。傳統(tǒng)抓取方法通常只要抓住即可,而不關心具體位置。為評價功能性,研究團隊還定義了“成功抓取情況下,目標功能點與實際接觸點的距離”這一指標。

實驗顯示,DemoFunGrasp 能夠顯著減小這兩者之間的距離,偏差在平均水平上大約降低到 3 厘米左右,而對比方法往往會偏離較遠,甚至抓在完全不符合功能要求的位置上。

在具體物體上可以清楚看到這種差別,例如在錘子場景中,基線方法的抓取多集中在錘頭等穩(wěn)定區(qū)域,而 DemoFunGrasp 的接觸點主要分布在錘柄位置,在噴壺場景中,前者常抓在瓶身表面,后者則更多落在扳機或握持柄部附近,整體抓取位置明顯更加貼近功能區(qū)域。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

第三個重要實驗結果是抓取風格的多樣性與可控性。研究首先依據(jù)人類手部抓取分類體系,定義了一系列具有語義含義的抓取風格,例如捏持、側持、小直徑抓等,并將其輸入到策略模型中,作為控制條件。

在抓取風格的多樣性與可控性方面,實驗首先在同一物體上施加不同的抓取風格條件,例如捏持、側持、小直徑抓等,觀察由此產生的抓取結果。

實驗發(fā)現(xiàn),同一物體在不同風格條件下,策略會主動生成截然不同的抓取姿態(tài),而不是簡單改變少量關節(jié)角或進行微弱擾動,表現(xiàn)出明顯的風格差異。進一步地,將大量抓取姿態(tài)映射到低維嵌入空間進行可視化分析時可以看到,不同抓取風格在嵌入空間中形成清晰分離的聚類,說明風格信號被穩(wěn)定地編碼并作用于控制過程,模型真正學到的是結構化、可控的抓取風格,而非無意義的數(shù)值波動。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

第四個實驗結果體現(xiàn)在真實機器人平臺上。實驗中研究團隊使用真實 7 自由度機械臂加靈巧手系統(tǒng),對日常物體進行功能抓取測試,包括水壺、碗、噴壺、香蕉、玩具以及各種工具。

在此場景中,機器人只依賴攝像頭圖像,而不再獲得仿真中的完美狀態(tài)信息。研究者沒有進行額外的真實世界微調,而是將策略直接部署在現(xiàn)實環(huán)境中,仍取得了超過 70% 的抓取成功率。更重要的是,機器人不僅完成抓取行為,還能夠執(zhí)行功能相關的后續(xù)動作,例如提起壺柄倒水、抓住噴壺扳機進行噴射等。這說明,策略不只是“抓住就好”,而是抓在真正能夠使用的位置。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

此外,研究還通過消融實驗證明設計中的關鍵模塊都是必要的。例如,去掉可供性相關獎勵項后,成功率反而略有提升,卻明顯偏離功能區(qū)域,說明如果只追求穩(wěn)定,會犧牲功能正確性;去掉風格擾動機制后,成功率大幅下降,表明風格調節(jié)對策略探索具有重要意義;去掉尺寸歸一化后,大物體的學習變得極不穩(wěn)定,證明考慮尺度一致性至關重要。這些實驗共同證明,論文中提出的具體設計不僅是附加裝飾,而是支撐整體性能的關鍵因素。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

把「怎么抓」提升到「為什么而抓」

為了得到上述實驗結果,研究團隊設計了一條較為清晰的方法路線,這條路線的核心思想,就是把“功能抓取”從直覺概念變成了建模良好的問題,然后再利用強化學習和模仿學習進行求解。

首先,研究團隊在任務建模上做了非常關鍵的一步:它沒有直接把抓取看作一個簡單的“手與物體相互接觸”的幾何問題,而是明確提出,功能抓取應該由兩個互補部分共同定義,即抓取的功能性位置以及抓取的姿態(tài)風格。功能位置用三維空間中的可供性點來描述,例如茶壺的把手位置、噴壺的扳機位置或剪刀的握柄位置。

抓取風格則使用類別標簽來表示,例如捏持、環(huán)握或側持等。這種分解使得功能抓取問題可以被表達為:在給定物體形狀、功能點和風格標簽的條件下,計算一個完整的抓握動作。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

接下來,研究引入了演示編輯強化學習方法。傳統(tǒng)強化學習在 dexterous hand 場景下非常困難,因為靈巧手具有二十多個甚至更多的自由度,動作空間極高,而且抓取涉及復雜的接觸動力學,探索過程容易失敗。為此,研究團隊不是讓策略從零生成整條抓取軌跡,而是先準備一條基礎示范軌跡,然后讓策略學習如何在這條軌跡附近進行修改。示范軌跡可以理解為一種“基本抓取動作骨架”,而策略只做殘差式調整。

具體來說,策略輸出包括手腕位姿的整體變換,以及手指關節(jié)角的小幅變化,這些變化直接作用于演示軌跡,得到新的執(zhí)行動作。這種方式將原本需要在長時間序列中持續(xù)決策的問題,轉化為一次性的單步決策,從而大大降低了搜索空間和學習難度。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

在此基礎上,研究人員精心設計了獎勵函數(shù),使策略不僅追求抓取成功,還要遵循功能約束與姿態(tài)風格。獎勵包含四個核心部分:抓取是否最終成功、抓取接觸點與功能性可供性點的距離、抓取過程中是否靠近功能區(qū)域以及最終手部姿態(tài)與目標風格的差異。雷峰網(wǎng)

特別重要的是,他們還考慮到不同物體尺寸差異明顯,如果直接使用歐氏距離作為衡量標準,尺寸大的物體會被不公平地懲罰。因此,研究中引入了按物體尺寸進行歸一化的距離測量方式,從而保證獎勵尺度一致,這使強化學習更加穩(wěn)定。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

之后,研究進程并未停留在狀態(tài)級強化學習上,而是進一步把策略遷移到視覺輸入空間。具體過程是,先利用上述狀態(tài)策略在仿真環(huán)境中大量收集成功的抓取軌跡,包括 RGB 圖像、手臂與手部的狀態(tài)、目標功能點、抓取風格標簽以及控制動作。

然后,將這些數(shù)據(jù)作為監(jiān)督信號,訓練一個視覺策略網(wǎng)絡,使其直接從原始圖像預測控制信號。這一步實際上相當于進行了一次模仿學習或策略蒸餾,它將“理想信息下學得的策略”轉化為“真實感知條件下可執(zhí)行策略”。訓練過程中,作者對光照、材質、相機位置等因素進行了大規(guī)模隨機化,使視覺策略不依賴特定環(huán)境特點,從而能夠在真實世界中運行。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

研究團隊還將視覺語言模型引入系統(tǒng)中,使機器人能夠從語言中理解功能性抓取要求。當用戶說“抓住噴壺的扳機”或“拿茶壺的把手”時,視覺語言模型會在圖像中定位對應的功能區(qū)域,并將其轉換為可供性點作為抓取策略輸入。這樣,系統(tǒng)構建起完整的鏈條:從語言理解,到視覺感知,到功能位置推理,再到靈巧手抓取控制。

當控制難題被真正降維

這項研究的意義可以從三個層面理解:抓取目標的轉變、學習方法的突破以及具身智能系統(tǒng)整體能力的提升。

首先,它改變了傳統(tǒng)機器人抓取的目標。以往大多數(shù)機器人抓取研究,只要物體被抬起、不掉落,就認為任務完成。然而在人類日常生活中,大多數(shù)抓取并不只是“抓住”,而是“為了使用”。例如抓杯子是為了倒水,抓剪刀是為了剪東西,抓噴壺是為了噴灑。

這項研究將功能性要求明確引入抓取環(huán)節(jié),使機器人抓取從“幾何穩(wěn)定性問題”轉變?yōu)椤芭c物體功能緊密相關的語義問題”。這標志著機器人操作從單純的物理行為向語義行為過渡,是邁向真正智能操作的關鍵一步。

其次,這項工作為 dexterous hand 的強化學習提供了新的解決路徑。靈巧手具有極高自由度和復雜接觸模式,直接在其動作空間上進行強化學習往往極其困難,容易陷入探索失敗或收斂緩慢的問題。

論文提出的演示編輯式強化學習,通過構造演示軌跡作為參考,將多步連續(xù)控制轉化為單步殘差決策,大幅降低了學習難度。這種思想不僅適用于抓取,還可能推廣到多種復雜操作任務,例如旋轉、插接、開合等,對整個 dexterous manipulation 領域具有啟發(fā)意義。

再次,論文提出的功能點 + 抓取風格表達方式,本身就是一種重要概念建模創(chuàng)新。它把功能抓取從模糊概念轉化為可計算、可組合、可條件控制的形式,使得抓取策略能夠接受來自人類語言、任務規(guī)劃器或感知系統(tǒng)的條件輸入。這為未來多模態(tài)機器人系統(tǒng)與人類自然交互提供了基礎。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

最后,這項研究實現(xiàn)了從語言、視覺到低層控制的完整閉環(huán),機器人不再只是執(zhí)行剛性預設程序,而是能夠在理解任務語義后自主決定如何抓取和使用物體。這種能力是通用家庭機器人、服務機器人以及具身人工智能系統(tǒng)的關鍵能力之一,因此具有非常重要的理論與應用價值。

讓抓取擁有「目的」的研究者

本論文通訊作者盧宗青為北京大學計算機學院長聘副教授、國家級青年人才、智源學者。長期擔任 NeurIPS、ICML、ICLR 等國際頂級會議的領域主席,提出 Video Tokenizer 技術以及 Retriever–Actor–Critic 框架,推動多模態(tài)模型與強化學習在機器人領域的深度結合,其研究成果已在多家頭部機器人企業(yè)開展場景驗證與應用合作。

盧宗青先后在東南大學獲得學士和碩士學位,2014 年于新加坡南洋理工大學獲得計算機博士學位,隨后于 2014 至 2017 年在美國賓州州立大學從事博士后研究。

2022 年,他擔任智源研究院多模態(tài)交互研究中心負責人,主持國家自然科學基金委原創(chuàng)探索計劃“通用智能體”項目。2023 年帶領團隊研發(fā)通用智能體 Cradle,相關論文于 2025 年被 ICML 錄用。

2025 年 1 月,他創(chuàng)立北京智在無界科技有限公司(BeingBeyond),提出通過標注 1500 萬條互聯(lián)網(wǎng)視頻中的人類關節(jié)動作數(shù)據(jù)構建多模態(tài)姿態(tài)模型。同年 6 月,公司完成由聯(lián)想之星領投、智譜 Z 基金、燕緣創(chuàng)投和彬復資本跟投的數(shù)千萬元天使輪融資,資金主要用于模型迭代與產業(yè)化驗證。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

參考鏈接:https://z0ngqing.github.io/

雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

北大盧宗青團隊新作:超 70% 實機成功率,支持語言指令的功能性抓取系統(tǒng)

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說