日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給齊鋮湧
發(fā)送

0

微分智飛高飛:我們正處于通用飛行智能爆發(fā)前夜丨GAIR 2025

本文作者: 齊鋮湧   2025-12-31 15:55
導(dǎo)語:“我們想要 answer back 黃仁勛那句「只有三種機器人可以大規(guī)模量產(chǎn),人形機器人、無人機和汽車」。 ”

過去兩年,具身智能的火熱源于一個共同期待:大語言模型的出色能力有目共睹,若將其接入機器人,有望賦予機器人更聰明的大腦,從而為行業(yè)打開新空間。 然而熱鬧兩年后,具身智能仍沒有標準答案,卻出現(xiàn)了很多細分領(lǐng)域,智能飛行機器人就是其中一個重要分支。

浙江大學(xué)控制學(xué)院長聘副教授、博士生導(dǎo)師高飛,就是這個領(lǐng)域的一位非常優(yōu)秀的年輕學(xué)者。

高飛的主研方向包括空中機器人、自主導(dǎo)航、集群協(xié)同、具身智能,提出了國際首個非結(jié)構(gòu)化場景下的自主飛行集群系統(tǒng),發(fā)表多篇Science Robotics、TRO等頂級期刊、學(xué)術(shù)會議論文,并創(chuàng)立了微分智飛。

高飛是國家優(yōu)青基金獲得者,獲IEEE TRO、IROS等多項最佳論文提名,入選2023-2024全球前2%頂尖科學(xué)家、2025《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”(MIT TR35)亞太區(qū)榜單等。

在剛剛結(jié)束的 GAIR 2025,高飛教授在雷峰網(wǎng)舉辦的GAIR大會現(xiàn)場,做了主題為《智能飛行機器人研究進展及產(chǎn)業(yè)應(yīng)用》的分享,他的演講風(fēng)格極具畫面感:他用《普羅米修斯》的無人機編隊鏡頭引出“分布式集群”終極形態(tài),又用《流浪地球》的混亂場景對比強調(diào)“去中心化”的重要性。

以下是具體內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))做了不改變原意的編輯和整理。


01

飛行機器人的愿景和無人機技術(shù)演進


我是高飛,來自浙江大學(xué),也是微分智飛的創(chuàng)始人。今天想和大家分享我們對智能飛行機器人這個賽道的理解,以及我們團隊正在做的事情。

為什么要做“智能飛行機器人”?因為我們認為,通用飛行智能已經(jīng)到了爆發(fā)的前夜。我小時候第一個夢想是開飛機,后來雖然沒當成飛行員,但一直沒放棄用別的方式飛上天。現(xiàn)在,我們想用 AI 打造聰明、安全、能自主決策的飛行平臺,讓它們在各種復(fù)雜環(huán)境中完成任務(wù)。


大家最熟悉的飛行平臺是旋翼無人機。2015 年以前,無人機更像是高級遙控玩具,主要依賴人工操控。2015 年之后,機器人學(xué)開始給無人機賦能,逐漸出現(xiàn)了跟蹤避障、自主導(dǎo)航、集群導(dǎo)航等技術(shù)。下一個里程碑,我們認為就是“具身智能”。

具身智能強調(diào)的是一個有實體的智能體,通過 AI 持續(xù)學(xué)習(xí)和信息迭代,實現(xiàn)對環(huán)境的理解、任務(wù)的執(zhí)行,以及跨場景的泛化和通用能力。對應(yīng)到地面的人形機器人,我們也希望有一個通用的飛行載體,能在天上完成各種任務(wù)。

我博士入學(xué)時,老師給我播放了電影《普羅米修斯》的片段:一個小型智能飛行器在復(fù)雜環(huán)境中自主穿梭。老師說,有一天我們要做出這樣的無人機,這是我們團隊的愿景。

在群體層面,我們希望打造分布式、去中心化的無人機集群——核心是讓集群能夠靈活、自適應(yīng)地完成大規(guī)模任務(wù)。這一架構(gòu)設(shè)計的必要性,也在電影《流浪地球》里印證:片中拔掉中心控制器后,幾千架無人機集體墜落——這就是中心化架構(gòu)的缺陷。我們要做的是無需中心節(jié)點也能協(xié)同作業(yè)的分布式系統(tǒng)。它是很小的一個智能飛行載體,可以在復(fù)雜的環(huán)境下知道自己該往哪里去,該怎么飛,該怎么感知環(huán)境。同樣的,在群體上我們想要它具備規(guī)?;?、分布式化和高靈活的特性,可以做大規(guī)模的任務(wù),可以干很多很多的事情。


02

天空端具身智能的四大挑戰(zhàn)


具體來說,飛行天空端的具身智能和地面端的相比有哪些獨特的挑戰(zhàn)?

首先是數(shù)據(jù)很少,前面的嘉賓也一直在討論數(shù)據(jù),大家有沒有想過無人機該怎么采集數(shù)據(jù)?

答案是沒法采集數(shù)據(jù),因為你不可能去雇這么多穿越機的飛手做高精度的飛行控制,幫你去采集數(shù)據(jù)。在實踐中不具備可行性:第一個是飛手專業(yè)技能的習(xí)得需要一定的門檻,第二個飛行數(shù)據(jù)采集過程易發(fā)生設(shè)備損毀或人員安全事故,導(dǎo)致采集成本與風(fēng)險不可控。

第二是場景復(fù)雜:無人機被造出來一定是在天上飛,在室內(nèi)、室外各種各樣的地方飛,所以它的場景跨度大、環(huán)境差異顯著。所以從我們設(shè)計它的算法的時候,無論是端到端架構(gòu)還是模塊化的感知方案,均需具備跨場景泛化能力,其核心是實現(xiàn)環(huán)境語義的抽象建模:即從差異化顯著的場景中,提煉通用化的環(huán)境表征規(guī)律,這個事情會很難。

第三是易受干擾和零容錯,我們知道無人機的飛行需要和空氣高頻的交互,因此它很容易受到氣流的擾動,系統(tǒng)需具備極強的動態(tài)抗擾能力;更關(guān)鍵的是,無人機在飛行過程中零容錯,一旦發(fā)生了任何的剮蹭,會直接 墜毀;它沒有像地面機器人一樣可停駐待機,想清楚了再動作的機會。

最后是算力很弱、傳感器很弱,它很容易受到各種擾動,也不能支持非常大的模型在端上的實時運行。

以上這些挑戰(zhàn),也是我們正在攻克的難關(guān),我想當我們攻克了以后,它也會成為獨特的技術(shù)護城河。


03

我們團隊在做什么?整個業(yè)界進展什么樣?

我會把我們的工作分為環(huán)境感知、小腦本體歸控、大腦端側(cè)決策、群體協(xié)同智能和飛行操作一體化這幾個方面。

在歸控方面,我們要跨過傳統(tǒng)飛控的高 latency(高延遲)瓶頸,打破其對推力輸出與底層姿態(tài)控制的平均化、低上限約束,最終實現(xiàn)端到端直通電機的高動態(tài)極限飛控。

在感知層面,我們要兼具高動態(tài)感知和復(fù)雜語義信息的融合,從而為“端側(cè)大腦”提供支持,使其具備對復(fù)雜長程任務(wù)的自主生成能力,以及在未知場景中實現(xiàn)泛化理解與決策的端側(cè)智能。

在集群方面,我們追求分布式的群體協(xié)同,大家還記不記得我上一頁 PPT 里面電影《流浪地球》的片段,下一時刻發(fā)生了什么呢?他們把中心控制器給拔了,所以天上的幾千架無人機全部掉下來了,那就是不夠去中心化,不夠分布式導(dǎo)致的。

最后是飛行操作,我們希望不僅可以做飛來飛去的眼睛,也可以是飛來飛去的手。

所有做的這些目的都是為了 answer back(回應(yīng)) 黃仁勛的這句話:“只有三種機器人可以大規(guī)模的量產(chǎn),人形機器人、無人機和汽車。”


04

展開聊聊五維技術(shù)體系:從“小腦”到“群腦”

接下來就是具體的技術(shù)分享。

第一個是小腦技能,我們正在著力打造敏捷、輕量、多任務(wù)的本體運控小腦。

這里重點介紹的就是我們最近在做的 sim to real (仿真到現(xiàn)實)端到端強化學(xué)習(xí)技術(shù)。我們的無人機可以通過搭載單顆機載攝像頭,在沒有額外的傳感器,沒有深度信號輸入的條件下,直接將視覺圖像映射成為控制指令,這個模型可以在端側(cè)跑到超過100Hz的運行頻率,確保無人機通過實時微調(diào)自身的姿態(tài)去動態(tài)適應(yīng)環(huán)境,這些都是真實的場景,不是仿真。

當然,我們的訓(xùn)練會大量使用仿真合成數(shù)據(jù),即便環(huán)境在變化,它也可以很好的從里面穿越,因為它的模型是在端側(cè)高頻運行的,所以它不斷的微調(diào),而不是在飛之前提前看清楚環(huán)境,規(guī)劃好一條航跡,然后一次性的飛過去。我們的無人機也可以 穿越連續(xù)多個的狹窄環(huán)境,這些完全都是自主的。

像這樣的飛行能力,我們的系統(tǒng)甚至可以超越人類高水平飛手水平。面對狹窄的不規(guī)則縫隙,只要經(jīng)過少量的 fine tune (微調(diào))也可以很好地適配,這里是一個在白光環(huán)境下一鏡到底的拍攝,可以看到全程無人機穩(wěn)定穿越、應(yīng)對自如。這一系列優(yōu)化的核心目標,是確保技術(shù)完全滿足實際飛行場景的落地需求,實現(xiàn)全場景可靠適配。

當然,我們后面會展示一些一腦多形的應(yīng)用,可以用在地面上或者其他場景,但其中我們最看重的還是飛行,所以我們從day 1開始就要解決數(shù)據(jù)少以及算力低的問題。這里,我們做了一個長鏈路動作的人機對抗項目,我們還設(shè)計了特技飛行,讓這個無人機自主連續(xù)穿越 6 個框,在每一次穿框的最高點都要頭朝下地倒轉(zhuǎn)穿過去,所以它并不是平飛的畫圈,而是倒過來穿過去。這樣的飛行動作是很難的。

我們請了一個高水平的飛手做對比,左邊是算法自動,右邊是飛手飛的??梢钥吹絻蛇呠壽E的質(zhì)量有非常大的差異。而且,飛手在飛行之前其實已經(jīng)訓(xùn)練了三個小時,并不是把他拉到一個從來沒見過的環(huán)境就來做對抗,我們也充分地保證這次對抗的公平性。

我們現(xiàn)在最小的端到端網(wǎng)絡(luò)可以跑在一個非常小的飛機上,它的總重量只有 50 克,可以用極低成本的傳感器和算力芯片支撐自己端到端的導(dǎo)航避障,。

為了支撐小腦(控制層)和大腦(決策層)的數(shù)據(jù)采集和模式訓(xùn)練,我們打造了一個高效可靠的自動化數(shù)據(jù)采集系統(tǒng)和數(shù)據(jù)合成管線。這里就是一個像素級的數(shù)字孿生仿真系統(tǒng),左邊是仿真系統(tǒng)里渲染的圖像,右邊是真實的實拍畫面,可以看到幾乎可以達到以假亂真的效果。我們的端側(cè)感知也可以捕捉快速運動的物體,在極端的情況下可達到 1000 FPS。借助這些優(yōu)異的規(guī)控和感知能力,就可以實現(xiàn)動態(tài)環(huán)境下的自主作業(yè)閉環(huán),比如說動態(tài)的車載起降等。

大腦層面,是我們團隊最近重點關(guān)注和投入的方向。

我們認為具身智能的本質(zhì)是通用和泛化。所以跨本體和跨場景一定是我們的 ultimate solution(終極解決方案),或者說是本質(zhì)的追求。

在整個具身行業(yè)內(nèi),短期內(nèi)我們可能會為了落地做一些特定場景的 overfitting(過擬合),但長期核心目標還是要實現(xiàn)跨越本體和場景的通用能力,比如說這里看到,我們自主研發(fā)的路徑規(guī)劃的大腦,不僅可以支撐各種各樣的旋翼無人機,用在固定翼上也完全沒有問題,當然還需要做少量的適配工作。這項工作甚至可以拓展到地面的輪足機器人等不同載體上??梢钥吹?,我們給該機器人提供走迷宮的路徑規(guī)劃技術(shù)支持。單次規(guī)劃的時間在 10 毫秒以內(nèi),而且完全通過神經(jīng)網(wǎng)絡(luò)來直出,輸入的是地圖,輸出的是最優(yōu)路徑。

這是我們團隊最近的視覺語言三維重建基礎(chǔ)模型,我們的飛行機器人可以通過語言文字去下達指令,端側(cè)和邊緣側(cè)都部署著多模態(tài)大模型和基礎(chǔ)模型,它可以對環(huán)境有很好的認知,并且邊重建邊腦補獲得上帝視角來輔助全局規(guī)劃。

我們會告訴它“你去做外立面的測繪,飛到建筑物內(nèi)部做探索,去看一下房頂,看一下房門......”它可以把語言里承載的模糊的邏輯信息和它視覺采集到的圖像進行高效對齊,理解你在說什么,完成從 理解、推理到?jīng)Q策的閉環(huán)。

比如說在一些工業(yè)場景的應(yīng)用里面,我們下達“請你飛到四層樓去探索一下這棟建筑”的任務(wù),飛行機器人就會自己飛到第四層樓,沿著樓梯找上去,然后兩邊探索完,最后因為它沒有別的路可以下來,所以會沿著路徑再返回,把環(huán)境內(nèi)的關(guān)鍵信息帶回來。在任務(wù)的全過程中都是沒有 GPS、沒有人為操作的。在更復(fù)雜的環(huán)境下,我們甚至可以在礦山內(nèi)部使用,這是一個非常惡劣、復(fù)雜而且事先未知的環(huán)境。那為什么要做這個呢?

因為我們的夢想就是做出普羅米修斯那種突破智能飛行機器人:一方面把無人機越做越小,另一方面也在不斷的挑戰(zhàn)極端場景下的技術(shù)極限——在復(fù)雜的、沒有信號(包括衛(wèi)星信號和人的通訊遙控信號)的情況下,實現(xiàn)極致的自主決策和自主導(dǎo)航。這里的核心是“智能”: 你只需要給它一個任務(wù),它便能獨立規(guī)劃路徑、避障穿行,穩(wěn)穩(wěn)抵達目的地。

此外,自主決策是說,它并沒有不知道要去哪,它要自己根據(jù)自己的任務(wù)自主生成 next best target (下一最優(yōu)目標點)——這是一個復(fù)雜的決策任務(wù),對模型的泛化能力要求非常高。否則很難實現(xiàn)遇到一個陌生環(huán)境就可以完成這個任務(wù),這里的所有場景對于這個無人機來說都是第一次見。完成了任務(wù)后它會自動返航,把里面的信息帶回來。

第四部分是集群,我們其實在單體以外一直強調(diào)分布式集群。集群不僅要追求規(guī)?;渴鹉芰?,更重要的是具備極致的靈活性與動態(tài)自適應(yīng)性。從 設(shè)計之初,我們便將 “分布式協(xié)同” 作為集群技術(shù)的底層架構(gòu)核心,確保系統(tǒng)從根源上適配多場景動態(tài)需求。

我定下的目標就是要做一個完全分布式的架構(gòu),因為這樣是最靈活的,分布式的架構(gòu)才能保證任何個體在加入或者退出時,不會影響其他個體的任務(wù)執(zhí)行。就像人一樣,每個人都是在獨立感知環(huán)境,獨立地用自己的大腦做決策。但是當我們構(gòu)成一個群體的時候,我們有共同的上層目標,只要沒有人使壞心往一處使,就能很好的把這個事情完成。

這也是一個一鏡到底的 demo,10架無人機組成的集群從一側(cè)進入這個樹林,再從另一側(cè)飛出來——全過程也是沒有人干預(yù)的,且是陌生的環(huán)境,我們使用的傳感器也只有機上的 Stereo camera( 雙目視覺)、 MEMS 慣導(dǎo)以無源式 UWB 收發(fā)裝置(沒有部署基站,通過無人機間點對點測距實現(xiàn)協(xié)同定位),無任何額外輔助設(shè)備。只用了這三種傳感器,所有的計算都是在端側(cè)完成。我們現(xiàn)在最大規(guī)模去支撐的分布式的集群可以做到 1, 000 架以上,這里是今年年初發(fā)表的一篇 TRO,在論文里面我們呈現(xiàn)了1, 000 個無人機的分布式集群避障。

當然這是一個仿真實驗,我們現(xiàn)在還沒有實力去做千機的真實實驗,可能未來會實現(xiàn)。可以看到在飛行中,每個個體都需要感知障礙物和周圍其他個體的運動,通過分布式協(xié)同決策實現(xiàn)自主導(dǎo)航與實時避障。在地圖的中心區(qū)域,大家會聚集在一起,這是一個沖突高發(fā)區(qū)域,他們會恰好躲開彼此碰撞。這項工作目前是學(xué)界考慮了無人機高階動力學(xué)的、實時的、分布式的最大規(guī)模無人機運動規(guī)劃算法框架。

我們非常強調(diào)群體的協(xié)同性和個體主觀能動性的結(jié)合,比如這個實驗中我們讓 16 個無人機保持某種隊形。如果你牢牢保持這個隊形,前面有障礙物,是不是會撞上去?所以每個個體都需要實時的靈活決策“我現(xiàn)在是不是應(yīng)該繞行,什么時候再回歸我的隊伍去 reform(調(diào)整)成我預(yù)先指定的隊形?”同樣的,這些環(huán)境都是未知且沒有 GPS的。

接著說我們做的應(yīng)用,比如說多機協(xié)同三維重建,這里三架無人機在大范圍環(huán)境下做協(xié)同測繪,它們可以更好地做任務(wù)調(diào)度,比如說你去測繪這里,我去測繪這里,最后在一個約定的地方做地圖的快速拼接。我們也可以做多機調(diào)運,目前我們已經(jīng)開始了這方面的商業(yè)化。這里是我們的實驗演示 demo,上面的三個發(fā)光的是無人機,下面那個紅色的是一個載荷。

這里的實驗對于實時規(guī)劃是很難的,因為我們要實時地做力的分配;要保證這幾根繩子不會纏在一起;以及沒有任何一個無人機在偷懶。這項工作剛剛被 TRO conditional 接收,應(yīng)該很快就會上線。同樣我們要保證這個隊形的協(xié)同避障,可以看到在一個狹窄區(qū)域下,他們會主動地改變自己的隊形,從里面穿過去,所有的規(guī)劃都是可以實時運行的,所以你可以在飛行過程中給它下達新的指令,它們就會規(guī)劃出新的航線到達目標點。

這里面的一個核心貢獻點是我們構(gòu)建了精細化的動力學(xué)模型——考量繩子朝向、拉力大小、力矩大小等關(guān)鍵變量,不僅可以保證飛行的穩(wěn)定安全,甚至?xí)紤]下方載荷的姿態(tài),這樣的話如果里面是液體它也不會傾覆掉。這里是個更大規(guī)模的一個 5 機的協(xié)同搬運,我們確信沒有一個個體在其中是偷懶的。傳統(tǒng)協(xié)同搬運中容易出現(xiàn)無人機在飛,但它的繩子是完全不受力的。

最后是飛行操作,我的理想是不僅要做一個靈活的飛行的眼睛,還要做飛行手,這個是我們這項技術(shù)的 demo。

我們把大模型部署在邊緣側(cè),這樣就可以和人做各種各樣的交互,它可以理解你的意圖,通過語言、文字甚至動作,來理解你要干什么,幫你拿飲料、拿可樂等等。我們可以看到它是怎么工作的:它其實就是一個手型的無人機,一個欠驅(qū)動機械手的構(gòu)型,它可以通過單電機的神驅(qū)裝置讓自己本體發(fā)生形變,具備人手的指尖捏取或者掌心抓握的兩種不同的動作模態(tài),因為人的手有很強的包裹性,所以可以抓各種不同的東西。當然這個東西做不了地面操作類機器人的精細操作,因為它自由度很低,只有中間、前后和旋轉(zhuǎn)的形變這幾個自由度,但是它可以很好地做到“抓了就跑”這個動作。

比如在戶外我們就可以用它做一些物品的快速投遞,我們正在研發(fā)這個樣機,希望在有朝一日我可以坐在辦公室里用它去幫我下樓取咖啡。

這里其實很多地方都很難,但是可能大家感知不到,比如說可以看到它在抓一個東西之前和抓東西之后飛得都很穩(wěn),其實這個非常困難,做過無人機的同學(xué)可能知道,別說抓東西了,只要產(chǎn)生了形變,無人機的轉(zhuǎn)動慣量、質(zhì)量、各種物理參數(shù)都會變化,保持平穩(wěn)飛行就會很難,更何況它的載荷還在發(fā)生很大的波動。此外,我們也可以把它當做人手的空間延伸,借助 第一人稱視角眼鏡和單手遙控,給它下達簡易的指令。我們會做端側(cè)的輔助駕駛?cè)バ拚刂浦噶?,最后幫助完成任?wù),把東西抓下來。

以上就是我們的技術(shù)進展,我們正在把飛行具身的三腦:大腦、小腦和群腦,做多個方向的技術(shù)落地,包括泛測繪-巡檢,去代替人工進入復(fù)雜惡劣的場景采集信息;去做特種安防,提供自主作業(yè)支撐;去做車用級的飛行 agent,滿足移動平臺協(xié)同需求;此外也可以做通用開放的二次開發(fā)平臺。

以上就是我今天報告的內(nèi)容,謝謝大家(雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

微分智飛高飛:我們正處于通用飛行智能爆發(fā)前夜丨GAIR 2025

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說