日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給高景輝
發(fā)送

0

對(duì)話(huà)鹿明CTO丁琰:數(shù)據(jù)會(huì)反向決定模型,甚至影響硬件形態(tài) | GAIR 2025

本文作者: 高景輝   2025-12-22 09:50
導(dǎo)語(yǔ):“深入做UMI之后,我見(jiàn)識(shí)到了管理之難。”

數(shù)據(jù)采集,向來(lái)是具身智能行業(yè)的一大難題。成本、精度、泛化能力,似乎構(gòu)成一個(gè)不可能三角,能找到一個(gè)可以落地的平衡點(diǎn)已十分不易。

在此背景下,2025 年 11 月中旬 Sunday Robotics 橫空出世,向全世界的具身智能公司證明了 UMI 方案的可行性。一時(shí)之間,UMI 的行業(yè)關(guān)注度空前高漲。

而在國(guó)內(nèi),丁琰博士的數(shù)采方案「FastUMI」同樣驚艷四座,憑借低成本、高數(shù)據(jù)質(zhì)量、快速部署等特點(diǎn)深受行業(yè)青睞,被視為具身智能數(shù)據(jù)采集的新范式。

實(shí)際上,丁琰博士是國(guó)內(nèi)最早將 UMI 落地實(shí)踐的從業(yè)者。從上海 AI Lab 到一星機(jī)器人,再到如今的鹿明機(jī)器人,他始終專(zhuān)注于 UMI 的研究與推動(dòng),即便在早期這一方向并不被大部分人看好,他也依然堅(jiān)持投入。時(shí)至今日,終于迎來(lái)“守得云開(kāi)見(jiàn)月明”的時(shí)刻。

對(duì)于 UMI,丁琰博士有著獨(dú)特的理解。他將 UMI 視為一套完整體系,而非單純的數(shù)采工具;他的目標(biāo)清晰,希望把 UMI 打造成像 AK47 一樣“簡(jiǎn)單、可靠、低成本、好用”的工業(yè)級(jí)基礎(chǔ)設(shè)施;同時(shí),他深知數(shù)采背后真正的難點(diǎn),除技術(shù)之外,更考驗(yàn)流程組織、人員管理與執(zhí)行體系的復(fù)雜性。

今年由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)」上,我們有幸邀請(qǐng)到了丁琰博士參與圓桌會(huì)談,分享他關(guān)于數(shù)據(jù)與 UMI 的深刻洞見(jiàn)。

在大會(huì)之前,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))與丁琰博士展開(kāi)了一場(chǎng)深入對(duì)話(huà),以便與會(huì)者探討交流。


UMI不只是一種數(shù)采方式,而是一整套體系


AI科技評(píng)論:你之前說(shuō)在一星有“沒(méi)做完的事情”,這個(gè)事情是指什么?FastUMI 算是其中之一嗎?

丁琰:可以說(shuō),我是中國(guó)大陸最早投入 UMI 的人,從 2024 年 3 月開(kāi)始,我就堅(jiān)定地押注這條路線,在當(dāng)時(shí),UMI在國(guó)內(nèi)還是極其小眾的方向,整個(gè)中國(guó)具身智能圈幾乎沒(méi)有人公開(kāi)選擇 UMI 這條路線。

大家對(duì) UMI 理解往往偏于表面,會(huì)把它看成一種數(shù)據(jù)采集方式,但在我看來(lái),UMI 是一整套完整的方法論和體系。數(shù)據(jù)會(huì)反過(guò)來(lái)決定模型、系統(tǒng)架構(gòu)、采集流程、算法設(shè)計(jì),甚至影響硬件形態(tài)——整個(gè)鏈條都會(huì)因此發(fā)生變化。正因如此,我始終堅(jiān)信 UMI 的前景,也非常希望把這件事真正做成。但當(dāng)一件自己傾注心力的事業(yè)突然中斷時(shí),打擊是難免的。沒(méi)來(lái)得及做完的事太多:我們規(guī)劃的產(chǎn)品路線、硬件怎么走、數(shù)據(jù)怎么建體系、模型怎么迭代、場(chǎng)景如何落地、生態(tài)如何構(gòu)建、又如何與全球頂尖公司競(jìng)爭(zhēng)……這些都還在路上,都屬于“未竟之業(yè)”。

另一層“沒(méi)做完的事”,是關(guān)于我個(gè)人的。我決定離開(kāi)學(xué)術(shù)界進(jìn)入工業(yè)界,是下了很大決心的。我希望能在工業(yè)界扎下根,做出一些真正的成績(jī),也讓自己學(xué)到新的東西。相比學(xué)術(shù)圈,工業(yè)界的環(huán)境要復(fù)雜得多,人是最重要也是最難的部分——你需要與各種角色打交道:技術(shù)、采購(gòu)、銷(xiāo)售、財(cái)務(wù)、供應(yīng)商、投資人……溝通和協(xié)作的成本遠(yuǎn)超想象。這些雖然與技術(shù)本身無(wú)關(guān),卻是我必須面對(duì)的一種成長(zhǎng)與考驗(yàn)。而對(duì)我來(lái)說(shuō),這些考驗(yàn)似乎才剛剛開(kāi)始,卻被迫按下了暫停鍵。所以,我希望能在鹿明繼續(xù)把這件事情做下去,把它真正做完。

AI科技評(píng)論:從一星到鹿明的過(guò)程是怎樣的?

丁琰:一星這事在業(yè)內(nèi)比較少見(jiàn)。很多人是在今年 6 月份加入一星,而我從 4 月份就開(kāi)始組建一星的技術(shù)團(tuán)隊(duì),到 10 月份公司關(guān)閉,總共經(jīng)歷了 6 個(gè)月。這半年里,整個(gè)技術(shù)團(tuán)隊(duì)都是由我從零搭建的,技術(shù)路線也是我在確定;數(shù)據(jù)體系、模型方案、產(chǎn)品規(guī)劃等核心內(nèi)容也都由我主導(dǎo)。整個(gè)技術(shù)版圖其實(shí)非常宏大,按正常節(jié)奏至少需要兩年才能完整落地,我們已經(jīng)規(guī)劃了多條產(chǎn)品線與技術(shù)路線。但一切都在沒(méi)有預(yù)兆的情況下戛然而止。

9 月 30 日凌晨,我還在韓國(guó)參加展會(huì),突然接到通知說(shuō)一星即將被注銷(xiāo)。我馬上從韓國(guó)趕回蘇州,落地之后公司就啟動(dòng)了注銷(xiāo)流程,根本來(lái)不及反應(yīng)。到 10 月 13 日,全員都已經(jīng)簽完了離職協(xié)議。那段時(shí)間,各種公司和投資人幾乎每天都在聯(lián)系我,每一家都有自己的吸引點(diǎn)和優(yōu)勢(shì),也讓我必須盡快做出判斷。

AI科技評(píng)論:鹿明有哪些吸引你的地方?

丁琰:鹿明是很有特色的一個(gè)公司,CEO 本身是技術(shù)背景,清華本碩出身,對(duì) UMI 方向始終抱有強(qiáng)烈的愿景與堅(jiān)持。我是 11 月 2 號(hào)加入的鹿明,當(dāng)時(shí) UMI 在行業(yè)內(nèi)還沒(méi)有真正火起來(lái)——直到11月中旬,Generalist 和 Sunday Robotics 展示了他們基于 UMI 的成果,才讓整個(gè)具身智能領(lǐng)域?yàn)橹鸷?。也正因?yàn)槿绱耍?0月底的時(shí)候,國(guó)內(nèi)幾乎沒(méi)有人愿意在 UMI 上 all in。

但鹿明與眾不同,創(chuàng)始團(tuán)隊(duì)從一開(kāi)始就堅(jiān)定地要在 UMI 上重注發(fā)力,這種判斷力與決心正是吸引我加入的關(guān)鍵原因。

AI科技評(píng)論:同為鹿明CTO,你和曹俊亮博士的分工合作是怎樣的?

丁琰:我們之間的交流非常密切。我本身并非做硬件出身,因此在產(chǎn)品設(shè)計(jì)上非常依賴(lài)曹博的支持。比如我們計(jì)劃推出力控版本、平動(dòng)版本、非平動(dòng)版本以及便攜版本等多條產(chǎn)品線,曹博憑借豐富的量產(chǎn)經(jīng)驗(yàn),能幫助我補(bǔ)齊在硬件方面的短板。同時(shí),曹博在做產(chǎn)品時(shí)也需要算法團(tuán)隊(duì)的支撐。例如,他希望小型人形機(jī)器人能夠執(zhí)行某些操作,就會(huì)來(lái)咨詢(xún)我,讓我們從算法需求的角度參與定義硬件,而不是僅憑物理結(jié)構(gòu)去做設(shè)計(jì)。我們就是通過(guò)這樣軟硬件的深度協(xié)同,才能共同打磨出真正極致的產(chǎn)品。


優(yōu)秀的數(shù)采方案,應(yīng)該像「AK47」一樣


AI科技評(píng)論:你從什么時(shí)候開(kāi)始做UMI的?

丁琰:我在 2024 年 3 月正式啟動(dòng)了與 UMI 類(lèi)似的新項(xiàng)目,4 月回國(guó)后便在上海 AI Lab 全力投入相關(guān)研究,一直持續(xù)到 2025 年 6 月底離職。在這一年多的時(shí)間里,我?guī)缀醢讶烤Χ挤旁谶@件事上,期間發(fā)表的三四篇論文也都圍繞 FastUMI 展開(kāi)。因?yàn)橛凶銐蜷L(zhǎng)時(shí)間的技術(shù)積累,我們?cè)趯?shí)驗(yàn)室階段把所有關(guān)鍵路線、可行性和核心機(jī)制都驗(yàn)證完了,看到了真正的曙光,我才敢把這項(xiàng)技術(shù)帶到一星繼續(xù)推進(jìn)??梢哉f(shuō),F(xiàn)astUMI 最初誕生于學(xué)術(shù)界,而我后來(lái)在工業(yè)界做的,就是把它從一個(gè)實(shí)驗(yàn)室原型,真正打磨成一個(gè)可以規(guī)?;?、可量產(chǎn)的工業(yè)級(jí)產(chǎn)品。

AI科技評(píng)論:相較于UMI,傳統(tǒng)的遙操作方案有哪些不足?

丁琰:我最初在 AI Lab 時(shí),其實(shí)是以數(shù)據(jù)采集顧問(wèn)的身份為一家行業(yè)獨(dú)角獸提供支持。當(dāng)時(shí)我們做的是一套完全傳統(tǒng)、依賴(lài)遙操作的數(shù)據(jù)采集體系。彼時(shí) UMI 還沒(méi)有形成如今這樣明確的技術(shù)流派,行業(yè)更多是覺(jué)得“好像有點(diǎn)意思”,但幾乎沒(méi)有人愿意真正投入。那時(shí)的市場(chǎng)格局非常明顯:至少九成的人都在做遙操作。然而,遙操作從一開(kāi)始就存在非常突出的結(jié)構(gòu)性問(wèn)題。

第一,遙操作的數(shù)采效率比較低。一天能采集 100 條數(shù)據(jù)就已經(jīng)算是非常優(yōu)秀的效率了。我在做顧問(wèn)期間發(fā)現(xiàn),采集員常常會(huì)產(chǎn)出各種奇怪的軌跡,數(shù)據(jù)分布不可控,數(shù)據(jù)質(zhì)量更是參差不齊。整個(gè)過(guò)程對(duì)人依賴(lài)極高,幾乎無(wú)法實(shí)現(xiàn)一致性和規(guī)模化。

第二,遙操作的成本很高。由于必須依賴(lài)機(jī)器人本體進(jìn)行采集,而一臺(tái)本體的價(jià)格往往在 40 萬(wàn)元以上。如果你要采購(gòu)五六十臺(tái)來(lái)支撐規(guī)模化數(shù)據(jù)采集,前期投入就是兩三千萬(wàn)元。在業(yè)務(wù)還沒(méi)看到產(chǎn)出之前,這種成本對(duì)于任何公司都是沉重的壓力。

第三,遙操作的數(shù)據(jù)質(zhì)量也有問(wèn)題。操作員戴著 VR 去操縱機(jī)械臂,缺乏真實(shí)的力覺(jué)反饋,中間存在大量動(dòng)作不連續(xù)、體感不自然的 gap。這造成的數(shù)據(jù)往往是抖動(dòng)的、不穩(wěn)定的、缺乏一致性的。比如一個(gè)簡(jiǎn)單的抓取動(dòng)作,如果不是熟練工,可能要重復(fù)多次才能完成,生成的軌跡非常噪聲化,而這種數(shù)據(jù)對(duì)于模型訓(xùn)練來(lái)說(shuō)是非常糟糕的。

第四,遙操作有數(shù)據(jù)孤島的問(wèn)題。遙操作采集的數(shù)據(jù)通常高度依賴(lài)特定品牌、特定形態(tài)、特定參數(shù)的機(jī)器人本體,因此數(shù)據(jù)只能在本公司、自家機(jī)器人體系內(nèi)使用。一旦換了不同的機(jī)器人、控制器或執(zhí)行器,這些數(shù)據(jù)的可遷移性就非常差,訓(xùn)練效果往往會(huì)大幅下降。換句話(huà)說(shuō),遙操作天然會(huì)形成數(shù)據(jù)孤島,而無(wú)法構(gòu)建行業(yè)級(jí)的通用數(shù)據(jù)資產(chǎn)。

AI科技評(píng)論:那純視頻呢?

丁琰:純視頻方案上,學(xué)術(shù)界和工業(yè)界其實(shí)存在一個(gè)非常明顯的思維差異。在學(xué)術(shù)圈,只要一個(gè)方向足夠 novel、有趣、能寫(xiě)論文,它就可以被視為一項(xiàng)很優(yōu)秀的工作——至于能不能真正落地,并不是最核心的評(píng)價(jià)指標(biāo)。但工業(yè)界完全不同。工業(yè)界追求的是那種簡(jiǎn)單粗暴、可靠可擴(kuò)展的方案。我經(jīng)常半開(kāi)玩笑地說(shuō),我們要做的是“像 AK47 一樣”的技術(shù):簡(jiǎn)單、便宜、好用、有效。而從目前來(lái)看,純視頻方案距離這種工業(yè)級(jí)標(biāo)準(zhǔn)還有明顯差距。純視頻當(dāng)然能學(xué)到一些東西,但機(jī)器人面對(duì)的是真實(shí)的物理世界,而物理世界有大量必須被感知的信號(hào):觸覺(jué)、力控、摩擦、接觸反饋,甚至聲音。純視頻無(wú)法直接獲取這些關(guān)鍵的物理信息,而這些恰恰是機(jī)器人學(xué)習(xí)和決策中非常重要的一環(huán)。因此,純視頻的數(shù)據(jù)價(jià)值不能否認(rèn),但它如何更好地在具身智能中被利用、以及能否成為主要的數(shù)據(jù)形態(tài),還需要進(jìn)一步探索。

AI科技評(píng)論:所以你選擇了UMI。

丁琰:對(duì),UMI 的核心優(yōu)勢(shì)就在于它能夠直接從物理世界采集數(shù)據(jù),而且完全不依賴(lài)機(jī)器人本體。我們只需要把 UMI 設(shè)備戴在手腕上,用一個(gè)夾爪去模擬機(jī)器人的操作過(guò)程。畫(huà)面中呈現(xiàn)的只有夾爪本身——這意味著,只要未來(lái)機(jī)器人的夾爪形態(tài)與它一致,這份數(shù)據(jù)就可以無(wú)縫遷移、直接使用,是真正的“通用型物理數(shù)據(jù)”。同時(shí),UMI 采到的是非常精準(zhǔn)的物理世界數(shù)據(jù),包括動(dòng)作軌跡、接觸模式、力的變化等。在這種方式下,人的體感與機(jī)器動(dòng)作之間的 gap 非常小,大概只有 10%–20%,采集過(guò)程流暢自然,“看到就能抓、抓了就能做”。而相比之下,遙操作的體感 gap 往往高達(dá) 80%–90%。操作員戴著 VR 遠(yuǎn)程操控機(jī)械臂,動(dòng)作延遲大、反饋不連續(xù)、缺乏真實(shí)觸感,這些都會(huì)導(dǎo)致軌跡抖動(dòng)、動(dòng)作不自然,數(shù)據(jù)質(zhì)量也因此大幅下降。

AI科技評(píng)論:那種手套方案怎么樣?

丁琰:他們更多采的是五指數(shù)據(jù),而 FastUMI 用的是二指數(shù)據(jù),這本質(zhì)上是兩個(gè)完全不同的技術(shù)賽道。手套類(lèi)設(shè)備也可以算是 UMI 的一種擴(kuò)展形式,但目前五指路線整體還不夠成熟。二指 UMI 的核心能力在于獲取空間中的高精度軌跡,并準(zhǔn)確記錄夾爪的開(kāi)合信息。由于二指夾爪的機(jī)械結(jié)構(gòu)穩(wěn)定、自由度少,因此可以直接、精準(zhǔn)地推算出每個(gè)夾爪末端在空間中的位置,數(shù)據(jù)質(zhì)量非常穩(wěn)定。而五指方案的目標(biāo)是獲取每一個(gè)關(guān)節(jié)在空間中的位置,自由度暴漲、解算難度成倍提升。人手有 22 個(gè)關(guān)節(jié),要讓每個(gè)關(guān)節(jié)都保持毫米級(jí)誤差幾乎不現(xiàn)實(shí)。即使使用手套傳感器,單關(guān)節(jié)誤差往往仍然在厘米級(jí),這會(huì)直接影響 replay(動(dòng)作復(fù)現(xiàn))效果。

AI科技評(píng)論:什么是好數(shù)據(jù)?

丁琰:本質(zhì)上必須能 replay 成功 才算。當(dāng)機(jī)器人按照數(shù)據(jù)執(zhí)行動(dòng)作時(shí),如果不能精準(zhǔn)還原人類(lèi)的軌跡,那這份數(shù)據(jù)是無(wú)法用于訓(xùn)練的。因此,五指方案雖然也是一種 UMI 思路,但如果沒(méi)有激光動(dòng)捕等高成本環(huán)境輔助,其數(shù)據(jù)精度很難滿(mǎn)足工業(yè)級(jí)需求。而二指 UMI 的優(yōu)勢(shì)就在于結(jié)構(gòu)簡(jiǎn)單、可控性強(qiáng)、誤差小、可 replay,真正符合可落地、可規(guī)?;囊?。

AI科技評(píng)論:目前在學(xué)術(shù)界其實(shí)也有一些UMI的方案,這些方案有哪些不足之處?

丁琰:我們應(yīng)該算是全球第二家系統(tǒng)性開(kāi)展 UMI 工作的團(tuán)隊(duì),我對(duì)首家開(kāi)展UMI 團(tuán)隊(duì)的工作非常尊敬,他們算是為 UMI 打開(kāi)了整個(gè)技術(shù)方向的先河。那套系統(tǒng)整體對(duì)操作技能要求非常高,也更偏科研屬性。

第一,他們的采集設(shè)備本身非常復(fù)雜。以軌跡讀取為例,我們現(xiàn)在的 FastUMI 軌跡是直接從設(shè)備中讀取的,插上電腦 1~2 分鐘就能自動(dòng)生成結(jié)果。而他們要讀取軌跡,首先要對(duì) GoPro 做標(biāo)定,這一步至少需要 20 分鐘;如果不是特別熟練的操作員,整個(gè)流程甚至可能需要一小時(shí)以上。

第二,他們的軌跡生成鏈路也非常長(zhǎng)。采集時(shí)需要按照特定速度錄制視頻,錄完后要取出 SD 卡,用讀卡器插電腦,再通過(guò) GoPro 的專(zhuān)用軟件導(dǎo)出原始數(shù)據(jù),然后再跑一套比較復(fù)雜的代碼。光是環(huán)境配置和依賴(lài)安裝就可能需要二三十分鐘,最終才算能輸出軌跡。

但這個(gè)軌跡還不一定成功,因?yàn)樗麄兪褂玫氖菃文肯鄼C(jī),而單目視覺(jué)里程計(jì)本身就極其容易失敗。我們第一次嘗試他們的方案時(shí),大概 50%~60% 的軌跡都無(wú)法正確生成。后來(lái)才發(fā)現(xiàn)必須嚴(yán)格控制采集速度,而且場(chǎng)景里必須非常豐富的視覺(jué)特征點(diǎn),否則視覺(jué)定位就會(huì)崩。

AI科技評(píng)論:FastUMI做了哪些改進(jìn)?

丁琰:在硬件層面,他們的 UMI 系統(tǒng)只能運(yùn)行在特定的幾套設(shè)備上,例如 Franka 或 UR5e,夾爪必須使用 WSG-50,換成其他機(jī)器人或末端執(zhí)行器基本就無(wú)法開(kāi)箱即用。而這些設(shè)備動(dòng)輒二三十萬(wàn)元,對(duì)大多數(shù)團(tuán)隊(duì)來(lái)說(shuō)成本極高。為了讓 UMI 能真正做到通用普適,我們投入了大量工作去做解耦,讓 任何機(jī)器人、任何夾爪 都可以使用 FastUMI 這一體系,這是我們非常重要的技術(shù)突破。

在軟件層面,我們用成熟穩(wěn)定的 TR65 完全替代了原本復(fù)雜且易失敗的軌跡計(jì)算方案?,F(xiàn)在只需要 1~2 分鐘就能穩(wěn)定算出高質(zhì)量軌跡,大幅提升了數(shù)據(jù)處理效率。

在算法層面,對(duì)方的體系主要只有一個(gè) DP 算法。我們則針對(duì) UMI 數(shù)據(jù)的特點(diǎn)開(kāi)發(fā)和適配了四五種不同的算法,并在數(shù)據(jù)預(yù)處理、軌跡對(duì)齊、開(kāi)合建模、觸覺(jué)/力控特征提取等方面做了大量?jī)?yōu)化,使整個(gè) UMI 算法鏈路更加完整、魯棒。

綜上,我們從硬件、軟件到算法三個(gè)維度構(gòu)建了一個(gè)扎實(shí)、完整并且可規(guī)模化的 UMI 體系。之后我們還自主采集了大約1萬(wàn)小時(shí)的UMI數(shù)據(jù) ,積累了大量一線采集經(jīng)驗(yàn),為體系的穩(wěn)定性和可重復(fù)性進(jìn)一步打下基礎(chǔ)。


整個(gè)具身智能圈子2/3的人,都在用FastUMI Pro


AI科技評(píng)論:你們的新產(chǎn)品FastUMI Pro據(jù)說(shuō)成本只有傳統(tǒng)方案的 1/5,可以具體透露一下它這個(gè)每條數(shù)據(jù)的成本是多少嗎?

丁琰:數(shù)據(jù)的成本包括前期的高額研發(fā)投入,場(chǎng)地、采集人工電費(fèi)以及設(shè)備折舊等等,我們新產(chǎn)品 FastUMI Pro 的成本能僅有傳統(tǒng)方案的 1/5。我們現(xiàn)在的數(shù)據(jù)定價(jià)本質(zhì)上是以“通用型數(shù)據(jù)”的模式定價(jià)。所謂通用型數(shù)據(jù),就是一份數(shù)據(jù)可以重復(fù)售賣(mài),并能夠在不同機(jī)器人、不同算法體系中復(fù)用。因此,如果同一條數(shù)據(jù)能多次賣(mài)出,效益就會(huì)比較理想。

AI科技評(píng)論:FastUMI Pro很輕,但輕巧就意味著精簡(jiǎn),有些功能會(huì)舍棄,那么在結(jié)構(gòu)設(shè)計(jì)上如何平衡重量和功能?

丁琰:首先,如果希望采集員一天能夠穩(wěn)定采 500~1000 條數(shù)據(jù),設(shè)備的重量必須控制在合理范圍內(nèi),否則長(zhǎng)時(shí)間操作會(huì)非常疲勞。因此我們把重量上限定在 600g。但這項(xiàng)工作當(dāng)時(shí)是在一星的大工業(yè)場(chǎng)景下推進(jìn)的,涉及的物品都很重,比如汽車(chē)零部件,部分甚至達(dá)到 1.5kg 左右。所以我們?cè)O(shè)定了一個(gè)硬性指標(biāo):設(shè)備必須能承載 2kg 的物體,而且同時(shí)保持足夠輕巧。

這在當(dāng)時(shí)是非常有挑戰(zhàn)的,因?yàn)閷W(xué)術(shù)界還沒(méi)有哪個(gè)研究型設(shè)備能做到 既支持 2kg 負(fù)載,又具備工業(yè)級(jí)耐用性。早期在 AI Lab,我們使用的還是 3D 打印結(jié)構(gòu)件,非常容易損壞。那段時(shí)間最痛苦的就是——基本每天都在換零件。也正因如此,到了一星之后我們下定決心重新設(shè)計(jì)一款真正工業(yè)級(jí)的 UMI 設(shè)備,于是就有了 FastUMI Pro。

在硬件結(jié)構(gòu)上,我們做了大量工程化優(yōu)化,同時(shí)邀請(qǐng)專(zhuān)業(yè)人士對(duì)整體結(jié)構(gòu)進(jìn)行了系統(tǒng)的受力分析,明確哪些部位是主要受力點(diǎn)、最容易損壞。所有高應(yīng)力區(qū)域,我們都采用了 強(qiáng)度更高的特殊材料 進(jìn)行加固;而在螺絲孔、開(kāi)合機(jī)構(gòu)等容易變形的位置,我們也全面更換為更高規(guī)格的材料與結(jié)構(gòu)。

至于非關(guān)鍵受力區(qū)域,我們的目標(biāo)就是——能輕則輕。為此,我們嘗試了二三十種不同厚度的結(jié)構(gòu)版本,每一個(gè)版本都實(shí)際打印出來(lái)測(cè)試。在最終定型中,我們把部分結(jié)構(gòu)的厚度壓到 1.5 mm,而最薄的區(qū)域甚至做到 0.5 mm——因?yàn)檫@些區(qū)域幾乎不受力??梢哉f(shuō),我們是把每一個(gè)細(xì)節(jié)都打磨到了極致,才達(dá)成了“輕量化與高強(qiáng)度同時(shí)兼顧”的目標(biāo)。

AI科技評(píng)論:同時(shí)它的定位精度又很高,這是如何實(shí)現(xiàn)的?

丁琰:這一切的實(shí)現(xiàn),其實(shí)歸功于我們?cè)谲浻布退惴ㄉ系娜溌吠度搿.?dāng)時(shí)我們下了一個(gè)非常重要的決心:在產(chǎn)品成型之前不計(jì)成本地打磨品質(zhì),因?yàn)橹灰?guī)模化之后,成本最終都可以攤薄。

因此,在最初的設(shè)計(jì)階段,我們就選擇了最好的傳感器、組建了最強(qiáng)的算法團(tuán)隊(duì)。在跑完整個(gè) pipeline 后,我們發(fā)現(xiàn)定位精度會(huì)直接影響算法效果,尤其是軌跡擬合、動(dòng)作復(fù)現(xiàn)和多模態(tài)信號(hào)解算,因此我們決定必須把定位精度做到極致,并逐個(gè)解決可能出現(xiàn)的 corner case。

為此,我們不僅搭建了專(zhuān)門(mén)的算法團(tuán)隊(duì)長(zhǎng)期攻堅(jiān),還投入了數(shù)百萬(wàn)元持續(xù)打磨這個(gè)產(chǎn)品。在硬件、軟件、算法三端不斷迭代的過(guò)程中,F(xiàn)astUMI Pro 才最終具備了今天的工業(yè)級(jí)穩(wěn)定性和精度。

AI科技評(píng)論:從結(jié)果來(lái)看,這個(gè)投入是完全值得的。

丁琰:對(duì),我加入鹿明還不到一個(gè)月,F(xiàn)astUMI Pro 就已經(jīng)銷(xiāo)售給了幾十家企業(yè)。整個(gè)具身智能圈里大約有三分之二的團(tuán)隊(duì)都在咨詢(xún)、測(cè)試或直接使用這款產(chǎn)品,國(guó)內(nèi)國(guó)外都有。很多團(tuán)隊(duì)甚至是一口氣采購(gòu)多套設(shè)備回去評(píng)估。FastUMI Pro 基本已經(jīng)成為行業(yè)內(nèi)驗(yàn)證 UMI 能力的“標(biāo)配裝備”。

AI科技評(píng)論:您說(shuō)過(guò)魚(yú)眼鏡頭的FOV必須足夠大,否則會(huì)出現(xiàn)物體超出視野的情況,那么FastUMI Pro采用了什么方案避免這一問(wèn)題?

丁琰:就像我一開(kāi)始強(qiáng)調(diào)的那樣,UMI 從來(lái)不是一個(gè)簡(jiǎn)單的數(shù)采方案,而是一整套系統(tǒng)工程。數(shù)據(jù)的形態(tài)會(huì)直接影響算法,而數(shù)據(jù)與算法又會(huì)反過(guò)來(lái)決定硬件的結(jié)構(gòu)設(shè)計(jì)。早期的 UMI 基本都把相機(jī)放在腕部,視野非常受限,背景信息嚴(yán)重缺失,有些物體甚至只能看到局部,這對(duì)于算法推理來(lái)說(shuō)是極不友好的,因?yàn)槟P捅仨氁蕾?lài)足夠豐富、穩(wěn)定的信息量才能可靠推斷。然而,很多人做 UMI 只停留在“造出一個(gè)硬件”這個(gè)層面,沒(méi)有真正完整走過(guò)從數(shù)據(jù)采集、算法訓(xùn)練再到回到硬件調(diào)整的全流程,這其實(shí)是非常不對(duì)的。真正的 UMI 必須經(jīng)歷一個(gè)反復(fù)迭代的閉環(huán):先采數(shù)據(jù),再訓(xùn)練算法,再根據(jù)算法結(jié)果不斷修改硬件,只有這樣整個(gè)體系才能成熟。在我們的實(shí)際訓(xùn)練中,我們發(fā)現(xiàn)像素必須足夠大、白平衡必須足夠穩(wěn)定、抗抖性能必須足夠強(qiáng),否則模型就無(wú)法復(fù)現(xiàn)軌跡或推斷正確動(dòng)作。也正是根據(jù)算法反饋,我們最終選用了大魚(yú)眼作為當(dāng)前的最優(yōu)解。

為了確定攝像頭方案,我們幾乎把所有能找到的魚(yú)眼相機(jī)都買(mǎi)了一遍,前后大概二三十款。測(cè)試下來(lái)發(fā)現(xiàn),很多魚(yú)眼的實(shí)際視角根本達(dá)不到宣傳的 180 度,要么畫(huà)面灰暗、動(dòng)態(tài)范圍差,要么在快速運(yùn)動(dòng)時(shí)出現(xiàn)明顯抖動(dòng),還有不少白平衡極不穩(wěn)定。所謂白平衡,就是當(dāng)你用手遮住攝像頭再移開(kāi)時(shí),圖像需要瞬間恢復(fù)正常顏色;如果要兩三秒才能恢復(fù),那么這一段數(shù)據(jù)軌跡就基本報(bào)廢了。正因?yàn)槲覀兺暾?jīng)歷了“硬件—數(shù)據(jù)—算法—再回到硬件”的閉環(huán)迭代,并用大量試錯(cuò)驗(yàn)證各種可能性,才最終確定了現(xiàn)在這個(gè)大魚(yú)眼方案。它不是隨便選出來(lái)的,而是從幾十種失敗選項(xiàng)里打磨出來(lái)的最優(yōu)解。


深入做UMI后,我見(jiàn)識(shí)了采集員的管理之難


AI科技評(píng)論:FastUMI Pro為什么采用實(shí)時(shí)前處理?

丁琰:只有真正深入做 UMI,才會(huì)意識(shí)到實(shí)時(shí)前處理的重要性。我個(gè)人并不太傾向于 Generalist 或 Sunday Robotics 那類(lèi)更偏后處理的方案。在實(shí)際采集中我們發(fā)現(xiàn),后處理模式幾乎是災(zāi)難性的:你可能錄了八個(gè)小時(shí)的視頻,最終為了得到真正可用的軌跡,不但要按任務(wù)把視頻切成一段一段,還要逐條排查臟數(shù)據(jù)、刪除錯(cuò)誤片段、剔除低質(zhì)量樣本,整個(gè)流程極其繁瑣,成本和人力消耗巨大。相比之下,實(shí)時(shí)前處理模式能夠當(dāng)場(chǎng)發(fā)現(xiàn)問(wèn)題、當(dāng)場(chǎng)修正,從源頭保證數(shù)據(jù)質(zhì)量。

選擇前處理還有另一個(gè)很現(xiàn)實(shí)的原因——人性。數(shù)據(jù)采集員是非常難管理的。如果采用后處理方式,你把設(shè)備交給一個(gè)采集員,他干了一個(gè)星期,最后發(fā)現(xiàn)數(shù)據(jù)全部不能用,那么這一個(gè)星期的工錢(qián)到底付還是不付?而且問(wèn)題并不總是硬件出錯(cuò),更多時(shí)候是操作不規(guī)范造成的。我們?cè)谏虾?AI Lab 建采集場(chǎng)的時(shí)候就遇到過(guò)大量類(lèi)似情況:你規(guī)定某個(gè)任務(wù)必須 10 秒完成,但采集員可能 5 秒就做完了,動(dòng)作不完整、節(jié)奏不符,導(dǎo)致整段數(shù)據(jù)完全沒(méi)法用,而他們往往不會(huì)在意這些細(xì)節(jié)。因此,如果不在前端進(jìn)行實(shí)時(shí)校驗(yàn)與約束,不僅數(shù)據(jù)質(zhì)量無(wú)法保證,整個(gè)采集體系也難以長(zhǎng)久維持。

AI科技評(píng)論:這些人是從哪找的?

丁琰:這些采集員大多是按小時(shí)計(jì)費(fèi)的兼職人員,工作本身也沒(méi)有太強(qiáng)的技術(shù)含量,他們往往無(wú)法真正保證采集結(jié)果的質(zhì)量。即便你給出明確規(guī)范,他們也不一定會(huì)嚴(yán)格執(zhí)行,這就進(jìn)一步放大了后處理方案的不確定性和風(fēng)險(xiǎn)。

AI科技評(píng)論:不能去高校找一些大學(xué)生嗎?大學(xué)生也挺便宜的吧。

丁琰:我們?cè)?AI Lab 找的數(shù)據(jù)采集員其實(shí)都是大學(xué)生,但各種操作不規(guī)范的問(wèn)題仍然很難避免,這讓我真正見(jiàn)識(shí)到了管理的復(fù)雜性。那時(shí)候外包團(tuán)隊(duì)只有 11 個(gè)人,管理都已經(jīng)很吃力了,如果建一個(gè)一百人的數(shù)據(jù)采集工廠,恐怕會(huì)直接崩潰。所以我們后來(lái)強(qiáng)調(diào)“不能做后處理”,理由并不是技術(shù),而是管理。后處理意味著采集員一整個(gè)星期都在積累潛在錯(cuò)誤,等數(shù)據(jù)全都無(wú)效時(shí)已經(jīng)無(wú)法挽回,也無(wú)法實(shí)時(shí)指導(dǎo)他們?nèi)绾胃恼?。相比之下,前處理能夠?qū)崟r(shí)給工人反饋,告訴他動(dòng)作哪里不達(dá)標(biāo)、哪些步驟需要重做。我們第一周的合格率只有 50%-60%,但經(jīng)過(guò)一兩周的實(shí)時(shí)反饋訓(xùn)練之后,整體合格率顯著提升,到了最后幾周甚至有人能做到 100% 合格。后處理完全做不到這一點(diǎn),因?yàn)椴杉托拚g是割裂的,錯(cuò)誤無(wú)法在第一時(shí)間被發(fā)現(xiàn)并糾正,而這一點(diǎn)恰恰決定了數(shù)據(jù)采集體系能否真正跑通。

AI科技評(píng)論:所以前處理沒(méi)有技術(shù)上的難點(diǎn)嗎?

丁琰:當(dāng)然,還有一個(gè)原因來(lái)自硬件本身。硬件在最初階段可能出現(xiàn)的問(wèn)題太多了,往往需要經(jīng)過(guò)至少半年的迭代才能逐步穩(wěn)定下來(lái)。只有當(dāng)硬件足夠可靠、采集員也完全熟練之后,才有可能轉(zhuǎn)向后處理模式。也就是說(shuō),前處理和后處理并不是絕對(duì)對(duì)立的關(guān)系,更像是一種循序漸進(jìn)、水到渠成的過(guò)程。當(dāng)系統(tǒng)還不成熟時(shí)必須依賴(lài)前處理來(lái)保證質(zhì)量;等整個(gè)鏈路穩(wěn)定之后,后處理自然就能夠接上。

AI科技評(píng)論:你曾說(shuō)在研發(fā)過(guò)程中踩過(guò)了很多坑,可以講一下有踩過(guò)哪些坑嗎?

丁琰:以魚(yú)眼鏡頭為例,我們最初基于控制成本的考慮,采用了一些低性能鏡頭湊合,但在實(shí)際訓(xùn)練和驗(yàn)證中發(fā)現(xiàn),算法根本無(wú)法在這種低性能鏡頭上發(fā)揮作用,所以最終選用了將近大幾百一顆的高品質(zhì)魚(yú)眼。類(lèi)似地,也有人問(wèn)過(guò)我們的 UMI 設(shè)備和 3D 打印出來(lái)的版本有何區(qū)別——乍一看外觀可能差不多,但真正用起來(lái)完全不是一個(gè)層級(jí)。3D 打印件本身就不穩(wěn)定,采集過(guò)程中各種結(jié)構(gòu)性問(wèn)題會(huì)頻繁出現(xiàn),導(dǎo)致效率極低,完全達(dá)不到工業(yè)化生產(chǎn)所需的可靠性,也根本無(wú)法作為一個(gè)可以拿去售賣(mài)的產(chǎn)品。真正的工業(yè)產(chǎn)品必須在強(qiáng)度、穩(wěn)定性、耐久度、精度等方面都經(jīng)得起驗(yàn)證,這些都是 3D 打印無(wú)法承擔(dān)的。

AI科技評(píng)論:技術(shù)上還有其他瓶頸嗎?

丁琰:技術(shù)上的瓶頸其實(shí)更多來(lái)自算法層面。我們團(tuán)隊(duì)在這一條線上不斷迭代了一年四個(gè)月,幾乎把能踩的坑都踩過(guò)一遍,深刻體會(huì)到 UMI 最難的地方根本不是硬件。如果用 100 分來(lái)衡量整體難度,硬件大概只占三四十分,而數(shù)據(jù)處理的難度卻在六七十分以上。很多人以為 UMI 看起來(lái)很簡(jiǎn)單,好像隨便誰(shuí)都能做,但他們并不知道真正的挑戰(zhàn)不在于把一個(gè)設(shè)備做出來(lái),而在于如何把數(shù)據(jù)處理好,因?yàn)檎麄€(gè) pipeline 異常漫長(zhǎng)、異常復(fù)雜。UMI 的“壞的一面”就在這里——它的數(shù)據(jù)極其難處理。如果用做菜來(lái)比喻,這就像遇到了一種食材,本身又便宜又美味,但處理過(guò)程極其繁瑣,需要大量技巧和耐心,否則根本做不出好菜。UMI 的數(shù)據(jù)也是一樣,只有把這道最難處理的食材處理好了,整個(gè)體系才能真正發(fā)揮價(jià)值。

AI科技評(píng)論:所以算法才是你們的技術(shù)壁壘?

丁琰:可以這么形容,我們的數(shù)據(jù)處理全鏈路,別人可能需要一年才能真正跑通,而我們已經(jīng)積累了超過(guò) 1萬(wàn)小時(shí)的實(shí)戰(zhàn)采集經(jīng)驗(yàn),這本身就是非常強(qiáng)的壁壘。很多人看到的只是 UMI 的硬件外觀,但那只是冰山一角,真正的難點(diǎn)和價(jià)值都藏在水面之下的部分——也就是數(shù)據(jù)處理、算法鏈路、異常場(chǎng)景處理、質(zhì)量控制體系、采集規(guī)范化、以及迭代出來(lái)的經(jīng)驗(yàn)。這些看不見(jiàn)的部分才決定了整個(gè)系統(tǒng)的可靠性與可擴(kuò)展性。硬件只是入口,而真正的深水區(qū),全在背后那條漫長(zhǎng)而復(fù)雜的數(shù)據(jù) pipeline。

AI科技評(píng)論:FastUMI Pro在鹿明的產(chǎn)品生態(tài)中扮演什么樣的角色?

丁琰:鹿明的人形機(jī)器人在運(yùn)動(dòng)能力方面本來(lái)就非常突出,但在操縱能力上的優(yōu)勢(shì)還不夠明顯,而 FastUMI 團(tuán)隊(duì)的加入讓鹿明在 manipulation(操控能力)這一關(guān)鍵維度上獲得了顯著提升。

AI科技評(píng)論:會(huì)有資源不夠分的問(wèn)題嗎?

丁琰:不會(huì),CEO喻超是一個(gè)非常有戰(zhàn)略定力的人,一旦認(rèn)定方向,就會(huì)堅(jiān)定地 All in 下去。未來(lái)鹿明的主要布局將圍繞兩條主線:一條是人形機(jī)器人本身,另一條就是 FastUMI 體系。在 UMI 方向上我們擁有非常明確的先發(fā)優(yōu)勢(shì),而且團(tuán)隊(duì)對(duì)技術(shù)路線和產(chǎn)品節(jié)奏都非常有信心,相信能夠持續(xù)保持行業(yè)領(lǐng)先。

AI科技評(píng)論:鹿明未來(lái)在技術(shù)研發(fā)上有哪些重點(diǎn)方向?

丁琰:我更多能談的是軟件側(cè)的內(nèi)容,尤其是數(shù)據(jù)。在具身智能領(lǐng)域,數(shù)據(jù)是高度多模態(tài)的,其復(fù)雜度遠(yuǎn)超自動(dòng)駕駛。自動(dòng)駕駛幾乎不需要觸覺(jué)、力控甚至聲音數(shù)據(jù),但這些恰恰是具身智能的基礎(chǔ)維度。未來(lái)還會(huì)疊加更多模態(tài),使理解與探索的難度進(jìn)一步提升?,F(xiàn)在整個(gè)行業(yè)在“具身智能該如何獲取、理解和使用數(shù)據(jù)”這件事上的認(rèn)知仍然非常不足,因此數(shù)據(jù)一定會(huì)是鹿明未來(lái)最核心的戰(zhàn)略重點(diǎn)。

另一方面是我們自研的模型架構(gòu),其實(shí)也有大量講究。并不是所有數(shù)據(jù)都能簡(jiǎn)單混在一起做訓(xùn)練,每一種數(shù)據(jù)都有其天然結(jié)構(gòu)和語(yǔ)義特征,如何根據(jù)這些特征去構(gòu)建屬于自己的 VLA 架構(gòu),才是最關(guān)鍵的。我們會(huì)圍繞數(shù)據(jù)特點(diǎn)對(duì)模型進(jìn)行針對(duì)性的結(jié)構(gòu)改進(jìn),充分釋放不同模態(tài)的價(jià)值,這也是鹿明未來(lái)研發(fā)的另一條核心主線。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)