日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給劉欣
發(fā)送

0

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

本文作者: 劉欣   2026-02-27 14:44
導(dǎo)語(yǔ):具身沒(méi)有統(tǒng)一路線,在山腳分開(kāi),終會(huì)在山頂匯合。

范浩強(qiáng)是個(gè)很幽默的人。我們問(wèn)他下一個(gè)十年,具身智能要解決的問(wèn)題是什么,他說(shuō)可能機(jī)器人覺(jué)醒把人類滅了,就沒(méi)有下一個(gè)十年了。

這當(dāng)然是一個(gè)玩笑,探討行業(yè)的發(fā)展,難免要做一些科幻性的想象。在他看來(lái),AI 應(yīng)該是一生的事業(yè)。畢竟他高一就拿到了國(guó)際信息奧賽金牌,高二起就是一個(gè)真正的 AI 研究員了。

原力靈機(jī)的名字很陌生,但來(lái)頭可不小,因?yàn)檫@是從曠視出來(lái)的具身智能公司。它的創(chuàng)始人便是曠視的聯(lián)合創(chuàng)始人以及最早期的幾名員工。成立不久,兩輪融資金額就已經(jīng)近10億元了。

我們對(duì)于原力靈機(jī)的好奇主要集中在幾點(diǎn):他們是想做模型還是想做本體?他們有什么樣的商業(yè)模式?作為曠視出身的新公司,他們有什么樣的優(yōu)勢(shì)?在目前的競(jìng)爭(zhēng)中應(yīng)該如何突出重圍?

作為一個(gè)在曠視就跟無(wú)數(shù)客戶打過(guò)交道的人,范浩強(qiáng)對(duì)于具身智能的理解也帶著很強(qiáng)的“曠視”風(fēng)味。

從創(chuàng)業(yè)的第1天開(kāi)始,范浩強(qiáng)就真切感受到了客戶對(duì)具身智能的強(qiáng)烈需求。但令他感到遺憾的是,很多需求是現(xiàn)在滿足不了的。機(jī)器人的能力現(xiàn)在還極其有限,而生產(chǎn)線的精度需求和效率需求又高得不可思議。

以前曠視能把人臉識(shí)別做到11個(gè)9的百分?jǐn)?shù),現(xiàn)在呢,機(jī)器人一次最簡(jiǎn)單的抓取,可能成功率還不到一半。

在整個(gè)聊天中,我們對(duì)原力靈機(jī)最大的感受就是這個(gè)公司不講資本故事,不談 AI 噱頭。范浩強(qiáng)跟我們談 DFOL(原力靈機(jī)具身原生量產(chǎn)工作流),說(shuō)具身智能的第一步落地,應(yīng)該從何處著手?它的原生應(yīng)用應(yīng)該從何處發(fā)現(xiàn)?實(shí)用場(chǎng)景,怎么樣從百里挑一,進(jìn)展到百里挑十,最終走到無(wú)限泛化。

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

范浩強(qiáng)在原力靈機(jī)技術(shù)發(fā)布日上介紹 DFOL

通用機(jī)器人當(dāng)然是我們所要尋求的終極目標(biāo),但是怎么走到通用呢?當(dāng)技術(shù)就是達(dá)不到完美的狀態(tài),那我們應(yīng)該怎么辦呢?不夠通用的具身智能會(huì)不會(huì)因?yàn)檫_(dá)不到大家的期待,而飽受質(zhì)疑,成為明日黃花呢?

范浩強(qiáng)給了一個(gè)他們的答案:

歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開(kāi)來(lái)。

能用,即為合理。對(duì)于 general,做過(guò)工程的人都知道,期待不要放太高才好。

這篇訪談能夠告訴你,找到真實(shí)場(chǎng)景、解決真實(shí)問(wèn)題的具身智能公司是怎么做的。你能讀懂一個(gè)創(chuàng)業(yè)者的困惑和努力,更能聽(tīng)到他關(guān)于模型本體應(yīng)用和商業(yè)最真實(shí)的思考。以下是不改變?cè)獾恼恚?/p>


01要做就做到 SOTA,這是對(duì)自我的定位和自信


AI 科技評(píng)論:我第一次聽(tīng)說(shuō)你,是有人跟我說(shuō),他剛進(jìn)曠視的時(shí)候,旁邊坐著一個(gè)天才少年,還是個(gè)高中生,把他嚇?biāo)懒?,一?wèn)這個(gè)人,名字叫范浩強(qiáng)。

范浩強(qiáng):對(duì),我12年就加入曠視了,是曠視六號(hào)員工。當(dāng)時(shí)唐文斌是我的信息奧賽教練,他就問(wèn)我,我這有個(gè)事兒能保送,還能發(fā)工資,我問(wèn)他,那是做什么的???靠譜嗎?他跟我說(shuō),做人臉識(shí)別啊。我當(dāng)時(shí)還在讀高中,啥也不知道就進(jìn)去了。

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

范浩強(qiáng)在曠視時(shí)的照片

AI 科技評(píng)論:你什么時(shí)候開(kāi)始想做機(jī)器人的?

范浩強(qiáng):確切地說(shuō),那應(yīng)該是16年,那時(shí)候我大四,去拜訪了一個(gè)斯坦福實(shí)驗(yàn)室兩個(gè)月。那個(gè)實(shí)驗(yàn)室里面有誰(shuí)呢?有蘇昊、盧策吾、王鶴、弋力、邵林。

蘇昊是大師兄,那時(shí)候帶著我們做 3D 生成。我問(wèn)蘇昊,你為什么要做 3D?蘇昊就跟我說(shuō),做了 3D 生成就可以做 3D 判別,然后就可以做機(jī)器人仿真,最后咱們就可以在十年后干機(jī)器人啦。

AI 科技評(píng)論:果然到了十年之后,你們都在干機(jī)器人啦!談?wù)勗`機(jī)是怎么成立的吧?

范浩強(qiáng):我當(dāng)時(shí)就想,把 AI 放在機(jī)器人上,就是一個(gè)最大的挑戰(zhàn)故事。

但那時(shí)候缺一味關(guān)鍵的佐料,就是 AI。雖然大模型出來(lái)了,但具體怎么和機(jī)器人結(jié)合在一起?不知道。還好24年從美國(guó)出來(lái)幾個(gè)重要的工作,比如 Action Transformer、Diffusion Policy,最后還有個(gè)集大成之作就是 Pi,就一下子把路線劃清楚了,告訴大家 Transformer 這項(xiàng)技術(shù)是怎么往矩陣上用的,勾勒出一個(gè)后面的 roadmap。當(dāng)時(shí)覺(jué)得條件都成熟了,要去組建團(tuán)隊(duì)了。

我第一個(gè)想的是得找個(gè) CEO,剛好唐文斌當(dāng)時(shí)還是個(gè)“自由人”,我就找他來(lái)干這個(gè) CEO。他看到這些技術(shù)進(jìn)展,半夜2點(diǎn)給我發(fā)了條微信消息:this is once in a lifetime 的機(jī)會(huì)去做 general robotics。我回他,你怎么比我還激動(dòng)呢?

然后我們又找到了硬件合伙人周而進(jìn)、汪天才,加上唐文斌可以做客戶場(chǎng)景,我可以做 AI,就成了一個(gè)全國(guó)少有的集三方面于一體的團(tuán)隊(duì)了。

AI 科技評(píng)論:公司正式成立那是什么時(shí)間?

范浩強(qiáng):差不多25年3月份,第一輪融資搞定,后面公司主體成立。

AI 科技評(píng)論:進(jìn)入具身智能行業(yè)這一年,你的感覺(jué)如何?

范浩強(qiáng):我感覺(jué)后面事態(tài)的發(fā)展速度完全不受控了,因?yàn)檎麄€(gè)行業(yè)發(fā)展得一日千里。我們以前寫 paper 經(jīng)常說(shuō) traditional method 是什么,現(xiàn)在具身兩個(gè)月前的就叫經(jīng)典方法了,變化得特別快。

25年,公司剛攢出來(lái)的時(shí)候,其實(shí)有點(diǎn)兩眼一抹黑,不是不知道做什么,而是想法太多了,有想搞 humanoid 的,分離式采集的概念也很火,觸覺(jué)也很火,太多的可能性和概念飄在眼前了。

我們也是經(jīng)過(guò)25年這完整的一年才看清,模型還是這里的主軸。模型的水平?jīng)Q定了哪些場(chǎng)景能用,哪些場(chǎng)景能用又決定了最終硬件該長(zhǎng)什么樣,再反過(guò)來(lái)決定這個(gè)數(shù)據(jù)該怎么做。模型的能力本身是整個(gè)事情發(fā)展的自變量。把這個(gè)事情看清楚之后,那核心是把模型做好,用最好的算法、最優(yōu)的數(shù)據(jù)、頂尖的工程來(lái)實(shí)現(xiàn)。那剩下公司該做什么?自然就一路展開(kāi)了,這是我在創(chuàng)業(yè)過(guò)程中逐漸找到主軸和主線的過(guò)程。

AI 科技評(píng)論:做最好的模型,本身就非常難。

范浩強(qiáng):這個(gè)的確是,但我們團(tuán)隊(duì)里很多人都有種傲氣,當(dāng)年搞視覺(jué)的時(shí)候就沒(méi)當(dāng)過(guò)第二,大家很難想象一個(gè)事努力了一段時(shí)間,把該搞的搞清楚之后,最終測(cè)出來(lái)的分?jǐn)?shù)或者效果不是 SOTA?!我們是覺(jué)得研發(fā)有科學(xué)性在里面的,搞清楚了就該有好成績(jī),這也是一種對(duì)自我的定位和自信吧。

AI 科技評(píng)論:模型是我們現(xiàn)在手上最大的牌?

范浩強(qiáng):我們有兩個(gè)開(kāi)源的東西。一個(gè)是訓(xùn)練的 codebase,叫做 Dexbotic,內(nèi)部俗稱 DB。第二個(gè)是我們搭建了一個(gè)測(cè)評(píng)框架,叫 RoboChallenge,內(nèi)部叫 RC。

這些東西在技術(shù)上都是不好做的,都很硬。并且做完之后還開(kāi)源,展示每行 code,也算是展示我們整個(gè)團(tuán)隊(duì)的戰(zhàn)斗力和技術(shù)水平。不少公司都做了 Codebase 開(kāi)源,但很多都是 “README 式開(kāi)源”,就一個(gè) README 文件,里面是空的。

開(kāi)源后就引發(fā)了一系列的熱度,RoboChallenge 現(xiàn)在有五六家都申請(qǐng)做測(cè)試了。截止到目前,我們手里有兩張牌,一張是基建能力,第二張牌是模型,這是整個(gè)團(tuán)隊(duì)的實(shí)力展示,也是跟大家同步我們想要去努力的方向。

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf(左 3)與 Dexmal 原力靈機(jī)聯(lián)合創(chuàng)始人范浩強(qiáng)(右 2)在 IROS 2025 現(xiàn)場(chǎng)交流 RoboChallenge

AI 科技評(píng)論:模型這方面強(qiáng)手如云,你不擔(dān)心嗎?

范浩強(qiáng):最強(qiáng)的人還在搞 LLM 呢。


02真實(shí)場(chǎng)景的真實(shí)問(wèn)題,可能是最難的挑戰(zhàn)


AI 科技評(píng)論:除了模型,我們還做本體嗎?

范浩強(qiáng):對(duì),我覺(jué)得這個(gè)還是很清晰的,機(jī)器本體我們也一定得自己做。

AI 科技評(píng)論:這跟我們的商業(yè)模式相關(guān)?

范浩強(qiáng):我們之前賣軟件都賣了十幾年了,很清楚一件事,那就是要順著市場(chǎng)對(duì)公司的期望去做,絕大部分的用戶或者客戶還是想要個(gè) total solution,在中國(guó)也不太會(huì)有一個(gè)大廠自己通過(guò)收購(gòu)做垂直整合的這種商業(yè)習(xí)慣。

所以我們覺(jué)得最終還是要端到端的給客戶創(chuàng)造價(jià)值,基本上每一環(huán)自己能控制得住,那么整個(gè)東西的品質(zhì)和可服務(wù)性才是最好的。雖然可能之前很多人都沒(méi)碰過(guò)電機(jī)這些硬件的東西,那也得從頭去做,爭(zhēng)取跟上這個(gè)課題的要求吧。

AI 科技評(píng)論:又做模型又做硬件,聽(tīng)起來(lái)難度更高。

范浩強(qiáng):我之前就說(shuō)過(guò)我們很多人都在手搓機(jī)器人,現(xiàn)在我們公司里還躺著很多手搓機(jī)器人呢,大家都認(rèn)為讓搞算法的同學(xué)自己先搭一遍機(jī)器人,才知道這里面將來(lái)會(huì)出現(xiàn)多少問(wèn)題,這樣后面做算法的時(shí)候才能在腦子里想著這些問(wèn)題做。

AI 科技評(píng)論:這不是折磨算法工程師嗎?

范浩強(qiáng):干得好的話,就特別開(kāi)心。

AI 科技評(píng)論:你不會(huì)也手搓了一個(gè)吧?

范浩強(qiáng):全公司應(yīng)該就我手搓的最多,最早我自己在家搓了一個(gè)在家疊被子的機(jī)器人,大概是2000塊還是3000塊的成本,全是淘寶買的零件手搓出來(lái)的。

不是機(jī)械臂,就一根棍,能提升,有個(gè)夾子,接下來(lái)都得靠你的智慧,用一個(gè)小夾子怎么就擺來(lái)擺去把被子給疊起來(lái)了?里面全是設(shè)計(jì)。

AI 科技評(píng)論:手搓機(jī)器人讓你對(duì)做算法有什么新的感悟?

范浩強(qiáng):我當(dāng)時(shí)就感覺(jué)到,硬件很多都關(guān)乎于取舍,20萬(wàn)也能造,2千塊也能造,最終決定東西好不好用還是取決于里面的算法,就是動(dòng)的路線,理解到這一點(diǎn)就覺(jué)得還有機(jī)會(huì),只要把算法做好了,一切美好都能到眼前。

AI 科技評(píng)論:在設(shè)計(jì)這一整個(gè)從軟件到硬件的閉環(huán)的時(shí)候,當(dāng)時(shí)想的是要做哪些場(chǎng)景呢?

范浩強(qiáng):當(dāng)時(shí)想的還挺簡(jiǎn)單的,因?yàn)闀缫暜?dāng)年有500多個(gè)優(yōu)質(zhì)客戶,好多公司都有類似技術(shù)改造這種偏前瞻的部門,每年都會(huì)有人來(lái)問(wèn)我們,新的科技你們公司有沒(méi)有?以前人臉識(shí)別就是 AI 了,后面大模型算是 AI,現(xiàn)在機(jī)器人才是 AI。

所以我們從第一天開(kāi)始就感受到了客戶強(qiáng)烈的訴求,但比較遺憾的是,我們現(xiàn)在滿足不了。哪怕是最簡(jiǎn)單的分揀,一個(gè)倉(cāng)庫(kù)里有幾萬(wàn)個(gè) SKU,直到今天那些算法都搞不定。客戶每年都會(huì)讓我們匯報(bào)一次現(xiàn)在 AI 的進(jìn)展怎么樣啦,能不能起個(gè)項(xiàng)目把這東西上線。所以我們對(duì)應(yīng)用場(chǎng)景沒(méi)那么擔(dān)心,AI 化改造我們已經(jīng)做了很久,很清楚這個(gè)事情該怎么做。

AI 科技評(píng)論:那接下來(lái)最大的挑戰(zhàn)是什么?

范浩強(qiáng):真實(shí)場(chǎng)景的真實(shí)問(wèn)題,可能是最難的挑戰(zhàn)。之前 AI 1.0 整個(gè)過(guò)程中,我們看得很清楚,所有公司在有真實(shí)收入之前,都在講自己有多好,一旦產(chǎn)品真賣出去了,就不是自己講了,而是客戶講你這個(gè)東西到底能不能用。

這是非??陀^、毫無(wú)造假可能的指標(biāo),也是讓整個(gè)行業(yè)的氣氛從浮躁慢慢沉淀下來(lái)的關(guān)鍵。

現(xiàn)在都夸自己的模型多有 insight,但說(shuō)實(shí)話這是不可證偽的,測(cè)評(píng)的指標(biāo)太多了,總能挑個(gè)好的,所以真實(shí)客戶的真實(shí)使用是唯一的指標(biāo)。有一回交流的時(shí)候有人說(shuō)機(jī)器人該測(cè)什么指標(biāo)?回答成功率、穩(wěn)定性一大堆,但我認(rèn)為一個(gè)指標(biāo)最關(guān)鍵,一臺(tái)機(jī)器人多久能自己把錢掙回來(lái),就這一個(gè)指標(biāo),其它都 don' t care。

AI 科技評(píng)論:那現(xiàn)在能完成這個(gè)指標(biāo)嗎?

范浩強(qiáng):我們一邊在做模型,一邊陸陸續(xù)續(xù)做一些應(yīng)用,我就發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象:最難測(cè)試的任務(wù),不是說(shuō)現(xiàn)在的 table30(30個(gè)標(biāo)準(zhǔn)化桌面操作任務(wù)的數(shù)據(jù)集)里 0% 的任務(wù),而是——我們專門有個(gè)小 collection,叫做客戶場(chǎng)景里面的最簡(jiǎn)單問(wèn)題集,從每個(gè)客戶那兒挑了個(gè)最簡(jiǎn)單的問(wèn)題,這里面最簡(jiǎn)單的問(wèn)題比我們測(cè)的最難的問(wèn)題還要難。

之前計(jì)算機(jī)行業(yè)經(jīng)常有句玩笑話叫:最難的測(cè)試叫正常用戶正常使用,你做再多回歸測(cè)試,一到真實(shí)場(chǎng)景完全頂不住。機(jī)器人也是一樣的,基本上每一個(gè)有價(jià)值的任務(wù),整個(gè)環(huán)節(jié)中可能剛好有一小個(gè)環(huán)節(jié),無(wú)論是對(duì)機(jī)器人的精度還是智力,真考驗(yàn)到我們了。

所以下一步的突破一定要去挑戰(zhàn)更真實(shí)、更硬核的事情,大家都有點(diǎn)客戶和落地之后,整個(gè)行業(yè)的格局才會(huì)更清晰。

AI 科技評(píng)論:你現(xiàn)在遇到的客戶場(chǎng)景里面的最簡(jiǎn)單問(wèn)題是什么樣的?

范浩強(qiáng):有幾個(gè)收集的 sample,其中有一個(gè)讓我印象很深,可以理解為機(jī)器人要把兩個(gè)扣在一起的東西翻個(gè)面。

AI 科技評(píng)論:為什么會(huì)有這種需求?

范浩強(qiáng):人家的工藝?yán)锞鸵筮@個(gè),這就叫真實(shí)問(wèn)題,you don' t ask why。人家干了10年,說(shuō)必須要這么翻,你得信他,OK?

AI 科技評(píng)論:OK。

范浩強(qiáng):我們就發(fā)現(xiàn)機(jī)器人做這事就爆難無(wú)比,根本夾不起來(lái)。所以最后我們拍 Demo 的時(shí)候,其實(shí)還專門設(shè)計(jì)了一整套機(jī)器人的動(dòng)作流程:先夾到這里,再?gòu)倪@里鏟進(jìn)去,再搬到另一個(gè)位置,然后再進(jìn)行下一步。機(jī)械上這套動(dòng)作是能實(shí)現(xiàn)的,但問(wèn)題在于動(dòng)作太復(fù)雜,模型根本學(xué)不出來(lái)。

所以這就是真實(shí)問(wèn)題,都是一環(huán)扣一環(huán)的,真要去落地,就會(huì)發(fā)現(xiàn)這是塊硬骨頭,你啃了它一口,發(fā)現(xiàn)里面怎么還一層?只有最后真的吃到里面的芯了,并且給它吃下去了,可能才知道原來(lái)我為了把這東西做落地,要解決這么多問(wèn)題才行。在最終落地之前,你只能不斷發(fā)現(xiàn),原來(lái)這還有個(gè)問(wèn)題是之前沒(méi)意識(shí)到的。

AI 科技評(píng)論:那豈不是要干上十年才能落地?

范浩強(qiáng):不是說(shuō)難度高就代表它就解決不了,難就得動(dòng)腦子,不光模型是基礎(chǔ),產(chǎn)品設(shè)計(jì)、業(yè)務(wù)和客戶的配合,都得把巧思放進(jìn)去,最后這東西才能做好。

我覺(jué)得很好的是現(xiàn)在陸陸續(xù)續(xù)有同行逐漸出來(lái)真的落地項(xiàng)目了,很可能客戶給了100個(gè)需求,真能找到一個(gè)需求恰好天時(shí)地利人和,剛好所有的問(wèn)題,都能有個(gè) solution 繞過(guò)去,然后把機(jī)器人布進(jìn)去用了。

這只是第一步。原本只有百里挑一的優(yōu)質(zhì)任務(wù)才能完成,未來(lái)模型能更強(qiáng),能擴(kuò)展到百里挑十,最終實(shí)現(xiàn)來(lái)一個(gè)任務(wù)就能完成一個(gè)任務(wù)的目標(biāo)。

AI 科技評(píng)論:最近還看到一些機(jī)器人被工廠趕出來(lái)的消息,你怎么看這些新聞?

范浩強(qiáng):很正常,做 POC 到上業(yè)務(wù)之間隔著一條鴻溝,這一點(diǎn)我們?cè)谧龇菢?biāo)視覺(jué)智能化的時(shí)候就有非常深刻的體會(huì)了,客戶通常會(huì)歡迎我們來(lái)做 POC,但只要你這東西做錯(cuò)了,影響到了他的主線業(yè)務(wù),那他在上線之前要把你折磨死。

AI 科技評(píng)論:你們很有這種被深深折磨過(guò)的經(jīng)驗(yàn)。

范浩強(qiáng):最終都會(huì)用來(lái)驅(qū)動(dòng)定義技術(shù),比如當(dāng)年做的 face recognition,可能行外人不知道,就最終的誤識(shí)率指標(biāo),做到了11個(gè)9,就是99點(diǎn)后面再跟9個(gè)9。所以你平常用這些人臉識(shí)別,幾乎沒(méi)感覺(jué)他錯(cuò)過(guò),這就是被逼出來(lái)的算法。

機(jī)器人如果24小時(shí)連著干一年,如果論多少幀算錯(cuò),那可多了,因?yàn)檫@是一個(gè)實(shí)時(shí)的視頻處理過(guò)程。如果在生產(chǎn)環(huán)境下一秒鐘弄錯(cuò)了,造成的災(zāi)難是無(wú)法挽回的。所以機(jī)器人算法也一定會(huì)經(jīng)歷一個(gè)過(guò)程才能真正落地。

具身就相當(dāng)于另一種自動(dòng)駕駛,自動(dòng)駕駛需要去解決的感知過(guò)程中的決策也沒(méi)什么秘密,就搞1億公里的數(shù)據(jù),然后去做最扎實(shí)的模型訓(xùn)練,最后模型就會(huì)給可靠性的回報(bào)。機(jī)器人也一樣,只不過(guò)跟車比,機(jī)器本體要小一點(diǎn),做的任務(wù)會(huì)更多一點(diǎn)。

AI 科技評(píng)論:具身的任務(wù)可能是無(wú)窮多的,比自動(dòng)駕駛難多了吧?

范浩強(qiáng):我個(gè)人的觀點(diǎn),我覺(jué)得這波具身革命也不會(huì)解決掉機(jī)器人所有的問(wèn)題,因?yàn)?0年前大家吹 AI 的時(shí)候已經(jīng)把所有的好故事講過(guò)一遍了,最后具體的落地方向,其實(shí)也就那幾個(gè)。

現(xiàn)在 LLM 的落地方向也是一樣,coding 算一個(gè),聊天算一個(gè),其實(shí)也是有限集。所以我們覺(jué)得,AI 一定是個(gè)更長(zhǎng)期的 lifetime 的工作。這波浪潮里面我們可以把機(jī)器人 push 到比原來(lái)的效果好一大截,可能這就是這十年的版本答案了。

AI 科技評(píng)論:下一個(gè)十年呢?

范浩強(qiáng):也可能沒(méi)下個(gè)十年,是吧?機(jī)器人覺(jué)醒了把人類給滅了,也不用考慮了。

AI 科技評(píng)論:希望不要面臨這樣的情況。

范浩強(qiáng):我覺(jué)得最后技術(shù)一定會(huì)發(fā)展到一個(gè)雖然不完美,但剛剛好有用的狀態(tài)。歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開(kāi)來(lái)。


03根據(jù)機(jī)器人的屬性,去尋找合適的應(yīng)用場(chǎng)景


AI 科技評(píng)論:我看到原力靈機(jī)最近在做的DFOL,是世界上首個(gè)具身智能應(yīng)用量產(chǎn)工作流。能解釋一下具身智能應(yīng)用是什么意思嗎?

范浩強(qiáng):比如像工業(yè)六軸它也是個(gè)應(yīng)用,但你肯定不想叫它具身,對(duì)吧?

AI 科技評(píng)論:只是一種自動(dòng)化硬件設(shè)備。

范浩強(qiáng):對(duì),我覺(jué)得具身智能應(yīng)用其實(shí)是一整套的體系,比如現(xiàn)在大家做的具身硬件,一般都會(huì)做成個(gè)準(zhǔn)人形的樣子,它有一定的通用性。同時(shí),你會(huì)期望它的動(dòng)作會(huì)是比較靈巧的、比較復(fù)雜的,而不是像 XYZ 一樣,定點(diǎn)拿、定點(diǎn)放。

具身硬件,搭配比較好的傳感器,搭配一個(gè)比較大的模型,就形成了一個(gè)跟原來(lái)的工業(yè)自動(dòng)化很不一樣的一個(gè)體系。大家建立這個(gè)體系的初衷是覺(jué)得這東西最終能完全通用,但現(xiàn)在走在通了一半的路上,還沒(méi)到最完美的狀態(tài)的情況下,它擅長(zhǎng)去干什么?

這個(gè)時(shí)候我覺(jué)得就要找出具身原生應(yīng)用,比如說(shuō)為什么 LLM 去寫 code 的?

AI 科技評(píng)論:因?yàn)長(zhǎng)LM還挺適合訓(xùn)練它的coding能力的。

范浩強(qiáng):所以你可以理解為 code 是個(gè) LLM 原生應(yīng)用。具身機(jī)器人也是一樣的,不是隨便丟個(gè)什么問(wèn)題它都能解決,或者它都能擅長(zhǎng),也得根據(jù)它的屬性去找,什么樣的應(yīng)用場(chǎng)景里是適合干的。

AI 科技評(píng)論:那會(huì)不會(huì)每一個(gè)模型的原生應(yīng)用不一樣?

范浩強(qiáng):有可能,現(xiàn)在大模型也在講,這家適合做 agent,那家適合 code 的,大家存在口碑上的差距。但現(xiàn)在具身模型還沒(méi)分化到這么細(xì),所以我們就是有更多的 contrast,比如原來(lái)我做的視覺(jué)引導(dǎo)的機(jī)械臂,現(xiàn)在我想隨著 VLA 這個(gè)具身體系去做(升級(jí))。那首先就得講清楚,VLA 比之前的方法好在哪,憑什么用新方法。

好就好在柔性輸入上。原來(lái)做的一個(gè)零件分解的工件,就必須嚴(yán)格長(zhǎng)成這樣,只要變一點(diǎn)點(diǎn),一切就推倒重新做一遍?,F(xiàn)在 VLA 有泛化性,哪怕分解的東西從可口可樂(lè)換成百事可樂(lè)了,模型能泛化了,就不需要再重新布置一次了,這就是客戶想要的特性。

另外,工廠原來(lái)搭一套快速換線的非標(biāo)機(jī)臺(tái),可能從開(kāi)始接單到最后上線需要5個(gè)月?,F(xiàn)在的客戶都想能不能5天之后開(kāi)始生產(chǎn)交付?肯定是不可能的呀。這些任務(wù)就是給具身準(zhǔn)備的,換成其它方案都會(huì)遇到很多致命問(wèn)題。

具身雖然也會(huì)帶來(lái)很多問(wèn)題,比如使用具身工業(yè)臂的時(shí)候外面都得圍兩米的圍欄不許人員進(jìn)入,但只要具身智能解決了以前完全沒(méi)有思路的問(wèn)題,行業(yè)還是會(huì)去解決具身帶來(lái)的問(wèn)題。所以具身原生應(yīng)用就是把具身的價(jià)值給發(fā)揮出來(lái)的應(yīng)用。

AI 科技評(píng)論:我們現(xiàn)在是處于正在找它的原生應(yīng)用的這個(gè)階段,還是說(shuō)已經(jīng)找到了?

范浩強(qiáng):我們現(xiàn)在的確有些客戶 case 了,但是這些 case 我們不想到處講,怕講完之后友商來(lái)了。因?yàn)檫@個(gè)東西是真掙錢的家伙,就不開(kāi)源了(笑)。

AI 科技評(píng)論:你尋找 DFOL 的這個(gè)過(guò)程中,最困難的是什么呀?

范浩強(qiáng):我覺(jué)得第一大難點(diǎn)真的是找場(chǎng)景、找客戶。

AI 科技評(píng)論:你自己去跑的客戶嗎?

范浩強(qiáng):我和文斌一起的,我們倆之前就一起跑過(guò)很多客戶,前段時(shí)間也密集地去跑了各種工廠,跑完之后回來(lái)想,到底這個(gè)機(jī)會(huì)在哪里。

另外,我覺(jué)得得真去理解這些模型它擅長(zhǎng)什么。有些你以為非常難的動(dòng)作,其實(shí)模型一下就學(xué)會(huì)了。有些你覺(jué)得非常簡(jiǎn)單的動(dòng)作,訓(xùn)半天就是搞不出來(lái),到最后其實(shí)是人學(xué)會(huì)了,所以模型的動(dòng)作設(shè)計(jì)非常重要。

AI 科技評(píng)論:講講你們的動(dòng)作設(shè)計(jì)的case。

范浩強(qiáng):比如讓機(jī)器人去疊衣服,衣服從上面捏就不如從側(cè)邊捏成功率高。要把這些東西都給搞明白,我覺(jué)得需要一批專業(yè)人才,那些很有天賦的采集員,他們可能都是未來(lái)的種子。

AI 科技評(píng)論:他們就是把人類動(dòng)作翻譯成機(jī)器人動(dòng)作的翻譯官。

范浩強(qiáng):是的,他要把自己帶入到機(jī)器人視角去想什么樣的動(dòng)作是好做好學(xué)的,他不能把自己再當(dāng)成人了,他得把自己當(dāng)成機(jī)器人去思考和理解這個(gè)問(wèn)題。最終還是得有一批人專注在 DFOL 領(lǐng)域。

好多行業(yè)里有個(gè)概念叫 FAE,field application engineering 現(xiàn)場(chǎng)應(yīng)用工程。說(shuō)實(shí)話大多數(shù)的定制版軟件全是靠 FAE 撐起來(lái)的。

在具身初級(jí)階段的時(shí)候,DFOL 是非常重要的一環(huán),整個(gè)系統(tǒng)就得為它設(shè)計(jì)。所以去畫框圖的時(shí)候,不是說(shuō)像別人一樣,畫個(gè)簡(jiǎn)單的大腦指揮,小腦指揮,機(jī)器人就干了,而是要畫成帶反饋的環(huán)路。最后任務(wù)執(zhí)行沒(méi)成功的時(shí)候,去服務(wù)的機(jī)器人的反饋數(shù)據(jù)也得傳回來(lái),這樣機(jī)器人才能達(dá)到客戶最終的要求。

AI 科技評(píng)論:所以你這個(gè)數(shù)據(jù)是他們當(dāng)場(chǎng)就是 action 之后,然后反饋回來(lái),形成一個(gè)閉環(huán)。

范浩強(qiáng):這也是 Pi 0.6 工作里面提到的一個(gè)核心算法,叫 RECAP,現(xiàn)在還有很多別的叫法,比如叫 DAG,像上海智元又叫 SOP。

其實(shí)原理都是一樣的,比如機(jī)器人快做錯(cuò)了,人趕緊給它矯正一下,然后把矯正的信號(hào)給記錄下來(lái),讓網(wǎng)絡(luò)再去學(xué)習(xí)它,它很聰明的,基本上掰它幾回,就不往那去了,這就是我說(shuō)的神經(jīng)網(wǎng)絡(luò)令人感動(dòng)的地方,它還挺聽(tīng)話的。

AI 科技評(píng)論:那就是這種數(shù)據(jù)回來(lái)之后,我們還要重新去 post train 一下這個(gè)模型。

范浩強(qiáng):當(dāng)然了,相當(dāng)于在產(chǎn)能爬坡的這個(gè)階段里,其實(shí)是兩個(gè)并行的,這邊一直在采,那邊也一直在訓(xùn)。直到我監(jiān)測(cè)的時(shí)候發(fā)現(xiàn),平均無(wú)干預(yù)時(shí)間已經(jīng)到達(dá)一個(gè)指標(biāo)了。那我就把更新斷掉,后面它就變成被動(dòng)收集模式了,模型就不動(dòng)了。但是如果它今天出 badcase,數(shù)據(jù)依然還會(huì)再傳回來(lái),給以后的模型去做參考。

AI 科技評(píng)論:那就是現(xiàn)在我們有出貨一些本體機(jī)器了?

范浩強(qiáng):我們公司25年3月份成立,有些項(xiàng)目款的產(chǎn)品,現(xiàn)在那些客戶的試點(diǎn)里面就有在用,最終說(shuō)的主線硬件,時(shí)間上趕一趕,26年能推出一個(gè)給客戶用的、比較統(tǒng)一的硬件產(chǎn)品。

AI 科技評(píng)論:既然我們要針對(duì)服務(wù)具體的工廠客戶了,還有必要去做一個(gè)統(tǒng)一的硬件產(chǎn)品嗎?

范浩強(qiáng):像夾板或者是末端的東西,可能這個(gè)客戶需要硬的,那個(gè)客戶需要軟的。但是機(jī)器人整體的 platform 還是得盡快穩(wěn)定下來(lái)為好,便于數(shù)據(jù)積累和模型學(xué)習(xí)。所以我們公司戰(zhàn)略上肯定還是期望,能盡快收斂到我們的主力機(jī)型上。

AI 科技評(píng)論:那以后會(huì)不會(huì)去做一些面向更 C 端的機(jī)器人?或者說(shuō)更通用化的?

范浩強(qiáng):我們?cè)妇袄锸窍胱龅?,只不過(guò)感覺(jué)這事兒更得等一等了。

AI 科技評(píng)論:那會(huì)單去給某些本體公司提供大腦這樣的事情嗎?

范浩強(qiáng):目前暫時(shí)不會(huì),那個(gè)生態(tài)鏈上已經(jīng)很擁擠了,這也不是我們擅長(zhǎng)的東西。

AI 科技評(píng)論:那從你的角度上來(lái)看,原力靈機(jī)在整個(gè)行業(yè)中的生態(tài)位是什么呀?

范浩強(qiáng):我希望它是技術(shù)的引領(lǐng)者、應(yīng)用的先行者。


04在山腳分開(kāi),在山頂匯合


AI 科技評(píng)論:模型和硬件之間的關(guān)系是什么樣的?

范浩強(qiáng):硬件其實(shí)本來(lái)也是個(gè)科學(xué),里面也沒(méi)有魔法。比如可靠性、結(jié)構(gòu)、鋼度這些問(wèn)題,大家其實(shí)都有對(duì)應(yīng)的方法論。只要設(shè)計(jì)的時(shí)候把這些問(wèn)題都考慮好,都驗(yàn)證透了,那最后的產(chǎn)品一定也是好的。

現(xiàn)在的硬件難點(diǎn),我覺(jué)得和模型一樣,locomotion 大家基本上都有解決方法了,但是機(jī)器人運(yùn)動(dòng)中,manipulation 在硬件上的卡點(diǎn)十分突出。

我可以舉個(gè)很細(xì)節(jié)的例子,比如手腕,人的手腕其實(shí)伸進(jìn)桌斗里很容易,機(jī)器人伸不進(jìn)去。有很多客戶讓我們做這個(gè) case,發(fā)現(xiàn)死在了第一環(huán),根本就伸不進(jìn)去,你都沒(méi)有資格去講這個(gè)問(wèn)題,后面還能說(shuō)什么?

所以我們覺(jué)得在硬件方面,也都得從應(yīng)用出發(fā),才能到落地的狀態(tài)。

我們有一個(gè) slogan 叫模型決定場(chǎng)景,場(chǎng)景定義硬件。這代模型科技范圍內(nèi),能做的事情清楚了,那后面各種實(shí)現(xiàn)的方法,也就綱舉目張的出來(lái)了。

AI 科技評(píng)論:你們基模訓(xùn)練得算是快的嗎? 

范浩強(qiáng):真的拿顯卡去跑,可能就幾周的時(shí)間,但是要先把跑什么、怎么跑這些事情全部搞清楚,做好前期驗(yàn)證和數(shù)據(jù)準(zhǔn)備,這就要花費(fèi)大量的時(shí)間去迭代和建設(shè)。

AI 科技評(píng)論:要跑什么?怎么去跑?

范浩強(qiáng):要跑比如 base model 的訓(xùn)練參數(shù)、數(shù)據(jù)分布,這些怎么做才能合理?這些才是真正決定了這個(gè)模型的最終能力。我們往里面加了幾千小時(shí)自采數(shù)據(jù),這些數(shù)據(jù)都是一小時(shí)前采出來(lái)的,或者叫一分鐘、一分鐘采上來(lái)的。

AI 科技評(píng)論:你們的數(shù)據(jù)采集做得很扎實(shí)。

范浩強(qiáng):這倒是,不過(guò)還好,搞人臉的時(shí)候我們已經(jīng)采了10年數(shù)據(jù)了,有些采集員他們就非常有技術(shù)信仰。最激進(jìn)的采集員還會(huì)主動(dòng)過(guò)來(lái)問(wèn),我采的數(shù)據(jù)用到模型上效果咋樣?他自己還會(huì)琢磨下一批數(shù)據(jù)該怎么采集更好。

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

聯(lián)合開(kāi)發(fā)的首款數(shù)據(jù)采集機(jī)器人 DOS-W1 量產(chǎn)出貨合影,范浩強(qiáng)在現(xiàn)場(chǎng)。

AI 科技評(píng)論:他都已經(jīng)從職業(yè)變成專業(yè)了是吧?

范浩強(qiáng):是的,非常神奇,我覺(jué)得也算是這個(gè)工作中的樂(lè)子吧。我們公司有個(gè)參觀景點(diǎn),里面有塊大看板,上面有個(gè)功勛榜,列著誰(shuí)為我們的整個(gè)數(shù)據(jù)集里貢獻(xiàn)了最多時(shí)長(zhǎng)的數(shù)據(jù),后世一定要銘記這些當(dāng)年的功臣。

AI 科技評(píng)論:那他們是硅基生命的大功臣。

范浩強(qiáng):采集員也要做到人機(jī)合一啊。因?yàn)槲覀兡莻€(gè)任務(wù)很難,零點(diǎn)幾毫米的對(duì)準(zhǔn)精度,要苦練兩天才能練出來(lái)。

AI 科技評(píng)論:那下一代的具身模型會(huì)跟這一代有什么區(qū)別?會(huì)朝哪些方向發(fā)展?

范浩強(qiáng):我覺(jué)得首先模型一般來(lái)說(shuō)有四大指標(biāo),泛化性、智能性、靈巧性,還有效率。這一代我們更多關(guān)注它的靈巧性和一定的泛化性,下一代這些指標(biāo)我覺(jué)得得數(shù)量級(jí)的增長(zhǎng)才行。

現(xiàn)在很多任務(wù)可能也就做個(gè)百分之八九十成功率,但是未來(lái)少不得進(jìn)入客戶場(chǎng)景,所以下一代簡(jiǎn)單任務(wù)必須沖著99、 99.9的成功率去了。另外在動(dòng)作的長(zhǎng)度上,現(xiàn)在大部分自己測(cè)的任務(wù),可能10秒內(nèi)干完一拿一放的任務(wù),后面要做分鐘級(jí)甚至小時(shí)級(jí)的長(zhǎng)程任務(wù)。

AI 科技評(píng)論:現(xiàn)在具身模型訓(xùn)練路徑也很多,有搞仿真的,有搞VLA的,有搞世界模型的,這是一個(gè)好事嗎?

范浩強(qiáng):每個(gè)人堅(jiān)持自己的路挺好的,大家技術(shù)路線上太同質(zhì)化,那就浪費(fèi)這個(gè)試錯(cuò)的機(jī)會(huì)了。我們大概率還是一個(gè)預(yù)訓(xùn)練加真機(jī)的技術(shù)組合。大家最好路子不太一樣,這樣也能相互看看對(duì)方到底干得咋樣,能有個(gè)參考。如果大家都一模一樣,那最后比啥呢?

AI 科技評(píng)論:最終不會(huì)都收斂到一個(gè)路線嗎?

范浩強(qiáng):應(yīng)該不會(huì),應(yīng)該是在山腳分開(kāi),在山頂匯合。比如做仿真的人天天在搞 3D 資產(chǎn),做真機(jī)數(shù)采的人天天在研究怎么增廣,其實(shí)最后發(fā)現(xiàn)它是一樣的。做實(shí)的人天天想怎么往虛了搞,做虛的人天天想怎么加實(shí)的東西,因?yàn)榧夹g(shù)問(wèn)題是一樣的,無(wú)論你的出發(fā)點(diǎn)是什么,手段是什么,其實(shí)最終在大的格局上一定能找到對(duì)應(yīng)物的。

所以我真心覺(jué)得這些技術(shù)路線的分歧本身不本質(zhì),區(qū)別完全取決于你在實(shí)現(xiàn)過(guò)程中解沒(méi)解決那些問(wèn)題,你解決了的話,那就一定能做好。這種我們叫還原論思想,其實(shí)挺曠視風(fēng)格的,比如當(dāng)時(shí)張祥雨有幾篇很重要的文章,有一篇是 ConvNeXt,他就想說(shuō)別看其他人天天用 Transfomer 刷 Vision,我用卷積照樣能刷。

AI 科技評(píng)論:后來(lái)大家不還是被統(tǒng)一到Transformer?

范浩強(qiáng):現(xiàn)在 Transformer 已經(jīng)被改的面目全非了,大家說(shuō)的 Dswin(滑動(dòng)注意力窗口)結(jié)構(gòu),你說(shuō)那東西和卷積有區(qū)別嗎?我覺(jué)得沒(méi)區(qū)別。搞 Transformer 的人最后搞回來(lái)了卷積,搞卷積的人最后搞了個(gè) Transformer,其實(shí)殊途同歸。

我不喜歡做這種概念性上的戰(zhàn)隊(duì)或者對(duì)立,我們相信這世間的真相只有一個(gè),但方法有很多。

雷峰網(wǎng)-雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)