0
| 本文作者: 梁丙鑒 | 2025-12-31 16:42 |
雷峰網(wǎng)訊 高質(zhì)量數(shù)據(jù)正在成為具身本體性能突破和成本控制的瓶頸。在具身智能從技術(shù)演示走向規(guī)模落地的關(guān)鍵轉(zhuǎn)折期,對(duì)于數(shù)據(jù)的需求和爭(zhēng)論也變得越發(fā)火熱。從遙操作到UMI,從動(dòng)捕到仿真數(shù)據(jù),具身數(shù)據(jù)的未來(lái)在數(shù)采工廠,還是名為In-the-wild的美好愿景?
2025年12月13日,第八屆GAIR大會(huì)的數(shù)據(jù)&一腦多形專場(chǎng),舉辦了主題為具身數(shù)據(jù)的圓桌論壇。圓桌主持人為英諾天使基金 ED,石麻筆記主理人王建明,并邀請(qǐng)了諾亦騰機(jī)器人創(chuàng)始人戴若犁,極數(shù)迭代CEO、深圳AIRS訪問(wèn)研究員佟顯喬,鹿明機(jī)器人CTO丁琰,共同圍繞具身數(shù)據(jù)的質(zhì)量、采集以及數(shù)據(jù)飛輪等議題,展開(kāi)了一場(chǎng)深度對(duì)話。
對(duì)機(jī)器人而言,什么是好的數(shù)據(jù)?王建明以數(shù)據(jù)質(zhì)量切入,幾位嘉賓就“以終為始”達(dá)成了共識(shí),最終的模型性能、訓(xùn)練中機(jī)器人的受益程度反映著數(shù)據(jù)的質(zhì)量。丁琰進(jìn)一步指出,采集成本和各種數(shù)采方式對(duì)于不同場(chǎng)景和硬件的適配與否,都是決定數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié)。
未來(lái)的數(shù)據(jù)采集方式或?qū)⒆呦蚨嘣?。作為一家有?shù)據(jù)能力的創(chuàng)業(yè)公司,丁琰表示,鹿明機(jī)器人正在籌建自己的數(shù)采廠。出于成本考慮,現(xiàn)階段采用 UMI方式進(jìn)行數(shù)據(jù)采集,但未來(lái)仍可能引進(jìn)更多方案。“遙操作、 UMI(Universal Manipulation Interface)、動(dòng)捕、仿真數(shù)據(jù),存在即合理。”丁琰強(qiáng)調(diào)。
戴若犁就In-the-wild的數(shù)據(jù)采集方式發(fā)出了提醒,他指出這是一種高度考驗(yàn)技術(shù)水平的方案,其落地需要先后克服軟硬件易用性、組織管理能力兩道難關(guān),而在當(dāng)前的時(shí)間節(jié)點(diǎn),邁過(guò)前者的技術(shù)門檻無(wú)疑更為重要。
具體而言,在采集階段需要低摩擦、高精度、多模態(tài)的數(shù)采設(shè)備,野采數(shù)據(jù)的利用,還需要從稀疏原始數(shù)據(jù)中得到稠密信息的技術(shù)方案。戴若犁認(rèn)為,一條可行的鏈路是通過(guò)世界模型進(jìn)行先驗(yàn)估計(jì),輸出更豐富的模態(tài)及維度數(shù)據(jù)。相較之下,遠(yuǎn)未到比拼人力組織能力的時(shí)間。
佟顯喬認(rèn)為,數(shù)據(jù)采集行業(yè)仍處于早期階段,數(shù)據(jù)、本體、模型公司仍在相互磨合。不同的模型公司提出了不同的需求,這意味著數(shù)據(jù)公司不能停留于堆人力的體力活階段,而是要懂模型、給建議?!澳P凸疽残枰愕膋nowledge”,佟顯喬強(qiáng)調(diào),“一個(gè)個(gè)批次之后,大家才能一起做得更好?!?/p>
以下是此次圓桌討論的精彩分享,AI科技評(píng)論進(jìn)行了不改變?cè)獾木庉嬚恚?/p>
王建明:我們這個(gè)panel的話題是數(shù)據(jù),所以我的第一個(gè)問(wèn)題,是想請(qǐng)各位先定義一下,對(duì)于機(jī)器人來(lái)說(shuō)什么是好的數(shù)據(jù)?請(qǐng)戴博先開(kāi)始吧。
戴若犁:我覺(jué)得還是以終為始,最終在訓(xùn)練模型、機(jī)器人的時(shí)候能夠獲得收益,而且收益比較高的數(shù)據(jù)是好數(shù)據(jù)。
佟顯喬:我覺(jué)得這一定是從最后的模型出發(fā),什么數(shù)據(jù)最后能訓(xùn)練出一個(gè)比較好的模型,就是好的數(shù)據(jù)。我們今天基本上是這樣定義,但是因?yàn)榻裉炷P偷臓顟B(tài)沒(méi)有收斂,用什么樣的數(shù)據(jù)能訓(xùn)練出什么樣的模型,不知道,所以其實(shí)也很難定義哪個(gè)是好的數(shù)據(jù)。
丁琰:第一數(shù)據(jù)必須要能訓(xùn)練出一個(gè)模型,才是比較好的數(shù)據(jù)。第二點(diǎn)是數(shù)據(jù)收集成本要比較低,如果特別高,那整個(gè)行業(yè)還是接受不了。還有一點(diǎn),就是數(shù)據(jù)的采集要適應(yīng)場(chǎng)景、適應(yīng)硬件。
王建明:剛才大家都提到,好的數(shù)據(jù)首先對(duì)于模型訓(xùn)練要有好的效果,那么在這個(gè)前提下,數(shù)據(jù)公司怎么知道如何提供好的數(shù)據(jù)?
通常來(lái)說(shuō),這些數(shù)據(jù)都是提供給模型公司或者本體公司,模型效果掌握在客戶的手上。是客戶知道自己想要什么樣的數(shù)據(jù),找到數(shù)據(jù)公司來(lái)定點(diǎn)運(yùn)營(yíng),還是數(shù)據(jù)公司自己知道什么樣的數(shù)據(jù)對(duì)模型公司好,來(lái)反哺給模型公司?你們認(rèn)為在整個(gè)具身智能的鏈路里,數(shù)據(jù)公司跟模型、本體或者應(yīng)用公司之間,關(guān)于數(shù)據(jù)這件事情的認(rèn)知,是一個(gè)什么樣的一個(gè)鏈路呢?
戴若犁:目前在前端商業(yè)實(shí)踐上,我看到的是反過(guò)來(lái)的。不是說(shuō)模型公司想得特別透徹,就能夠給出命題作文,而是如果有足夠體量的數(shù)據(jù),且里邊蘊(yùn)含的信息足夠多,就能夠訓(xùn)出效果。如果訓(xùn)不出效果其實(shí)有很多原因,可能是模型架構(gòu)不對(duì),可能訓(xùn)練方法不對(duì),這個(gè)鍋不一定是數(shù)據(jù)來(lái)背。所以我目前看到的是,如果你有足量且明確知道這一類數(shù)據(jù)里面蘊(yùn)含足夠多的信息有待挖掘,那其實(shí)對(duì)于模型是有反向影響能力的。比如你有一個(gè)特別大體量的數(shù)據(jù)集,即使這個(gè)數(shù)據(jù)集的模態(tài)、維度、精度和傳感器的方式方法選擇跟模型方原本的期待并不一樣,他們也會(huì)愿意去改變訓(xùn)練的方式,甚至于讓模型的架構(gòu)去適應(yīng)數(shù)據(jù)集本身。
佟顯喬:我看到的其實(shí)跟戴總看到的比較類似,很多時(shí)候模型公司找到我們是說(shuō),這樣做行不行,那樣做行不行,他們其實(shí)也需要你的knowledge。在這個(gè)過(guò)程中,大家還有一個(gè)磨合,比如一開(kāi)始說(shuō)這樣采,很可能采完這一批次以后,下一批他說(shuō)我覺(jué)得這樣做應(yīng)該更好。
所以其實(shí)目前來(lái)看,可能因?yàn)樾袠I(yè)還是早期階段,所以沒(méi)有一個(gè)統(tǒng)一的方式,大家都是在相互磨合。甚至你會(huì)發(fā)現(xiàn)不同模型公司,需求可能千差萬(wàn)別,提的要求也很不一樣。所以作為一個(gè)數(shù)據(jù)公司,我覺(jué)得不能只是純粹做labor的工作,你還是要懂一些模型,你需要跟他們?nèi)ソ涣?,給他們建議,這樣大家才能一起做得更好。
丁琰:我還是比較認(rèn)同佟博士的觀點(diǎn),我認(rèn)為就是做數(shù)據(jù)和做算法的公司是分不開(kāi)的,數(shù)據(jù)和算法是不拆家的。到底什么是算法?你要搞一些非常高深的模型架構(gòu),做一些很創(chuàng)新的探索,可能沒(méi)有到這種級(jí)別。但是你如果要把市面上常見(jiàn)的主流算法和數(shù)據(jù)模型全部玩熟,我覺(jué)得還是非常非常必要的。不然的話,你采出來(lái)的數(shù)據(jù)很多是很臟的,基本上不能用。
跟行業(yè)里的人進(jìn)行交流的時(shí)候,我就發(fā)現(xiàn)很多公司沒(méi)有訓(xùn)練基礎(chǔ)模型的能力,他們對(duì)于數(shù)據(jù)的理解是非常簡(jiǎn)單的,認(rèn)為只要按照指令把數(shù)據(jù)給采了就行。但其實(shí)這些數(shù)據(jù)往往是不能用的。
每個(gè)任務(wù)都需要進(jìn)行一些特定的任務(wù)設(shè)計(jì),比如大家都會(huì)疊衣服,但其實(shí)這里面技巧性非常強(qiáng)。你這個(gè)技巧怎么來(lái)的?其實(shí)是在采了一堆數(shù)據(jù)之后訓(xùn),發(fā)現(xiàn)有一些問(wèn)題,然后再去改進(jìn)采集技巧,再來(lái)訓(xùn),最終才能得到一個(gè)比較好的效果。在這個(gè)數(shù)據(jù)采集和算法迭代的過(guò)程中,你會(huì)獲得很多know-how和insight,這些東西是在數(shù)據(jù)公司是非常關(guān)鍵的,這些東西才是真正寶貴的價(jià)值,而不是只是把這個(gè)數(shù)據(jù)采完交付給客戶,客戶愛(ài)怎么訓(xùn)怎么訓(xùn)就得了。這個(gè)是完全不一樣的。
另外一點(diǎn)就是,說(shuō)到底是數(shù)據(jù)決定,我認(rèn)為現(xiàn)階段做算法的人和做數(shù)據(jù)的人要不斷地進(jìn)行迭代,最后才能去完成這個(gè)東西。像我們公司就是,我們自己也做一些基礎(chǔ)模型的訓(xùn)練,然后會(huì)對(duì)數(shù)據(jù)本身有一些 know-how 和insight,知道怎么采。但是我們自己得到的這些經(jīng)驗(yàn)教訓(xùn),可能只能針對(duì)于部分任務(wù),比如說(shuō)pick and place,或者是針對(duì)于工業(yè)場(chǎng)景,因?yàn)槲覀冞€是做工業(yè)場(chǎng)景比較多。但如果是做精細(xì)化的任務(wù),比如我今天跟客戶去聊,系鞋帶、疊衣服、疊紙盒子,這些任務(wù)就是另外一種 know-how和insight了。可能得跟客戶一起成長(zhǎng),才能獲得很好的know-how和積累。
王建明:據(jù)我自己觀察,行業(yè)其實(shí)階段性地對(duì)不同類型數(shù)據(jù)的側(cè)重點(diǎn)是不一樣的。比如從2023年下半年開(kāi)始,同構(gòu)遙操這種數(shù)據(jù)采集范式被帶火了。 UMI這個(gè)工作是23年年末地,但實(shí)際上它近期被Sunday Robotics 還有 the generalist 帶火了。24年我覺(jué)得數(shù)采還是以同構(gòu)遙操為主,到了今年上半年,有一些動(dòng)捕的數(shù)據(jù)采集范式也被帶火了,我感覺(jué)肯定也有一些北美進(jìn)展的淵源。
就各位的觀察,目前中美在數(shù)據(jù)這個(gè)問(wèn)題上面,你們覺(jué)得最大的非共識(shí)是什么?共識(shí)又是什么?你們或多或少跟北美的一些客戶有聯(lián)系,你認(rèn)為他們現(xiàn)在重點(diǎn)的這個(gè)數(shù)據(jù)采集范式又是什么?
戴若犁:首先我覺(jué)得現(xiàn)在中美之間在機(jī)器人上完全沒(méi)有代差。他們不是開(kāi)玩笑嗎,說(shuō)Our Chinese better than your Chinese。我大概每?jī)蓚€(gè)月在灣區(qū)待兩周,在灣區(qū)談生意需要說(shuō)英文的時(shí)間還是挺少的,其實(shí)都是同一撥人,同學(xué)、朋友、師兄、師弟、學(xué)生,一起聊天。所以首先我沒(méi)有覺(jué)得中美有特別大的,共識(shí)方面的差異,大家其實(shí)都還挺一樣的。但我覺(jué)得中美在數(shù)據(jù)上面其實(shí)有一個(gè)特別大的區(qū)別,就是美國(guó)好像沒(méi)有地方政府的助力。數(shù)據(jù)這件事情,特別是數(shù)采廠,有地方政府助力,就會(huì)比較傾向于本體公司和地方政府合作,然后得到非常大的機(jī)會(huì),拿到當(dāng)期收入去建以遙操作為主的數(shù)采中心,也就比較少有機(jī)會(huì)孵化出來(lái)像 generative 或者Sunday 這樣In-the-wild或者 UMI的方式去采數(shù)據(jù)。
所以這個(gè)分水嶺我覺(jué)得很有意思。就是如果沒(méi)有這么多特別eager地想要幫助創(chuàng)業(yè)者,幫助企業(yè)招商引資的地方政府,可能就不會(huì)有這么多的數(shù)采中心用遙操作去采數(shù)據(jù),可能也就會(huì)促使像 UMI這樣的方式早一點(diǎn)在中國(guó)落地。
這件事情完全不是因?yàn)榧夹g(shù)的共識(shí)有差異或有代差導(dǎo)致的,我覺(jué)得反而是一種資源詛咒。我小時(shí)候打籃球,彈跳非常好,雙手隨便抓筐哐哐地扣,但是我技術(shù)非常差。我現(xiàn)在歲數(shù)大了,打球打得越來(lái)越差,被原來(lái)打球沒(méi)我打得好的人隨便過(guò),我這就是資源詛咒,因?yàn)槲倚r(shí)候資源太豐富了。所以我覺(jué)得這就可能不是代差,而是資源詛咒。
王建明: UMI這樣的方式去年出來(lái),我感覺(jué)當(dāng)時(shí)可能也有一些人在關(guān)注,但實(shí)際上是今年有一些北美公司把它release出來(lái),才受到更廣泛的關(guān)注。
戴若犁: UMI就是很合理呀。 UMI其實(shí)是human-centric,它只是末端執(zhí)行器end effector 被置換了的human-centric,所以說(shuō)它就是很合理,它somehow可以跨本體。
王建明:丁博士, UMI是你之前一個(gè)比較著名的工作,可能在這種數(shù)據(jù)采集方式上面,你們應(yīng)該是第一批關(guān)注,并且在這個(gè)基礎(chǔ)上去迭代做工程化的??梢粤牧哪銈儗?duì) UMI的看法嗎?
丁琰:這項(xiàng)工作其實(shí)我們?cè)?4年3月份就開(kāi)始做了,當(dāng)時(shí)在上海 AI Lab的時(shí)候就啟動(dòng)了這個(gè)項(xiàng)目,做到現(xiàn)在一直沒(méi)有換過(guò)。我確實(shí)看到了數(shù)采方式從遙操作到 UMI,一路在迭代的過(guò)程。
其實(shí)我感覺(jué)中美之間是有代差的,至少在模型,或者是引領(lǐng)具身智能發(fā)展方向上有,可能北美那邊的模型或者資源還是比較多。因?yàn)橹拔覀冏?UMI的時(shí)候還是比較默默無(wú)聞的,沒(méi)有人關(guān)注,整個(gè)大陸好像只有我們一家公司,或者只有我們這一個(gè)團(tuán)隊(duì)在做這件事,也是我們自己一直在迭代。直到Sunday Robotics發(fā)布出一個(gè)非常牛逼的模型,基本上全中國(guó)或者全世界的關(guān)注點(diǎn)才轉(zhuǎn)向 UMI。我們的產(chǎn)品剛好在這個(gè)時(shí)間點(diǎn)工程化出來(lái)了,基本上整個(gè)具身智能圈子的同行都在瘋狂地采購(gòu)和咨詢,所以我覺(jué)得確實(shí)美國(guó)那塊的人還是在引領(lǐng)一些潮流和方向。特別是 UMI這個(gè)東西,如果只有我們一家公司來(lái)做,其實(shí)我很難想象到底什么時(shí)候能火起來(lái)。雖然我們自己很堅(jiān)信 UMI,但是可能整個(gè)中國(guó)的同行并不是很堅(jiān)信。很感謝美國(guó)的這些公司引領(lǐng)這些潮流。
然后關(guān)于非共識(shí),在一些技術(shù)路線上其實(shí)是有一點(diǎn)點(diǎn)非共識(shí),但是gap很小,可能很快就彌補(bǔ)上來(lái)了。等到Sunday Robotics出來(lái)之后,中國(guó)的公司就一擁而上地探索 UMI,很快就把這個(gè)非共識(shí)給填起來(lái)了。
我們自己在做 UMI的時(shí)候,其實(shí)也會(huì)有一些自己的know-how 和insight。舉個(gè)例子,Sunday Robotics其實(shí)更偏向于一種后處理的方式,它把設(shè)備分發(fā)給Airbnb那些工作人員,或者是眾包人員去采,采完之后再把它收集回來(lái)處理。我們覺(jué)得這種方式稍微有一點(diǎn)點(diǎn)不太合理,因?yàn)槲易约涸诮〝?shù)采廠的過(guò)程中,發(fā)現(xiàn)人員是非常難管理的。如果是通過(guò)這種方式去做,后續(xù)處理流程的時(shí)間和消耗是異常的巨大。所以我們自己是選取的前處理,前處理的意思就是把時(shí)間花在前面,不要花在后面,在采集過(guò)程中我就及時(shí)評(píng)估和反饋數(shù)據(jù)到底好還是不好,有什么問(wèn)題當(dāng)場(chǎng)就處理掉,最后收集起來(lái)的數(shù)據(jù)100%是合格的。
剛剛那個(gè)戴博士說(shuō)的human-centric data其實(shí)有一點(diǎn)點(diǎn)像 UMI,但是 UMI又很特殊,它更多針對(duì)于二指夾爪這一塊。真正的human-centric更多地偏向五指,二指比較特殊,但是二指又是一個(gè)很重要的領(lǐng)域,因?yàn)檎麄€(gè)中國(guó)使用二指夾爪的這個(gè)比例份額我認(rèn)為還是大于99.9% 的,用五指靈巧手的份額目前來(lái)看偏少。主要是這個(gè)硬件本身不是特別穩(wěn)定,所以大家用起來(lái),真正落地的還是二指為主, UMI就在這個(gè)生態(tài)里面占據(jù)了一個(gè)比較重要位置。雖然它屬于human-centric這個(gè)分支,但是它又跟五指有區(qū)別,這是我們對(duì) UMI的認(rèn)知。
當(dāng)然 UMI其實(shí)還有很多問(wèn)題,比如說(shuō)active perception,要不要帶頭部視角?我們?cè)诟蛻袅牡倪^(guò)程中就會(huì)發(fā)現(xiàn),因?yàn)樵嫉?UMI只有兩個(gè)夾爪,只有手部這兩個(gè)相機(jī),這種configuration的配置它對(duì)硬件設(shè)計(jì)就會(huì)有一些要求,它會(huì)希望這個(gè)腕部相機(jī)的畫面是稍微比較大的,它可以獲得更多environment的feature,這樣就利于訓(xùn)練嘛。
但是如果你加上一個(gè)頭部相機(jī),那還需不需要這么大的一個(gè)畫面?這也是一個(gè)問(wèn)題。你如果加上一個(gè)頭部的畫面,它又會(huì)引申出一些其他的問(wèn)題。比如坐標(biāo)系之間的對(duì)齊,或者是你用哪個(gè)坐標(biāo)系。還有頭部要不要?jiǎng)???duì)于輪式雙臂來(lái)說(shuō),頭部一般是固定的,沒(méi)有這個(gè)自由度。如果你想引入一個(gè)active perception,有一些工作是在頭上加了一個(gè)小機(jī)械臂,把這個(gè)小機(jī)械臂上掛一個(gè)攝像頭,這就會(huì)彌補(bǔ)active perception所帶來(lái)的自由度問(wèn)題。但是這樣又引發(fā)一些其他的問(wèn)題,比如市面上沒(méi)有這種機(jī)器人,頭上還長(zhǎng)一個(gè)機(jī)械臂,所以說(shuō)這些問(wèn)題其實(shí)都沒(méi)有被解決。這個(gè) UMI的探索之路其實(shí)還是很長(zhǎng)很長(zhǎng)的,至少目前來(lái)說(shuō),我們覺(jué)得整個(gè)中國(guó)大陸或者全世界的具身智能圈子,對(duì)這方面的探索基本上屬于空白,或者說(shuō)沒(méi)有做很多。我覺(jué)得在這方面,可能中美之間都會(huì)有一些這個(gè)共識(shí)或非共識(shí)在里面。
王建明:對(duì)。剛才戴博也說(shuō)到了資源稟賦的問(wèn)題,我確實(shí)也觀察到,北美它有很多配套模型公司的數(shù)采或者數(shù)據(jù)處理公司,或者設(shè)備公司,可能它們都是專門去服務(wù)某一些大公司的。那國(guó)內(nèi)的話,我們目前當(dāng)然看到了有一些數(shù)據(jù)相關(guān)的創(chuàng)業(yè)公司,但更多的還是政府支持的數(shù)采工廠。
所以我的一個(gè)問(wèn)題是,這種這種政府支持的數(shù)采工廠是不是真的可以解決數(shù)據(jù)問(wèn)題?在這個(gè)過(guò)程中,作為有一定數(shù)據(jù)能力的創(chuàng)業(yè)公司,你們覺(jué)得應(yīng)該怎么跟這些數(shù)采工廠合作?或者有什么建議給到這些有資源稟賦的單位?
佟顯喬:我覺(jué)得中國(guó)這兩年,各個(gè)地方政府大量地建訓(xùn)練廠,對(duì)行業(yè)肯定是有促進(jìn)作用。但是現(xiàn)在建的大量訓(xùn)練場(chǎng)都是用的遙操方式,那7這是不是正確的?這個(gè)也很難說(shuō)。
再一個(gè),政府肯定是滯后的。如果以后的方向變了,以這種In-the-wild的方式做數(shù)采,可能他也會(huì)改變。所以就剛才討論的這個(gè)問(wèn)題,我覺(jué)得如果以后通用機(jī)器人的能力要到來(lái)的話,一定是需要In-the-wild這種方式的數(shù)據(jù),因?yàn)槭紫人囟ㄒ绫倔w,第二一定是要大量數(shù)據(jù)。那用任何一個(gè)本體去采,即使你有那么多訓(xùn)練場(chǎng),也不太可能達(dá)到這個(gè)目標(biāo)。
各地訓(xùn)練場(chǎng)是地方政府投資,然后買本體,給很多做本體的公司帶來(lái)了收入。政府肯定也不想做賠錢的生意,采完的數(shù)據(jù)要賣回去,那數(shù)據(jù)賣回去以后,大家拿數(shù)據(jù)訓(xùn)練模型,可能是形成了這樣的一個(gè)小閉環(huán),我覺(jué)得短期內(nèi)對(duì)這個(gè)行業(yè)肯定是有促進(jìn)的作用。但這件事是從商業(yè)上的考量,是不是導(dǎo)致了技術(shù)的方向不一定一直在正確的方向上,也是有可能的。不過(guò)這個(gè)行業(yè)因發(fā)展很快,其實(shí)去年的方向和今年也不一樣,所以這個(gè)我覺(jué)得都是走一步看一步。
丁琰:其實(shí)我們鹿明公司自己也正在籌建數(shù)采廠,目前有兩個(gè)正在籌建過(guò)程中。我們自己是采用的 UMI這種方式,主要的原因還是在于成本?,F(xiàn)在的數(shù)采廠建設(shè)成本里,有70% ~ 80%可能都是買機(jī)器人硬件的花銷,這方面的成本會(huì)造成整個(gè)數(shù)據(jù)成本異常高昂。那有沒(méi)有人能消耗這些數(shù)據(jù),其實(shí)還是有點(diǎn)未可知。因?yàn)檫@種大規(guī)模的批量建的數(shù)采廠,本身如果數(shù)據(jù)管理做不到位,數(shù)據(jù)基本上都是廢的,沒(méi)有人會(huì)買。我跟同行去交流,大家對(duì)這些數(shù)據(jù)的吐槽還是挺多的,主要就是在于精細(xì)化管理沒(méi)有做到位。
我覺(jué)得這也是前期的一種正常狀態(tài),隨著后面的發(fā)展,可能會(huì)大家會(huì)對(duì)數(shù)據(jù)管理會(huì)更精細(xì),或者引進(jìn)不同的數(shù)采方式,彌補(bǔ)數(shù)采廠數(shù)據(jù)的多元化問(wèn)題。我覺(jué)得不管是遙操作也好, UMI也好,動(dòng)捕也好,仿真數(shù)據(jù)也好,存在即合理,只是不同份額的問(wèn)題。我覺(jué)得未來(lái)的數(shù)采可能會(huì)更加多元化一點(diǎn)。
戴若犁:我在北京有辦公室,有團(tuán)隊(duì),在深圳也有,北京市和深圳市的領(lǐng)導(dǎo)來(lái)調(diào)研,我其實(shí)給他們都寫過(guò)這樣的建議。其實(shí)他們也很關(guān)心,到底應(yīng)該怎么花錢,怎么幫助企業(yè)是最有價(jià)值的。我覺(jué)得其實(shí)就是要看最終數(shù)據(jù)的成本構(gòu)成。
比如我們說(shuō)兩類數(shù)據(jù)。一種是數(shù)采工廠的,那個(gè)數(shù)據(jù)的成本大概有50%是設(shè)備的攤銷折舊。如果按照5年攤銷,大概有50%是人力的工時(shí),剩下的都可以忽略。如果是剛才說(shuō)的野采,大概60%是人力,大概40%是場(chǎng)景的協(xié)調(diào),比如租500個(gè)Airbnb或者途家的房子去采生活服務(wù),在這邊硬件攤銷又可以被忽略了。
所以我當(dāng)時(shí)跟兩邊政府領(lǐng)導(dǎo)說(shuō)的就是,不管是做數(shù)據(jù)的公司,還是做模型本體的公司,如果可以幫助他們?cè)谛枰獢?shù)據(jù)的時(shí)候,能夠在人力的補(bǔ)貼或者是場(chǎng)景的協(xié)調(diào)上降成本,或者在前置的設(shè)備投入上能夠幫助企業(yè)的話,那其實(shí)就直接在成本里頭幫助了大家。也可以考慮請(qǐng)我們這樣的數(shù)據(jù)服務(wù)公司,來(lái)采集一些普適的,可以跨本體的數(shù)據(jù)集,把這個(gè)數(shù)據(jù)集開(kāi)放給大家,讓大家在早期試錯(cuò)的時(shí)候不用每一家都自己花很多錢去做。這個(gè)可以幫助所有人,我是這么認(rèn)為的。
王建明:現(xiàn)在很多賣本體的公司,他們經(jīng)常會(huì)有ToG這種銷售模式,其實(shí)很大一個(gè)點(diǎn)就是消耗他們的本體用來(lái)做數(shù)據(jù)采集。我覺(jué)得戴博提到的In-the-wild這個(gè)數(shù)據(jù)采集方式上,如果政府部門可以調(diào)動(dòng)一些,比如國(guó)有的超市,或者政府部門能夠介入的一些人力操作的部分,讓In-the-wild這個(gè)數(shù)據(jù)采集的能力組織起來(lái),其實(shí)不需要投入太多的這個(gè)資金,更多是資源的調(diào)度。這樣跟數(shù)據(jù)公司配合起來(lái),可能會(huì)比購(gòu)買一堆本體來(lái)得更直接,和對(duì)行業(yè)的推動(dòng)會(huì)更有作用一點(diǎn)。
其實(shí)我們剛才也提到了,在工廠里面采集數(shù)據(jù)對(duì)量有一定的需求,但是可能更需要的是In-the-wild這個(gè)數(shù)量級(jí)的數(shù)據(jù)采集。各位在In-the-wild的數(shù)據(jù)采集上面有一些什么樣的觀察和思考?我先說(shuō)說(shuō)我的想法。我覺(jué)得In-the-wild這種數(shù)據(jù),其實(shí)更多是運(yùn)營(yíng)能力的問(wèn)題。那么是不是像美團(tuán)、餓了么這一類公司,會(huì)更適合做這種數(shù)據(jù)的運(yùn)營(yíng)?作為數(shù)據(jù)公司來(lái)說(shuō)怎么看這個(gè)問(wèn)題?
戴若犁:In-the-wild的數(shù)據(jù),分兩部分。一部分是你說(shuō)的,美團(tuán)、餓了么這種人力動(dòng)員,高效卷人力的能力,另外一部分可能是設(shè)備能力,就是說(shuō)你要有優(yōu)質(zhì)的、對(duì)于操作的摩擦很低的 low-friction 設(shè)備,而且能夠采到足夠的modality,就是模態(tài)和精度,那這是兩部分。另外一部分是數(shù)據(jù)的利用,In-the-wild采回來(lái)的數(shù)據(jù)最大的問(wèn)題是稀疏,模態(tài)稀疏,維度也稀疏,信息也稀疏,那有沒(méi)有辦法從稀疏的數(shù)據(jù)里邊挖出來(lái)稠密的信息,甚至于增廣出稠密的信息?這也是很考驗(yàn)水平的。比如世界模型,現(xiàn)在有一條鏈路就是稀疏性信息進(jìn)到一個(gè)世界模型,通過(guò)大量的先驗(yàn)估計(jì)出來(lái)更豐富的模態(tài)跟維度,這些其實(shí)都跟那個(gè)美團(tuán)、餓了么的人力組織就不太相關(guān)了。
所以我覺(jué)得其實(shí)In-the-wild也是一個(gè)非??简?yàn)技術(shù)水平的事情,如果只是靠人力組織的能力,那你的生意就是人力組織。到最后其實(shí)你拿出來(lái)什么能力,你賺到什么錢,這是非常公平的一個(gè)事情。
佟顯喬:我覺(jué)得In-the-wild在現(xiàn)在這個(gè)時(shí)間點(diǎn)其實(shí)屬于非常早期的階段,目前來(lái)看人力管理那部分還是第二步。第一步是怎么采集,硬件設(shè)備、軟件的易用性,和數(shù)據(jù)的處理,不管你是online處理還是后處理,都得先讓人可以很快地用起來(lái)。
這些東西成熟以后,后面拼的才是人力組織能力。這就有點(diǎn)像自動(dòng)駕駛行業(yè),現(xiàn)在數(shù)據(jù)標(biāo)注就變成了標(biāo)框了,但是早期階段,大家用不同的工具,標(biāo)注的效率和數(shù)據(jù)采集效率其實(shí)是不一樣的。到后邊這個(gè)東西成熟以后,大家就變成比拼誰(shuí)人力成本搞得低,誰(shuí)組織得好,這個(gè)是第二步。所以In-the-wild在具身這塊,其實(shí)還是早期階段。目前來(lái)看還是從技術(shù)的角度,要把采集設(shè)備這些技術(shù)角度做得更好,才能到下一個(gè)階段。
丁琰:我跟那個(gè)佟博的想法還是比較一致的。Collect data In-the-wild 確實(shí)是一個(gè)很好的愿景,但是我估計(jì)大規(guī)模需求應(yīng)該還是在明年下半年才會(huì)起來(lái)。因?yàn)楝F(xiàn)在整個(gè)模型的架構(gòu)還不是很清楚,對(duì)數(shù)據(jù)的探索,其實(shí)還在通過(guò)樣本數(shù)據(jù)或者是小批量數(shù)據(jù)去試驗(yàn)的階段。大家雖然嘴上說(shuō)collect data In-the-wild,但其實(shí)并沒(méi)有要那么多的數(shù)據(jù),大部分?jǐn)?shù)據(jù)應(yīng)該還是出自于數(shù)采工廠。
我覺(jué)得collect data In-the-wild 肯定是要做的,但是這樣對(duì)于數(shù)采設(shè)備會(huì)提出更高的要求。舉個(gè)例子,我們便攜版本和全功能版本之間的區(qū)別就是,便攜版本沒(méi)有激光。因?yàn)榧す鉀](méi)有辦法在野外進(jìn)行采集,它不可能隨時(shí)隨地給你提供一個(gè)電源和基站,并且激光可能還會(huì)受強(qiáng)光、紅外線等等的影響,還有遮擋之類的各種情況,其實(shí)就相當(dāng)于有些設(shè)備In-the-wild是完全不能用的,所以怎么去設(shè)計(jì)一個(gè)數(shù)采設(shè)備是重中之重,這是第一步。
第二步是,我覺(jué)得野外采集并沒(méi)有想象中那么簡(jiǎn)單,不是說(shuō)你隨便雇一個(gè)工人,他拿著設(shè)備亂采,這個(gè)數(shù)據(jù)就能用了。我們對(duì)于數(shù)據(jù)質(zhì)量的要求始終是很高的,如果數(shù)據(jù)量非常非常大的話,可能數(shù)據(jù)質(zhì)量臟一點(diǎn)也無(wú)所謂,但是如果你的數(shù)據(jù)量還沒(méi)有達(dá)到一定級(jí)別,其實(shí)數(shù)據(jù)質(zhì)量要比數(shù)據(jù)數(shù)量重要得多得多。所以怎么在In-the-wild這個(gè)過(guò)程中保證數(shù)據(jù)的質(zhì)量,怎么培訓(xùn)這些工人,其實(shí)也不是那么簡(jiǎn)單的。
像美團(tuán)或餓了么,他們有大量的場(chǎng)景和普通的工人,但我覺(jué)得他們并不能在一開(kāi)始就作為主力軍去采集數(shù)據(jù),至少在很長(zhǎng)一段時(shí)間里是不可能的。前期階段應(yīng)該還是以一些比較well train的,有很多采集技巧的工人,拿著這個(gè)合格的數(shù)采設(shè)備在野外進(jìn)行采集為主。
王建明:我還有最后兩個(gè)問(wèn)題。剛才也提到,除了工廠的數(shù)據(jù)采集,In-the-wild的數(shù)據(jù)采集,其實(shí)還有一種是有模型能力并且解決場(chǎng)景問(wèn)題的公司,自己去做數(shù)據(jù)采集。舉個(gè)例子來(lái)說(shuō),主機(jī)廠自己有數(shù)據(jù)處理能力和模型能力,我感覺(jué)這一類公司確實(shí)也有趨勢(shì),最近一段時(shí)間有可能是受北美一些公司的影響,他們可能在解決場(chǎng)景的問(wèn)題的過(guò)程中同時(shí)積累數(shù)據(jù)和模型,把自己的小飛輪滾起來(lái)。一個(gè)一個(gè)場(chǎng)景解決了之后,就由小飛輪變成大飛輪。那你們覺(jué)得在這個(gè)過(guò)程中,這類公司會(huì)不會(huì)更容易積累數(shù)據(jù)?這些數(shù)據(jù)跟數(shù)據(jù)公司沒(méi)有什么關(guān)系,這會(huì)讓你們覺(jué)得很擔(dān)憂嗎?
戴若犁:我覺(jué)得這是一個(gè)很好的期待,但很大的問(wèn)題就是,是不是真的能夠落地。我親身經(jīng)歷了好幾個(gè)很大的革命,比如說(shuō)自動(dòng)駕駛、大語(yǔ)言模型, AR、VR。坦白來(lái)說(shuō),具身智能現(xiàn)在每年是 200 億美元、300 億美元的錢撒到這個(gè)行業(yè),但是如果跟之前的AR、VR、大語(yǔ)言模型和自動(dòng)駕駛相比,百億級(jí)別的錢進(jìn)到這個(gè)行業(yè)的時(shí)候,那三個(gè)行業(yè)的成熟度比現(xiàn)在具身智能的成熟度要高非常非常多。大家想想看,百億規(guī)模的錢進(jìn)到 VR 行業(yè)的時(shí)候,Oculus已經(jīng)可以做成一個(gè)350美元的設(shè)備賣給你,你回家可以玩過(guò)山車了,但現(xiàn)在是沒(méi)有這樣的機(jī)器人的。然后自動(dòng)駕駛,07年的時(shí)候,美國(guó)的DARPA挑戰(zhàn)賽就有六支隊(duì)伍可以完全無(wú)人干預(yù)地完成幾十英里的自動(dòng)駕駛,那是18 年以前。
所以具身智能現(xiàn)在的狀態(tài),其實(shí)我覺(jué)得很奇怪。建明也是投資人,為什么你們?nèi)雸?chǎng)會(huì)這么早?投資都投到大學(xué)教授里面去了。這其實(shí)是很奇怪的一件事情,我是高度懷疑,包括國(guó)內(nèi)的一些公司,真的能夠進(jìn)到人類的家庭,讓小飛輪轉(zhuǎn)起來(lái)嗎?我特別希望可以,但是我不信。
佟顯喬:我的觀點(diǎn)也是。舉個(gè)例子,從最早的深度學(xué)習(xí)去做感知,到后來(lái)感知的范式變成了BEV,再到后來(lái)的端到端、VLA,其實(shí)具身就是處在一個(gè)非常早期的階段,最后是什么樣?很難說(shuō)。像你說(shuō)的一些垂直領(lǐng)域的機(jī)器人,可能它們干的活相對(duì)比較簡(jiǎn)單。比如到車廠里邊去擰螺絲,訓(xùn)一個(gè)這樣的小模型。也許以今天的能力,他們自己采數(shù)據(jù)就能解決,但這可能也不是具身機(jī)器人的最終追求。到底是哪條路能先來(lái)?這個(gè)事其實(shí)很難判斷,但我們肯定都是沖著那個(gè)最大的,或者是終極階段去的。從數(shù)據(jù)的角度來(lái)說(shuō),不管你是垂直領(lǐng)域還是通用領(lǐng)域,你采的數(shù)據(jù),你需要的東西和訓(xùn)的模型結(jié)構(gòu)其實(shí)還是那些?,F(xiàn)在這個(gè)早期階段,大家也只能follow著正確的方向走,我覺(jué)得很難判斷最后哪個(gè)能成。
丁琰:其實(shí)我是很羨慕和佩服那些公司的。比如說(shuō)剛剛提到一個(gè)例子是Dyna,我們公司肯定沒(méi)有他們那種資源,他們是可以完成一個(gè)數(shù)據(jù)采集、數(shù)據(jù)訓(xùn)練,反哺反饋,然后再落地的整個(gè)閉環(huán),有點(diǎn)像一個(gè)獨(dú)立的王國(guó)在運(yùn)行這件事。他們的know-how和insight的積累速度是非常快的。
絕大部分公司不能比擬這個(gè)過(guò)程。但是他們也會(huì)有一個(gè)小問(wèn)題,就是除非資源非常多才能把整套邏輯和這個(gè)王國(guó)搭建起來(lái),不然資源太分散的話可能搞不定。比如有些公司可能把90%資源全部投來(lái)訓(xùn)模型,但如果每個(gè)環(huán)節(jié)都想做,你又想采數(shù)據(jù),又想訓(xùn)模型,又想去真機(jī)部署,那你得花費(fèi)很多的資源去布置每一個(gè)陣地,這是很累的。他們?nèi)绻苁氐米?,那肯定是最好,但?shù)據(jù)公司的一個(gè)缺陷就是,他對(duì)于模型的理解肯定沒(méi)有別的公司強(qiáng),如果你不是大量地訓(xùn)模型,這個(gè)know-how和insight總歸還是會(huì)比模型公司少。
但是他還有個(gè)活下去的路徑。比如你做一個(gè)疊衣服的任務(wù),那個(gè)know-how和insight 是針對(duì)于疊衣服這個(gè)任務(wù)本身而言的。但是對(duì)于其它任務(wù),比如系鞋帶,這個(gè)know-how就沒(méi)有了。他不可能把所有的場(chǎng)景、所有的小任務(wù)、小場(chǎng)景全給搞定,他不可能有那么大的know-how。
但是做數(shù)據(jù)的公司就會(huì)有一條活路,這是我突然想出來(lái)的。我們是不是可以在和不同客戶打交道地過(guò)程中,有些客戶是疊衣服的,有些客戶是系鞋帶的,有些客戶是做飯的,幫助他們?nèi)カ@取know-how。他們自己可能也沒(méi)有那么多資源,所以我們聯(lián)合起來(lái),做數(shù)據(jù)的公司和做模型的公司拼在一起,就可以把每個(gè)小場(chǎng)景做閉環(huán)。這可能也是一個(gè)數(shù)據(jù)公司活下來(lái)的一個(gè)途徑之一
王建明:最后一個(gè)問(wèn)題。各位可以說(shuō)說(shuō)在機(jī)器人這個(gè)行業(yè),個(gè)人的vision、你們創(chuàng)辦公司的vision,以及你們覺(jué)得大概到什么時(shí)間點(diǎn),這個(gè)vision是可以夠得著的嗎?
戴若犁:我們公司的slogan叫做 we don' t make robots,we make them Intelligent。我們這個(gè)機(jī)器人公司不造機(jī)器人,我最大的期待,也不是vision,就是期待真的造機(jī)器人的那些杰出的企業(yè)和人,他們能活得好,他們能夠融到大錢,做大生意,這樣我們好好地做個(gè)配角就行了。
佟顯喬:我說(shuō)一下我的vision。為什么做具身數(shù)據(jù)這個(gè)行業(yè),我覺(jué)得從數(shù)據(jù)切入是在這個(gè)不確定的行業(yè)里邊,最確定性的一件事情。今天這個(gè)行業(yè)還在早期階段,最后是什么樣?long way to go??赡苁?,可能20年,在這個(gè)過(guò)程中,我覺(jué)得數(shù)據(jù)是唯一確定的事情,而且數(shù)據(jù)積累的know-how,實(shí)際就是模型積累的。所以為什么我和深圳AIRS一起去做這件事情?也是因?yàn)橛X(jué)得,從數(shù)據(jù)的角度切入,去follow最先進(jìn)的方向,做具身智能這件事,是一個(gè)長(zhǎng)期偏確定性的創(chuàng)業(yè)機(jī)會(huì)。
丁琰:機(jī)器人的場(chǎng)景非常非常多,我們鹿明就希望守住自己這一塊地,在這一塊地里做到top1的級(jí)別。我們自己在做 UMI數(shù)據(jù)的時(shí)候,目前來(lái)說(shuō)還是最快的一家,我們想守住自己的陣地,把各種東西探明白、搞清楚,然后服務(wù)大家。我們的理解是, UMI這塊還有好多問(wèn)題沒(méi)有解決,甚至沒(méi)幾家能夠把它真正用起來(lái),還有比較長(zhǎng)的路要走。另外從在工廠里采到在野外采數(shù)據(jù),又是另外一個(gè)跨越。在工廠里采,采完下一步其實(shí)就到要實(shí)現(xiàn)落地的階段了,這可能還是一個(gè)比較長(zhǎng)的過(guò)程,要在兩到三年之內(nèi)完成,這是我個(gè)人和公司的愿景。
王建明:謝謝各位嘉賓,那么數(shù)據(jù)環(huán)節(jié)的探討就先到這里。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))文章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。