日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

對話千尋智能韓峰濤:真正的機器人是生產(chǎn)力,不是展品和玩具

本文作者: 梁丙鑒   2026-02-02 17:54
導(dǎo)語:千尋智能發(fā)布目前全球最強開源具身模型。

雷峰網(wǎng)訊 “就在這棟樓下面,26年就會有一個上千人的數(shù)據(jù)采集團隊,沖擊100萬小時數(shù)據(jù)大關(guān)?!表n峰濤忽地探身,手指地面,仿佛下一代具身模型已經(jīng)被他攥在掌心。

1月12日,千尋智能宣布開源具身模型Spirit v1.5。在RobotChallenge的最新榜單中,它超越此前國際標(biāo)桿Pi0.5,成為迄今為止,全球最強開源具身模型。

開源前兩天,我們在千尋智能北京總部,見到了創(chuàng)始人韓峰濤,進行了一次深度對話。

對話千尋智能韓峰濤:真正的機器人是生產(chǎn)力,不是展品和玩具

具身智能技術(shù)的繁榮背后有另一番景象:花樣迭出的演示demo層出不窮,但實驗室外一項疊衣服任務(wù)就可以難住大多數(shù)廠商。在這種背景下,Spirit v1.5讓人看到了具身智能真正解放人類生產(chǎn)力的可能。

RobotChallenge測試項目中包含插花、桌面清理等30個桌面項目,旨在還原真實物理世界的同時,引入隨機擾動增加泛化挑戰(zhàn)。當(dāng)名為實驗室的“溫室”被移除,Spirit v1.5仍然達到了50%以上的任務(wù)成功率,作為對比的是Pi0.5模型42.67%的成績。

一個關(guān)鍵的問題在于,Spirit v1.5到底是“擠牙膏”之作,還是標(biāo)志著具身模型快速攀升期的開始?韓峰濤堅信是后者。

2026年被他描述成一個充滿競爭和希望的年份,數(shù)據(jù)和算法收斂,具身模型性能通過scaling的方式快速攀升,火熱的融資緊隨其后。類似的故事發(fā)生在2023年,主角是大語言模型。

“26年之于具身智能,就是23年之于大語言模型,”韓峰濤說,“具身智能的GPT moment一定會在26年出現(xiàn)?!?/p>

數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量。為此,千尋智能要將自建的數(shù)據(jù)工廠擴張至近千人規(guī)模。而作為行業(yè)少見的模型、本體并舉的全棧公司,韓峰濤選擇自研硬件的初衷也是為模型提供更高質(zhì)量的數(shù)據(jù)。因為模型和硬件綁定,聯(lián)合設(shè)計,軟硬一體,效果最好。

“最好的機器人就是你自己做的機器人。”他說。

韓峰濤的另一重身份,或許可以解釋他對具身模型的篤信。

2014年被稱為中國工業(yè)機器人元年,同年年底,韓峰濤和同伴創(chuàng)立了珞石機器人,這家公司在日后躋身國產(chǎn)工業(yè)機器人前三。一段差不多同期的歷史進程,是整個中國工業(yè)機器人行業(yè)的崛起。從2015年到2024年,國產(chǎn)工業(yè)機器人的市場占有率從3%躍升至50%。

讀懂過去的人會看到未來。當(dāng)韓峰濤創(chuàng)立千尋智能時,他知道具身智能并不新鮮。曾經(jīng)的研究者嘗試把深度學(xué)習(xí)技術(shù)用在機器人身上,但當(dāng)時AI的智能水平還不足以勝任嚴肅的生產(chǎn)力場景,最終落地的只有NLP、智能音箱或是掃地機器人。

那為什么我們今天會期待,機器人可以真正干活?

“這一代具身智能的核心變量只有一個,就是AI技術(shù)發(fā)生的革命性變化,讓機器人的大腦真正有可能可用了。所以真正的具身智能公司,要思考的核心問題只有一個,怎么讓具身模型進化?”


一個無可辯駁的事實是,同樣在百億級資金的投入下,具身智能的發(fā)展速度遠落后于大語言模型和自動駕駛。韓峰濤將之歸因于數(shù)據(jù)的匱乏。

過去20余年里互聯(lián)網(wǎng)上積累的數(shù)字資產(chǎn)支持了大語言模型的快速爆發(fā),自動駕駛雖然同樣遭遇過數(shù)據(jù)短缺,但沒有智駕功能的車也會有人買,這為邊賣產(chǎn)品邊采數(shù)據(jù)提供了可能。相較之下,沒有大腦的機器人完全沒用,這種產(chǎn)品性質(zhì)讓具身智能的數(shù)據(jù)飛輪更難以啟動。只有先采集足夠的冷啟動數(shù)據(jù),讓模型能夠支撐機器人進入嚴肅的生產(chǎn)場景,才能再現(xiàn)當(dāng)年人們邊開車邊采數(shù)的過程。

如何把能干活的機器人賣出去成為了千尋最關(guān)鍵的命題?!ぁ案苫睢?,一個半小時的采訪中韓峰濤平均每兩分鐘提到這個詞一次?!拔璧柑蝗f次也是一條數(shù)據(jù),展品賣出去上千臺等于賣出一臺。你必須要把那種由模型驅(qū)動的、能干活的機器賣出去,才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來?!彼f。

特斯拉、蔚小理……你可以從韓峰濤的講述中看到很多公司的影子。而歸根結(jié)底,千尋是千尋智能,而不是千尋機器人。

以下是雷峰網(wǎng)和韓峰濤的對話,作者進行了不改變原意的編輯整理:

千尋智能,不再拿著錘子找釘子

雷峰網(wǎng):在千尋智能之前,你在2014年創(chuàng)立了珞石機器人。這十多年里先是中國機器人行業(yè)經(jīng)歷了快速發(fā)展期,然后整個行業(yè)從工業(yè)機器人轉(zhuǎn)向了智能機器人的競爭。作為兩個歷史進程的親歷者,你會怎么給中國在世界機器人行業(yè)所處的位置劃分階段?


韓峰濤:四個階段。2010年之前,國內(nèi)的工業(yè)機器人還是全進口。10年到20年算是發(fā)展期,這段時間里國產(chǎn)的零部件、整機在慢慢發(fā)展,但是市場占有率的提升不高,可以說還比較弱勢。一方面當(dāng)時剛剛起步,國內(nèi)客戶對國產(chǎn)機的接受度低。而且相關(guān)人才也少,很多廠商都是去航空航天、機械這些專業(yè)把人招來,自己培養(yǎng)。還有一部分原因是工業(yè)周期長,市場比較小,所以那會的投資人對工業(yè)沒什么概念。直到2015年左右,機器人、半導(dǎo)體、高端裝備、醫(yī)藥這些泛工業(yè)方向的投資才開始慢慢變多。

20年疫情開始之后,國外的廠商停產(chǎn)比較嚴重,只有中國還在正常運行。所以當(dāng)國外缺貨的時候,也只有中國的機器人能供上貨,客觀上講疫情給了中國機器人行業(yè)一個巨大的助推。那幾年里國產(chǎn)機器人的市場占有率上來了,零部件因為大家用得更多,也更成熟了。

2015年國產(chǎn)機器人的市場占有率大概3%,2024年就到50%以上了。國產(chǎn)工業(yè)機器人的崛起,也就是19年到23年的事。

從24年開始,就是具身智能的競爭了。23年之前中國機器人行業(yè)處在以硬件、小腦為核心的進口替代階段,從24年開始,就要進入以大腦為核心的智能機型時代。在這個時代,有人認為將來大腦成熟之后肯定需要很多本體,所以為了服務(wù)大腦開始搞本體、機器狗。有人認為既然核心是大腦,就開始搞大腦,比如我們??傊?4年是個分界點,這之前的機型都是以小腦、運控和硬件為主,之后是以大腦為核心。到今天經(jīng)過兩年的發(fā)展,具身模型在26年就要進入快速進化的階段。

前三個階段我們都在追趕,但是到第四個階段,中國可以說真正跟海外的對手齊頭并進了。

雷峰網(wǎng):高陽曾經(jīng)說,如果國內(nèi)的具身團隊買了機器人,訓(xùn)練過程中出了故障可以寄回去修,一周就能郵回來。這樣幾臺機器人輪流上,效率會很快。但宇樹不能這樣給美國的科研團隊維修,只能一次性多寄點配件,導(dǎo)致很浪費時間。你認為中國在工業(yè)機器人領(lǐng)域的優(yōu)勢,會如何影響今天圍繞具身智能的競爭?

韓峰濤:原來經(jīng)常有人說,中國有供應(yīng)鏈,所以中國的企業(yè)就可以拿到便宜的零部件。但特斯拉的供應(yīng)鏈也在中國,如果中國有好的供應(yīng)鏈,國外的廠商也會買,所以價格這件事上中國企業(yè)不存在優(yōu)勢。

那么供應(yīng)鏈的主要優(yōu)勢在于什么呢?在于這個供應(yīng)鏈體系可以讓我們的迭代速度非常非??臁8哧柦o你舉的例子還只是在科研,當(dāng)供應(yīng)鏈就在我24小時包郵區(qū)之內(nèi),我的產(chǎn)品可以按照天來迭代。一個人在深圳做智能硬件,打板廠、芯片廠、焊接廠、維修廠都會在一個半小時車程之內(nèi)。一個有問題的硬件今天寄回廠商,明天收回來,可能兩天就解決了。如果你在美國,發(fā)個特快過去也得一周,特朗普還要加關(guān)稅。這種情況下,我的迭代速度是美國公司完全沒辦法比擬的。


但客觀來講,目前美國還是在大腦、小腦和硬件上都有一些優(yōu)勢。硬件領(lǐng)域,中國硬件的主要優(yōu)勢在于便宜,但是要論絕對性能,仍然是波士頓動力和特斯拉領(lǐng)先。你看波士頓動力的現(xiàn)場演示,AI能力雖然弱一點,但是他們的動作穩(wěn)定性、柔順度、流暢性都很好,這就意味著他們的整個硬件設(shè)計、運控能力非常強。

雷峰網(wǎng):既然存在這些差距,為什么你仍然認為中國在和海外的對手齊頭并進?


韓峰濤:現(xiàn)在我們搞具身智能,很多點上就是全球領(lǐng)先的。3月份的時候,我們的模型是國內(nèi)第一個完成疊衣服任務(wù)的,這也是具身模型里最難的任務(wù)之一。到了25年底26年初,我們基模的綜合能力在RoboChallenge的評測榜單中位居全球第一,超越了Pi0.5。原先在工業(yè)機器人和自動駕駛的時代,全球第一是不太敢想象的?,F(xiàn)在我們就是敢,因為時代機遇不一樣了。

從中國開始有風(fēng)險投資到疫情之前,中國幾乎所有的硬科技創(chuàng)業(yè)都是在搞國產(chǎn)化替代。光刻機、船、飛機、汽車、手機、家電、無人機、全景相機,甚至是燈,都在干這件事。這是歷史使命,國家要產(chǎn)業(yè)升級就一定要國產(chǎn)化替代,但對于創(chuàng)業(yè)者來講這也是痛苦的。我做機器人,上面有ABB、庫卡、發(fā)那科,國內(nèi)還有匯川、埃斯頓這些競對。但是你現(xiàn)在回頭看中國制造2025,這個規(guī)劃2015年發(fā)布,大部分計劃都提前完成了。疫情之后中國在全球的科技硬實力,客觀來講是很強的。所以在AI,尤其是具身智能領(lǐng)域,我們起步雖然跟美國還有點差距,但基本上是齊頭并進的。

雷峰網(wǎng):除了面對的時代機遇,你認為千尋智能這次創(chuàng)業(yè),自己還有什么不同?


韓峰濤:一個主要的區(qū)別是我對創(chuàng)業(yè)的認知。第一次創(chuàng)業(yè)的時候,是我會干啥我創(chuàng)啥業(yè),所以我搞工業(yè)機器人。而且我也沒有非常關(guān)注市場角度,去考慮應(yīng)該做什么樣的工業(yè)機器人。而是我覺得什么機器人好,我喜歡什么樣的工業(yè)機器人,我就做什么樣的。這就是拿著錘子找釘子,客觀來講是運氣好,沾了時代的光,但我們也沒有成為一家偉大的公司。

所以第二次創(chuàng)業(yè)最核心的變化,就不再是我會干啥我干啥。如果還按照這個思路,那我是做硬件的,我就應(yīng)該去賣硬件。但這次具身智能核心的機會來源于AI。Embodied AI,embodied是形容詞,本質(zhì)還是AI,所以我們叫千尋智能,不叫千尋機器人。我去找高陽的時候說,我們要做AI,要做具身大模型,因為這才是最大的機會。

這就是我個人認知的變化,第一次是拿著錘子找釘子,但這次是時代需要什么,我就干什么。站在你的創(chuàng)業(yè)機會上,做什么樣的公司才能抓住時代機遇?這決定了你創(chuàng)什么業(yè)。

會疊衣服比旋風(fēng)踢更重要

雷峰網(wǎng):你為什么判斷,具身智能行業(yè)的時代機遇是具身大模型?


韓峰濤:你想沒想過,為什么會有具身智能這個賽道?原因很簡單,就來源于AI技術(shù)進步,就來源于大模型。宇樹16年成立,珞石15年成立,樂聚、云深處也都很多年了。原來也有機器人,但為什么上一代機器人干不了活,跳不了舞,為什么原來沒人講具身智能?其實上一代也有人在做具身智能,英文名詞就叫Embodied AI,也是把AI從虛擬世界帶到物理世界。這一批具身智能用的是深度學(xué)習(xí)技術(shù),但當(dāng)時的AI智能水平太弱了,所以真正落地的只有NLP、智能音箱,或者給掃地機器人做視覺規(guī)劃這些場景。

今天這一代具身智能的核心變量只有一個,就是AI技術(shù)發(fā)生了革命性的變化,這種技術(shù)進步讓機器人的大腦真正有可能可用了。所以真正的具身智能公司,要思考的核心問題只有一個,怎么讓具身模型進化?

具身模型其實也是大模型,有三要素,數(shù)據(jù)、算力、算法。算力和算法基本上是收斂的,或者說具身模型在訓(xùn)練范式上跟訓(xùn)練多模態(tài)的大語言模型一樣。大語言模型是怎么進化過來的?一開始只有LLM,后來開始有圖像有視覺了,叫VLM。GPT-4o采集了很多真人的聲音,說話的語調(diào)音色就更自然了。o就是Omni,全的意思。但是它的全面只存在于虛擬世界,是虛擬的全模態(tài)。機器人需要物理全模態(tài),除了能說會道之外,還要能干活。所以從VLM到VLA,其實就是在原來圖像、文字、聲音的基礎(chǔ)上加上動作。這整個范式都是一樣的,就是不斷給模型增加模態(tài)。

黃仁勛去年在CES的演講里有一張圖,畫的是從Alexnet深度學(xué)習(xí),到商湯曠視做的第一代AI,再到OpenAI這種第二代的生成式AI,再到Agent,最后到 Physical AI。這些是一脈相承的,技術(shù)路線已經(jīng)相對確定了。

雷峰網(wǎng):但千尋智能現(xiàn)在也在自己做硬件,是出于什么考慮?


韓峰濤:具身智能是一個長坡厚雪的賽道,后邊這個曲線就是我們說的長坡。下面2016 ~ 2020是大模型的時間線。這個點,對于大模型來說是2016年OpenAI起步,2020年他們發(fā)了 Skillful Learning的論文,后面就是Scaling Law。上面是具身模型時間線。很多具身公司是2024年成立的,到今天,基本可以認為具身模型到了GPT-2的時代,接下來我們要到GPT-3。GPT-3干了什么?大力出奇跡。當(dāng)數(shù)據(jù)和算法的都收斂了,大家就知道應(yīng)該投錢采什么數(shù)據(jù),模型就要快速增長了。

對話千尋智能韓峰濤:真正的機器人是生產(chǎn)力,不是展品和玩具

具身智能及大語言模型發(fā)展階段對比,韓峰濤辦公室圖

所以你看美國的具身智能公司都在干什么?可以引用一下特斯拉的思路,他們不搞商業(yè)化,甚至不著急量產(chǎn),而是在一點點優(yōu)化機器人。那為什么特斯拉不買宇樹的機器人做模型?因為模型跟硬件是綁定的,最好的機器人就是你自己做的機器人。模型跟機器人聯(lián)合設(shè)計,軟硬一體,效果最好。而且你看特斯拉的發(fā)布會,自動駕駛的仿真效果特別好。他們有全球最好的仿真器,為什么機器人不用?因為仿真數(shù)據(jù)不行,一定得是真實數(shù)據(jù),而且得是用自己的機器人采的真實數(shù)據(jù)。

另外大家經(jīng)常講,長坡厚雪,沿途下蛋,做硬件也有市場目的。模型能力每達到一個級別,我們就可以下個蛋,做個東西。比如我們做三指手而不是五指,一方面是因為在生活場景,三指手已經(jīng)能完成百分之八九十的活。另外一個原因是五指手現(xiàn)在還不成熟,我們沿途下蛋的時候,能量產(chǎn)的產(chǎn)品一定是基于成熟技術(shù)。就像做新能源車,完美的新能源車應(yīng)該是 L5 加固態(tài)電池。但你14 年做Model S、 Model 3的時候怎么選?17年做理想One的時候怎么選?那肯定是L0加增程,L0加快充,L0加換電,慢慢再換成L1加增程,L2加三元鋰,L3 加固態(tài),一步步來。我們現(xiàn)在的三指,就類似于增程。

所以一家好的具身智能公司,一定是以 AI 為核心,但是有世界一流硬件的支持。這個硬件既從數(shù)據(jù)角度支持模型,又從銷售角度支撐公司運營。

雷峰網(wǎng):你們是一家模型公司,但又要做本體,又要做手,會不會太多頭了?


韓峰濤:但你必須得做。具身智能在商業(yè)邏輯上更像自動駕駛的新能源車,靈魂是自動駕駛軟件,但客戶買的是一臺更智能的車,所以這兩件事你都得干。在具身智能行業(yè),只賣模型的生意模式基本不存在。當(dāng)然我們暢想一下,10 年、20 年之后有沒有可能?也有可能。自動駕駛,有沒有可能特斯拉的領(lǐng)先幅度越來越大,將來就不造車,只賣FSD?也有可能。但是大概率不會,因為只有在自己的車上才能訓(xùn)練得最好。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):千尋智能計劃什么時間進入量產(chǎn)階段?


韓峰濤:看你怎么定義量產(chǎn)。如果我們說的是有生產(chǎn)力、可以干活的機器人,那大概是26年底。今天的模型能力還沒有快速爬升,就像在GPT-2時代,大模型性能和商湯、谷歌做的Bert模型可能沒那么大差異。但我們?nèi)谫Y的時候就會告訴股東,我們是從成立第一天起就想著干模型的公司,我們需要兩年時間摸索,去找最佳的數(shù)據(jù)配比、最好的數(shù)據(jù)管線、最好的模型結(jié)構(gòu)和算法。

千尋是2024年成立的,這兩年我們把基礎(chǔ)設(shè)施全都搭好了,第三年就要開始數(shù)據(jù)上量,模型性能提升。很快我們會開源一款具身模型Spirit v1.5,在RobotChallenge榜單排第一,比Pi0.5還要強。未來到Pi0.6打榜之前,我們都會是全球最強的開源模型。

我們可以用智駕的邏輯梳理具身智能行業(yè),但是具身智能跟智駕有個本質(zhì)區(qū)別,那就是車沒有智駕仍然可以開,但沒有大模型的機器人就是沒用的。當(dāng)你還沒有足夠好的模型,你的機器人賣出去就只能跳舞,只能做導(dǎo)覽、數(shù)采,這些都不算干活。這當(dāng)然也有價值,但它是一個小市場。

將來的具身智能,會是略低于汽車的價格,乘以略少于手機的數(shù)量,這是個巨大的市場空間。玩具、跳舞、導(dǎo)覽是客觀存在的市場,但這個市場太小了,一年撐死賣5, 000臺。每年全球能賣7, 000萬臺車,10億部手機,這完全不是一個量級的市場。展品和玩具,不算是真正的機器人。


雷峰網(wǎng):能干活的才算嗎?


韓峰濤:或者說賣能干活的才有意義。機器人跳一萬次舞,本質(zhì)上也只有一條數(shù)據(jù),因為每個動作都跳得一樣。展品賣出去上千臺,本質(zhì)上等于賣出一臺,只能產(chǎn)生點營收,對于模型進化沒有幫助。你必須要把那種由模型驅(qū)動的、能干活的機器賣出去,才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來。

而且產(chǎn)品能不能量產(chǎn),其實背后就一個卡點,有啥用。東西只要有用,再貴也有人買。九幾年買個房才三萬,大哥大一萬多一個,為啥有人買?私人飛機幾千萬上億,為啥有人買?有用就一定有人買,那怎么讓機器人有用?就卡在一個地方,模型。所以我們選的場景都是能幫助模型進化的場景。

雷峰網(wǎng):2025年國內(nèi)部分具身廠商把量產(chǎn)作為主要目標(biāo),但與此同時具身模型的進展并不顯著,你怎么看?


韓峰濤:特斯拉的AI能力肯定沒問題,但為什么大家都覺得特斯拉的人機交互做得不好?他是全球最強的AI公司之一,難道他做的模型不如其他的公司嗎?不可能。那原因是什么?第一特斯拉不需要融資,第二特斯拉是直接奔著終局去的。終局就是構(gòu)建一個通用的本體,加一個通用的具身模型。


PI在訓(xùn)練模型,Sunday在訓(xùn)練模型,美國沒有人在賣硬件。所有厲害的模型公司都有厲害的硬件,反而只有硬件沒有模型的公司,將來會面臨很大的挑戰(zhàn),這是個戰(zhàn)略選擇的問題。國內(nèi)有很多公司出于股東壓力開始賣硬件,但那不在主航道,核心就只有模型。

雷峰網(wǎng):你怎么衡量具身模型的進化水平?


韓峰濤:可以參考自動駕駛。工業(yè)機器人是L0,加點工業(yè)視覺就是L0.5。但這些東西應(yīng)用場景都很小,只能做那一件事。到2024年底,機器人可以疊衣服了,就是L1。自動駕駛的L1叫單功能輔助駕駛,就是可以自動剎車、車道保持。那具身的單一功能是什么?比方說疊衣服、幫我開門、拿瓶水。只做一件事就是L1。其中疊衣服是L1里最難的。如果能疊衣服,那L1級別的所有任務(wù)就都能干?,F(xiàn)在大家都選這個場景,其實就是在秀肌肉。

我剛才講具身智能的機會來源于大模型,它的落地也受限于大模型。因為當(dāng)你只有L0的時候,機器人就只能跳舞。L1的機器人會疊衣服了,但是只有在工廠流水線這個場景才有價值,因為流水線就只要求人做一件事,相應(yīng)地在商用和家用場景就不行,所以我們L1階段落在了寧德時代。

模型能力繼續(xù)爬坡,L2叫組合輔助駕駛,能干一長串的事。落到具身上,就從疊衣服進化到找到臟衣服、扔進洗衣機、倒洗衣粉、操作洗衣機、晾衣服、疊好放進衣柜這一長串。你只需要給一個指令,機器人就能干一長串的事,就是L2。2025年底,模型大概在L1.8左右,我覺得26年夏天就可以到L2了。

雷峰網(wǎng):那么L2階段,千尋智能理想的落地場景是什么?


韓峰濤:我們現(xiàn)在比較看好零售、物流這些服務(wù)場景。其實L2階段的場景也要一個一個攻克,只是選擇場景的時候,首先要選一個有商業(yè)價值的大場景。

工業(yè)場景為什么選寧德時代?因為工業(yè)里新能源電池行業(yè)的利潤是很可觀的。物流為什么選京東和華為?也是因為這些場景有很好的商業(yè)化和利潤水平。L1、L2的所有場景里,肯定要選那些利潤高且愿意為機器人付費的場景。

具身大年將至,決戰(zhàn)數(shù)據(jù)之巔

雷峰網(wǎng):對于具身企業(yè)來說,2026年最緊迫的任務(wù)是什么?


韓峰濤:具身最后的競爭會是通用大腦的競爭,這至少在美國已經(jīng)是共識了。數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量,那么在訓(xùn)模型的時候你就需要回答,用什么數(shù)據(jù)訓(xùn)這個模型,以及數(shù)據(jù)從哪來。今天領(lǐng)先的具身智能公司,都在解決這個問題。

你可以買第三方機器人采數(shù),但這只能做科研寫論文。而且模型最終要驅(qū)動機器人干活,在其他機器人上采的數(shù)據(jù)落到不同型號的機器人上,數(shù)據(jù)不同構(gòu)會導(dǎo)致模型性能下降,也就干不了活。

另外一種是特斯拉的方案,他們在用自己的機器人搞數(shù)據(jù)。當(dāng)機器人的外觀、靈巧手、腿、胳膊所有部分都確定下來,就可以大批量生產(chǎn)。到這一步,特斯拉就可以像曾經(jīng)賣它的車一樣,讓機器人一邊干活一遍采數(shù)。有了數(shù)據(jù),加上它最大的算力中心和AI人才,就可以訓(xùn)具身模型了。這也是千尋的方案,我們做了一個機器人數(shù)據(jù)工廠?,F(xiàn)在我們樓下的數(shù)據(jù)工廠大概有四五十個采集工位,26年會增加超過10倍。相比之下特斯拉會花更多的人工成本,但大家背后的邏輯都一樣,就是盡量采集更多真實的、重構(gòu)型的數(shù)據(jù),然后再去訓(xùn)練模型。

雷峰網(wǎng):智駕廠商的很多路況數(shù)據(jù)是客戶采集的,他們只需要投入很少的人組建自己的數(shù)采團隊。千尋智能已經(jīng)積累了很多客戶,為什么不選擇類似的方案?


韓峰濤:為什么具身智能的發(fā)展速度比大語言模型和自動駕駛慢?就是因為缺數(shù)據(jù)。大語言模型的快速爆發(fā),來源于人類過去20多年在互聯(lián)網(wǎng)上積攢的數(shù)字資產(chǎn)。自動駕駛一開始也沒數(shù)據(jù),但沒有自動駕駛功能的車也能賣出去,所以客戶可以一邊開車一邊幫他采數(shù)。機器人不行,沒有大腦就完全沒用。

這也是為什么這兩年我們在做自己的數(shù)采設(shè)備,搞我們自己的數(shù)據(jù)管線。因為我們要盡量模仿當(dāng)年人們一邊開車一邊采數(shù)的過程,想辦法讓人一邊干活一邊采數(shù)。讓人學(xué)會遙操機器人,效率低成本高,安全性也不行,最后的方案收斂到了可穿戴設(shè)備上。讓人穿上數(shù)采設(shè)備,該干啥干啥。

雷峰網(wǎng):此前自動駕駛或大語言模型的發(fā)展,可以給具身數(shù)據(jù)的采集提供什么啟示?


韓峰濤:比如自動駕駛,客戶采集回來的數(shù)據(jù)是用來做預(yù)訓(xùn)練的,這部分數(shù)據(jù)多了以后,回傳的大部分數(shù)據(jù)就沒用了。這時候車廠會搞個小的數(shù)采團隊,采集特定城區(qū)街道,和某種路況下的特定數(shù)據(jù),這些數(shù)據(jù)就是用來微調(diào)模型的。

具身智能的數(shù)據(jù)也分這兩類。我們會在工廠、物流、家庭,不限制場景地采集預(yù)訓(xùn)練數(shù)據(jù),然后在寧德、京東、華為更多地采集后訓(xùn)練的微調(diào)數(shù)據(jù)。微調(diào)數(shù)據(jù)也分兩類。書房、客廳這些場景,我們會自己搭建,自己采集,因為現(xiàn)在我們沒有這樣的客戶。但是電池、物流這些場景的微調(diào)數(shù)據(jù),我們就提供數(shù)采設(shè)備,讓客戶到他們的現(xiàn)場去采。

雷峰網(wǎng):訓(xùn)練具身模型,到底需要采集多大體量的數(shù)據(jù)?


韓峰濤:現(xiàn)在PI和我們加在一起,真機數(shù)據(jù)也就1萬小時,可能得1,00萬小時數(shù)據(jù)才會有比較好的模型效果。但實際上我們只需要自己采冷啟動數(shù)據(jù)。只要模型能達到L2水平,能支撐機器人干活,我們的機器人就能大批量賣出去。然后我們再開發(fā)一個蘿卜快跑那樣的接管系統(tǒng),大部分時候機器人自主干活,出問題的時候遠程接管。這樣數(shù)據(jù)飛輪就能轉(zhuǎn)起來,機器人用得越多,數(shù)據(jù)越多,模型越好,賣得越多。

而且訓(xùn)到同樣的模型效果,我們的數(shù)據(jù)效率比國內(nèi)競對要高大概5倍。疊衣服這個動作只用了100多小時數(shù)據(jù),國內(nèi)競對都得上千或者大幾百小時。

雷峰網(wǎng):自動駕駛能力可以通過百公里急?;蚪庸艽螖?shù)衡量,對于具身模型有類似的衡量標(biāo)準(zhǔn)嗎?


韓峰濤:定這種衡量標(biāo)準(zhǔn),首先要限定場景。自動駕駛實際上就限定了開車場景,但機器人要干的活很多。假設(shè)我們限定在造電池場景,我也可以用自動駕駛的邏輯,看平均生產(chǎn)多少電池需要接管一次。如果想收斂在一起衡量,起碼要等到26年,大家都能做這些事情了再比較。

客觀來講,早期很難評價一個模型的好壞,開源模型的榜單測評是一個很好的方式,所以26年肯定是一個打榜的年份。其實打RobotChallenge我們還是吃虧的,因為我們是基于自己的硬件來做,在測評中使用第三方不同的硬件肯定會影響模型性能。但是考卷對我們來講更難,我們反而分數(shù)更高,那就是我們的能力更強。

雷峰網(wǎng):千尋智能的模型團隊現(xiàn)在有多少人?


韓峰濤:將近40個人,做硬件的也是40個人左右,目前整個公司我們大概110人。硬件團隊主要以上半身為主,一體化關(guān)節(jié)、手臂、感知系統(tǒng),就是攝像頭,還有三指的手。其中手的研發(fā)投入會比較多,腿好解決,我們的底盤就是一個類似于室內(nèi)的自動駕駛方案。雙腿對普通的家用機器人意義不大,你得把坐著能干的活,或者輪式底盤能到的地方的活先干了。

雷峰網(wǎng):2026年你們還有融資計劃嗎?


韓峰濤:融,這一次沖L2肯定要拿大錢。26年是模型能力快速進化的元年,也會是具身智能大額融資的元年。原來除了智元和銀河融得稍微多一點,估值上了100億,其他家都沒像六小虎那樣一次融幾億美元,但是26年具身智能也會有這樣的融資。

26年對于具身智能,就相當(dāng)于國內(nèi)大語言模型的23年,大家會看到這件事可以scaling,會相信具身大模型的能力要開始快速攀升了?,F(xiàn)在的具身大模型處在預(yù)訓(xùn)練階段,預(yù)訓(xùn)練差不多了,基于GPT-3.5才能開發(fā)出ChatGPT。具身智能的GPT moment一定會在26年出現(xiàn),只要在學(xué)術(shù)上能夠證明就可以,快的話就在上半年。當(dāng)模型能力快速攀升的時候,融資就會變得很火熱。

前兩天智譜和Minimax上市,我覺得是一個標(biāo)志性的事件,虛擬AI開始向物理AI交棒了。無論是技術(shù)的進展、投資的熱點、行業(yè)的關(guān)注度都要交放到物理AI上,接下來具身智能要重走一遍大語言模型從2023年到2025年走過的路。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說