對(duì)話千尋智能韓峰濤：真正的機(jī)器人是生產(chǎn)力，不是展品和玩具

本文作者：梁丙鑒

2026-02-02 17:54

導(dǎo)語：千尋智能發(fā)布目前全球最強(qiáng)開源具身模型。

雷峰網(wǎng)訊 “就在這棟樓下面，26年就會(huì)有一個(gè)上千人的數(shù)據(jù)采集團(tuán)隊(duì)，沖擊100萬小時(shí)數(shù)據(jù)大關(guān)?！表n峰濤忽地探身，手指地面，仿佛下一代具身模型已經(jīng)被他攥在掌心。

1月12日，千尋智能宣布開源具身模型Spirit v1.5。在RobotChallenge的最新榜單中，它超越此前國際標(biāo)桿Pi0.5，成為迄今為止，全球最強(qiáng)開源具身模型。

開源前兩天，我們?cè)谇ぶ悄鼙本┛偛?，見到了?chuàng)始人韓峰濤，進(jìn)行了一次深度對(duì)話。

對(duì)話千尋智能韓峰濤：真正的機(jī)器人是生產(chǎn)力，不是展品和玩具

具身智能技術(shù)的繁榮背后有另一番景象：花樣迭出的演示demo層出不窮，但實(shí)驗(yàn)室外一項(xiàng)疊衣服任務(wù)就可以難住大多數(shù)廠商。在這種背景下，Spirit v1.5讓人看到了具身智能真正解放人類生產(chǎn)力的可能。

RobotChallenge測試項(xiàng)目中包含插花、桌面清理等30個(gè)桌面項(xiàng)目，旨在還原真實(shí)物理世界的同時(shí)，引入隨機(jī)擾動(dòng)增加泛化挑戰(zhàn)。當(dāng)名為實(shí)驗(yàn)室的“溫室”被移除，Spirit v1.5仍然達(dá)到了50％以上的任務(wù)成功率，作為對(duì)比的是Pi0.5模型42.67％的成績。

一個(gè)關(guān)鍵的問題在于，Spirit v1.5到底是“擠牙膏”之作，還是標(biāo)志著具身模型快速攀升期的開始？韓峰濤堅(jiān)信是后者。

2026年被他描述成一個(gè)充滿競爭和希望的年份，數(shù)據(jù)和算法收斂，具身模型性能通過scaling的方式快速攀升，火熱的融資緊隨其后。類似的故事發(fā)生在2023年，主角是大語言模型。

“26年之于具身智能，就是23年之于大語言模型，”韓峰濤說，“具身智能的GPT moment一定會(huì)在26年出現(xiàn)。”

數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量。為此，千尋智能要將自建的數(shù)據(jù)工廠擴(kuò)張至近千人規(guī)模。而作為行業(yè)少見的模型、本體并舉的全棧公司，韓峰濤選擇自研硬件的初衷也是為模型提供更高質(zhì)量的數(shù)據(jù)。因?yàn)槟Ｐ秃陀布壎ǎ?lián)合設(shè)計(jì)，軟硬一體，效果最好。

“最好的機(jī)器人就是你自己做的機(jī)器人?！彼f。

韓峰濤的另一重身份，或許可以解釋他對(duì)具身模型的篤信。

2014年被稱為中國工業(yè)機(jī)器人元年，同年年底，韓峰濤和同伴創(chuàng)立了珞石機(jī)器人，這家公司在日后躋身國產(chǎn)工業(yè)機(jī)器人前三。一段差不多同期的歷史進(jìn)程，是整個(gè)中國工業(yè)機(jī)器人行業(yè)的崛起。從2015年到2024年，國產(chǎn)工業(yè)機(jī)器人的市場占有率從3％躍升至50％。

讀懂過去的人會(huì)看到未來。當(dāng)韓峰濤創(chuàng)立千尋智能時(shí)，他知道具身智能并不新鮮。曾經(jīng)的研究者嘗試把深度學(xué)習(xí)技術(shù)用在機(jī)器人身上，但當(dāng)時(shí)AI的智能水平還不足以勝任嚴(yán)肅的生產(chǎn)力場景，最終落地的只有NLP、智能音箱或是掃地機(jī)器人。

那為什么我們今天會(huì)期待，機(jī)器人可以真正干活？

“這一代具身智能的核心變量只有一個(gè)，就是AI技術(shù)發(fā)生的革命性變化，讓機(jī)器人的大腦真正有可能可用了。所以真正的具身智能公司，要思考的核心問題只有一個(gè)，怎么讓具身模型進(jìn)化？”

一個(gè)無可辯駁的事實(shí)是，同樣在百億級(jí)資金的投入下，具身智能的發(fā)展速度遠(yuǎn)落后于大語言模型和自動(dòng)駕駛。韓峰濤將之歸因于數(shù)據(jù)的匱乏。

過去20余年里互聯(lián)網(wǎng)上積累的數(shù)字資產(chǎn)支持了大語言模型的快速爆發(fā)，自動(dòng)駕駛雖然同樣遭遇過數(shù)據(jù)短缺，但沒有智駕功能的車也會(huì)有人買，這為邊賣產(chǎn)品邊采數(shù)據(jù)提供了可能。相較之下，沒有大腦的機(jī)器人完全沒用，這種產(chǎn)品性質(zhì)讓具身智能的數(shù)據(jù)飛輪更難以啟動(dòng)。只有先采集足夠的冷啟動(dòng)數(shù)據(jù)，讓模型能夠支撐機(jī)器人進(jìn)入嚴(yán)肅的生產(chǎn)場景，才能再現(xiàn)當(dāng)年人們邊開車邊采數(shù)的過程。

如何把能干活的機(jī)器人賣出去成為了千尋最關(guān)鍵的命題。·“干活”，一個(gè)半小時(shí)的采訪中韓峰濤平均每兩分鐘提到這個(gè)詞一次?！拔璧柑蝗f次也是一條數(shù)據(jù)，展品賣出去上千臺(tái)等于賣出一臺(tái)。你必須要把那種由模型驅(qū)動(dòng)的、能干活的機(jī)器賣出去，才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來?！彼f。

特斯拉、蔚小理……你可以從韓峰濤的講述中看到很多公司的影子。而歸根結(jié)底，千尋是千尋智能，而不是千尋機(jī)器人。

以下是雷峰網(wǎng)和韓峰濤的對(duì)話，作者進(jìn)行了不改變?cè)獾木庉嬚恚?/p>

千尋智能，不再拿著錘子找釘子

雷峰網(wǎng)：在千尋智能之前，你在2014年創(chuàng)立了珞石機(jī)器人。這十多年里先是中國機(jī)器人行業(yè)經(jīng)歷了快速發(fā)展期，然后整個(gè)行業(yè)從工業(yè)機(jī)器人轉(zhuǎn)向了智能機(jī)器人的競爭。作為兩個(gè)歷史進(jìn)程的親歷者，你會(huì)怎么給中國在世界機(jī)器人行業(yè)所處的位置劃分階段？

韓峰濤：四個(gè)階段。2010年之前，國內(nèi)的工業(yè)機(jī)器人還是全進(jìn)口。10年到20年算是發(fā)展期，這段時(shí)間里國產(chǎn)的零部件、整機(jī)在慢慢發(fā)展，但是市場占有率的提升不高，可以說還比較弱勢。一方面當(dāng)時(shí)剛剛起步，國內(nèi)客戶對(duì)國產(chǎn)機(jī)的接受度低。而且相關(guān)人才也少，很多廠商都是去航空航天、機(jī)械這些專業(yè)把人招來，自己培養(yǎng)。還有一部分原因是工業(yè)周期長，市場比較小，所以那會(huì)的投資人對(duì)工業(yè)沒什么概念。直到2015年左右，機(jī)器人、半導(dǎo)體、高端裝備、醫(yī)藥這些泛工業(yè)方向的投資才開始慢慢變多。

20年疫情開始之后，國外的廠商停產(chǎn)比較嚴(yán)重，只有中國還在正常運(yùn)行。所以當(dāng)國外缺貨的時(shí)候，也只有中國的機(jī)器人能供上貨，客觀上講疫情給了中國機(jī)器人行業(yè)一個(gè)巨大的助推。那幾年里國產(chǎn)機(jī)器人的市場占有率上來了，零部件因?yàn)榇蠹矣玫酶?，也更成熟了?/p>

2015年國產(chǎn)機(jī)器人的市場占有率大概3％，2024年就到50％以上了。國產(chǎn)工業(yè)機(jī)器人的崛起，也就是19年到23年的事。

從24年開始，就是具身智能的競爭了。23年之前中國機(jī)器人行業(yè)處在以硬件、小腦為核心的進(jìn)口替代階段，從24年開始，就要進(jìn)入以大腦為核心的智能機(jī)型時(shí)代。在這個(gè)時(shí)代，有人認(rèn)為將來大腦成熟之后肯定需要很多本體，所以為了服務(wù)大腦開始搞本體、機(jī)器狗。有人認(rèn)為既然核心是大腦，就開始搞大腦，比如我們。總之24年是個(gè)分界點(diǎn)，這之前的機(jī)型都是以小腦、運(yùn)控和硬件為主，之后是以大腦為核心。到今天經(jīng)過兩年的發(fā)展，具身模型在26年就要進(jìn)入快速進(jìn)化的階段。

前三個(gè)階段我們都在追趕，但是到第四個(gè)階段，中國可以說真正跟海外的對(duì)手齊頭并進(jìn)了。

雷峰網(wǎng)：高陽曾經(jīng)說，如果國內(nèi)的具身團(tuán)隊(duì)買了機(jī)器人，訓(xùn)練過程中出了故障可以寄回去修，一周就能郵回來。這樣幾臺(tái)機(jī)器人輪流上，效率會(huì)很快。但宇樹不能這樣給美國的科研團(tuán)隊(duì)維修，只能一次性多寄點(diǎn)配件，導(dǎo)致很浪費(fèi)時(shí)間。你認(rèn)為中國在工業(yè)機(jī)器人領(lǐng)域的優(yōu)勢，會(huì)如何影響今天圍繞具身智能的競爭？

韓峰濤：原來經(jīng)常有人說，中國有供應(yīng)鏈，所以中國的企業(yè)就可以拿到便宜的零部件。但特斯拉的供應(yīng)鏈也在中國，如果中國有好的供應(yīng)鏈，國外的廠商也會(huì)買，所以價(jià)格這件事上中國企業(yè)不存在優(yōu)勢。

那么供應(yīng)鏈的主要優(yōu)勢在于什么呢？在于這個(gè)供應(yīng)鏈體系可以讓我們的迭代速度非常非?？?。高陽給你舉的例子還只是在科研，當(dāng)供應(yīng)鏈就在我24小時(shí)包郵區(qū)之內(nèi)，我的產(chǎn)品可以按照天來迭代。一個(gè)人在深圳做智能硬件，打板廠、芯片廠、焊接廠、維修廠都會(huì)在一個(gè)半小時(shí)車程之內(nèi)。一個(gè)有問題的硬件今天寄回廠商，明天收回來，可能兩天就解決了。如果你在美國，發(fā)個(gè)特快過去也得一周，特朗普還要加關(guān)稅。這種情況下，我的迭代速度是美國公司完全沒辦法比擬的。

但客觀來講，目前美國還是在大腦、小腦和硬件上都有一些優(yōu)勢。硬件領(lǐng)域，中國硬件的主要優(yōu)勢在于便宜，但是要論絕對(duì)性能，仍然是波士頓動(dòng)力和特斯拉領(lǐng)先。你看波士頓動(dòng)力的現(xiàn)場演示，AI能力雖然弱一點(diǎn)，但是他們的動(dòng)作穩(wěn)定性、柔順度、流暢性都很好，這就意味著他們的整個(gè)硬件設(shè)計(jì)、運(yùn)控能力非常強(qiáng)。

雷峰網(wǎng)：既然存在這些差距，為什么你仍然認(rèn)為中國在和海外的對(duì)手齊頭并進(jìn)？

韓峰濤：現(xiàn)在我們搞具身智能，很多點(diǎn)上就是全球領(lǐng)先的。3月份的時(shí)候，我們的模型是國內(nèi)第一個(gè)完成疊衣服任務(wù)的，這也是具身模型里最難的任務(wù)之一。到了25年底26年初，我們基模的綜合能力在RoboChallenge的評(píng)測榜單中位居全球第一，超越了Pi0.5。原先在工業(yè)機(jī)器人和自動(dòng)駕駛的時(shí)代，全球第一是不太敢想象的?，F(xiàn)在我們就是敢，因?yàn)闀r(shí)代機(jī)遇不一樣了。

從中國開始有風(fēng)險(xiǎn)投資到疫情之前，中國幾乎所有的硬科技創(chuàng)業(yè)都是在搞國產(chǎn)化替代。光刻機(jī)、船、飛機(jī)、汽車、手機(jī)、家電、無人機(jī)、全景相機(jī)，甚至是燈，都在干這件事。這是歷史使命，國家要產(chǎn)業(yè)升級(jí)就一定要國產(chǎn)化替代，但對(duì)于創(chuàng)業(yè)者來講這也是痛苦的。我做機(jī)器人，上面有ABB、庫卡、發(fā)那科，國內(nèi)還有匯川、埃斯頓這些競對(duì)。但是你現(xiàn)在回頭看中國制造2025，這個(gè)規(guī)劃2015年發(fā)布，大部分計(jì)劃都提前完成了。疫情之后中國在全球的科技硬實(shí)力，客觀來講是很強(qiáng)的。所以在AI，尤其是具身智能領(lǐng)域，我們起步雖然跟美國還有點(diǎn)差距，但基本上是齊頭并進(jìn)的。

雷峰網(wǎng)：除了面對(duì)的時(shí)代機(jī)遇，你認(rèn)為千尋智能這次創(chuàng)業(yè)，自己還有什么不同？

韓峰濤：一個(gè)主要的區(qū)別是我對(duì)創(chuàng)業(yè)的認(rèn)知。第一次創(chuàng)業(yè)的時(shí)候，是我會(huì)干啥我創(chuàng)啥業(yè)，所以我搞工業(yè)機(jī)器人。而且我也沒有非常關(guān)注市場角度，去考慮應(yīng)該做什么樣的工業(yè)機(jī)器人。而是我覺得什么機(jī)器人好，我喜歡什么樣的工業(yè)機(jī)器人，我就做什么樣的。這就是拿著錘子找釘子，客觀來講是運(yùn)氣好，沾了時(shí)代的光，但我們也沒有成為一家偉大的公司。

所以第二次創(chuàng)業(yè)最核心的變化，就不再是我會(huì)干啥我干啥。如果還按照這個(gè)思路，那我是做硬件的，我就應(yīng)該去賣硬件。但這次具身智能核心的機(jī)會(huì)來源于AI。Embodied AI，embodied是形容詞，本質(zhì)還是AI，所以我們叫千尋智能，不叫千尋機(jī)器人。我去找高陽的時(shí)候說，我們要做AI，要做具身大模型，因?yàn)檫@才是最大的機(jī)會(huì)。

這就是我個(gè)人認(rèn)知的變化，第一次是拿著錘子找釘子，但這次是時(shí)代需要什么，我就干什么。站在你的創(chuàng)業(yè)機(jī)會(huì)上，做什么樣的公司才能抓住時(shí)代機(jī)遇？這決定了你創(chuàng)什么業(yè)。

會(huì)疊衣服比旋風(fēng)踢更重要

雷峰網(wǎng)：你為什么判斷，具身智能行業(yè)的時(shí)代機(jī)遇是具身大模型？

韓峰濤：你想沒想過，為什么會(huì)有具身智能這個(gè)賽道？原因很簡單，就來源于AI技術(shù)進(jìn)步，就來源于大模型。宇樹16年成立，珞石15年成立，樂聚、云深處也都很多年了。原來也有機(jī)器人，但為什么上一代機(jī)器人干不了活，跳不了舞，為什么原來沒人講具身智能？其實(shí)上一代也有人在做具身智能，英文名詞就叫Embodied AI，也是把AI從虛擬世界帶到物理世界。這一批具身智能用的是深度學(xué)習(xí)技術(shù)，但當(dāng)時(shí)的AI智能水平太弱了，所以真正落地的只有NLP、智能音箱，或者給掃地機(jī)器人做視覺規(guī)劃這些場景。

今天這一代具身智能的核心變量只有一個(gè)，就是AI技術(shù)發(fā)生了革命性的變化，這種技術(shù)進(jìn)步讓機(jī)器人的大腦真正有可能可用了。所以真正的具身智能公司，要思考的核心問題只有一個(gè)，怎么讓具身模型進(jìn)化？

具身模型其實(shí)也是大模型，有三要素，數(shù)據(jù)、算力、算法。算力和算法基本上是收斂的，或者說具身模型在訓(xùn)練范式上跟訓(xùn)練多模態(tài)的大語言模型一樣。大語言模型是怎么進(jìn)化過來的？一開始只有LLM，后來開始有圖像有視覺了，叫VLM。GPT-4o采集了很多真人的聲音，說話的語調(diào)音色就更自然了。o就是Omni，全的意思。但是它的全面只存在于虛擬世界，是虛擬的全模態(tài)。機(jī)器人需要物理全模態(tài)，除了能說會(huì)道之外，還要能干活。所以從VLM到VLA，其實(shí)就是在原來圖像、文字、聲音的基礎(chǔ)上加上動(dòng)作。這整個(gè)范式都是一樣的，就是不斷給模型增加模態(tài)。

黃仁勛去年在CES的演講里有一張圖，畫的是從Alexnet深度學(xué)習(xí)，到商湯曠視做的第一代AI，再到OpenAI這種第二代的生成式AI，再到Agent，最后到 Physical AI。這些是一脈相承的，技術(shù)路線已經(jīng)相對(duì)確定了。

雷峰網(wǎng)：但千尋智能現(xiàn)在也在自己做硬件，是出于什么考慮？

韓峰濤：具身智能是一個(gè)長坡厚雪的賽道，后邊這個(gè)曲線就是我們說的長坡。下面2016 ~ 2020是大模型的時(shí)間線。這個(gè)點(diǎn)，對(duì)于大模型來說是2016年OpenAI起步，2020年他們發(fā)了 Skillful Learning的論文，后面就是Scaling Law。上面是具身模型時(shí)間線。很多具身公司是2024年成立的，到今天，基本可以認(rèn)為具身模型到了GPT-2的時(shí)代，接下來我們要到GPT-3。GPT-3干了什么？大力出奇跡。當(dāng)數(shù)據(jù)和算法的都收斂了，大家就知道應(yīng)該投錢采什么數(shù)據(jù)，模型就要快速增長了。

對(duì)話千尋智能韓峰濤：真正的機(jī)器人是生產(chǎn)力，不是展品和玩具

具身智能及大語言模型發(fā)展階段對(duì)比，韓峰濤辦公室圖

所以你看美國的具身智能公司都在干什么？可以引用一下特斯拉的思路，他們不搞商業(yè)化，甚至不著急量產(chǎn)，而是在一點(diǎn)點(diǎn)優(yōu)化機(jī)器人。那為什么特斯拉不買宇樹的機(jī)器人做模型？因?yàn)槟Ｐ透布墙壎ǖ?，最好的機(jī)器人就是你自己做的機(jī)器人。模型跟機(jī)器人聯(lián)合設(shè)計(jì)，軟硬一體，效果最好。而且你看特斯拉的發(fā)布會(huì)，自動(dòng)駕駛的仿真效果特別好。他們有全球最好的仿真器，為什么機(jī)器人不用？因?yàn)榉抡鏀?shù)據(jù)不行，一定得是真實(shí)數(shù)據(jù)，而且得是用自己的機(jī)器人采的真實(shí)數(shù)據(jù)。

另外大家經(jīng)常講，長坡厚雪，沿途下蛋，做硬件也有市場目的。模型能力每達(dá)到一個(gè)級(jí)別，我們就可以下個(gè)蛋，做個(gè)東西。比如我們做三指手而不是五指，一方面是因?yàn)樵谏顖鼍埃甘忠呀?jīng)能完成百分之八九十的活。另外一個(gè)原因是五指手現(xiàn)在還不成熟，我們沿途下蛋的時(shí)候，能量產(chǎn)的產(chǎn)品一定是基于成熟技術(shù)。就像做新能源車，完美的新能源車應(yīng)該是 L5 加固態(tài)電池。但你14 年做Model S、 Model 3的時(shí)候怎么選？17年做理想One的時(shí)候怎么選？那肯定是L0加增程，L0加快充，L0加換電，慢慢再換成L1加增程，L2加三元鋰，L3 加固態(tài)，一步步來。我們現(xiàn)在的三指，就類似于增程。

所以一家好的具身智能公司，一定是以 AI 為核心，但是有世界一流硬件的支持。這個(gè)硬件既從數(shù)據(jù)角度支持模型，又從銷售角度支撐公司運(yùn)營。

雷峰網(wǎng)：你們是一家模型公司，但又要做本體，又要做手，會(huì)不會(huì)太多頭了？

韓峰濤：但你必須得做。具身智能在商業(yè)邏輯上更像自動(dòng)駕駛的新能源車，靈魂是自動(dòng)駕駛軟件，但客戶買的是一臺(tái)更智能的車，所以這兩件事你都得干。在具身智能行業(yè)，只賣模型的生意模式基本不存在。當(dāng)然我們暢想一下，10 年、20 年之后有沒有可能？也有可能。自動(dòng)駕駛，有沒有可能特斯拉的領(lǐng)先幅度越來越大，將來就不造車，只賣FSD？也有可能。但是大概率不會(huì)，因?yàn)橹挥性谧约旱能嚿喜拍苡?xùn)練得最好。

雷峰網(wǎng)：千尋智能計(jì)劃什么時(shí)間進(jìn)入量產(chǎn)階段？

韓峰濤：看你怎么定義量產(chǎn)。如果我們說的是有生產(chǎn)力、可以干活的機(jī)器人，那大概是26年底。今天的模型能力還沒有快速爬升，就像在GPT-2時(shí)代，大模型性能和商湯、谷歌做的Bert模型可能沒那么大差異。但我們?nèi)谫Y的時(shí)候就會(huì)告訴股東，我們是從成立第一天起就想著干模型的公司，我們需要兩年時(shí)間摸索，去找最佳的數(shù)據(jù)配比、最好的數(shù)據(jù)管線、最好的模型結(jié)構(gòu)和算法。

千尋是2024年成立的，這兩年我們把基礎(chǔ)設(shè)施全都搭好了，第三年就要開始數(shù)據(jù)上量，模型性能提升。很快我們會(huì)開源一款具身模型Spirit v1.5，在RobotChallenge榜單排第一，比Pi0.5還要強(qiáng)。未來到Pi0.6打榜之前，我們都會(huì)是全球最強(qiáng)的開源模型。

我們可以用智駕的邏輯梳理具身智能行業(yè)，但是具身智能跟智駕有個(gè)本質(zhì)區(qū)別，那就是車沒有智駕仍然可以開，但沒有大模型的機(jī)器人就是沒用的。當(dāng)你還沒有足夠好的模型，你的機(jī)器人賣出去就只能跳舞，只能做導(dǎo)覽、數(shù)采，這些都不算干活。這當(dāng)然也有價(jià)值，但它是一個(gè)小市場。

將來的具身智能，會(huì)是略低于汽車的價(jià)格，乘以略少于手機(jī)的數(shù)量，這是個(gè)巨大的市場空間。玩具、跳舞、導(dǎo)覽是客觀存在的市場，但這個(gè)市場太小了，一年撐死賣5, 000臺(tái)。每年全球能賣7, 000萬臺(tái)車，10億部手機(jī)，這完全不是一個(gè)量級(jí)的市場。展品和玩具，不算是真正的機(jī)器人。

雷峰網(wǎng)：能干活的才算嗎？

韓峰濤：或者說賣能干活的才有意義。機(jī)器人跳一萬次舞，本質(zhì)上也只有一條數(shù)據(jù)，因?yàn)槊總€(gè)動(dòng)作都跳得一樣。展品賣出去上千臺(tái)，本質(zhì)上等于賣出一臺(tái)，只能產(chǎn)生點(diǎn)營收，對(duì)于模型進(jìn)化沒有幫助。你必須要把那種由模型驅(qū)動(dòng)的、能干活的機(jī)器賣出去，才能讓數(shù)據(jù)飛輪轉(zhuǎn)起來。

而且產(chǎn)品能不能量產(chǎn)，其實(shí)背后就一個(gè)卡點(diǎn)，有啥用。東西只要有用，再貴也有人買。九幾年買個(gè)房才三萬，大哥大一萬多一個(gè)，為啥有人買？私人飛機(jī)幾千萬上億，為啥有人買？有用就一定有人買，那怎么讓機(jī)器人有用？就卡在一個(gè)地方，模型。所以我們選的場景都是能幫助模型進(jìn)化的場景。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))：2025年國內(nèi)部分具身廠商把量產(chǎn)作為主要目標(biāo)，但與此同時(shí)具身模型的進(jìn)展并不顯著，你怎么看？

韓峰濤：特斯拉的AI能力肯定沒問題，但為什么大家都覺得特斯拉的人機(jī)交互做得不好？他是全球最強(qiáng)的AI公司之一，難道他做的模型不如其他的公司嗎？不可能。那原因是什么？第一特斯拉不需要融資，第二特斯拉是直接奔著終局去的。終局就是構(gòu)建一個(gè)通用的本體，加一個(gè)通用的具身模型。

PI在訓(xùn)練模型，Sunday在訓(xùn)練模型，美國沒有人在賣硬件。所有厲害的模型公司都有厲害的硬件，反而只有硬件沒有模型的公司，將來會(huì)面臨很大的挑戰(zhàn)，這是個(gè)戰(zhàn)略選擇的問題。國內(nèi)有很多公司出于股東壓力開始賣硬件，但那不在主航道，核心就只有模型。

雷峰網(wǎng)：你怎么衡量具身模型的進(jìn)化水平？

韓峰濤：可以參考自動(dòng)駕駛。工業(yè)機(jī)器人是L0，加點(diǎn)工業(yè)視覺就是L0.5。但這些東西應(yīng)用場景都很小，只能做那一件事。到2024年底，機(jī)器人可以疊衣服了，就是L1。自動(dòng)駕駛的L1叫單功能輔助駕駛，就是可以自動(dòng)剎車、車道保持。那具身的單一功能是什么？比方說疊衣服、幫我開門、拿瓶水。只做一件事就是L1。其中疊衣服是L1里最難的。如果能疊衣服，那L1級(jí)別的所有任務(wù)就都能干?，F(xiàn)在大家都選這個(gè)場景，其實(shí)就是在秀肌肉。

我剛才講具身智能的機(jī)會(huì)來源于大模型，它的落地也受限于大模型。因?yàn)楫?dāng)你只有L0的時(shí)候，機(jī)器人就只能跳舞。L1的機(jī)器人會(huì)疊衣服了，但是只有在工廠流水線這個(gè)場景才有價(jià)值，因?yàn)榱魉€就只要求人做一件事，相應(yīng)地在商用和家用場景就不行，所以我們L1階段落在了寧德時(shí)代。

模型能力繼續(xù)爬坡，L2叫組合輔助駕駛，能干一長串的事。落到具身上，就從疊衣服進(jìn)化到找到臟衣服、扔進(jìn)洗衣機(jī)、倒洗衣粉、操作洗衣機(jī)、晾衣服、疊好放進(jìn)衣柜這一長串。你只需要給一個(gè)指令，機(jī)器人就能干一長串的事，就是L2。2025年底，模型大概在L1.8左右，我覺得26年夏天就可以到L2了。

雷峰網(wǎng)：那么L2階段，千尋智能理想的落地場景是什么？

韓峰濤：我們現(xiàn)在比較看好零售、物流這些服務(wù)場景。其實(shí)L2階段的場景也要一個(gè)一個(gè)攻克，只是選擇場景的時(shí)候，首先要選一個(gè)有商業(yè)價(jià)值的大場景。

工業(yè)場景為什么選寧德時(shí)代？因?yàn)楣I(yè)里新能源電池行業(yè)的利潤是很可觀的。物流為什么選京東和華為？也是因?yàn)檫@些場景有很好的商業(yè)化和利潤水平。L1、L2的所有場景里，肯定要選那些利潤高且愿意為機(jī)器人付費(fèi)的場景。

具身大年將至，決戰(zhàn)數(shù)據(jù)之巔

雷峰網(wǎng)：對(duì)于具身企業(yè)來說，2026年最緊迫的任務(wù)是什么？

韓峰濤：具身最后的競爭會(huì)是通用大腦的競爭，這至少在美國已經(jīng)是共識(shí)了。數(shù)據(jù)數(shù)量加數(shù)據(jù)質(zhì)量決定模型質(zhì)量，那么在訓(xùn)模型的時(shí)候你就需要回答，用什么數(shù)據(jù)訓(xùn)這個(gè)模型，以及數(shù)據(jù)從哪來。今天領(lǐng)先的具身智能公司，都在解決這個(gè)問題。

你可以買第三方機(jī)器人采數(shù)，但這只能做科研寫論文。而且模型最終要驅(qū)動(dòng)機(jī)器人干活，在其他機(jī)器人上采的數(shù)據(jù)落到不同型號(hào)的機(jī)器人上，數(shù)據(jù)不同構(gòu)會(huì)導(dǎo)致模型性能下降，也就干不了活。

另外一種是特斯拉的方案，他們?cè)谟米约旱臋C(jī)器人搞數(shù)據(jù)。當(dāng)機(jī)器人的外觀、靈巧手、腿、胳膊所有部分都確定下來，就可以大批量生產(chǎn)。到這一步，特斯拉就可以像曾經(jīng)賣它的車一樣，讓機(jī)器人一邊干活一遍采數(shù)。有了數(shù)據(jù)，加上它最大的算力中心和AI人才，就可以訓(xùn)具身模型了。這也是千尋的方案，我們做了一個(gè)機(jī)器人數(shù)據(jù)工廠?，F(xiàn)在我們樓下的數(shù)據(jù)工廠大概有四五十個(gè)采集工位，26年會(huì)增加超過10倍。相比之下特斯拉會(huì)花更多的人工成本，但大家背后的邏輯都一樣，就是盡量采集更多真實(shí)的、重構(gòu)型的數(shù)據(jù)，然后再去訓(xùn)練模型。

雷峰網(wǎng)：智駕廠商的很多路況數(shù)據(jù)是客戶采集的，他們只需要投入很少的人組建自己的數(shù)采團(tuán)隊(duì)。千尋智能已經(jīng)積累了很多客戶，為什么不選擇類似的方案？

韓峰濤：為什么具身智能的發(fā)展速度比大語言模型和自動(dòng)駕駛慢？就是因?yàn)槿睌?shù)據(jù)。大語言模型的快速爆發(fā)，來源于人類過去20多年在互聯(lián)網(wǎng)上積攢的數(shù)字資產(chǎn)。自動(dòng)駕駛一開始也沒數(shù)據(jù)，但沒有自動(dòng)駕駛功能的車也能賣出去，所以客戶可以一邊開車一邊幫他采數(shù)。機(jī)器人不行，沒有大腦就完全沒用。

這也是為什么這兩年我們?cè)谧鲎约旱臄?shù)采設(shè)備，搞我們自己的數(shù)據(jù)管線。因?yàn)槲覀円M量模仿當(dāng)年人們一邊開車一邊采數(shù)的過程，想辦法讓人一邊干活一邊采數(shù)。讓人學(xué)會(huì)遙操機(jī)器人，效率低成本高，安全性也不行，最后的方案收斂到了可穿戴設(shè)備上。讓人穿上數(shù)采設(shè)備，該干啥干啥。

雷峰網(wǎng)：此前自動(dòng)駕駛或大語言模型的發(fā)展，可以給具身數(shù)據(jù)的采集提供什么啟示？

韓峰濤：比如自動(dòng)駕駛，客戶采集回來的數(shù)據(jù)是用來做預(yù)訓(xùn)練的，這部分?jǐn)?shù)據(jù)多了以后，回傳的大部分?jǐn)?shù)據(jù)就沒用了。這時(shí)候車廠會(huì)搞個(gè)小的數(shù)采團(tuán)隊(duì)，采集特定城區(qū)街道，和某種路況下的特定數(shù)據(jù)，這些數(shù)據(jù)就是用來微調(diào)模型的。

具身智能的數(shù)據(jù)也分這兩類。我們會(huì)在工廠、物流、家庭，不限制場景地采集預(yù)訓(xùn)練數(shù)據(jù)，然后在寧德、京東、華為更多地采集后訓(xùn)練的微調(diào)數(shù)據(jù)。微調(diào)數(shù)據(jù)也分兩類。書房、客廳這些場景，我們會(huì)自己搭建，自己采集，因?yàn)楝F(xiàn)在我們沒有這樣的客戶。但是電池、物流這些場景的微調(diào)數(shù)據(jù)，我們就提供數(shù)采設(shè)備，讓客戶到他們的現(xiàn)場去采。

雷峰網(wǎng)：訓(xùn)練具身模型，到底需要采集多大體量的數(shù)據(jù)？

韓峰濤：現(xiàn)在PI和我們加在一起，真機(jī)數(shù)據(jù)也就1萬小時(shí)，可能得1,00萬小時(shí)數(shù)據(jù)才會(huì)有比較好的模型效果。但實(shí)際上我們只需要自己采冷啟動(dòng)數(shù)據(jù)。只要模型能達(dá)到L2水平，能支撐機(jī)器人干活，我們的機(jī)器人就能大批量賣出去。然后我們?cè)匍_發(fā)一個(gè)蘿卜快跑那樣的接管系統(tǒng)，大部分時(shí)候機(jī)器人自主干活，出問題的時(shí)候遠(yuǎn)程接管。這樣數(shù)據(jù)飛輪就能轉(zhuǎn)起來，機(jī)器人用得越多，數(shù)據(jù)越多，模型越好，賣得越多。

而且訓(xùn)到同樣的模型效果，我們的數(shù)據(jù)效率比國內(nèi)競對(duì)要高大概5倍。疊衣服這個(gè)動(dòng)作只用了100多小時(shí)數(shù)據(jù)，國內(nèi)競對(duì)都得上千或者大幾百小時(shí)。

雷峰網(wǎng)：自動(dòng)駕駛能力可以通過百公里急?；蚪庸艽螖?shù)衡量，對(duì)于具身模型有類似的衡量標(biāo)準(zhǔn)嗎？

韓峰濤：定這種衡量標(biāo)準(zhǔn)，首先要限定場景。自動(dòng)駕駛實(shí)際上就限定了開車場景，但機(jī)器人要干的活很多。假設(shè)我們限定在造電池場景，我也可以用自動(dòng)駕駛的邏輯，看平均生產(chǎn)多少電池需要接管一次。如果想收斂在一起衡量，起碼要等到26年，大家都能做這些事情了再比較。

客觀來講，早期很難評(píng)價(jià)一個(gè)模型的好壞，開源模型的榜單測評(píng)是一個(gè)很好的方式，所以26年肯定是一個(gè)打榜的年份。其實(shí)打RobotChallenge我們還是吃虧的，因?yàn)槲覀兪腔谧约旱挠布碜觯跍y評(píng)中使用第三方不同的硬件肯定會(huì)影響模型性能。但是考卷對(duì)我們來講更難，我們反而分?jǐn)?shù)更高，那就是我們的能力更強(qiáng)。

雷峰網(wǎng)：千尋智能的模型團(tuán)隊(duì)現(xiàn)在有多少人？

韓峰濤：將近40個(gè)人，做硬件的也是40個(gè)人左右，目前整個(gè)公司我們大概110人。硬件團(tuán)隊(duì)主要以上半身為主，一體化關(guān)節(jié)、手臂、感知系統(tǒng)，就是攝像頭，還有三指的手。其中手的研發(fā)投入會(huì)比較多，腿好解決，我們的底盤就是一個(gè)類似于室內(nèi)的自動(dòng)駕駛方案。雙腿對(duì)普通的家用機(jī)器人意義不大，你得把坐著能干的活，或者輪式底盤能到的地方的活先干了。

雷峰網(wǎng)：2026年你們還有融資計(jì)劃嗎？

韓峰濤：融，這一次沖L2肯定要拿大錢。26年是模型能力快速進(jìn)化的元年，也會(huì)是具身智能大額融資的元年。原來除了智元和銀河融得稍微多一點(diǎn)，估值上了100億，其他家都沒像六小虎那樣一次融幾億美元，但是26年具身智能也會(huì)有這樣的融資。

26年對(duì)于具身智能，就相當(dāng)于國內(nèi)大語言模型的23年，大家會(huì)看到這件事可以scaling，會(huì)相信具身大模型的能力要開始快速攀升了。現(xiàn)在的具身大模型處在預(yù)訓(xùn)練階段，預(yù)訓(xùn)練差不多了，基于GPT-3.5才能開發(fā)出ChatGPT。具身智能的GPT moment一定會(huì)在26年出現(xiàn)，只要在學(xué)術(shù)上能夠證明就可以，快的話就在上半年。當(dāng)模型能力快速攀升的時(shí)候，融資就會(huì)變得很火熱。

前兩天智譜和Minimax上市，我覺得是一個(gè)標(biāo)志性的事件，虛擬AI開始向物理AI交棒了。無論是技術(shù)的進(jìn)展、投資的熱點(diǎn)、行業(yè)的關(guān)注度都要交放到物理AI上，接下來具身智能要重走一遍大語言模型從2023年到2025年走過的路。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門文章

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

對(duì)話千尋智能韓峰濤：真正的機(jī)器人是生產(chǎn)力，不是展品和玩具

對(duì)話千尋智能韓峰濤：真正的機(jī)器人是生產(chǎn)力，不是展品和玩具