擊敗主場霸主英偉達(dá)與PI！千尋智能登上具身智能「奧林匹克」最高領(lǐng)獎臺

本文作者：向欣

2026-06-03 13:59

導(dǎo)語：榜單登頂同時，千尋官宣完成15億元A+輪融資。

擊敗主場霸主英偉達(dá)與PI！千尋智能登上具身智能「奧林匹克」最高領(lǐng)獎臺

榜單登頂同時，千尋官宣完成15億元A+輪融資。

作者丨向欣

編輯丨高景輝

在競技體育中，有一種勝利含金量最高——在對手主場、用對手制定的規(guī)則、擊敗對手。

剛剛，一家中國公司在北美具身智能的“奧林匹克”賽場上，完成了這一壯舉。

由UC Berkeley、斯坦福和英偉達(dá)聯(lián)合發(fā)起的全球具身智能實(shí)戰(zhàn)評測平臺RoboArena，被譽(yù)為機(jī)器人領(lǐng)域的“Chatbot Arena”。RoboArena最新榜單顯示，千尋智能自研的具身基座模型Spirit v1.6，在技術(shù)全能項目中力壓英偉達(dá)最新模型Cosmos3與Physical Intelligence （以下簡稱PI）Pi0.5，排名全球第一，成為前三名中唯一的中國具身模型。

有趣的是，英偉達(dá)和PI不僅是參賽者，還是賽事的設(shè)計方。就在不久前的NVIDIA GTC Taipei 2026大會上，英偉達(dá)還專門介紹，自家最新發(fā)布的NVIDIA Cosmos 3模型在RoboArena上排名第一。賽事主辦方親自為榜單站臺。

而現(xiàn)在榜首換人了。千尋這次登頂，頗有種踢館成功的意味。以前中美在具身智能賽場是各自練兵，今天千尋直接去美國隊的主場，拿了塊全能金牌。

同時，千尋智能在資本市場上也獲得了頂薪續(xù)約。千尋智能今日正式官宣完成15億元A+輪融資，三個月融資四輪，刷新具身智能行業(yè)融資速度記錄，股東包含一線美元基金、大型產(chǎn)業(yè)投資方以及國資基金，老股東持續(xù)加碼，構(gòu)筑起頂級財務(wù)PE、國際美元基金、實(shí)業(yè)產(chǎn)業(yè)資本、各地方國資等全方位合圍的頂配資本陣容。

至此，千尋今年累計融資金額已近50億元。

技術(shù)登頂與資本頂配兩件事放在一起看，背后傳遞出的信息遠(yuǎn)比表面看到的更加豐富。

過去一年，具身智能領(lǐng)域融資紀(jì)錄不斷刷新，榜單高分層出不窮，但“刷榜”現(xiàn)象讓這些成績的真實(shí)含金量備受質(zhì)疑。

RoboArena受到關(guān)注，正是因為試圖解決這個問題。它把具身Benchmark從標(biāo)準(zhǔn)化考試變成了一場防作弊、重泛化、難以刷分的全球?qū)崙?zhàn)擂臺賽，模型需要面對完全未知的場景和物體，實(shí)打?qū)嵉乜简灧夯耘c穩(wěn)定性。

千尋的模型登頂，也足以讓整個行業(yè)重新審視中國玩家的位置。

長期以來，具身智能領(lǐng)域最重要的話語權(quán)主要掌握在美國頭部機(jī)構(gòu)手中。如今，中國企業(yè)已在模型能力和落地速度上快速追趕，實(shí)現(xiàn)并跑甚至領(lǐng)跑。

在具身智能的技術(shù)對決中，以千尋智能為代表的中國力量已經(jīng)具備了與美國頂尖玩家正面掰手腕的底氣。

大額融資的持續(xù)落地，則讓這種技術(shù)優(yōu)勢有機(jī)會進(jìn)一步轉(zhuǎn)化為數(shù)據(jù)優(yōu)勢和場景優(yōu)勢。中國具身智能企業(yè)，會跑得越來越快。

具身智能的奧林匹克全能賽RoboArena，為什么難拿冠軍？

具身智能行業(yè)一直存在一個現(xiàn)實(shí)問題：評測成績與真實(shí)世界表現(xiàn)并不能簡單畫等號。榜單高分與真實(shí)世界的泛化落地之間，橫亙著一條巨大的鴻溝。

問題出在評測方式上。具身智能領(lǐng)域建立了大量Benchmark。不同榜單覆蓋仿真、真機(jī)、導(dǎo)航、操作、長程任務(wù)以及VLA模型、世界模型等不同條件和方向，為研究者提供了統(tǒng)一的評價體系，也推動了技術(shù)進(jìn)步。

但標(biāo)準(zhǔn)化評測天然存在局限。為了保證可重復(fù)性，大多數(shù)榜單都會固定場景、固定任務(wù)和固定評價規(guī)則。模型經(jīng)過反復(fù)訓(xùn)練后，可以逐漸適應(yīng)這些測試條件。

于是行業(yè)開始出現(xiàn)“刷榜”現(xiàn)象，不少公司針對榜單進(jìn)行專項優(yōu)化，從而刷出高分，但這與具身智能所追求的核心能力“泛化”背道而馳。結(jié)果是，某些模型能夠在特定任務(wù)上取得極高分?jǐn)?shù)，但換環(huán)境、物體或者操作順序，表現(xiàn)可能大幅下降。

這種做法就像學(xué)生靠題海戰(zhàn)術(shù)拿滿分，換個沒做過的題目就束手無策。模型越來越會考試，卻未必越來越會干活。

PI的具身模型核心研究員Karl Pertsch曾犀利地評價這類榜單：“注定是徒勞”。

對于需要進(jìn)入工廠、門店和家庭的機(jī)器人來說，此類成績參考價值不夠高?！八瘛爆F(xiàn)象也削弱了榜單的說服力。

RoboArena的突破性在于重新設(shè)計了評測邏輯，與大多數(shù)Benchmark追求標(biāo)準(zhǔn)化不同，RoboArena把評測重點(diǎn)放在泛化能力上。模型無法提前適配固定場景，每一次測試都需要面對新的環(huán)境、新的物體和新的任務(wù)組合。

這份榜單由UC Berkeley、斯坦福、英偉達(dá)聯(lián)合發(fā)起，是具身智能領(lǐng)域首個國際公開性評測平臺，榜單規(guī)則來自行業(yè)最核心的一批前沿技術(shù)研究者。

值得注意的是，PI的聯(lián)合創(chuàng)始人Sergey Levine、核心研究員Karl Pertsch也是該測試平臺的核心設(shè)計者。

PI，這家由斯坦福、伯克利等頂級研究團(tuán)隊創(chuàng)立的公司，一直被視為具身智能領(lǐng)域最具代表性的技術(shù)標(biāo)桿之一。這意味著行業(yè)最強(qiáng)玩家用自己的標(biāo)準(zhǔn)認(rèn)可了這套評測體系。

為了避免人為的技術(shù)性干預(yù)，RoboArena采用“全球眾包+雙盲”機(jī)制。評測員分布在不同國家和地區(qū)，任務(wù)和場景則由評測研究員自行設(shè)計，多聚焦操作類任務(wù)，測試整個過程中操作員不會獲知模型身份，完全盲測，測試結(jié)果全部開源。

在這種規(guī)則下，賽事對泛化能力的要求近乎苛刻。提前備考的可能性被切斷，參賽模型的每一次測試都是臨場發(fā)揮，需要面對極其多樣化的環(huán)境與任務(wù)，可能是從未見過的物品，也可能是從未適應(yīng)過的場景。

RoboArena的評分機(jī)制也與眾不同，引入了競技體育中的ELO動態(tài)評級算法。

熟悉電競或者國際象棋的人應(yīng)該知道，ELO最大的特點(diǎn)是打敗強(qiáng)者獲得更多積分。不看你贏了多少次，只看你贏了誰。打敗強(qiáng)隊加分高，贏弱隊加分少。

這種機(jī)制大幅降低了刷榜空間，讓真正有實(shí)力的黑馬能夠浮出水面，也能夠持續(xù)淘汰名不副實(shí)的高分選手。

RoboArena中模型的 Elo 分變化趨勢：從左到右，按 Elo 分從低到高排列

如果把傳統(tǒng)Benchmark理解為訓(xùn)練賽，那么RoboArena更接近總決賽。當(dāng)不少團(tuán)隊還在訓(xùn)練賽里爭奪MVP時，千尋已經(jīng)在總決賽里拿到了FMVP。

能在任意場景、任意任務(wù)的隨機(jī)對決中勝出，意味著模型已經(jīng)具備了走出實(shí)驗室、進(jìn)入真實(shí)商業(yè)場景的核心素養(yǎng)。它比任何單一任務(wù)的高分都更具落地參考價值。

客場戰(zhàn)勝英偉達(dá)與PI，千尋半年內(nèi)完成“兩連冠”

這不是千尋第一次登頂國際權(quán)威榜單。今年1月，千尋自研的Spirit v1.5在RoboChallenge的Table30榜單上一舉登頂，超過了之前的最強(qiáng)模型PI0.5。

有意思的是，RoboChallenge和RoboArena的評測邏輯完全不同。前者關(guān)注模型在統(tǒng)一條件下能做到什么水平；后者關(guān)注模型面對隨機(jī)的任務(wù)、未知的世界能否持續(xù)發(fā)揮。

RoboChallenge由Dexmal、Hugging Face、智源研究院等聯(lián)合發(fā)起，是全球首個大規(guī)模真機(jī)（real-robot）具身智能評測平臺，評測采用統(tǒng)一硬件和標(biāo)準(zhǔn)化環(huán)境，要求參賽模型完成30項固定任務(wù)，重點(diǎn)考察模型在相同條件下的綜合能力與任務(wù)完成質(zhì)量。

RoboArena的評測環(huán)境、任務(wù)內(nèi)容和操作對象則都具有較強(qiáng)隨機(jī)性。

Spirit能夠連續(xù)登頂兩套邏輯完全不同的評測體系，說明其在標(biāo)準(zhǔn)化環(huán)境下的綜合能力和開放環(huán)境下的泛化能力，都得到了驗證。

RoboArena的評測任務(wù)由研究員隨機(jī)指定，沒有固定題庫。在眾多測試項目中，“將玩具水豚放入餐盤”和“打開筆記本”兩個任務(wù)，較為典型地體現(xiàn)了Spirit v1.6的能力。它們分別對應(yīng)具身智能里的兩類典型難題：開放環(huán)境中的目標(biāo)識別與操作執(zhí)行，以及精細(xì)力控。

任務(wù)一：將玩具水豚放置到餐盤。Spirit v1.6 VS Pi0.5。

任務(wù)中，桌面中央擺放著一個餐盤，周圍散落著筆、杯子、足球玩具、膠棒等多種物品。

Spirit v1.6準(zhǔn)確識別出玩具水豚，完成抓取并將其放入盤中。Pi0.5則識別錯誤，抓取了綠色杯子，且定位不準(zhǔn)，反復(fù)嘗試仍失敗。

左 Spirit v1.6 右 Pi0.5

差異背后是模型對場景語義的理解深度不同。千尋的模型能夠理解“水豚”這一語義概念，區(qū)分干擾物，并在雜亂環(huán)境中保持抓取穩(wěn)定性；Pi0.5則在目標(biāo)識別階段就出現(xiàn)偏差。

任務(wù)二：打開筆記本。Spirit v1.6 VS Cosmos 3

這屬于物體操作與精細(xì)力控任務(wù)，涉及受力點(diǎn)判斷、開合角度控制和連續(xù)動作規(guī)劃。筆記本開合處較薄，機(jī)器人需要準(zhǔn)確找到能夠施力的位置，還要控制好力度和角度，避免物體滑動導(dǎo)致操作失敗。

Spirit v1.6成功完成整個打開過程。英偉達(dá)最新發(fā)布的Cosmos 3則多次嘗試翻開，始終未能成功。

左 Spirit v1.6 右 Cosmos 3

值得注意的是，Spirit v1.6的測試環(huán)境中還擺放著杯子、毛巾、蔬果等多種干擾物，而Cosmos 3的環(huán)境相對簡單，干擾物較少。

千尋的模型在受力點(diǎn)判斷、實(shí)時力控和任務(wù)理解上更勝一籌，Cosmos 3則沒能定位到筆記本準(zhǔn)確的開合位置，缺乏精細(xì)的閉環(huán)調(diào)節(jié)。

回看RoboChallenge，千尋Spirit v1.5在插花、桌面清理等任務(wù)中同樣表現(xiàn)出色。插花需要精細(xì)力度控制，桌面清理涉及多物體分類與連續(xù)操作，模型均能穩(wěn)定完成。

RoboArena榜單更新后，有人將千尋擊敗英偉達(dá)和PI視為一次“爆冷”。不過，仔細(xì)觀察過去半年千尋的發(fā)展軌跡，了解其連續(xù)登頂RoboChallenge和RoboArena兩大評測體系后，就能夠理解這種領(lǐng)先其實(shí)不能單純用偶然來解釋。

千尋用對手制定的規(guī)則，在對手的主場實(shí)現(xiàn)“兩連冠”，說明Spirit的優(yōu)勢并非來自針對性優(yōu)化，而是模型能力本身的提升。Spirit在環(huán)境理解、目標(biāo)識別、動作規(guī)劃和執(zhí)行穩(wěn)定性方面展現(xiàn)出更強(qiáng)的一致性，整個決策鏈條更加完整。

千尋真正的底牌，不在榜單上

Spirit v1.6的登頂，是千尋技術(shù)實(shí)力的最佳證明。這種實(shí)力已經(jīng)轉(zhuǎn)化為資本市場的吸金力。

今年，千尋三個月融資四輪，刷新了具身智能行業(yè)融資速度記錄，已累計融資近50億元。資金將用于具身基座模型研發(fā)、數(shù)據(jù)體系建設(shè)、場景規(guī)?；虡I(yè)落地三大方面。

從投資陣容看，千尋的股東已經(jīng)是夢之隊級別，包含順為、云鋒等頂級的財務(wù)VC，國際美元基金這類海外資本，石溪資本、兆易創(chuàng)新等實(shí)業(yè)產(chǎn)業(yè)資本。

不同的股東能形成各自助力，財務(wù)VC擅長資本運(yùn)作與投后賦能，美元基金對技術(shù)路線的判斷更偏向全球視野，利于海外市場拓展；產(chǎn)業(yè)戰(zhàn)略投資方則提供供應(yīng)鏈、場景等核心資源。

據(jù)AI科技評論了解，資本市場普遍認(rèn)為，千尋智能近期連續(xù)落地多輪大額融資，是硬科技獨(dú)角獸上市前的戰(zhàn)略鋪路布局。

市場之所以給予這樣的判斷，在于千尋已經(jīng)具備了硬科技企業(yè)走向資本市場所需要的基礎(chǔ)：技術(shù)閉環(huán)與商業(yè)閉環(huán)。

一個廣泛共識是，具身智能的Scaling Law正在遭遇真實(shí)世界數(shù)據(jù)不足的挑戰(zhàn)。高質(zhì)量、規(guī)模化、可持續(xù)獲取的數(shù)據(jù)，已經(jīng)成為決定模型能力上限的關(guān)鍵變量。

圍繞這一問題，千尋構(gòu)建了一套完整的“數(shù)據(jù)金字塔”技術(shù)戰(zhàn)略：底層依托互聯(lián)網(wǎng)通用視頻完成預(yù)訓(xùn)練，中層利用可穿戴設(shè)備采集的真實(shí)交互數(shù)據(jù)進(jìn)行專項迭代，頂層則通過實(shí)際落地場景產(chǎn)生的數(shù)據(jù)持續(xù)優(yōu)化模型表現(xiàn)。

為了解決行業(yè)普遍面臨的“數(shù)據(jù)采集貴、效率低”的痛點(diǎn)，千尋自研了數(shù)據(jù)采集設(shè)備。其自研的uDAS可穿戴數(shù)采設(shè)備歷經(jīng)7次技術(shù)迭代，采集成本降至傳統(tǒng)遙操作方式的十分之一，數(shù)據(jù)可用性提升至95%以上。

設(shè)備實(shí)現(xiàn)了全身關(guān)節(jié)、手部力觸覺多維度信息同步采集，無需搭建實(shí)驗室環(huán)境，可直接在真實(shí)工業(yè)、居家、零售場景作業(yè)。

千尋智能可穿戴數(shù)采設(shè)備已遍布全國

解決采集成本問題只是第一步。對于具身公司而言，更大的挑戰(zhàn)在于如何持續(xù)、穩(wěn)定地獲得海量真實(shí)世界數(shù)據(jù)。

為此，千尋進(jìn)一步搭建起一套分布式數(shù)據(jù)超級工廠體系，組建了國內(nèi)規(guī)模最大的真實(shí)數(shù)據(jù)采集團(tuán)隊，近千臺可穿戴設(shè)備分布在100多個城市同步采集數(shù)據(jù)，并形成了覆蓋采集、清洗、標(biāo)注和質(zhì)檢的數(shù)據(jù)閉環(huán)處理流程。

采用分布式布局，是因為單一地點(diǎn)采集的數(shù)據(jù)場景單一、物品單一，無法覆蓋真實(shí)世界的多樣性。分布式采集網(wǎng)絡(luò)可以在不同城市、不同場景同時進(jìn)行，大幅提升數(shù)據(jù)的場景覆蓋度和品類豐富度。

2026年，千尋計劃將數(shù)據(jù)規(guī)模拓展至100萬小時。

千尋的數(shù)據(jù)訓(xùn)練理念也極為獨(dú)特，他們十分看重“臟數(shù)據(jù)”。

在很多訓(xùn)練體系中，異常數(shù)據(jù)會被盡可能清理掉。而千尋認(rèn)為，真實(shí)世界本身充滿噪聲。機(jī)器人未來面對的環(huán)境，本來就不完美。因此保留一定比例復(fù)雜數(shù)據(jù)、異常數(shù)據(jù)和失敗數(shù)據(jù)，反而有助于提升模型泛化能力。

在千尋看來，多數(shù)玩家仍在使用“溫室數(shù)據(jù)”，導(dǎo)致模型一出實(shí)驗室就水土不服。臟數(shù)據(jù)的訓(xùn)練理念，刻意保留了一部分“不標(biāo)準(zhǔn)答案”，能夠讓千尋的模型在真實(shí)社會中長大，泛化能力天然更強(qiáng)。

這種思路也與RoboArena的評測邏輯高度一致。RoboArena考察的，也正是模型面對不確定因素時的適應(yīng)能力。

數(shù)據(jù)飛輪能否真正轉(zhuǎn)起來，最終還要看機(jī)器人能否進(jìn)入真實(shí)場景。千尋的機(jī)器人已經(jīng)進(jìn)入寧德時代的產(chǎn)線、京東的門店、博世的全球工廠等場景，大量真實(shí)落地場景為千尋提供了美國企業(yè)難以獲取的數(shù)據(jù)礦。此外，千尋還開展了全球化合作與生態(tài)建設(shè)。

由此，千尋構(gòu)成了 “場景沉淀數(shù)據(jù)→數(shù)據(jù)迭代模型→模型反哺產(chǎn)業(yè)” 的完整閉環(huán)。這也是資本敢于重倉的根本邏輯。

中國具身智能企業(yè)，正在成為技術(shù)定義者

此次千尋登頂?shù)囊饬x，不僅屬于一家企業(yè)，也屬于整個中國具身智能產(chǎn)業(yè)的發(fā)展進(jìn)程。

行業(yè)的一個普遍認(rèn)知是，美國負(fù)責(zé)定義具身智能技術(shù)，中國負(fù)責(zé)制造機(jī)器人。如今，這種分工正在發(fā)生變化。

千尋在RoboArena這個由美國頂尖機(jī)構(gòu)設(shè)計、長期由美國公司主導(dǎo)的擂臺上擊敗了主場霸主，證明中國團(tuán)隊在具身模型層面同樣具備全球頂尖的競爭力。

這是中國具身智能從“制造優(yōu)勢”向“技術(shù)話語權(quán)”延伸的關(guān)鍵一步。以千尋為代表的中國戰(zhàn)隊，用硬橋硬馬的真功夫打出了一波漂亮的攻守轉(zhuǎn)換。

而且，具身智能競賽是上半場比論文，下半場比落地，當(dāng)前行業(yè)競爭核心正在轉(zhuǎn)向體系能力建設(shè)。模型、數(shù)據(jù)、硬件和場景深度耦合，單一技術(shù)領(lǐng)先已經(jīng)難以構(gòu)建長期壁壘。

中國企業(yè)也在用場景紅利和工程能力，實(shí)現(xiàn)從追趕到并跑的質(zhì)變。

模型可以通過迭代持續(xù)進(jìn)步，榜單排名也會不斷刷新，但真實(shí)場景中的能力沉淀很難被短期復(fù)制。數(shù)據(jù)如何獲取、場景如何進(jìn)入、模型如何迭代、產(chǎn)品如何落地，這些問題都是行業(yè)發(fā)展的重要命題，而千尋智能已經(jīng)在這場長跑中，率先卡住了身位。

隨著具身智能行業(yè)的發(fā)展，實(shí)戰(zhàn)能力會取代論文數(shù)量成為新的評判標(biāo)準(zhǔn)，場景數(shù)據(jù)會成為比參數(shù)規(guī)模更寶貴的資產(chǎn)，中國具身智能的全球化領(lǐng)跑，才剛剛開始。（雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章