機(jī)器人端側(cè)模型的十字路口

本文作者：朱可軒

2024-12-25 09:34

導(dǎo)語：大模型、機(jī)器人與芯片廠商的拉力賽。

作者｜朱可軒

編輯｜陳彩嫻

自 2023 年以來，以大模型為代表的人工智能與以具身智能為代表的機(jī)器人成為科技發(fā)展的兩股重要力量。與此同時，將人工智能算法、尤其是大模型應(yīng)用于進(jìn)一步提升機(jī)器人智能水平也成為一個自然而然的趨勢。

在這個背景下，“機(jī)器人學(xué)習(xí)”、“具身大腦”成為炙手可熱的名詞。

據(jù) AI 科技評論與多位業(yè)者的交流，我們發(fā)現(xiàn)諸如“具身大腦”的定義并不單一，更通俗廣泛來說，凡是將人工智能算法與機(jī)器人相結(jié)合，用于提升機(jī)器人在交互、感知與控制上的技術(shù)派系都能被列入具身大腦或機(jī)器人學(xué)習(xí)的范疇。

從當(dāng)前情況來看，國內(nèi)專攻機(jī)器人模型的廠商大約可以分為身體控制派和交互感知派，而按技術(shù)源頭則可以粗略分為幾類：

一類是視覺感知派，如穹徹智能、有鹿、若愚科技；一類是強(qiáng)化學(xué)習(xí)派，如 Physical Intelligence；一類是語言模型派，如面壁智能、巖芯數(shù)智、自變量等等。

在解決機(jī)器人大腦問題上，不同技術(shù)派別有不同的路徑之分與觀點差異。單純從過去一年的行業(yè)實踐而言，研究基礎(chǔ)模型出身的大模型派在機(jī)器人領(lǐng)域的落地最為焦慮。

除去激烈的市場競爭，更本質(zhì)的原因是：端側(cè)模型在機(jī)器人終端的落地，中間還隔著芯片的開發(fā)，由此機(jī)器人廠商、大模型廠商與芯片廠商之間形成了一段三角拉力關(guān)系。

而從目前來看，這段三角關(guān)系正在進(jìn)入膠著的負(fù)增強(qiáng)反饋：

首先，端側(cè)模型應(yīng)用在機(jī)器人上需要適配芯片，但芯片的迭代是基于市場需求的：當(dāng)前機(jī)器人還沒有從專業(yè)級產(chǎn)品走向消費級產(chǎn)品，出貨量遠(yuǎn)不如手機(jī)、PC 等硬件設(shè)備，因此適配機(jī)器人端側(cè)模型的芯片姍姍來遲；

其次，機(jī)器人消費市場的擴(kuò)大，極大依賴智能水平的提升，即 AI 模型的迭代，但 AI 模型的升級需要大量真實世界的高質(zhì)量數(shù)據(jù)，依賴于其能搭載在機(jī)器人產(chǎn)品上與用戶進(jìn)行交互；

最終，具身 VLA 的實際效果離消費級可用的精度要求和準(zhǔn)確率還相差甚遠(yuǎn)，機(jī)器人的智能水平迭代變緩，出貨量更少，又反過來影響芯片的研發(fā)與出貨成本。由此三者難舍難分。要打破這個“不可能三角”、走入正反饋增強(qiáng)，需要一方主動打破僵局。

模型廠商期望是芯片廠商，芯片廠商希望是機(jī)器人廠商，而機(jī)器人廠商或又寄希望于模型廠商……那么，誰會是最終的破局者？

大模型在機(jī)器人終端的落地是端側(cè) AI 的一個縮影，至少在短期內(nèi)，將大模型商業(yè)化寄希望于機(jī)器人領(lǐng)域或困難重重。

大模型能為機(jī)器人做什么？

大模型在提升機(jī)器人智能水平過程中扮演著「大腦」的角色，主要體現(xiàn)在泛化與規(guī)劃能力上，但目前在一些大模型接到機(jī)器人的具體操作中，大模型更多是幫助機(jī)器人進(jìn)行簡單的任務(wù)理解與拆分。

具體來看，一方面，目前機(jī)器人依然在執(zhí)行逐個任務(wù)，更多停留在交互層面，沒有看到學(xué)習(xí)能力的增強(qiáng)，多模態(tài)任務(wù)的實現(xiàn)；另一方面，機(jī)器人也更多在執(zhí)行短期動作（疊衣服、做菜、打開微波爐），很少用到大模型的規(guī)劃能力，如能一次做幾十上百步。

例如，面壁智能目前聚焦的目標(biāo)是讓機(jī)器人能夠完成更加多樣復(fù)雜的、長線的、多步操作的任務(wù)，執(zhí)行準(zhǔn)確率更高、泛化性更強(qiáng)、糾錯能力更好，當(dāng)下正在逐個擊破。

事實上，前述目標(biāo)往往是需要在長程規(guī)劃、工具調(diào)用、模型協(xié)同等全方位能力上具備極高專業(yè)性的，這是大模型廠商所擅長的領(lǐng)域。相比之下，機(jī)器人公司在這些方面的積累和突破可能會較為困難，因此，通過合作引入端側(cè)模型，也能夠更高效地解決問題。

就泛化性而言，大模型掌握世界知識、常識知識以及物理建模的能力，幫助機(jī)器人實現(xiàn)泛化能力的提升十分關(guān)鍵，但從前沿成果上來看，泛化性這一部分也還屬于初期摸索階段。

RockAI 所選擇的路徑便是如此，其旗下 Yan 架構(gòu)大模型的技術(shù)路線是，將文本、語音、視頻以及機(jī)體參數(shù)做一個整體對齊，然后一起輸入給大模型。

VLA 大腦模型則通過提升物理建模能力來增強(qiáng)泛化性的，如操縱未見過的東西、理解每個物體的重量等等。不過，在業(yè)內(nèi)看來，VLA 的實際效果離消費級可用的精度和準(zhǔn)確率要求都還相差較遠(yuǎn)。

整體看來，大模型原有的能力暫未在機(jī)器人側(cè)發(fā)揮出來，大模型的泛化、規(guī)劃、糾錯等能力在機(jī)器人側(cè)的應(yīng)用都還比較初步。此前，字節(jié)跳動 GR-2 就曾將文生視頻的嘗試加入到 default 的 policy model 里，但機(jī)器人做若干具體的任務(wù)這方面也還在探索中。

機(jī)器人端側(cè)模型的十字路口

字節(jié) GR-2 通用機(jī)器人

而大模型能力無法發(fā)揮、智能化難以提升的背后，其一是行業(yè)還沒摸索到真正適合機(jī)器人的模型框架：目前有的工作基于多模態(tài)大模型，也有的工作基于 Diffusion Policy 的（如RDT 1B），也有兩者結(jié)合各自負(fù)責(zé)大小腦建模的，但還沒有像 LLM 一般走向統(tǒng)一的架構(gòu)。

此外，不同形態(tài)的機(jī)器人對大模型會有不同的要求，短時間內(nèi)可能實現(xiàn)的設(shè)備泛化是形態(tài)一致，但不同參數(shù)的機(jī)器人，形態(tài)可能還是相對比較一致的。

不同的輸入方式對于大模型也存在挑戰(zhàn)，如四足機(jī)器人和雙足機(jī)器人的行走控制方式差異非常大，在大腦層面，向前走可以統(tǒng)一，但底下細(xì)致的操控方面差異很大。

這意味著，并沒有哪種機(jī)器人形態(tài)更有利于大模型快速實現(xiàn)設(shè)備泛化。當(dāng)下，大模型的大腦派與機(jī)器人的肢體派的融合情況，存在知識壁壘，正在摸索互相打通。

除前述以外，其中最大的難點當(dāng)屬數(shù)據(jù)——模型廠商很難獲取到大量的、多元化（從視覺、語言到動作）的預(yù)訓(xùn)練數(shù)據(jù)，還處在 case by case 的階段，很難提升模型執(zhí)行任務(wù)的泛化性，以及在這基礎(chǔ)上去探索更難的場景。

舉例來看，目前的機(jī)器人還無法做到精確控制手部動作，就是因為缺乏多元指令微調(diào)數(shù)據(jù)集：

大模型精準(zhǔn)控制機(jī)器人用手拿東西，要先輸出目標(biāo)物的坐標(biāo)，而如果是一個五指靈巧手，還要輸出五個手指握東西的點位。而模型先通過視覺與傳感器判斷坐標(biāo)，然后握住再拿起來，這樣的操作在理論上可行，但現(xiàn)在的模型水平甚至無法達(dá)到這種程度。

RockAI CMO 鄒佳思告訴 AI 科技評論，「目前，手部控制還是交給機(jī)器人廠商的小腦來做，我們只需要告訴機(jī)器人要執(zhí)行的動作，比如揮手，我們核心解決的問題是對指令尤其是模糊指令的識別。」

過往指揮機(jī)器人得要用特別精確的指令，而且很多指令都是寫死的。今年的 WAIC 在進(jìn)行機(jī)器人直播時，有的機(jī)器人翻車就是因為指令說得不對，更本質(zhì)是機(jī)器人無法理解自然語言，端側(cè)模型則能提高機(jī)器人對自然語言的理解能力。

「機(jī)器人大腦」的三角關(guān)系

再回到數(shù)據(jù)不足本身，當(dāng)中的關(guān)鍵問題其實在于機(jī)器人廠商暫未實現(xiàn)量產(chǎn)，還無法從專業(yè)級轉(zhuǎn)變?yōu)橄M級產(chǎn)品。

從此前無人駕駛的演進(jìn)歷程來看，特斯拉起初也并非依靠自動駕駛獲取第一批用戶，而是靠車機(jī)本身的性能，之后隨著用戶數(shù)量增多，產(chǎn)生的數(shù)據(jù)也愈發(fā)變多，這樣才有了數(shù)據(jù)訓(xùn)練模型，進(jìn)而改進(jìn)無人駕駛，形成所謂正循環(huán)。

但反觀機(jī)器人當(dāng)下的實際應(yīng)用場景，現(xiàn)如今機(jī)器人的購買對象主要還是研究人員和偏業(yè)務(wù)的團(tuán)隊，并且還要先交錢再生產(chǎn)，實際應(yīng)用場景顯然不夠多。

針對這一情況下，也有業(yè)者向曾向 AI 科技評論分析過破局的關(guān)鍵：依賴所有數(shù)據(jù)都采集自用戶不太現(xiàn)實，如果有團(tuán)隊能夠標(biāo)注出第一版數(shù)據(jù)，可能可以解決這一問題。

不過，要做到這一點并不容易，因為機(jī)器人的數(shù)據(jù)采集并不像大模型一樣從互聯(lián)網(wǎng)下載語料就可以，而是需要真機(jī)采集后做標(biāo)注，而且機(jī)器人所需的數(shù)據(jù)是多元化的，除了語言外還包括觸覺、聲音、力等信息，這一系列過程會非常艱難且昂貴。

不僅如此，在訓(xùn)練方式上也面臨挑戰(zhàn)。由于機(jī)器人訓(xùn)練需要真實場景，相比于以往的大模型，在強(qiáng)化學(xué)習(xí)、機(jī)器人的穩(wěn)定性等方面，實際訓(xùn)練成本都要更高，目前學(xué)術(shù)界也還在探索解法。

換言之，機(jī)器人大模型本身的數(shù)據(jù)標(biāo)注會比文本類、識別類模型更困難，需要一臺真實的設(shè)備才能完成，這也是需要研究攻克的難點，真機(jī)采集數(shù)據(jù)比仿真數(shù)據(jù)更好、更真實，仿真數(shù)據(jù)則有些像大模型在做數(shù)據(jù)合成。

在訓(xùn)練具身大腦的問題上，從預(yù)訓(xùn)練數(shù)據(jù)去學(xué)習(xí)物理世界、學(xué)習(xí)普適的操控能力以及學(xué)習(xí)具身場景普適的規(guī)劃能力，其實仿真數(shù)據(jù)也可以行得通，但沒有真機(jī)數(shù)據(jù)那么真，前提是要足夠多樣到能適配各種設(shè)備、場景。

同時，具身場景的機(jī)器人數(shù)據(jù)和文本大模型的數(shù)據(jù)存在些許差異：從數(shù)據(jù)角度前者會多一維，如景深、3D 點云，但如果從多模態(tài)的角度，并沒有太多區(qū)別，只是模態(tài)維度會更多一點。

這意味著，大模型在機(jī)器人的環(huán)境適用性確實起到一個比較大的作用，但大模型是否會幫助機(jī)器人數(shù)據(jù)采集，業(yè)內(nèi)也仍持觀望態(tài)度。

數(shù)據(jù)之外，算力也是現(xiàn)階段機(jī)器人端模型發(fā)展的關(guān)鍵瓶頸之一。

目前，國內(nèi)研究基礎(chǔ)大模型的主力軍雖然也陸續(xù)在發(fā)力「端側(cè)小模型」，但起步比較晚、技術(shù)進(jìn)展較緩慢，其當(dāng)下重點仍舊放置在云端大模型上，如智譜 GLM-130B、百川、騰訊混元、零一萬物 Yi 等。

這些大模型的參數(shù)規(guī)模動輒上千億，需要大量的算力支持，而機(jī)器人搭載的板卡算力往往是非常小的，如若要跑上千億的大模型，機(jī)器人就需要部署非常高算力的板卡，如此一來，成本高、功耗高、散熱等都會成問題，當(dāng)下最先進(jìn)的聯(lián)發(fā)科 9400 芯片或許都跑不起來。

所以，這些云端模型沒法在機(jī)器人本體上離線部署，這也是面壁智能、RockAI 這些廠商存在市場價值的原因之一。

而如若聯(lián)網(wǎng)調(diào)用的話，執(zhí)行任務(wù)時機(jī)器人會存在延時長的情況。據(jù) AI 科技評論了解，一款國產(chǎn)機(jī)器人曾與一家云端大模型廠商合作，在機(jī)器人上搭載云端大模型、讓機(jī)器人去完成取水的操作時，就曾面對類似問題。

在業(yè)內(nèi)看來，端側(cè) 3B 小模型在任務(wù)泛化、智能理解等任務(wù)上肯定沒有云端千億、萬億大模型強(qiáng)，但 3B 模型也能擁有基礎(chǔ)的圖像理解、自然語言交互與知識庫問答等能力，這就已經(jīng)能解決機(jī)器人的大部分智能需求。

另外，也有觀點認(rèn)為，實際上，機(jī)器人的本體構(gòu)型差異不影響模型研發(fā)，而研究機(jī)器人大模型主要考慮兩個因素：

一是算力環(huán)境，比如一般來說，機(jī)器人的算力模組主要用 Orin，然后使用 Intel 做運控，也有小型機(jī)器人會搭載 ARM 芯片，那么模型廠商需要將模型與不同的芯片適配；二是機(jī)器人肢體參數(shù)不同，也需要做一些簡單的適配，但適配成本也不高。

肢體參數(shù)不同具體來講就是，同樣是機(jī)器人，但身高分別是一米六和一米八，這兩個機(jī)器人的臂展、臂長和手臂能旋轉(zhuǎn)的角度也是不一樣的，這就需要機(jī)器人大模型的算法指令與本體高度適配。

這也是云端模型在機(jī)器人本體上跑的 Bug 之一——云端模型與機(jī)器人本體無法完成高度的適配。

而對于模型廠商來說，機(jī)器人的肢體參數(shù)相當(dāng)于「模態(tài)」。以 RockAI 為例，其只關(guān)心模型輸入的模態(tài)、以及模型跑在什么樣的環(huán)境上。模態(tài)包括視覺、語音、語言等輸入，也包括機(jī)器人自身搭載的傳感器所收集的信息，以及機(jī)器人本體零部件的參數(shù)，這些對機(jī)器人而言全是輸入。

只要輸入不一樣，機(jī)器人都需要做一些簡單的適配，不過，一般適配成本都不高，最大的成本還是芯片適配，當(dāng)前，受制于算力，大模型朝兩端升級的難度較高，中間則相對較低。

一方面往大了做，由于需要大量數(shù)據(jù)和算力，萬億參數(shù)模型會非常難做，模型本身并非難點，主要難在資金投入上。不僅要有萬卡集群，而且集群中途不出差錯是難度系數(shù)非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端，其實是相對容易的；但要做小、跑在手機(jī)、機(jī)器人等終端上，則不是易事。

目前，端側(cè)模型 3B 模型的難點主要在底層卡的運維和構(gòu)建上，除了 3B 外，4B-8B 的模型也都可以應(yīng)用在機(jī)器人上，關(guān)鍵是設(shè)備搭載的芯片大小，4090、A100 都可以搭載。

許多業(yè)者對于機(jī)器人端側(cè)的算力也保持樂觀態(tài)度，在他們看來，機(jī)器人端的算力限制其實沒有手機(jī)那么強(qiáng)，能搭載的算力選擇更多，隨著芯片的進(jìn)一步發(fā)展，或許千億級別的模型也能夠在端側(cè)落地。

不過，需要看到的是，機(jī)器人廠商普遍傾向于用低功耗芯片，現(xiàn)在很多機(jī)器人廠商都還在用驍龍 6，而驍龍 6 每年的出貨量上千萬臺，相當(dāng)于在近五六年里，中低端芯片占據(jù)了芯片市場的主流。

其不愿意選擇高算力的 GPU 的原因在于，從實踐中來看，一般情況下，人形機(jī)器人脫離電源后能堅持一個小時，一旦加了高算力板卡，可能 20 分鐘就會沒電。

但是，端側(cè)模型要跑在較低功耗的 CPU 上是非常難的，因為算力不夠：

業(yè)內(nèi)基于 Transformer 架構(gòu)跑 3B 大小的模型，在驍龍 7 上跑不了，在驍龍 8 上跑起來則需要做量化和壓縮，一旦如此操作，多模態(tài)能力便會出現(xiàn)大幅下降，需要在能力和算力需求之間尋求平衡點，這會進(jìn)一步阻止機(jī)器人廠商采購模型的動力。

從當(dāng)前情況來看，許多模型廠商正在做這方面的權(quán)衡取舍，在此之中關(guān)鍵則在于推理優(yōu)化水平的高低：模型做小、落在端側(cè)上，需要工程人員將模型優(yōu)化，使其在量化后仍能保持性能、速度和對算力的要求。

有機(jī)器人領(lǐng)域從業(yè)者向 AI 科技評論透露，像智譜、百川這樣的大模型基座，不是不考慮端側(cè)，而是做不了的問題，現(xiàn)在手機(jī)廠商與機(jī)器人的廠商，基本在 RockAI、面壁與通義三者中選擇。

回到芯片的問題，就算是機(jī)器人廠商愿意用高算力 CPU 或者 GPU，也會面臨成本問題：

從手機(jī)廠商的例子中來看，小米使用高通 8 的手機(jī)都是售價 5000 塊以上，如果疊加大模型，價格或許會接近一萬，而高端機(jī)的消費人群也是少數(shù)。要等到聯(lián)發(fā)科 9400 或者驍龍 8 占領(lǐng)市場，還有三至五年的時間窗口。

值得一提的是，機(jī)器人端大模型還面臨著本體的挑戰(zhàn)，業(yè)內(nèi)研究有發(fā)現(xiàn)本體是一個特別大的瓶頸，更有觀點認(rèn)為，整個行業(yè)可能還沒到模型、數(shù)據(jù)挑戰(zhàn)階段。

如何跳出「死循環(huán)」？

機(jī)器人大模型要向前邁進(jìn)需要倚靠三方合力，不能只是大模型廠商的一廂情愿，而是要同機(jī)器人廠商、芯片廠商聯(lián)合起來，共同鑿開一條光明之路。

當(dāng)前，也有不少大模型廠商給出了解決方案，比如以智源、智譜等為代表的單位就設(shè)計了一個端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式：

首先在云端訓(xùn)練大模型，然后通過知識蒸餾、模型量化等方式得到一個小模型，再把這個輕量化的小模型部署在終端上，如果終端搭載一個英偉達(dá)的板卡，就可以部署一個小如 1B 的模型。目前理想汽車就已經(jīng)能夠在英偉達(dá)的板卡上部署 2B 的模型。

這種做法既能保持住大模型的能力，也可以更高效地部署。

也有像 RockAI 這樣的廠商，基于非 Transformer 架構(gòu)在一些搭載了純 CPU 或 CPU+NPU（低端芯片）的機(jī)器人上跑起來，來降低算力要求和功耗。（關(guān)于非 Transformer 架構(gòu)的更多內(nèi)容，可以閱讀 AI 科技評論往期報道：《誰將替代 Transformer？》）

另外，由于芯片有迭代周期，需要三年、五年甚至更長的時間。雖然有說法認(rèn)為，小模型跑在端側(cè)上的壁壘是芯片，但并不是說芯片廠商研發(fā)出了最新的芯片，第二年所有設(shè)備廠商就會更新?lián)Q代。

基于此，市場的機(jī)遇則在于存量市場，換言之就是，有沒有大模型廠商能在現(xiàn)有算力的基礎(chǔ)上滿足機(jī)器人的智能需求。

RockAI 也在做這方面的布局，鄒佳思告訴 AI 科技評論，「我們現(xiàn)在做端側(cè)和高通、聯(lián)發(fā)科、英特爾、ARM、華為的芯片都有適配過，用了四個月時間完成了華為昇騰 910 和 310 系列芯片的適配工作，包括訓(xùn)練卡和推理卡?！?/p>

「樂聚之所以選擇與我們合作，也是因為我們能做他們的存量市場。這意味著他們不需要等高通或英特爾發(fā)布更高性能的芯片才能跑模型，這樣是有問題的，因為相當(dāng)于還得等硬件先發(fā)展?！?/p>

所謂芯片適配，其實是現(xiàn)階段為了對芯片的 AI 算力進(jìn)行充分利用，讓模型運行更加高效，必須針對模型架構(gòu)、依托芯片計算單元特點，對推理框架進(jìn)行優(yōu)化。

這項優(yōu)化工作不僅需要對芯片計算單元、推理算子有足夠的理解，還需要對模型結(jié)構(gòu)有足夠的認(rèn)知，因此需要芯片廠商與模型公司共同協(xié)作才能快速推進(jìn)。

也有觀點認(rèn)為，現(xiàn)在很多端側(cè)模型無法落地，不是因為機(jī)器人的硬件不行或需求不足，而是大模型的技術(shù)還不夠成熟和完善，所以無法觸及到那么大的市場。

不過，雖然通過現(xiàn)有芯片也能做許多圖像、音頻等處理，但有些任務(wù)還是需要突破芯片困局后才能進(jìn)一步實現(xiàn)，比如實時捕捉視頻、識別實時視頻流這一點，依靠現(xiàn)階段的芯片性能便無法實現(xiàn)。

舉例來看，讓機(jī)器人描述在環(huán)境里看到了什么，它實際上看到的是一張照片，如果在它面前做一個打叉的手勢，因為這個手勢是連貫的動作，機(jī)器人可能捕捉不到（因為只能識別圖片），只能捕捉到其中一個動作，那么它也許就無法理解這個動作的意思。

而要想識別視頻流、捕捉中間動作過程，則對算力有著極高的要求。

「視覺這塊我們現(xiàn)在做不上去，有更高算力芯片后就會好辦了。哪怕是基于 9400 芯片，當(dāng)前的大模型廠商都很難把視頻能力放上去?！褂袡C(jī)器人領(lǐng)域從業(yè)者告訴 AI 科技評論。

所以，芯片廠商實現(xiàn)高端芯片的突破，將芯片做到高算力、低功耗并行也是當(dāng)下所需，芯片的躍升會給模型帶來更多機(jī)會。

值得一提的是，電池廠商輔助延長續(xù)航也十分關(guān)鍵，但遺憾的是，如今的電池廠商在機(jī)器人市場還未發(fā)力，這歸根到底是機(jī)器人市場不夠廣闊所致。

有業(yè)者向 AI 科技評論透露，「目前發(fā)展較好的機(jī)器人廠商一年出貨量能有幾百臺已經(jīng)算很高了，但對于電池廠商而言，這種程度的出貨量遠(yuǎn)遠(yuǎn)不夠，在他們看來不值得投入大量金錢與人力去做技術(shù)突破?！?/p>

最終，回歸到出貨量的破局，這方面還得靠機(jī)器人廠商自身拿主意，首先就是要本體做得足夠更好，穩(wěn)定性高，能克服各種復(fù)雜惡劣地形，覆蓋多種場景等。

目前，PC、手機(jī)端也有端側(cè)模型，但后者的出貨量很顯然遠(yuǎn)大于機(jī)器人，數(shù)據(jù)量也會更大。

如此來看，端側(cè)芯片的迭代會更多放在手機(jī)、PC 等硬件設(shè)備上，機(jī)器人側(cè)的芯片迭代速度會更慢，無法支撐模型需求，模型的迭代也會受險阻，而算法迭代減緩，機(jī)器人智能水平迭代減緩，出貨量就更小。

在業(yè)內(nèi)的構(gòu)想中，如果能解決出貨量的問題，之后量產(chǎn)得到提升，隨之場景也能增多，如若一年能量產(chǎn)上千上萬臺，自然而然會有上游廠商找過來，資源也會跟著涌進(jìn)來。

不過，值得一提的是，PC、手機(jī)端的競爭正逐步走向白熱化，因為其端側(cè)模型已經(jīng)走向自研。據(jù) AI 科技評論了解，vivo 的云端模型是基于智譜做的，但本地是完全自研的。

這也意味著機(jī)器人側(cè)大模型的創(chuàng)業(yè)空間會比較大：在對于端側(cè)模型的需求上，機(jī)器人最主要的交互方式是語音和視覺，核心訴求是實現(xiàn)擬人化，即整個交互下來機(jī)器人更像是個人，手機(jī)則無需特別擬人，主要是完成日常工作，目前發(fā)力點在于打通系統(tǒng)應(yīng)用。

長期來看，模型廠商、芯片廠商與機(jī)器人廠商都還有很大的探索提升空間，面對當(dāng)下存在的量產(chǎn)不足、芯片困境以及數(shù)據(jù)量不足，以至于難以提升智能水平的閉環(huán)問題上，亟需三方積極向彼此靠攏，并有一方跳出來主動破局。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章