日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

機(jī)器人端側(cè)模型的十字路口

本文作者: 朱可軒   2024-12-25 09:34
導(dǎo)語:大模型、機(jī)器人與芯片廠商的拉力賽。

作者|朱可軒

編輯|陳彩嫻

自 2023 年以來,以大模型為代表的人工智能與以具身智能為代表的機(jī)器人成為科技發(fā)展的兩股重要力量。與此同時,將人工智能算法、尤其是大模型應(yīng)用于進(jìn)一步提升機(jī)器人智能水平也成為一個自然而然的趨勢。

在這個背景下,“機(jī)器人學(xué)習(xí)”、“具身大腦”成為炙手可熱的名詞。

據(jù) AI 科技評論與多位業(yè)者的交流,我們發(fā)現(xiàn)諸如“具身大腦”的定義并不單一,更通俗廣泛來說,凡是將人工智能算法與機(jī)器人相結(jié)合,用于提升機(jī)器人在交互、感知與控制上的技術(shù)派系都能被列入具身大腦或機(jī)器人學(xué)習(xí)的范疇。

從當(dāng)前情況來看,國內(nèi)專攻機(jī)器人模型的廠商大約可以分為身體控制派和交互感知派,而按技術(shù)源頭則可以粗略分為幾類:

一類是視覺感知派,如穹徹智能、有鹿、若愚科技;一類是強(qiáng)化學(xué)習(xí)派,如 Physical Intelligence;一類是語言模型派,如面壁智能、巖芯數(shù)智、自變量等等。

在解決機(jī)器人大腦問題上,不同技術(shù)派別有不同的路徑之分與觀點(diǎn)差異。單純從過去一年的行業(yè)實踐而言,研究基礎(chǔ)模型出身的大模型派在機(jī)器人領(lǐng)域的落地最為焦慮。

除去激烈的市場競爭,更本質(zhì)的原因是:端側(cè)模型在機(jī)器人終端的落地,中間還隔著芯片的開發(fā),由此機(jī)器人廠商、大模型廠商與芯片廠商之間形成了一段三角拉力關(guān)系。

而從目前來看,這段三角關(guān)系正在進(jìn)入膠著的負(fù)增強(qiáng)反饋:

首先,端側(cè)模型應(yīng)用在機(jī)器人上需要適配芯片,但芯片的迭代是基于市場需求的:當(dāng)前機(jī)器人還沒有從專業(yè)級產(chǎn)品走向消費(fèi)級產(chǎn)品,出貨量遠(yuǎn)不如手機(jī)、PC 等硬件設(shè)備,因此適配機(jī)器人端側(cè)模型的芯片姍姍來遲;

其次,機(jī)器人消費(fèi)市場的擴(kuò)大,極大依賴智能水平的提升,即 AI 模型的迭代,但 AI 模型的升級需要大量真實世界的高質(zhì)量數(shù)據(jù),依賴于其能搭載在機(jī)器人產(chǎn)品上與用戶進(jìn)行交互;

最終,具身 VLA 的實際效果離消費(fèi)級可用的精度要求和準(zhǔn)確率還相差甚遠(yuǎn),機(jī)器人的智能水平迭代變緩,出貨量更少,又反過來影響芯片的研發(fā)與出貨成本。由此三者難舍難分。要打破這個“不可能三角”、走入正反饋增強(qiáng),需要一方主動打破僵局。

模型廠商期望是芯片廠商,芯片廠商希望是機(jī)器人廠商,而機(jī)器人廠商或又寄希望于模型廠商……那么,誰會是最終的破局者?

大模型在機(jī)器人終端的落地是端側(cè) AI 的一個縮影,至少在短期內(nèi),將大模型商業(yè)化寄希望于機(jī)器人領(lǐng)域或困難重重。


大模型能為機(jī)器人做什么?


大模型在提升機(jī)器人智能水平過程中扮演著「大腦」的角色,主要體現(xiàn)在泛化與規(guī)劃能力上,但目前在一些大模型接到機(jī)器人的具體操作中,大模型更多是幫助機(jī)器人進(jìn)行簡單的任務(wù)理解與拆分。

具體來看,一方面,目前機(jī)器人依然在執(zhí)行逐個任務(wù),更多停留在交互層面,沒有看到學(xué)習(xí)能力的增強(qiáng),多模態(tài)任務(wù)的實現(xiàn);另一方面,機(jī)器人也更多在執(zhí)行短期動作(疊衣服、做菜、打開微波爐),很少用到大模型的規(guī)劃能力,如能一次做幾十上百步。

例如,面壁智能目前聚焦的目標(biāo)是讓機(jī)器人能夠完成更加多樣復(fù)雜的、長線的、多步操作的任務(wù),執(zhí)行準(zhǔn)確率更高、泛化性更強(qiáng)、糾錯能力更好,當(dāng)下正在逐個擊破。

事實上,前述目標(biāo)往往是需要在長程規(guī)劃、工具調(diào)用、模型協(xié)同等全方位能力上具備極高專業(yè)性的,這是大模型廠商所擅長的領(lǐng)域。相比之下,機(jī)器人公司在這些方面的積累和突破可能會較為困難,因此,通過合作引入端側(cè)模型,也能夠更高效地解決問題。

就泛化性而言,大模型掌握世界知識、常識知識以及物理建模的能力,幫助機(jī)器人實現(xiàn)泛化能力的提升十分關(guān)鍵,但從前沿成果上來看,泛化性這一部分也還屬于初期摸索階段。

RockAI 所選擇的路徑便是如此,其旗下 Yan 架構(gòu)大模型的技術(shù)路線是,將文本、語音、視頻以及機(jī)體參數(shù)做一個整體對齊,然后一起輸入給大模型。

VLA 大腦模型則通過提升物理建模能力來增強(qiáng)泛化性的,如操縱未見過的東西、理解每個物體的重量等等。不過,在業(yè)內(nèi)看來,VLA 的實際效果離消費(fèi)級可用的精度和準(zhǔn)確率要求都還相差較遠(yuǎn)。

整體看來,大模型原有的能力暫未在機(jī)器人側(cè)發(fā)揮出來,大模型的泛化、規(guī)劃、糾錯等能力在機(jī)器人側(cè)的應(yīng)用都還比較初步。此前,字節(jié)跳動 GR-2 就曾將文生視頻的嘗試加入到 default 的 policy model 里,但機(jī)器人做若干具體的任務(wù)這方面也還在探索中。

機(jī)器人端側(cè)模型的十字路口

字節(jié) GR-2 通用機(jī)器人

而大模型能力無法發(fā)揮、智能化難以提升的背后,其一是行業(yè)還沒摸索到真正適合機(jī)器人的模型框架:目前有的工作基于多模態(tài)大模型,也有的工作基于 Diffusion Policy 的(如RDT 1B),也有兩者結(jié)合各自負(fù)責(zé)大小腦建模的,但還沒有像 LLM 一般走向統(tǒng)一的架構(gòu)。

此外,不同形態(tài)的機(jī)器人對大模型會有不同的要求,短時間內(nèi)可能實現(xiàn)的設(shè)備泛化是形態(tài)一致,但不同參數(shù)的機(jī)器人,形態(tài)可能還是相對比較一致的。

不同的輸入方式對于大模型也存在挑戰(zhàn),如四足機(jī)器人和雙足機(jī)器人的行走控制方式差異非常大,在大腦層面,向前走可以統(tǒng)一,但底下細(xì)致的操控方面差異很大。

這意味著,并沒有哪種機(jī)器人形態(tài)更有利于大模型快速實現(xiàn)設(shè)備泛化。當(dāng)下,大模型的大腦派與機(jī)器人的肢體派的融合情況,存在知識壁壘,正在摸索互相打通。

除前述以外,其中最大的難點(diǎn)當(dāng)屬數(shù)據(jù)——模型廠商很難獲取到大量的、多元化(從視覺、語言到動作)的預(yù)訓(xùn)練數(shù)據(jù),還處在 case by case 的階段,很難提升模型執(zhí)行任務(wù)的泛化性,以及在這基礎(chǔ)上去探索更難的場景。

舉例來看,目前的機(jī)器人還無法做到精確控制手部動作,就是因為缺乏多元指令微調(diào)數(shù)據(jù)集:

大模型精準(zhǔn)控制機(jī)器人用手拿東西,要先輸出目標(biāo)物的坐標(biāo),而如果是一個五指靈巧手,還要輸出五個手指握東西的點(diǎn)位。而模型先通過視覺與傳感器判斷坐標(biāo),然后握住再拿起來,這樣的操作在理論上可行,但現(xiàn)在的模型水平甚至無法達(dá)到這種程度。

RockAI CMO 鄒佳思告訴 AI 科技評論,「目前,手部控制還是交給機(jī)器人廠商的小腦來做,我們只需要告訴機(jī)器人要執(zhí)行的動作,比如揮手,我們核心解決的問題是對指令尤其是模糊指令的識別?!?/p>

過往指揮機(jī)器人得要用特別精確的指令,而且很多指令都是寫死的。今年的 WAIC 在進(jìn)行機(jī)器人直播時,有的機(jī)器人翻車就是因為指令說得不對,更本質(zhì)是機(jī)器人無法理解自然語言,端側(cè)模型則能提高機(jī)器人對自然語言的理解能力。


「機(jī)器人大腦」的三角關(guān)系


再回到數(shù)據(jù)不足本身,當(dāng)中的關(guān)鍵問題其實在于機(jī)器人廠商暫未實現(xiàn)量產(chǎn),還無法從專業(yè)級轉(zhuǎn)變?yōu)橄M(fèi)級產(chǎn)品。

從此前無人駕駛的演進(jìn)歷程來看,特斯拉起初也并非依靠自動駕駛獲取第一批用戶,而是靠車機(jī)本身的性能,之后隨著用戶數(shù)量增多,產(chǎn)生的數(shù)據(jù)也愈發(fā)變多,這樣才有了數(shù)據(jù)訓(xùn)練模型,進(jìn)而改進(jìn)無人駕駛,形成所謂正循環(huán)。

但反觀機(jī)器人當(dāng)下的實際應(yīng)用場景,現(xiàn)如今機(jī)器人的購買對象主要還是研究人員和偏業(yè)務(wù)的團(tuán)隊,并且還要先交錢再生產(chǎn),實際應(yīng)用場景顯然不夠多。

針對這一情況下,也有業(yè)者向曾向 AI 科技評論分析過破局的關(guān)鍵:依賴所有數(shù)據(jù)都采集自用戶不太現(xiàn)實,如果有團(tuán)隊能夠標(biāo)注出第一版數(shù)據(jù),可能可以解決這一問題。

不過,要做到這一點(diǎn)并不容易,因為機(jī)器人的數(shù)據(jù)采集并不像大模型一樣從互聯(lián)網(wǎng)下載語料就可以,而是需要真機(jī)采集后做標(biāo)注,而且機(jī)器人所需的數(shù)據(jù)是多元化的,除了語言外還包括觸覺、聲音、力等信息,這一系列過程會非常艱難且昂貴。

不僅如此,在訓(xùn)練方式上也面臨挑戰(zhàn)。由于機(jī)器人訓(xùn)練需要真實場景,相比于以往的大模型,在強(qiáng)化學(xué)習(xí)、機(jī)器人的穩(wěn)定性等方面,實際訓(xùn)練成本都要更高,目前學(xué)術(shù)界也還在探索解法。

換言之,機(jī)器人大模型本身的數(shù)據(jù)標(biāo)注會比文本類、識別類模型更困難,需要一臺真實的設(shè)備才能完成,這也是需要研究攻克的難點(diǎn),真機(jī)采集數(shù)據(jù)比仿真數(shù)據(jù)更好、更真實,仿真數(shù)據(jù)則有些像大模型在做數(shù)據(jù)合成。

在訓(xùn)練具身大腦的問題上,從預(yù)訓(xùn)練數(shù)據(jù)去學(xué)習(xí)物理世界、學(xué)習(xí)普適的操控能力以及學(xué)習(xí)具身場景普適的規(guī)劃能力,其實仿真數(shù)據(jù)也可以行得通,但沒有真機(jī)數(shù)據(jù)那么真,前提是要足夠多樣到能適配各種設(shè)備、場景。

同時,具身場景的機(jī)器人數(shù)據(jù)和文本大模型的數(shù)據(jù)存在些許差異:從數(shù)據(jù)角度前者會多一維,如景深、3D 點(diǎn)云,但如果從多模態(tài)的角度,并沒有太多區(qū)別,只是模態(tài)維度會更多一點(diǎn)。

這意味著,大模型在機(jī)器人的環(huán)境適用性確實起到一個比較大的作用,但大模型是否會幫助機(jī)器人數(shù)據(jù)采集,業(yè)內(nèi)也仍持觀望態(tài)度。

數(shù)據(jù)之外,算力也是現(xiàn)階段機(jī)器人端模型發(fā)展的關(guān)鍵瓶頸之一。

目前,國內(nèi)研究基礎(chǔ)大模型的主力軍雖然也陸續(xù)在發(fā)力「端側(cè)小模型」,但起步比較晚、技術(shù)進(jìn)展較緩慢,其當(dāng)下重點(diǎn)仍舊放置在云端大模型上,如智譜 GLM-130B、百川、騰訊混元、零一萬物 Yi 等。

這些大模型的參數(shù)規(guī)模動輒上千億,需要大量的算力支持,而機(jī)器人搭載的板卡算力往往是非常小的,如若要跑上千億的大模型,機(jī)器人就需要部署非常高算力的板卡,如此一來,成本高、功耗高、散熱等都會成問題,當(dāng)下最先進(jìn)的聯(lián)發(fā)科 9400 芯片或許都跑不起來。

所以,這些云端模型沒法在機(jī)器人本體上離線部署,這也是面壁智能、RockAI 這些廠商存在市場價值的原因之一。

而如若聯(lián)網(wǎng)調(diào)用的話,執(zhí)行任務(wù)時機(jī)器人會存在延時長的情況。據(jù) AI 科技評論了解,一款國產(chǎn)機(jī)器人曾與一家云端大模型廠商合作,在機(jī)器人上搭載云端大模型、讓機(jī)器人去完成取水的操作時,就曾面對類似問題。

在業(yè)內(nèi)看來,端側(cè) 3B 小模型在任務(wù)泛化、智能理解等任務(wù)上肯定沒有云端千億、萬億大模型強(qiáng),但 3B 模型也能擁有基礎(chǔ)的圖像理解、自然語言交互與知識庫問答等能力,這就已經(jīng)能解決機(jī)器人的大部分智能需求。

另外,也有觀點(diǎn)認(rèn)為,實際上,機(jī)器人的本體構(gòu)型差異不影響模型研發(fā),而研究機(jī)器人大模型主要考慮兩個因素:

一是算力環(huán)境,比如一般來說,機(jī)器人的算力模組主要用 Orin,然后使用 Intel 做運(yùn)控,也有小型機(jī)器人會搭載 ARM 芯片,那么模型廠商需要將模型與不同的芯片適配;二是機(jī)器人肢體參數(shù)不同,也需要做一些簡單的適配,但適配成本也不高。

肢體參數(shù)不同具體來講就是,同樣是機(jī)器人,但身高分別是一米六和一米八,這兩個機(jī)器人的臂展、臂長和手臂能旋轉(zhuǎn)的角度也是不一樣的,這就需要機(jī)器人大模型的算法指令與本體高度適配。

這也是云端模型在機(jī)器人本體上跑的 Bug 之一——云端模型與機(jī)器人本體無法完成高度的適配。

而對于模型廠商來說,機(jī)器人的肢體參數(shù)相當(dāng)于「模態(tài)」。以 RockAI 為例,其只關(guān)心模型輸入的模態(tài)、以及模型跑在什么樣的環(huán)境上。模態(tài)包括視覺、語音、語言等輸入,也包括機(jī)器人自身搭載的傳感器所收集的信息,以及機(jī)器人本體零部件的參數(shù),這些對機(jī)器人而言全是輸入。

只要輸入不一樣,機(jī)器人都需要做一些簡單的適配,不過,一般適配成本都不高,最大的成本還是芯片適配,當(dāng)前,受制于算力,大模型朝兩端升級的難度較高,中間則相對較低。

一方面往大了做,由于需要大量數(shù)據(jù)和算力,萬億參數(shù)模型會非常難做,模型本身并非難點(diǎn),主要難在資金投入上。不僅要有萬卡集群,而且集群中途不出差錯是難度系數(shù)非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端,其實是相對容易的;但要做小、跑在手機(jī)、機(jī)器人等終端上,則不是易事。

目前,端側(cè)模型 3B 模型的難點(diǎn)主要在底層卡的運(yùn)維和構(gòu)建上,除了 3B 外,4B-8B 的模型也都可以應(yīng)用在機(jī)器人上,關(guān)鍵是設(shè)備搭載的芯片大小,4090、A100 都可以搭載。

許多業(yè)者對于機(jī)器人端側(cè)的算力也保持樂觀態(tài)度,在他們看來,機(jī)器人端的算力限制其實沒有手機(jī)那么強(qiáng),能搭載的算力選擇更多,隨著芯片的進(jìn)一步發(fā)展,或許千億級別的模型也能夠在端側(cè)落地。

不過,需要看到的是,機(jī)器人廠商普遍傾向于用低功耗芯片,現(xiàn)在很多機(jī)器人廠商都還在用驍龍 6,而驍龍 6 每年的出貨量上千萬臺,相當(dāng)于在近五六年里,中低端芯片占據(jù)了芯片市場的主流。

其不愿意選擇高算力的 GPU 的原因在于,從實踐中來看,一般情況下,人形機(jī)器人脫離電源后能堅持一個小時,一旦加了高算力板卡,可能 20 分鐘就會沒電。

但是,端側(cè)模型要跑在較低功耗的 CPU 上是非常難的,因為算力不夠:

業(yè)內(nèi)基于 Transformer 架構(gòu)跑 3B 大小的模型,在驍龍 7 上跑不了,在驍龍 8 上跑起來則需要做量化和壓縮,一旦如此操作,多模態(tài)能力便會出現(xiàn)大幅下降,需要在能力和算力需求之間尋求平衡點(diǎn),這會進(jìn)一步阻止機(jī)器人廠商采購模型的動力。

從當(dāng)前情況來看,許多模型廠商正在做這方面的權(quán)衡取舍,在此之中關(guān)鍵則在于推理優(yōu)化水平的高低:模型做小、落在端側(cè)上,需要工程人員將模型優(yōu)化,使其在量化后仍能保持性能、速度和對算力的要求。

有機(jī)器人領(lǐng)域從業(yè)者向 AI 科技評論透露,像智譜、百川這樣的大模型基座,不是不考慮端側(cè),而是做不了的問題,現(xiàn)在手機(jī)廠商與機(jī)器人的廠商,基本在 RockAI、面壁與通義三者中選擇。

回到芯片的問題,就算是機(jī)器人廠商愿意用高算力 CPU 或者 GPU,也會面臨成本問題:

從手機(jī)廠商的例子中來看,小米使用高通 8 的手機(jī)都是售價 5000 塊以上,如果疊加大模型,價格或許會接近一萬,而高端機(jī)的消費(fèi)人群也是少數(shù)。要等到聯(lián)發(fā)科 9400 或者驍龍 8 占領(lǐng)市場,還有三至五年的時間窗口。

值得一提的是,機(jī)器人端大模型還面臨著本體的挑戰(zhàn),業(yè)內(nèi)研究有發(fā)現(xiàn)本體是一個特別大的瓶頸,更有觀點(diǎn)認(rèn)為,整個行業(yè)可能還沒到模型、數(shù)據(jù)挑戰(zhàn)階段。


如何跳出「死循環(huán)」?


機(jī)器人大模型要向前邁進(jìn)需要倚靠三方合力,不能只是大模型廠商的一廂情愿,而是要同機(jī)器人廠商、芯片廠商聯(lián)合起來,共同鑿開一條光明之路。

當(dāng)前,也有不少大模型廠商給出了解決方案,比如以智源、智譜等為代表的單位就設(shè)計了一個端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式:

首先在云端訓(xùn)練大模型,然后通過知識蒸餾、模型量化等方式得到一個小模型,再把這個輕量化的小模型部署在終端上,如果終端搭載一個英偉達(dá)的板卡,就可以部署一個小如 1B 的模型。目前理想汽車就已經(jīng)能夠在英偉達(dá)的板卡上部署 2B 的模型。

這種做法既能保持住大模型的能力,也可以更高效地部署。

也有像 RockAI 這樣的廠商,基于非 Transformer 架構(gòu)在一些搭載了純 CPU 或 CPU+NPU(低端芯片)的機(jī)器人上跑起來,來降低算力要求和功耗。(關(guān)于非 Transformer 架構(gòu)的更多內(nèi)容,可以閱讀 AI 科技評論往期報道:《誰將替代 Transformer?》)

另外,由于芯片有迭代周期,需要三年、五年甚至更長的時間。雖然有說法認(rèn)為,小模型跑在端側(cè)上的壁壘是芯片,但并不是說芯片廠商研發(fā)出了最新的芯片,第二年所有設(shè)備廠商就會更新?lián)Q代。

基于此,市場的機(jī)遇則在于存量市場,換言之就是,有沒有大模型廠商能在現(xiàn)有算力的基礎(chǔ)上滿足機(jī)器人的智能需求。

RockAI 也在做這方面的布局,鄒佳思告訴 AI 科技評論,「我們現(xiàn)在做端側(cè)和高通、聯(lián)發(fā)科、英特爾、ARM、華為的芯片都有適配過,用了四個月時間完成了華為昇騰 910 和 310 系列芯片的適配工作,包括訓(xùn)練卡和推理卡?!?/p>

「樂聚之所以選擇與我們合作,也是因為我們能做他們的存量市場。這意味著他們不需要等高通或英特爾發(fā)布更高性能的芯片才能跑模型,這樣是有問題的,因為相當(dāng)于還得等硬件先發(fā)展?!?/p>

所謂芯片適配,其實是現(xiàn)階段為了對芯片的 AI 算力進(jìn)行充分利用,讓模型運(yùn)行更加高效,必須針對模型架構(gòu)、依托芯片計算單元特點(diǎn),對推理框架進(jìn)行優(yōu)化。

這項優(yōu)化工作不僅需要對芯片計算單元、推理算子有足夠的理解,還需要對模型結(jié)構(gòu)有足夠的認(rèn)知,因此需要芯片廠商與模型公司共同協(xié)作才能快速推進(jìn)。

也有觀點(diǎn)認(rèn)為,現(xiàn)在很多端側(cè)模型無法落地,不是因為機(jī)器人的硬件不行或需求不足,而是大模型的技術(shù)還不夠成熟和完善,所以無法觸及到那么大的市場。

不過,雖然通過現(xiàn)有芯片也能做許多圖像、音頻等處理,但有些任務(wù)還是需要突破芯片困局后才能進(jìn)一步實現(xiàn),比如實時捕捉視頻、識別實時視頻流這一點(diǎn),依靠現(xiàn)階段的芯片性能便無法實現(xiàn)。

舉例來看,讓機(jī)器人描述在環(huán)境里看到了什么,它實際上看到的是一張照片,如果在它面前做一個打叉的手勢,因為這個手勢是連貫的動作,機(jī)器人可能捕捉不到(因為只能識別圖片),只能捕捉到其中一個動作,那么它也許就無法理解這個動作的意思。

而要想識別視頻流、捕捉中間動作過程,則對算力有著極高的要求。

「視覺這塊我們現(xiàn)在做不上去,有更高算力芯片后就會好辦了。哪怕是基于 9400 芯片,當(dāng)前的大模型廠商都很難把視頻能力放上去?!褂袡C(jī)器人領(lǐng)域從業(yè)者告訴 AI 科技評論。

所以,芯片廠商實現(xiàn)高端芯片的突破,將芯片做到高算力、低功耗并行也是當(dāng)下所需,芯片的躍升會給模型帶來更多機(jī)會。

值得一提的是,電池廠商輔助延長續(xù)航也十分關(guān)鍵,但遺憾的是,如今的電池廠商在機(jī)器人市場還未發(fā)力,這歸根到底是機(jī)器人市場不夠廣闊所致。

有業(yè)者向 AI 科技評論透露,「目前發(fā)展較好的機(jī)器人廠商一年出貨量能有幾百臺已經(jīng)算很高了,但對于電池廠商而言,這種程度的出貨量遠(yuǎn)遠(yuǎn)不夠,在他們看來不值得投入大量金錢與人力去做技術(shù)突破?!?/p>

最終,回歸到出貨量的破局,這方面還得靠機(jī)器人廠商自身拿主意,首先就是要本體做得足夠更好,穩(wěn)定性高,能克服各種復(fù)雜惡劣地形,覆蓋多種場景等。

目前,PC、手機(jī)端也有端側(cè)模型,但后者的出貨量很顯然遠(yuǎn)大于機(jī)器人,數(shù)據(jù)量也會更大。

如此來看,端側(cè)芯片的迭代會更多放在手機(jī)、PC 等硬件設(shè)備上,機(jī)器人側(cè)的芯片迭代速度會更慢,無法支撐模型需求,模型的迭代也會受險阻,而算法迭代減緩,機(jī)器人智能水平迭代減緩,出貨量就更小。

在業(yè)內(nèi)的構(gòu)想中,如果能解決出貨量的問題,之后量產(chǎn)得到提升,隨之場景也能增多,如若一年能量產(chǎn)上千上萬臺,自然而然會有上游廠商找過來,資源也會跟著涌進(jìn)來。

不過,值得一提的是,PC、手機(jī)端的競爭正逐步走向白熱化,因為其端側(cè)模型已經(jīng)走向自研。據(jù) AI 科技評論了解,vivo 的云端模型是基于智譜做的,但本地是完全自研的。

這也意味著機(jī)器人側(cè)大模型的創(chuàng)業(yè)空間會比較大:在對于端側(cè)模型的需求上,機(jī)器人最主要的交互方式是語音和視覺,核心訴求是實現(xiàn)擬人化,即整個交互下來機(jī)器人更像是個人,手機(jī)則無需特別擬人,主要是完成日常工作,目前發(fā)力點(diǎn)在于打通系統(tǒng)應(yīng)用。

長期來看,模型廠商、芯片廠商與機(jī)器人廠商都還有很大的探索提升空間,面對當(dāng)下存在的量產(chǎn)不足、芯片困境以及數(shù)據(jù)量不足,以至于難以提升智能水平的閉環(huán)問題上,亟需三方積極向彼此靠攏,并有一方跳出來主動破局。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機(jī)器人端側(cè)模型的十字路口

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說