日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給楊依婷
發(fā)送

0

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

本文作者: 楊依婷   2025-12-18 14:17
導(dǎo)語:推理正在首次超過訓(xùn)練,AI真正開始“用電而不是發(fā)電”

2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來登酒店正式啟幕。

作為AI 產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來,始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。

在人工智能逐步成為國家競(jìng)爭(zhēng)核心變量的當(dāng)下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專場(chǎng)聚焦智能體系的底層核心——算力,從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開系統(tǒng)討論,試圖為未來十年的中國AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。

GAIR 2025「AI 算力新十年」專場(chǎng)上,云天勵(lì)飛副總裁羅憶發(fā)表了題為《芯智AI筑基,普惠點(diǎn)亮未來》的主題演講,系統(tǒng)闡述了他對(duì)國產(chǎn)芯片路徑和AI普惠化的核心判斷。

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

當(dāng)大多數(shù)人還在討論人工智能“是否有用”的2014年,一家中國公司已經(jīng)選擇了一條更難、也更遠(yuǎn)的路——同時(shí)押注算法與芯片,試圖從底層構(gòu)建屬于自己的AI技術(shù)體系。此后十余年,從深度學(xué)習(xí)的早期探索,到大模型席卷全球,再到算力成為國家級(jí)命題,這家公司幾乎完整經(jīng)歷了中國人工智能產(chǎn)業(yè)從萌芽、加速到分化競(jìng)爭(zhēng)的全過程。

某種意義上,云天勵(lì)飛本身,就是一段中國AI產(chǎn)業(yè)的微觀縮影。

云天勵(lì)飛副總裁羅憶,正是這段歷程的重要參與者與推動(dòng)者之一。早年,他需要一次次向客戶和產(chǎn)業(yè)界解釋“人工智能究竟能解決什么問題”;而今天,在推理成本、算力結(jié)構(gòu)與生態(tài)壁壘成為行業(yè)核心議題的背景下,他思考的重心,已轉(zhuǎn)向如何讓AI真正“用得起、用得久、用得廣”。

與許多聚焦單點(diǎn)技術(shù)突破的敘事不同,羅憶的視角始終錨定在一個(gè)更現(xiàn)實(shí)、也更具產(chǎn)業(yè)意義的閉環(huán)之中:應(yīng)用生產(chǎn)數(shù)據(jù),數(shù)據(jù)訓(xùn)練算法,算法定義芯片,芯片賦能應(yīng)用,最終推動(dòng)整個(gè)AI生態(tài)的正向飛輪。在他看來,AI的競(jìng)爭(zhēng)不只發(fā)生在實(shí)驗(yàn)室和算力榜單上,更發(fā)生在真實(shí)行業(yè)、真實(shí)成本與真實(shí)規(guī)?;涞氐膱?chǎng)景之中。

在國產(chǎn)算力加速突圍、推理逐漸超越訓(xùn)練成為產(chǎn)業(yè)主戰(zhàn)場(chǎng)的當(dāng)下,這種來自一線實(shí)踐者的判斷,尤顯珍貴。它試圖回答的,并非“能否對(duì)標(biāo)某一家巨頭”,而是一個(gè)更根本的問題:在高度封閉、生態(tài)壁壘森嚴(yán)的全球算力競(jìng)爭(zhēng)格局中,國產(chǎn)芯片究竟應(yīng)當(dāng)如何找到自己的生存空間與增長路徑。

演講結(jié)束后,雷峰網(wǎng)與羅憶就演講中提及的“生態(tài)融入”、“AI惠普”等關(guān)鍵議題,進(jìn)行了更深入的探討。以下是雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))在不改原意的基礎(chǔ)上,根據(jù)對(duì)話過程做的整理與編輯:

對(duì)話環(huán)節(jié)

問: 您在演講中回顧了科技史的發(fā)展,云天的AI芯片也跨越了CNN到Transformer,您認(rèn)為兩個(gè)時(shí)代對(duì)于芯片需求最大的不同是什么?

答:從云天選擇NPU路線一路走來,現(xiàn)在面臨一個(gè)最顯性的變化:Scaling Law驅(qū)動(dòng)下,技術(shù)瓶頸開始螺旋式地出現(xiàn)。最初是算力瓶頸,隨后發(fā)現(xiàn)本質(zhì)是內(nèi)存容量瓶頸,接著是帶寬瓶頸,再后來瓶頸從芯片內(nèi)部擴(kuò)展到服務(wù)器之間,這才催生了“超節(jié)點(diǎn)”這類系統(tǒng)級(jí)方案。這反映出一個(gè)根本轉(zhuǎn)變:今天的芯片公司早已不止于設(shè)計(jì)芯片,必須提供全棧的系統(tǒng)工程能力。

其次是市場(chǎng)加速度帶來的生態(tài)壓力。從去年到今年,市場(chǎng)推理需求增長近百倍,模型迭代周期從過去的數(shù)月縮短至如今幾乎每周更新。曾經(jīng)做NPU可以“慢工出細(xì)活”,花三個(gè)月將算法優(yōu)化到極致;但現(xiàn)在三個(gè)月時(shí)間窗口早已關(guān)閉,新模型已迭代數(shù)輪。因此,我們必須主動(dòng)兼容并融入CUDA在內(nèi)的主流開發(fā)生態(tài),否則客戶的遷移與適配成本會(huì)顯著上升,商業(yè)化節(jié)奏也會(huì)被拉慢。本質(zhì)上是技術(shù)突破帶動(dòng)產(chǎn)業(yè)化進(jìn)程極速壓縮,過去半年一年遇到一次的瓶頸,現(xiàn)在可能三個(gè)月就遇到,推動(dòng)技術(shù)螺旋式前進(jìn)。

從中國路徑上講,我們肯定還是兩條腿走路。國產(chǎn)生態(tài),不管是RISC-V還是像昇騰這樣的國產(chǎn)萬卡生態(tài),它還得自己要慢慢走。另外一方面,也必須融入高速迭代的CUDA生態(tài),這個(gè)逃不掉。

問: 在Transformer時(shí)代,要讓推理能夠更成功,你感覺比較關(guān)鍵的因素會(huì)是什么?

答: 從我們的角度,總體上來講走向最終成功是要融入生態(tài)或者是擁抱生態(tài)。但是作為一個(gè)追趕者,進(jìn)來之后必須得有自己的價(jià)值,要有一技之長,要有一個(gè)特別長的長板,然后才有時(shí)間換空間,去慢慢彌補(bǔ)自己的短板,慢慢融入到生態(tài)。

問:您講到中國更強(qiáng)調(diào)普惠AI的應(yīng)用滲透,那您認(rèn)為當(dāng)下AI推理普及面臨的最大挑戰(zhàn)是什么?降低單位token成本嗎?

答: 我覺得顯然就是成本問題。大家希望AI越來越精準(zhǔn)來達(dá)到行業(yè)使用的要求,以前發(fā)現(xiàn)再努力也做不到、現(xiàn)在就發(fā)現(xiàn)其實(shí)通過努力,通過長思考、長上下文的理解、帶入私域的知識(shí)是能做到的、但代價(jià)很大,那么怎么選擇?所以后面就是降本的問題了。

問: 您認(rèn)為從芯片公司的角度,要在推理市場(chǎng)構(gòu)建護(hù)城河的關(guān)鍵是什么?

答: 融入生態(tài)護(hù)城河。現(xiàn)在很多圈子都是“互為生態(tài)”的格局,每種核心技術(shù)都有它的適用方上下游。狹義來說,生態(tài)其實(shí)就是自己的上下游,但如今技術(shù)棧實(shí)在太深、太廣,每一個(gè)細(xì)分領(lǐng)域都在形成自己的生態(tài)圈。

比如最近我們也參與了中移動(dòng)提出的OISA體系,共同突破萬億級(jí)MoE大模型推理集群Scale up的瓶頸,圍繞 AI 芯片互聯(lián)、超節(jié)點(diǎn)等系統(tǒng)級(jí)方向與產(chǎn)業(yè)伙伴共同攻關(guān),核心目標(biāo)是提升國產(chǎn) AI 芯片在規(guī)模化推理(包括 MoE 等復(fù)雜負(fù)載)場(chǎng)景下的互聯(lián)效率與互通性,推動(dòng)集群 Scale-up 能力演進(jìn)。

以后如果要把“超節(jié)點(diǎn)”真正做成可復(fù)制、可規(guī)?;耐评砘A(chǔ)設(shè)施,除了芯片本身,互聯(lián)協(xié)議、交換與網(wǎng)絡(luò)、系統(tǒng)軟件與調(diào)度等關(guān)鍵環(huán)節(jié)都必須做到協(xié)同兼容。因此,我們后續(xù)也持續(xù)參與國產(chǎn)技術(shù)棧與關(guān)鍵標(biāo)準(zhǔn)生態(tài)的共建,讓產(chǎn)品更順暢地進(jìn)入主流系統(tǒng)形態(tài)與客戶工程體系。

問: 對(duì)于實(shí)現(xiàn)生成式AI的普惠,云天在未來1-2年內(nèi)的目標(biāo)是什么?長期的策略是什么?

答: 我覺得現(xiàn)在的話,一個(gè)是修好內(nèi)功,技術(shù)上你首先要有一技之長,圍繞推理落地最關(guān)鍵的指標(biāo),把一項(xiàng)或幾項(xiàng)核心能力做到足夠突出、可復(fù)用、可交付——讓客戶在成本、能效、時(shí)延或工程化效率上能明確感知到價(jià)值。第二是用更開放的方式進(jìn)入頭部生態(tài)與頭部客戶體系,一方面積極參與主流技術(shù)棧與產(chǎn)業(yè)生態(tài)合作,降低適配門檻;另一方面也會(huì)通過多種合作形態(tài)(包括聯(lián)合創(chuàng)新、聯(lián)合解決方案、產(chǎn)業(yè)協(xié)同等)與頭部客戶建立更深度的驗(yàn)證與共創(chuàng)關(guān)系,盡快形成可復(fù)制的標(biāo)桿與規(guī)?;窂?。對(duì)我們來講,策略是先進(jìn)圈子,先進(jìn)頭部的圈子,在真實(shí)應(yīng)用中逐步長出自己的生態(tài)。

演講全文

以下是羅憶演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:

大家好,我是來自云天勵(lì)飛的羅憶,主要負(fù)責(zé)推理芯片相關(guān)的生態(tài)建設(shè)工作。

云天勵(lì)飛成立于2014年,是一家深圳本土的人工智能芯片企業(yè)。

2014年公司創(chuàng)立時(shí),人工智能尚未像今天這樣被普遍認(rèn)為是第四次工業(yè)革命的核心技術(shù),我們?cè)谳^長時(shí)間里需要不斷向客戶和產(chǎn)業(yè)界證明人工智能的價(jià)值。但在這個(gè)過程中,云天勵(lì)飛逐漸積累了端到端的全棧技術(shù)能力。

從歷史視角看,中國在早期技術(shù)體系上曾長期領(lǐng)先全球,但在第一、第二、第三次工業(yè)革命中,一些關(guān)鍵生產(chǎn)力工具和核心技術(shù)的突破,拉開了不同國家和地區(qū)之間的差距。

進(jìn)入AI時(shí)代,今天我們可以看到中美之間的競(jìng)爭(zhēng)態(tài)勢(shì)較為明顯。美國在人才、資金、先進(jìn)制程方面要卡中國的脖子,但同時(shí),中國在過去多年的技術(shù)積累下,與美國在整個(gè)AI產(chǎn)業(yè)鏈領(lǐng)域的差距是在逐步縮短的。

雖然目前來看,還無法實(shí)現(xiàn)全面的國產(chǎn)替代,但今天產(chǎn)業(yè)界的同仁們,都在屢屢艱辛地實(shí)踐,總是要有一些國家實(shí)驗(yàn)室和大企業(yè)要去攻關(guān)核心技術(shù),守住產(chǎn)業(yè)發(fā)展的底線。

拐點(diǎn)已至:推理超越訓(xùn)練,國產(chǎn)算力占比過半

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

從整個(gè)技術(shù)發(fā)展的浪潮來看,2014年至2022年,AI產(chǎn)業(yè)整體迭代節(jié)奏相對(duì)穩(wěn)定,通常以三個(gè)月到半年為周期。

2022年底被普遍認(rèn)為是一個(gè)重要拐點(diǎn)——大模型時(shí)代正式到來,行業(yè)整體沿著Scaling Law發(fā)展,通過更大算力、更多數(shù)據(jù)和更大參數(shù)規(guī)模,不斷提升模型能力,使得它能夠更泛化地進(jìn)行服務(wù)。

從2023年初大模型興起開始,技術(shù)和產(chǎn)品的迭代速度明顯加快。無論是做底層技術(shù)還是應(yīng)用層的企業(yè),普遍感受到學(xué)習(xí)和適應(yīng)的壓力,整個(gè)產(chǎn)業(yè)的迭代節(jié)奏,已經(jīng)進(jìn)入以“周”為尺度的迭代,甚至我們說,中美之間的迭代,可能只是5小時(shí)~8小時(shí)的迭代,你方唱罷我登場(chǎng)。

直到2025年1月初DeepSeek-R1的發(fā)布,這一趨勢(shì)出現(xiàn)了新的變化。

DeepSeek的核心意義主要是兩件事。

首先,縮短了開源模型與閉源模型之間的時(shí)間差;其次,它只用了二十分之一的硬件成本,復(fù)現(xiàn)類似閉源的效果。包括千問的一系列蒸餾模式,也說明在真實(shí)行業(yè)應(yīng)用中,萬億參數(shù)、千億參數(shù)模型在成本上難以長期承受。

從本質(zhì)上看,模型參數(shù)規(guī)模越大,單位推理成本就越高。每一次推理所需的算力、帶寬、KV Cache都會(huì)呈幾何級(jí)數(shù)增長。

在產(chǎn)業(yè)應(yīng)用中,我們實(shí)踐出一套基本邏輯:

訓(xùn)練階段可以持續(xù)探索模型能力上限

應(yīng)用階段必須通過稀疏化、蒸餾、量化、數(shù)據(jù)格式優(yōu)化等方式,不斷降低推理成本

只有這樣,AI才能真正實(shí)現(xiàn)普惠,才能在千行百業(yè)中規(guī)模化落地。

如果類比工業(yè)革命,訓(xùn)練更像是“發(fā)電”,而推理更像是“用電”。

訓(xùn)練屬于技術(shù)皇冠,需要少數(shù)頭部企業(yè)解決大規(guī)模集群問題;而真正進(jìn)入行業(yè)和社會(huì)運(yùn)行體系的,是推理能力,需要云、邊、端多層次的芯片形態(tài)支撐。

據(jù)我們觀察,今年至少存在兩個(gè)重要拐點(diǎn)。

第一,推理算力消耗將首次超過訓(xùn)練。

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

黃仁勛在今年的一次演講中提到,他認(rèn)為推動(dòng)英偉達(dá)股價(jià)上升的三條曲線中的前兩條,第一條是預(yù)訓(xùn)練,第二條是后訓(xùn)練,現(xiàn)在新的一條scaling實(shí)際就是Long Thinking。

從產(chǎn)業(yè)數(shù)據(jù)來看,推理Token消耗正在快速增長。2023年ChatBot時(shí)代以快問快答為主,而現(xiàn)在已經(jīng)進(jìn)入長上下文、聯(lián)網(wǎng)搜索和深度思考階段,Token消耗顯著增加。

2024年的數(shù)據(jù)顯示,國內(nèi)企業(yè)Token消耗量同比增長超過100倍,谷歌的日Token調(diào)用量已達(dá)到約43萬億,這個(gè)數(shù)據(jù)已經(jīng)滯后了,目前仍在持續(xù)增長。

我記得,據(jù)6月份國家數(shù)據(jù)局公布的數(shù)據(jù),中國互聯(lián)網(wǎng)整個(gè)日Token調(diào)用量是30萬億,到9月份,字節(jié)跳動(dòng)一家就已經(jīng)達(dá)到了30萬億/天。我們內(nèi)部有段時(shí)間跟字節(jié)了解交流,據(jù)說最近可能已經(jīng)突破了40萬億/天,這個(gè)增速實(shí)在是非常驚人,而且這個(gè)速度絲毫沒有放緩的意思。

第二,預(yù)計(jì)到年底,國內(nèi)AI芯片出貨/部署結(jié)構(gòu)中,國產(chǎn)AI芯片占比有較大概率超過50%,整體份額超過非國產(chǎn)高端GPU。

中國路徑:以應(yīng)用落地,反哺AI生態(tài)

AI的發(fā)展上,我們可以看到美國從“AI行動(dòng)計(jì)劃”,到最近的“創(chuàng)世紀(jì)計(jì)劃”,持續(xù)從國家層面推動(dòng)AI發(fā)展,包括現(xiàn)在的美股,基本都是靠AI概念的科技企業(yè)在支撐股價(jià),科技類的已經(jīng)達(dá)到了50%以上。而中國股市上,科技類可能占比還不到10%。

從2024年Q3到今年9月,北美四大云廠商2025資本開支增長了83.5%,像谷歌、亞馬遜這些頭部云廠商紛紛自研芯片以爭(zhēng)取成本優(yōu)勢(shì)。

中國也有一系列政策的出臺(tái),最集中的其實(shí)是今年年中推出的“人工智能+”計(jì)劃,這個(gè)政策極具中國特色,或者說非常符合中國的路徑。

對(duì)中國來說,最重要的事情其實(shí)是通過應(yīng)用的滲透以及千行百業(yè)的落地,去推動(dòng)或反哺整個(gè)AI的繁榮。

我們一直堅(jiān)信一個(gè)“數(shù)據(jù)飛輪”,應(yīng)用生產(chǎn)數(shù)據(jù),數(shù)據(jù)訓(xùn)練算法,算法定義芯片,芯片的規(guī)?;瘧?yīng)用推動(dòng)整個(gè)產(chǎn)業(yè)的發(fā)展。

中國的特色是有一部分頭部的企業(yè),包括AI訓(xùn)練的廠商,用更大規(guī)模的訓(xùn)練集群去追趕與美國頭部閉源模型的差距,甚至通過工程化的方式,一方面,是為了降低訓(xùn)練成本,更進(jìn)一步,是為了降低未來的推理成本。

并且,中國有非常好的基礎(chǔ)設(shè)施,在基礎(chǔ)數(shù)字化、行業(yè)應(yīng)用、應(yīng)用人群以及應(yīng)用熱情上都具備明顯優(yōu)勢(shì),這個(gè)滲透率也會(huì)進(jìn)一步推動(dòng)以AI推理芯片為核心的資本投入的增長。

因此,在中美的動(dòng)態(tài)競(jìng)爭(zhēng)中,雙方在政策導(dǎo)向、核心目標(biāo)與技術(shù)路線上存在一定差異:美國更側(cè)重于占據(jù)技術(shù)制高點(diǎn),并將其作為經(jīng)濟(jì)增長的核心錨點(diǎn);而中國的核心在于加速應(yīng)用市場(chǎng)發(fā)展,特別是提升AI推理芯片的國產(chǎn)化替代速度。

同時(shí),我覺得剛才幾位分享嘉賓都講到一個(gè)非常重要的事情,當(dāng)前國內(nèi)芯片產(chǎn)業(yè)最大的挑戰(zhàn)在于軟件與生態(tài)建設(shè)。在這方面,我們也有自己的布局與思考。

最近在香港的一次峰會(huì)上,我們的董事長跟AI先驅(qū)Hinton(杰弗里·辛頓)有過一次對(duì)話,Hinton一直擔(dān)心,AI的發(fā)展速度過快,而相應(yīng)的倫理與安全規(guī)范卻未能同步跟上。另外他還提到,“只致力于讓AI更聰明而不考慮應(yīng)用,這是個(gè)大錯(cuò)誤?!边@個(gè)應(yīng)用,包含生態(tài)、倫理、安全、監(jiān)管等一系列問題。

對(duì)我們而言,不僅要在技術(shù)上不斷精進(jìn),更要追求普惠與向善的目標(biāo),讓AI真正以可承受的成本解決生產(chǎn)力問題,為各行各業(yè)創(chuàng)造價(jià)值。

GPNPU=生態(tài)兼容 + 能效特長 + 存儲(chǔ)突破

在推理上,始終存在“性能-成本-精度”三角權(quán)衡挑戰(zhàn)的關(guān)系。

云天勵(lì)飛自進(jìn)入該賽道起,便從小模型時(shí)代出發(fā),基于自研NPU指令集,堅(jiān)持走AI普惠與極致性價(jià)比的路線,通過算法與算力的一體化設(shè)計(jì),在邊緣側(cè)及城市各類場(chǎng)景中深化應(yīng)用。

隨著模型規(guī)模擴(kuò)大與應(yīng)用范式多樣化,技術(shù)路線大致分為三類:

以CUDA生態(tài)為代表的GPGPU主要解決大集群訓(xùn)練問題;

NPU則繼續(xù)在極致能效與功耗上發(fā)揮優(yōu)勢(shì);

針對(duì)云端推理,行業(yè)共識(shí)正趨向于GPNPU。

我們則從專用架構(gòu)走向更通用的設(shè)計(jì)。兩條技術(shù)路線正在不斷重疊與融合。

國內(nèi)云端大算力推理芯片的技術(shù)路線選擇,我們列了一個(gè)公式:

GPNPU=GPGPU+NPU+3DM

其核心任務(wù)是:

軟件生態(tài)盡可能兼容CUDA。

保持NPU設(shè)計(jì)的高效性與模型親和性。

確保芯片在產(chǎn)業(yè)化應(yīng)用中實(shí)現(xiàn)高算力利用率。

此外,在大模型推理規(guī)?;涞兀ㄓ绕浣獯a階段)中,性能瓶頸往往不再只體現(xiàn)在算力本身,而是更突出地體現(xiàn)在顯存容量、互聯(lián)帶寬以及節(jié)點(diǎn)間互聯(lián)帶寬等系統(tǒng)約束上。在高端存儲(chǔ)如HBM供應(yīng)受限的背景下,我們必須尋求更多解決方案。因此,我們?nèi)χС?D Memory技術(shù)路線,這是在國產(chǎn)化、大容量、高帶寬方向?qū)崿F(xiàn)突破的關(guān)鍵,只有更多廠商支持,該技術(shù)的產(chǎn)業(yè)化與商業(yè)化成熟度才能加速。

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

未來,云端AI基礎(chǔ)設(shè)施必將走向異構(gòu)化與高性價(jià)比方向。這不僅體現(xiàn)在單個(gè)模型的計(jì)算與訪存分離,也體現(xiàn)在需用不同規(guī)模的模型服務(wù)不同場(chǎng)景需求。

如同一個(gè)公司不會(huì)全部雇傭博士生,合理的性價(jià)比配置才能實(shí)現(xiàn)高效產(chǎn)出。其核心公式可簡化為:(資本開支CAPEX + 營運(yùn)成本OPEX)÷(加速卡吞吐量 × 設(shè)備利用率)。

很重要的是,現(xiàn)在的大模型推理為什么要做PD分離?因?yàn)镻和D階段完全不一樣,P階段是計(jì)算密集型,而D階段絕大部分時(shí)候,算力在等數(shù)據(jù)搬運(yùn)。

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

如何更高效地解決這個(gè)問題?我們通過數(shù)據(jù)格式優(yōu)化、模型量化等一系列算法技術(shù),在確保模型精度的前提下,顯著提升了計(jì)算與數(shù)據(jù)搬運(yùn)的實(shí)際效率,從而持續(xù)降低了單位Token的推理成本。

云天勵(lì)飛羅憶:推理超越訓(xùn)練,國產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

目前,國內(nèi)云廠商的Token報(bào)價(jià)多以百萬為單位,成本普遍在10元以上,無服務(wù)水平協(xié)議保障的模型調(diào)用成本甚至超過20元。我們認(rèn)為,未來三到五年,百萬Token成本必須降至1元人民幣以內(nèi),才能支撐“人工智能+”計(jì)劃所要求的滲透率目標(biāo)。

最后,簡單講一下云天勵(lì)飛,公司自2024年創(chuàng)立以來,始終秉持“算法+芯片”雙輪驅(qū)動(dòng)的技術(shù)路徑,目前芯片已迭代至第四代。第五代芯片將全面轉(zhuǎn)向GPNPU架構(gòu),并在原有自主設(shè)計(jì)的NPU指令集及多年行業(yè)技術(shù)積累基礎(chǔ)上,向通用推理方向演進(jìn)。

2020年,公司全面轉(zhuǎn)向國內(nèi)工藝體系,并成為國內(nèi)最早實(shí)現(xiàn)D2D Chiplet技術(shù)的企業(yè)之一,該工藝是突破算力制約的關(guān)鍵路徑,也是國產(chǎn)算力芯片發(fā)展的共同方向。

在存儲(chǔ)技術(shù)方面,我們認(rèn)為3DM是國產(chǎn)工藝未來實(shí)現(xiàn)突破的重要方向。盡管目前可采用海外HBM3e乃至后續(xù)產(chǎn)品,但其產(chǎn)業(yè)鏈與供應(yīng)鏈仍存在較大不確定性,因此我們堅(jiān)持全面推進(jìn)國產(chǎn)化,致力于發(fā)展3DM等突破性工藝,并期待更多芯片企業(yè)加入,共同推動(dòng)產(chǎn)業(yè)成熟。

在本代商用芯片中,我們通過一次流片即可封裝出適用于端、邊、云等多種場(chǎng)景的系列芯片,算力覆蓋8T、16T、64T直至128T,其中最高規(guī)格的Edge200芯片可完整支持深度推理任務(wù)。

從公司愿景出發(fā),云天勵(lì)飛致力于全面擁抱人工智能浪潮。無論是在智能硬件、智能攝像頭、具身智能、人形機(jī)器人還是云推理等領(lǐng)域,我們均圍繞“端邊云”體系布局了三條芯片產(chǎn)品線:“深穹”面向云推理,“深界”專注于端側(cè)NPU芯片,“深擎”則是面向人工智能的SoC芯片。我們期待基于國產(chǎn)工藝,全面推動(dòng)AI技術(shù)的落地與應(yīng)用。

以上是我的分享,謝謝大家。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說