日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給劉伊倫
發(fā)送

0

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

本文作者: 劉伊倫   2026-01-29 13:14
導(dǎo)語:誰能持續(xù)降低推理成本,誰就掌握了AI產(chǎn)業(yè)的成本曲線。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息,1月27日,國(guó)產(chǎn)GPU廠商曦望(Sunrise)正式發(fā)布新一代推理芯片“啟望S3”,并同步推出面向大模型推理的“寰望 SC3”超節(jié)點(diǎn)方案及推理云計(jì)劃。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

這一系列動(dòng)作直指行業(yè)痛點(diǎn)。

此前AI芯片廠商普遍陷入“拼峰值性能”的競(jìng)爭(zhēng)怪圈,但不少行業(yè)人士指出,以超節(jié)點(diǎn)為例,產(chǎn)品存在明顯“規(guī)模甜點(diǎn)”效應(yīng):一旦超過性能閾值,提升幅度便會(huì)邊際遞減,盲目追求超大算力規(guī)模反而會(huì)造成GPU閑置率攀升、單位Token成本高企的問題。

推理場(chǎng)景下,用戶需要的是“成本可控、性能適配、穩(wěn)定可靠” 的算力。如何走出差異化的路線?

“我們拋棄了傳統(tǒng)的訓(xùn)推一體GPU為訓(xùn)練準(zhǔn)備的冗余設(shè)計(jì),不追求峰值TFLOPS性能,而是把真實(shí)業(yè)務(wù)場(chǎng)景中的單個(gè)Token成本、能耗,以及SLA的穩(wěn)定性,作為所有設(shè)計(jì)決策的根本出發(fā)點(diǎn)?!?/strong>曦望董事長(zhǎng)徐冰在發(fā)布會(huì)現(xiàn)場(chǎng)闡述到。

為了達(dá)到這個(gè)標(biāo)準(zhǔn),啟望S3作為面向大模型推理深度定制的GPGPU芯片,如何圍繞真實(shí)推理負(fù)載完成對(duì)算力結(jié)構(gòu)、存儲(chǔ)體系與互聯(lián)方式的系統(tǒng)級(jí)重構(gòu)?

從“性能峰值”到“單位成本”,推理正在重新定義GPU設(shè)計(jì)目標(biāo)

推理算力的爆發(fā)式增長(zhǎng),已成為行業(yè)當(dāng)下最核心的關(guān)注焦點(diǎn)。對(duì)此,曦望在發(fā)布會(huì)上,給出兩組數(shù)據(jù):

到2026年,推理算力在整體AI算力中的占比將達(dá)到66%,這并非遙遠(yuǎn)的趨勢(shì)預(yù)判,而是正在發(fā)生的行業(yè)結(jié)構(gòu)性變化,推理已從AI產(chǎn)業(yè)鏈的“配角”躍升為“主力”;

當(dāng)前推理成本在AI應(yīng)用總支出中的占比已高達(dá)70%,直接決定著AI企業(yè)的盈利空間與商業(yè)化成敗。只有將推理成本從現(xiàn)有量級(jí)大幅壓低,實(shí)現(xiàn)階梯式下降,AI才能真正擺脫高成本束縛。

“當(dāng)推理成為主要算力消耗場(chǎng)景后,GPU的商業(yè)價(jià)值不再取決于參數(shù)指標(biāo),而是單位Token的真實(shí)成本?!标赝?lián)席CEO王勇表示。

這一判斷,決定了啟望S3的設(shè)計(jì)方向。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

在算力層面,S3支持從FP16到FP4的多精度靈活切換,使模型在保證效果的前提下,最大化提升低精度推理效率。這種設(shè)計(jì)更貼合當(dāng)前MoE和長(zhǎng)上下文模型在推理階段的實(shí)際需求。

在存儲(chǔ)層面,S3采用LPDDR6顯存方案,成為國(guó)內(nèi)首款采用該方案的芯片。相比HBM路線,LPDDR6更強(qiáng)調(diào)容量與能效比。官方數(shù)據(jù)顯示,S3的顯存容量較上一代產(chǎn)品提升4倍,有效緩解了大模型推理中普遍存在的顯存駐留與訪存瓶頸。

在DeepSeek V3 / R1滿血版等主流大模型推理場(chǎng)景中,S3單位Token推理成本較上一代產(chǎn)品下降約90%。曦望方面稱,這一指標(biāo)已具備工程可復(fù)現(xiàn)性,而非單點(diǎn)實(shí)驗(yàn)室數(shù)據(jù)。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

此外,曦望同步發(fā)布了面向大模型推理的寰望SC3超節(jié)點(diǎn)解決方案,該方案支持單域256卡一級(jí)互聯(lián),可高效支撐PD分離架構(gòu)與大EP規(guī)?;渴?,顯著提升推理階段的系統(tǒng)利用率與穩(wěn)定性,適配長(zhǎng)上下文、多并發(fā)、多專家并行等復(fù)雜推理場(chǎng)景。

在交付形態(tài)上,寰望SC3采用全液冷設(shè)計(jì),具備極致PUE表現(xiàn),并支持模塊化交付與快速部署。在同等推理能力量級(jí)下,該方案可將整體系統(tǒng)交付成本從行業(yè)常見的億元級(jí),降低至千萬元級(jí),實(shí)現(xiàn)一個(gè)數(shù)量級(jí)的下降。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

在軟件層面,曦望構(gòu)建了與CUDA兼容的基礎(chǔ)軟件體系,覆蓋驅(qū)動(dòng)、運(yùn)行時(shí)API、開發(fā)工具鏈、算子庫和通信庫,降低推理應(yīng)用的遷移門檻。目前,該體系已適配ModelScope平臺(tái) 90% 以上主流大模型形態(tài),包括DeepSeek、通義千問等。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

推理算力如何更好用?云平臺(tái)打通落地的“最后一公里”

S3回答了推理性價(jià)比的命題,但對(duì)于大部分用戶而言,其對(duì)算力需求的產(chǎn)品形態(tài)應(yīng)為云上算力資源,而非裸金屬資源。

讓推理算力更好用,不應(yīng)止步于造出芯片。為此,曦望與商湯科技、第四范式等生態(tài)伙伴探索的推理云平臺(tái)。

推理算力占AI應(yīng)用70%成本權(quán)重,需求爆發(fā)下國(guó)產(chǎn)芯片如何定義性價(jià)比新基準(zhǔn)?

通過GPU池化與彈性調(diào)度,曦望將底層算力整合為統(tǒng)一的推理算力池,并以MaaS作為核心入口,使企業(yè)無需關(guān)注底層硬件配置與集群運(yùn)維,即可按需調(diào)用大模型推理能力。

這一體系也成為“百萬Token 一分錢”推理成本的重要技術(shù)基礎(chǔ)。

“推理時(shí)代的核心不是把芯片賣出去,而是能否持續(xù)、穩(wěn)定地把算力轉(zhuǎn)化為可交付的生產(chǎn)力。誰能持續(xù)降低推理成本,誰就掌握了AI產(chǎn)業(yè)的成本曲線?!?/strong>曦望董事長(zhǎng)徐冰表示。

據(jù)披露,曦望2025年推理GPU芯片交付量已突破1萬片,標(biāo)志著其推理GPU路線完成從工程驗(yàn)證到規(guī)模化交付的關(guān)鍵跨越。

中國(guó)工程院院士、浙江大學(xué)信息學(xué)部主任吳漢明也指出,推理算力價(jià)值的實(shí)現(xiàn)離不開協(xié)同,需要芯片設(shè)計(jì)、系統(tǒng)集成、軟件開發(fā)到產(chǎn)業(yè)應(yīng)用的全鏈條協(xié)作。

在國(guó)產(chǎn)GPU行業(yè)從“拼參數(shù)”走向“拼單位經(jīng)濟(jì)成本”的拐點(diǎn)上,曦望選擇以推理為切口,嘗試重構(gòu) GPU 的產(chǎn)品形態(tài)與算力交付方式。All-in推理的實(shí)踐,正在成為觀察中國(guó)推理算力商業(yè)化進(jìn)程的重要樣本。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄