日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給趙之齊
發(fā)送

0

清華教授翟季冬:Benchmark正在「失效」,智能路由終結(jié)大模型選型亂象

本文作者: 趙之齊   2026-01-26 10:35
導(dǎo)語:“選擇悖論”正在AI模型與算力世界里上演。

作者 | 趙之齊

編輯 | 包永剛


北京一月的初雪落下前,我們在清華見到了翟季冬教授。他手持保溫杯,說話很利落,即便一邊思考一邊敘述,言辭間也幾乎沒有停頓、沒有模糊地帶。

這位曾帶隊拿下15次世界超算冠軍的清華計算機(jī)系長聘教授,此刻正在拆解一個行業(yè)怪象:為什么在大模型參數(shù)狂飆、算力價格下探的當(dāng)下,用戶的AI落地負(fù)擔(dān)卻越來越重?

他指出,如今Benchmark(基準(zhǔn)測試)上的高分,在比對用戶真實需求時不一定管用,有時,同個模型在不同MaaS平臺上跑出來的效果可能差異巨大,因為部分服務(wù)商為了降低成本,會對模型進(jìn)行“閹割級”量化。而面對眼花繚亂的MaaS供應(yīng)商,用戶要在性能、價格與穩(wěn)定性之間做取舍,往往光調(diào)研一輪市場報價,就已耗盡精力。

“把選型的主動權(quán)完全交給用戶,其實是很大的挑戰(zhàn)”, 翟季冬直言。這種“選擇悖論”不僅折磨著開發(fā)者,更在吞噬企業(yè)的利潤——對于企業(yè)來說,降本增效的核心可能并非追求最頂尖的模型,而是如何調(diào)度能力恰當(dāng)?shù)哪P?,讓昂貴的大模型處理復(fù)雜指令,讓輕量的小模型應(yīng)付日常任務(wù)。

洞察到這一痛點后,由翟季冬的幾位畢業(yè)學(xué)生發(fā)起的AI Infra廠商——清程極智,開發(fā)出智能路由產(chǎn)品AI Ping(AI 評),希望成為算力界的“大眾點評”。

他們將分散的性能數(shù)據(jù)系統(tǒng)性整理,并收集用戶的使用習(xí)慣,公開不同模型與供應(yīng)商的測評數(shù)據(jù),并給用戶推薦合適的、高性價比方案。翟季冬認(rèn)為,這種產(chǎn)品形態(tài),有助于撬動算力行業(yè)的馬太效應(yīng)——他相信,當(dāng)數(shù)據(jù)越集中,模型的選擇就越精準(zhǔn);選擇越精準(zhǔn),用戶需要付出的成本就越低。

清華教授翟季冬:Benchmark正在「失效」,智能路由終結(jié)大模型選型亂象

翟季冬

與我們交流時,盡管判斷明確,翟季冬說話時的語氣卻始終都是溫和的。他走進(jìn)會議室時,手上拎著提前為我們備好的飲用水;對話結(jié)束后,還為北京凜冽的寒潮給我們來訪帶來的困擾而“致歉”。待人的認(rèn)真,也換來了學(xué)生們的真心相待——在許多博士生習(xí)慣將導(dǎo)師稱為“老板”的當(dāng)下,他的博士生們?nèi)詧猿址Q呼他為“老師”。

這份溫和的師者風(fēng)范背后,是他對算力行業(yè)叢林法則的洞察。當(dāng)大模型從實驗室走向萬千企業(yè),性能數(shù)據(jù)與用戶體驗之間的信息差該如何填平?在國內(nèi)“重硬輕軟”的ToB市場中,AI Infra團(tuán)隊又應(yīng)該如何定位自己的存在?(關(guān)于AI Infra生存路徑的探討,歡迎添加作者微信 Ericazhao23 交流)

這些問題的答案,都藏在他的娓娓道來里。

模型選型的隱形賬本:位置、定價與被閹割的精度

更多的自由和選擇,并不意味著更大的幸福,有限且可比較的選項,反而能提升決策效率與滿意度——這一“選擇悖論”,正在AI模型與算力的世界里上演。

大模型井噴式發(fā)展,每個人手里都握著好幾款“AI助手”。但翟季冬捕捉到一個痛點:現(xiàn)在很多用戶上網(wǎng)挑選模型,能參考的只有很標(biāo)準(zhǔn)的Benchmark(基準(zhǔn)測試),不少人直接沖著跑分最高的模型去——但最牛的不一定是最合適的。他直言:“模型刷了多少分,并不一定能匹配用戶的真實需求?!?/p>

究其原因,除了純粹的性能,還有很多因素會影響模型使用體驗。

供給側(cè)上,各家模型供應(yīng)商的服務(wù)響應(yīng)效果有所差別。以DeepSeek-v3.2模型為例,翟季冬團(tuán)隊調(diào)研發(fā)現(xiàn),國內(nèi)提供這一API服務(wù)的廠商就有幾十家,但他們的API服務(wù)吞吐卻覆蓋從15~200 token/s,相差10倍以上;而其支持的輸入輸出長度,也從8k~160k不等,相差了20倍。

用戶對此其實早有體感:去年初DeepSeek爆火后,一眾服務(wù)商紛紛接入其API,很多人用過一輪后卻發(fā)現(xiàn),同樣調(diào)用DeepSeek模型、問出相同問題,不同供應(yīng)商的輸出效果卻天差地別。

答案很快浮出水面:即便接入同個模型,有的廠商會對模型做激進(jìn)的量化處理,例如從FP8變成INT4,輸出的表現(xiàn)自然隨之改變。

服務(wù)商的算力部署位置,也會左右模型的調(diào)用體驗:同款模型,如果用戶在北京調(diào)用,MaaS提供方在上?;蛏钲?,體驗都會有很大差異。

此外,各玩家定價策略各異,不同階段的促銷活動還會導(dǎo)致成本相差甚遠(yuǎn)。

但用戶的需求本身就是多維度的:有的更看重性價比,有的追求穩(wěn)定性,有的則更在意響應(yīng)速度。而不同的任務(wù)場景,也對應(yīng)著不同的大模型最優(yōu)解——

對于需求是“寫小說”的用戶,模型擅長寫調(diào)研報告的能力就毫無意義;而日常查天氣、問穿搭,一個輕量級的小模型也足夠用;可要是解一道復(fù)雜的科學(xué)難題,就得大參數(shù)的模型出馬。

“把選型的主動權(quán)完全交給用戶,其實是很大的挑戰(zhàn)”,翟季冬指出。雖然對個人免費用戶而言影響可能甚微,但對企業(yè)級用戶來說,會直接引發(fā)巨大的成本鴻溝

同樣的預(yù)算,調(diào)用大模型可能僅能支持十萬次請求,換成小模型卻能達(dá)到百萬次量級。

理想的情況是:如果能對需求做精細(xì)化拆分,讓復(fù)雜問題匹配大模型、簡單問題對接小模型,就能實現(xiàn)算力成本的最優(yōu)解。

而這些,都是翟季冬和清程極智團(tuán)隊想解決的問題。


做算力界的“大眾點評”,終結(jié)大模型選型亂象

瞄準(zhǔn)這些行業(yè)痛點,清程極智團(tuán)隊打造出智能路由產(chǎn)品AI Ping(AI評)。

“AI評的‘評’,就是評測,清程對國內(nèi)MaaS供應(yīng)商持續(xù)測試——既測同款模型在不同廠商手中的延遲、帶寬表現(xiàn),也對比不同模型在各家平臺的吞吐效率與價格成本差異”,翟季冬介紹說。

拆解來看,智能路由的能力分為兩層:一是服務(wù)商路由,在眾多API服務(wù)提供者中選擇最佳的服務(wù);二是模型路由,在眾多大模型中選擇最佳的模型。

回顧技術(shù)的研發(fā),翟季冬感慨,服務(wù)商路由的搭建不算是最難的事,真正難啃的硬骨頭,是如何為用戶精準(zhǔn)匹配模型。

“要給企業(yè)的問題精準(zhǔn)匹配模型,前提是積累他們的海量歷史數(shù)據(jù)”,但在初期,數(shù)據(jù)儲備往往不足、用戶行為畫像模糊,模型的精準(zhǔn)選擇很難。

這個難點,在AI Ping的目標(biāo)市場——個人開發(fā)者和中小企業(yè)這個群體里,被進(jìn)一步放大:

AI Ping團(tuán)隊發(fā)現(xiàn),這類用戶對產(chǎn)品質(zhì)量的要求幾乎是要“超出預(yù)期”,八十分的水準(zhǔn),在他們眼里幾乎等同于不合格,這讓產(chǎn)品打磨的難度陡增。

因此,在起初的冷啟動階段,團(tuán)隊選擇用“笨辦法”突圍:一邊給供應(yīng)商測試大量數(shù)據(jù),用Benchmark測試準(zhǔn)確性、延遲帶寬、價格;一邊聯(lián)合上下游企業(yè)拓展市場,在真實場景中積累用戶、沉淀數(shù)據(jù)。

解決了這個問題,另一重考驗隨即出現(xiàn):面對企業(yè)的高吞吐剛需,單一供應(yīng)商的算力儲備往往難以滿足。這就對平臺提出了兩大要求——強(qiáng)大的算力整合能力,以及國產(chǎn)算力接入通道的打通能力。

對此,清程極智就在AI Infra上做了大量工作,把“赤兔”推理引擎與AI Ping對接,完成了算力資源的整合調(diào)度。

清華教授翟季冬:Benchmark正在「失效」,智能路由終結(jié)大模型選型亂象

截圖來自AI Ping網(wǎng)站

在翟季冬看來,AI Ping很像算力行業(yè)的“大眾點評”,給用戶打造一套垂直領(lǐng)域的解決方案。

這本質(zhì)上也是一種團(tuán)購邏輯:聚合海量用戶需求后,清程極智能以更大的體量與算力廠商議價。畢竟,大模型選型的核心命題,始終是成本與效率的平衡。

“這本身也會形成一種馬太效應(yīng)”,翟季冬指出,“聚合的用戶越多、收集的數(shù)據(jù)越豐富,模型匹配的精準(zhǔn)度就越高;既能幫助用戶省去更多錢,也能幫算力廠商盤活資源,我們的軟件能力也能借此賦能”。

從2025年春夏之交籌備至今,歷時近一年,AI Ping終于迎來了正式面市的時刻。

這種中立的評測甚至成了行業(yè)“裁判”:硅基流動創(chuàng)始人袁進(jìn)輝此前在朋友圈提及,有的用戶分不清其基于國產(chǎn)卡的非pro版與基于國際算力的Pro版的指標(biāo)差異,于是直接拋出AI Ping的測評結(jié)果作佐證。

“可以去這個網(wǎng)站看各項指標(biāo),很靠譜”,袁進(jìn)輝這樣寫道。

來自同行的反饋,已側(cè)面印證出AI Ping作為風(fēng)向標(biāo)的價值。不過,一個更現(xiàn)實的問題也隨之浮現(xiàn):對于清程極智而言,如何把這種數(shù)據(jù)影響力在商業(yè)上變現(xiàn)?


AI Ping商業(yè)解法:整機(jī)與算力雙管齊下

對話剛開場,被問及“如今Infra行業(yè)的普遍焦慮是什么”時,翟季冬的回應(yīng)直指核心:

“怎么讓國內(nèi)AI Infra賺到更多錢?”

在他看來,商業(yè)化的核心邏輯正在逐漸明晰:算力需求是一個非常真實的市場,怎么通過服務(wù)軟件把算力有效整合提供給用戶,會是AI Infra行業(yè)未來的重要發(fā)展方向。

這一判斷,也支撐起了清程極智的產(chǎn)品布局——大模型訓(xùn)練智能軟件?!鞍素誀t”、被譽(yù)為國產(chǎn)算力部署神器的“赤兔”大模型推理引擎和一站式大模型API評測和調(diào)用平臺AI Ping,本質(zhì)上都是底層算力到用戶端的一個個“出口”。其中,AI Ping便通過整合模型和供應(yīng)商,把軟件能力賦能到算力上,給用戶提供token和算力。

這也是清程在這兩年沉淀出來的解法。

翟季冬評論道,清程極智的核心競爭力是中間軟件層,包括編譯、通信庫、并行加速等技術(shù),基于此,他們逐漸找到了自己的定位:和芯片廠商合作,做其系統(tǒng)軟件之上增量的部分,讓大模型在這些芯片上發(fā)揮出極致的效率。

圍繞這一定位,清程也在探索多種不同的商業(yè)化路徑:

一方面,將軟件與硬件打包為整機(jī)服務(wù),針對“買了國產(chǎn)卡卻難落地”的痛點,讓裸機(jī)用戶也能做訓(xùn)練與微調(diào);另一方面,是通過AI Ping等平臺與算力廠商合作,提升國產(chǎn)算力的易用性。

而在最近與國產(chǎn)芯片公司的廠商交流中,翟季冬也感受到,大家對軟硬件高效協(xié)同的重要性已形成共識,“剩下的問題,無非就是這些軟件由誰去做”。

清程極智聯(lián)合創(chuàng)始人師天麾,也觀察到了這種行業(yè)認(rèn)知的轉(zhuǎn)變。他此前向雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示:

“DeepSeek能用極少的算力卡和極低的成本,訓(xùn)練出如此大規(guī)模的模型,主要依靠的是模型架構(gòu)設(shè)計和Infra軟件技術(shù),尤其是他們把大量算力加速類Infra軟件開源后,大家才真正意識到Infra的重要性?!?/p>

一個顯著標(biāo)識是,以前他還需要和投資人解釋什么是Infra,進(jìn)入2025年之后,這一步已經(jīng)可以省略了。

但在當(dāng)下,行業(yè)內(nèi)也流傳著一種擔(dān)憂:

“AI Infra的價值,只存在于國產(chǎn)算力群雄逐鹿階段,一旦算力架構(gòu)定型、大模型技術(shù)收斂,Infra的必要性也會大打折扣。”

這也是擺在所有Infra從業(yè)者面前共同的問題:下一個能證明自己價值的“地盤”會在哪里?未來如果國產(chǎn)算力逐漸同構(gòu),AI Infra還有存在的必要嗎?


Infra的生命力:架構(gòu)演進(jìn)不止,軟件迭代不息

此前,AI Infra已在架構(gòu)適配、算子生成、并行通信等領(lǐng)域初試鋒芒,不過,這遠(yuǎn)非終點。

在翟季冬看來,Infra的生命力源于底層架構(gòu)與上層軟件的雙重迭代:“只要模型還在演進(jìn)、算力架構(gòu)還在融合發(fā)展,Infra的需求就會持續(xù)存在”。

他指出,即便是英偉達(dá)的CUDA生態(tài),底層芯片同構(gòu),但由于模型側(cè)還沒有完全收斂,推理、后訓(xùn)練的復(fù)雜度仍在提升:

文生圖、文生視頻等多模態(tài)模型還在興起,即將推出的DeepSeek V4,還將引入更多稀疏性相關(guān)的技術(shù)難題;AI for Science、AI for Engineering等新的應(yīng)用領(lǐng)域迸發(fā),也在倒逼AI Infra的底層需求發(fā)生變革。

同時,國內(nèi)算力不僅廠商多,各自的架構(gòu)也并不統(tǒng)一,這更決定了AI Infra的不可替代性。

翟季冬分析,海外算力市場的架構(gòu)相對統(tǒng)一:英偉達(dá)與AMD占主導(dǎo)地位,二者的GPU架構(gòu)均屬于SIMT(單指令多線程),有很強(qiáng)的相似性。

反觀國內(nèi),有的廠商選擇對標(biāo)英偉達(dá)的SIMT架構(gòu),有的則主攻SIMD(單指令流多數(shù)據(jù)流)架構(gòu)。

并且,在這幾年里,這兩種架構(gòu)并非一方絕對壓倒另一方:很多芯片廠商如今都在走架構(gòu)融合的路線,通過取長補(bǔ)短提升性能,比如華為,開始在SIMD架構(gòu)里融入SIMT的設(shè)計思路;英偉達(dá)則正好相反。

在此基礎(chǔ)上,即便已有比較成熟的Infra項目,例如開源圈里炙手可熱的Triton——這款由OpenAI為英偉達(dá)芯片開發(fā)的算子生成工具,在適配不同架構(gòu)的國產(chǎn)芯片時,也必須經(jīng)過大量本土化改造。

而未來,隨著推理場景的全面爆發(fā),AI Infra還將迎來新一輪的挑戰(zhàn)。

翟季冬直言,行業(yè)現(xiàn)在普遍面臨一個痛點:芯片的峰值算力與實際利用率之間存在巨大鴻溝。一塊標(biāo)稱300TFLOPS算力的芯片,在大模型訓(xùn)練或推理中,實際利用率往往只有10%-20%;即便是英偉達(dá)這樣的巨頭,預(yù)訓(xùn)練場景下的算力利用率也僅能達(dá)到50%上下。

進(jìn)入推理階段后,文字、圖像、視頻等不同任務(wù)的算力需求差異顯著,再加上對時延的極高要求,如何針對不同推理場景實現(xiàn)硬件性能的最大化釋放,將是AI Infra未來的核心攻堅方向。

除了這些看得見的產(chǎn)業(yè)機(jī)遇,翟季冬還在默默探索那些“冷賽道”,比如AI for Science等短期內(nèi)難見商業(yè)價值、但對科技發(fā)展至關(guān)重要的領(lǐng)域。

他還與我們分享了一段近期的交流經(jīng)歷:一位歸國的天文系老師告訴他,射電望遠(yuǎn)鏡每天都會產(chǎn)生海量觀測數(shù)據(jù),他們需要高效的解決方案,來完成數(shù)據(jù)的實時處理與算法分析——這無疑對AI Infra的軟硬件協(xié)同能力,提出了更高的要求。

這些眼下難見回報的探索,正藏著AI Infra的本真價值。在翟季冬眼中,這也是Infra行業(yè)可以穿越周期、走向未來的底氣。

作者長期關(guān)注AI算力上下游等方向,歡迎添加微信 Ericazhao23 交流。

雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說