0
| 本文作者: 陳悅琳 | 2026-04-22 12:09 |
想讓大模型替自己賣命,一查Token賬單,卻有一種“重生之我為大模型公司打工”的錯覺。
這樣的案例,已經(jīng)開始在不少企業(yè)內(nèi)部上演。
盡管過去一年里,每百萬Token的推理成本大約下降了75%,但成本下降的曲線遠(yuǎn)遠(yuǎn)比不過消耗量增長的斜率。
全球最大的大模型API聚合平臺OpenRouter統(tǒng)計(jì)數(shù)據(jù)顯示,截至2026年3月,其年化Token吞吐量呈現(xiàn)10倍增長。
與此同時,資本市場也用腳投票——Anthropic年化收入在短短三個月里突破300億美元大關(guān),增幅約為233%……
面對Token消耗量至少翻了一個數(shù)量級的現(xiàn)實(shí),“如何在高效使用Token的同時有效控制成本”的問題隨之而來。為此,雷峰網(wǎng)邀請3位來自產(chǎn)業(yè)鏈不同環(huán)節(jié)的一線大佬共同解讀Token膨脹背后的效率賬本:
尚明棟:九章云極聯(lián)合創(chuàng)始人兼COO ,原微軟服務(wù)器高可用集群文件系統(tǒng)核心開發(fā)工程師,曾參與發(fā)布Windows 7和Windows 8,是SMB 3.0的主要擬草人之一。
肖嶸:云天勵飛副總裁、首席科學(xué)家、正高級工程師,歷任微軟研究院高級研究員、微軟必應(yīng)搜索資深軟件工程師、平安產(chǎn)險人工智能部總經(jīng)理等。
關(guān)濤:云器科技聯(lián)合創(chuàng)始人、CTO,分布式系統(tǒng)和大數(shù)據(jù)平臺領(lǐng)域?qū)<?,曾任職于微軟云?jì)算和企業(yè)事業(yè)部,歷任阿里云計(jì)算平臺事業(yè)部研究員、阿里巴巴通用計(jì)算平臺MaxCompute和Dataworks負(fù)責(zé)人、阿里巴巴和螞蟻集團(tuán)技術(shù)委員會計(jì)算平臺領(lǐng)域組長、阿里云架構(gòu)組大數(shù)據(jù)組組長。
在這場圓桌討論中,身處產(chǎn)業(yè)一線的大佬們達(dá)成共識:在Agent介入生產(chǎn)環(huán)節(jié)的元年,成本暫時不是企業(yè)賬單的第一位,真正值得關(guān)注的是——花在AI上的每一分錢,是否換來了足夠分量的業(yè)務(wù)價值?
順著這個共識追問,一個更實(shí)際的問題浮出水面:如何提高Token使用的性價比,讓花在AI上的錢更好變現(xiàn)為業(yè)務(wù)價值?這正是本場討論的核心所在。(關(guān)于Token消耗與成本優(yōu)化,作者持續(xù)追蹤。歡迎添加作者微信 Evelynn7778 交流你所在企業(yè)的Token賬單故事。)
Token消耗殺手:
路徑錯誤、長上下文、模型超配
如何把AI接入工作流,已是當(dāng)前許多企業(yè)都在關(guān)心的問題,然而,這背后有許多陷阱。
首先,高消耗未必等于高價值。
當(dāng)前的AI,并不能完全像人類一樣基于環(huán)境的實(shí)時狀態(tài)做出最快的選擇。得到結(jié)果看似與人工相同,但AI在不經(jīng)意間消耗的Token量卻可能令人咋舌。
尚明棟舉例,同樣面對“缺乏管理員權(quán)限”等常規(guī)運(yùn)維場景,碼農(nóng)簡單輸入類似sudo(Linux/Mac系統(tǒng)中用于臨時獲取管理員權(quán)限的指令)的命令就可以馬上進(jìn)入下一步。
但大模型卻易出現(xiàn)路徑冗余、方案繞遠(yuǎn)的問題,例如采用重新編譯源碼的復(fù)雜方式繞過簡單權(quán)限限制,造成大量無效Token消耗。
其次,即便讓AI做同一件事,路徑選擇也至關(guān)重要。
關(guān)濤曾經(jīng)遇到一位客戶在對話窗口里,要求大模型直接瀏覽一份一萬行的訪問日志并進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。他指出,這種做法不僅效率低,而且得到的結(jié)果極容易出錯。
因?yàn)榇竽P偷谋举|(zhì)是概率預(yù)測,數(shù)學(xué)運(yùn)算是其弱點(diǎn)。
面對這類計(jì)算任務(wù),選擇直接在對話窗口輸入文本,相當(dāng)于只讓AI做文字閱讀理解;只有通過上傳文件的方式,才能調(diào)用Python等專業(yè)工具,實(shí)現(xiàn)真正有效的數(shù)據(jù)分析。
有時,為了彰顯大模型的能力,客戶會事無巨細(xì)地調(diào)用最高性能的大模型,但這是否有必要?
尚明棟的回答是否定的,因?yàn)楹唵蔚娜蝿?wù)交由性能一般的模型也能完成。肖嶸認(rèn)為,可以將不同性能的大模型比作不同能力的學(xué)生。復(fù)雜任務(wù)可讓能力更強(qiáng)的大學(xué)生拆解后交由中小學(xué)生來完成。后者如果在執(zhí)行時遇到困難或經(jīng)多次嘗試后仍無法交差,大學(xué)生再介入指導(dǎo)和兜底。
為了任務(wù)分配能符合學(xué)情,關(guān)濤還按照性價比與穩(wěn)定性兩個維度,進(jìn)一步將不同場景劃分為四個象限:
SQL代碼遷移等低性價比、高穩(wěn)定性的場景不適合大模型直接下場,應(yīng)該利用大模型搭建專門的解決工具;AI Coding等高性價比、低穩(wěn)定性場景,鼓勵使用最好的模型,以效率換取價值;而“雙低”場景不宜強(qiáng)行用AI替代;“雙高”場景建議先用最好的模型把場景跑通,驗(yàn)證效果后再逐步切換至性價比更優(yōu)的模型。
但關(guān)濤也坦言,當(dāng)前每家大模型的迭代周期基本壓縮至三個月,模型的能力和性價比因此變得難以預(yù)測。對此,云器科技通過內(nèi)部打造的可觀測系統(tǒng),追蹤每個模型的調(diào)用成功率、Token消耗狀態(tài)、Tool Calling能力等指標(biāo),幫助用戶找最適合特定場景的那一款模型。
此外,對長上下文的追求,也是很多用戶使用性能強(qiáng)大的模型的根本原因之一。但尚明棟指出,一旦內(nèi)容過度堆積,反而導(dǎo)致大模型在處理新任務(wù)時不斷重復(fù)回憶此前的對話內(nèi)容,造成Token的浪費(fèi)。
關(guān)濤補(bǔ)充道,如果每次對話都攜帶大量歷史,尤其上下文內(nèi)容還被反復(fù)修改時,會導(dǎo)致緩存失效,對推理成本和響應(yīng)性能來說都是巨大損耗。
對此,他給出了一個簡單卻有效的原則:確保上下文內(nèi)容是圍繞同一任務(wù)的,這樣才更符合模型最初始的設(shè)定,且不僅能提升響應(yīng)速度,還能增加命中緩存的概率——而服務(wù)商針對后者所收取的輸入Token費(fèi)用,一般會比標(biāo)準(zhǔn)單價低。
此外,尚明棟的團(tuán)隊(duì)實(shí)測數(shù)據(jù)顯示,僅通過緩存機(jī)制這一項(xiàng),就能避免至少10%的重復(fù)計(jì)算。當(dāng)前行業(yè)內(nèi)也已經(jīng)實(shí)現(xiàn)這種“外掛”,例如通義千問3.5等新一代模型,已在架構(gòu)層面自帶KV Cache壓縮機(jī)制。
降本的三個技術(shù)切口:
低精度、稀疏架構(gòu)、數(shù)據(jù)升維
當(dāng)用戶能夠保持高效的使用習(xí)慣,Token賬單的壓力,便傳導(dǎo)到技術(shù)層面。
從算力供給方的角度,尚明棟回憶,去年上半年自家銷售團(tuán)隊(duì)還在四處兜售算力,到了今年就已經(jīng)開始抱怨“無算力可賣”。供給的短缺和需求的大幅上升,倒逼算力供給方優(yōu)化技術(shù)。
尚明棟分享了九章云極在算力云建設(shè)中的工程實(shí)踐——基于隨機(jī)算法推理等策略,實(shí)現(xiàn)PD分離、四層存儲架構(gòu)設(shè)計(jì)、將計(jì)算、存儲與管理網(wǎng)絡(luò)進(jìn)行物理分離等目標(biāo)。
具體到模型架構(gòu)層面,方法之一,是尚明棟提到的MoE(混合專家)設(shè)計(jì):當(dāng)萬億參數(shù)規(guī)模的超大模型內(nèi)置這種架構(gòu)時,每次推理實(shí)際只需觸發(fā)2至3個專家模型,這相當(dāng)于只調(diào)用了二十分之一的參數(shù)規(guī)模即可完成任務(wù)。
此外,肖嶸還提到DeepSeek下一代旗艦?zāi)P蚔4可實(shí)現(xiàn)記憶剝離的核心架構(gòu)之一Engram。
這一創(chuàng)新設(shè)計(jì)提供了一種擴(kuò)展模型規(guī)模的全新思路,將大模型的參數(shù)拆分為傳統(tǒng)大模型網(wǎng)絡(luò)的參數(shù)(例如Transformer參數(shù)、嵌入層參數(shù))和存儲“知識”的參數(shù)。前者參數(shù)規(guī)模的增大會顯著增加計(jì)算的開銷,后者則無影響。
來到硬件底層,肖嶸以英偉達(dá)Blackwell架構(gòu)B300為例,指出了一個關(guān)鍵趨勢:業(yè)界越來越傾向于使用低精度計(jì)算。一個明顯的指標(biāo)對比是,F(xiàn)P4比FP8的算力吞吐量提高了約3倍。
但肖嶸也提醒,低精度計(jì)算并非“免費(fèi)的午餐”——它會引入量化和反量化等一系列額外操作。如果沒有硬件層面的專門加速支持,實(shí)際收益會大打折扣。
另一方面,Agent技術(shù)的普及對大模型的推理延遲提出極高要求。肖嶸指出,當(dāng)前大模型推理很難做到極高TPS(Token每秒處理速度)的根本原因在于:推理過程中需要高頻訪問大規(guī)模模型參數(shù)以及 KV Cache,這對內(nèi)存帶寬造成巨大壓力。
以Meta的LLaMA 70B為例,假設(shè)模型參數(shù)以FP16形式存儲在HBM中,經(jīng)粗略估算,在1000 TPS場景下,僅模型參數(shù)從HBM向計(jì)算核心供數(shù)所對應(yīng)的帶寬需求就可達(dá)到百TB/s量級,這一數(shù)量級已遠(yuǎn)超當(dāng)前主流硬件的實(shí)際帶寬能力。
正因如此,英偉達(dá)才在下一代Rubin架構(gòu)中引入了基于 Groq LPU 的 LPX 推理加速系統(tǒng),構(gòu)建GPU與LPU協(xié)同的異構(gòu)推理架構(gòu)。
其中,GPU 主要負(fù)責(zé)高吞吐的預(yù)填充與注意力計(jì)算,而LPU則針對延遲敏感的解碼路徑進(jìn)行加速。
此外,LPU還采用高帶寬、低延遲的片上 SRAM 以及數(shù)據(jù)流執(zhí)行架構(gòu),顯著降低訪存開銷,提升單次推理響應(yīng)速度,并提高單位時間內(nèi)的Token生成密度。(更多算力與算法層面的技術(shù)優(yōu)化,歡迎添加作者微信 Evelynn7778 探討)
而對于不具備改造算法和算力能力的中小企業(yè)而言,數(shù)據(jù)是撬動AI能力最現(xiàn)實(shí)的支點(diǎn)。
關(guān)濤所在的云器科技堅(jiān)持“數(shù)據(jù)——信息——知識”三級數(shù)據(jù)體系: 首先確保當(dāng)前企業(yè)的數(shù)據(jù)能夠被AI所用,再將企業(yè)的數(shù)據(jù)轉(zhuǎn)化為可共享的知識庫。在這個過程中,同時搭建好反饋鏈路,引領(lǐng)企業(yè)AI化轉(zhuǎn)型。
每人每月1000美元:
Token經(jīng)濟(jì)學(xué)的第一筆賬
當(dāng)Token利用率盡可能提高之后,從Token經(jīng)濟(jì)學(xué)的角度出發(fā),企業(yè)應(yīng)該如何看待員工的“賬單”?
三位嘉賓對于在Token上的預(yù)算把握已有初步的判斷。
肖嶸透露,一旦處理稍顯復(fù)雜的項(xiàng)目,150美元可能瞬間見底。因此,云天勵飛給研發(fā)人員每人每月配備了一定額度的AI費(fèi)用。
他認(rèn)為這筆投入極其劃算。因?yàn)橄啾妊邪l(fā)人員動輒三四十萬甚至百萬年薪,Token成本只是人力成本的零頭。
關(guān)濤也印證了這一投入邏輯:當(dāng)前云器科技沒有設(shè)置Token消耗的上限,員工每月在AI輔助開發(fā)上的花銷約500至1000美元,目前已有約20%的員工能做到高效利用。
作為算力供應(yīng)商,九章云極自身的員工外部Token花費(fèi)月均成本也已達(dá)到2000元。
在肖嶸看來,目前仍處于大模型使用的早期階段,遠(yuǎn)未達(dá)到理想的效率峰值, 企業(yè)還沒到“卷成本”的階段,此刻應(yīng)全面、大膽地?fù)肀Т竽P汀?/p>
當(dāng)然,這并不意味著對成本放任自流。肖嶸建議,當(dāng)大模型使用真正進(jìn)入普及階段后,在面對如何攤薄時間成本的問題時,企業(yè)可利用晚間等低負(fù)載時段錯峰提交任務(wù),或通過多Agent并行執(zhí)行任務(wù)來提升效率。
此外,訂閱制也是一種選擇。不過尚明棟提醒,有些時候訂閱制只是看起來劃算,因?yàn)橐坏┐竽P头?wù)負(fù)載不穩(wěn)定,性價比反而可能不如按量付費(fèi)。他強(qiáng)調(diào),企業(yè)一定要從業(yè)務(wù)價值反推Token消耗的性價比。
關(guān)濤指出,當(dāng)前業(yè)界主流的消耗量是此前的10倍,若沒有達(dá)到這個增長數(shù)字,企業(yè)需要反思在AI轉(zhuǎn)型上是否已經(jīng)落后;然而,如果超過了,就要認(rèn)真審視成本結(jié)構(gòu)。
他以一個極其微小的動作為例:大模型每次哪怕是對“Hello”這樣簡單的交互進(jìn)行回復(fù),背后都需要一次API調(diào)用。而單次接入成本約5毛錢,當(dāng)每個API都計(jì)費(fèi)、用戶高頻調(diào)用時,這筆原本不起眼的花銷瞬間被數(shù)量級放大。
基于此,就不難理解為什么當(dāng)下“養(yǎng)龍蝦”這件事能和“破產(chǎn)”掛鉤。關(guān)濤團(tuán)隊(duì)實(shí)測發(fā)現(xiàn),按照標(biāo)準(zhǔn)OpenClaw的使用習(xí)慣,每人每月的API花費(fèi)平均值高達(dá)400~500元。
這意味著,為了養(yǎng)一個數(shù)字分身,光調(diào)用API的開銷就已占據(jù)每人月可支配收入的約10%。
除了API的調(diào)用頻率,肖嶸指出,用戶具體使用的大模型也在影響Token賬單。(使用側(cè)還有哪些因素影響Token消耗,歡迎添加作者微信 Evelynn7778 交流)
他解釋道,參數(shù)規(guī)模越大,大模型處理復(fù)雜任務(wù)的能力越強(qiáng),所能承載的上下文長度也隨之增加,因此所消耗的Token數(shù)量就越多,對應(yīng)的成本自然水漲船高。
此外,即便處理一樣的Token數(shù)量,參數(shù)越大的模型背后涉及的計(jì)算量也越大,這也是中美大模型之間價格懸殊的根源。
肖嶸指出,中國模型傾向于采用極端的稀疏化和輕量化設(shè)計(jì),在大多走免費(fèi)路線的情況下,力求用盡量少的訓(xùn)練和推理成本實(shí)現(xiàn)較強(qiáng)的智能;而美國企業(yè)的模型在參數(shù)規(guī)模上則要激進(jìn)得多,價格自然也高出一截。
出于長期成本、低延遲或數(shù)據(jù)安全的考量,肖嶸認(rèn)為企業(yè)還可以采用本地部署。他介紹,最新的模型量化壓縮技術(shù)可以在精度無損的情況下,把模型參數(shù)和KV cache參數(shù)分別壓縮至4比特和3.5比特,從而支撐百億規(guī)模的大模型在本地運(yùn)行。
而具體到硬件選擇,值得一提的是最近因OpenClaw賣爆的Mac mini。它之所以備受青睞,正是因?yàn)槠浣y(tǒng)一內(nèi)存和高性能的M系列芯片,以及4000多塊錢的親民成本。
有了Token,單一程序員可掌控的代碼體量躍升十倍,演講者長達(dá)兩周的資料準(zhǔn)備時間被大幅壓縮,十幾歲的孩子可以超前學(xué)習(xí)競賽知識、寫程序優(yōu)化游戲代理延遲……
然而,Token賬單的高低,本質(zhì)是API調(diào)用頻次、模型選型與技術(shù)路線共同作用的結(jié)果。不過,比起省錢,現(xiàn)階段更重要的,或許是建立一條將Token變現(xiàn)為業(yè)務(wù)價值的通路。
以下是此次圓桌討論的精彩分享,雷峰網(wǎng)進(jìn)行了不改原意的編輯整理:
談Token成本及消耗現(xiàn)狀:用量激增10倍,賬單燒不起
雷峰網(wǎng)·胡敏:從去年開始研究怎么用AI,到今年用上小龍蝦,我自己最大的感受是Token消耗真的有點(diǎn)“燒不起”。想問問三位嘉賓,有沒有感受到Token消耗量的變化?以及讓你們比較“肉疼”的案例?
尚明棟:因?yàn)槲覀兗仁撬懔μ峁┱?,也是消納者,所以我從兩個視角出發(fā)來談。
從供需曲線看,去年行業(yè)還在探索算力需求的落地場景,今年高質(zhì)量算力資源已成為驅(qū)動AI創(chuàng)新的核心戰(zhàn)略資產(chǎn),需求呈現(xiàn)爆發(fā)式增長。
從消納端看,我認(rèn)為第一個Killer APP可能就是AI Coding。去年年底Claude 4.5出來后,代碼生成質(zhì)量已經(jīng)能支撐“一人公司”。一個資深程序員原來能管理的代碼上限大概2萬~3萬行,現(xiàn)在借助AI Coding可以輕松突破十幾萬行。
我們公司內(nèi)部也大量使用,比如每晚做一次全代碼審核,包括靜態(tài)代碼的掃描、端口的掃描、安全策略掃描,代碼量幾百萬行,一次掃描消耗六七千萬Token——但折算成錢,成本其實(shí)并不大。
但也有“壞例子”:比如用人工智能去做代碼生成的時候,裝Homebrew遇到權(quán)限警告,AI不懂用sudo繞過,反而建議你去下載開源代碼重新編譯,這一步可能消耗幾百萬甚至上千萬Token,而實(shí)際上人工用一個簡單命令就能跳過。這說明需要人工必要介入,不能全部交給AI決策。
關(guān)濤:我給大家分享兩個數(shù)字。第一個是我們接主流模型時做的實(shí)驗(yàn):測試API是否通暢,說一句“hello”,模型回一句“我能幫你做什么”——這一個API調(diào)用就要5毛錢。
第二,如果用標(biāo)準(zhǔn)版的OpenClaw(未經(jīng)優(yōu)化),每人每月的API消耗平均在400~500元。對比一下,我國人均月可支配收入也就4000多人民幣,養(yǎng)一個“龍蝦”要花掉十分之一,這個賬單確實(shí)夸張。
但也有兩個趨勢:一是每百萬Token成本從去年到今年大概降了75%,從10美元降到2美元左右;二是OpenRouter流量增長約10倍,Anthropic收入增長14倍。成本降了3~4倍,但用量增長了十幾倍。所以企業(yè)如果感覺AI賬單在快速增長,一點(diǎn)也不奇怪。
肖嶸:我們公司給研發(fā)人員每人配了每月較高額度的quota。為什么高?因?yàn)橐粋€復(fù)雜任務(wù)跑下來,調(diào)用API搜索分析下來,150美元可能就沒了。
Token消耗未來會增加得更厲害——不只Coding,協(xié)同辦公領(lǐng)域消耗也很可怕。以前做PPT可能需要兩周,還要多人幫忙?,F(xiàn)在我把框架搭好,告訴大模型我的觀點(diǎn),讓它批判或接受,多個Agent同時跑,一天就能產(chǎn)出70多頁專業(yè)PPT。
再說個例子,我們董事長陳寧博士的初中生兒子,他把書丟給大模型,讓模型用更形象、交互的方式解釋,還生成動畫,兩天就學(xué)完了一本三角函數(shù)教材。他玩美國原神網(wǎng)絡(luò)延遲,找大模型聊完天,模型直接寫程序優(yōu)化掉了。所以沒有科班背景的人,借助AI能做出很多想象不到的事情。
Token成本上升的原因我總結(jié)一下:模型越大越好用,上下文越長效果越明顯,這兩個維度都讓Token成本高漲。不同上下文的成本基本呈線性增長。為了服務(wù)效率,比如寫PPT開十幾個Agent也得跑20分鐘,最舒服的是1分鐘出結(jié)果。所以另一個趨勢是:為了生產(chǎn)效率,成本加倍也愿意。
談Token降本策略:不是所有事都該AI干,分層路由+上下文精簡是關(guān)鍵
雷峰網(wǎng)(公眾號:雷峰網(wǎng))·胡敏:那么企業(yè)到底怎么省Token?先從使用側(cè)聊起,有沒有實(shí)操方法或手冊?
尚明棟:省Token首先要搞清楚Token花在哪,才能對癥下藥。從企業(yè)算賬角度,Token消耗量和效率提升、價值增值要建立映射關(guān)系。首先人群在擴(kuò)大,最早從技術(shù)人員擴(kuò)展到全員使用,這是正向的,但要避免浪費(fèi):
第一,模型濫用,不是所有任務(wù)都需要萬億參數(shù)的大模型,簡單查詢用小模型即可;
第二,避免上下文堆積——?dú)v史對話和檢索結(jié)果反復(fù)投喂,每輪都在重復(fù)支付成本;
第三,優(yōu)化低效工作流,比如剛才那個Homebrew的例子,人工一個sudo命令就能解決,AI卻繞了一大圈。
從使用者角度,提示詞要短、清晰,能走規(guī)則化流程的就不讓大模型做;控制輸出長度,避免無效重試。
從技術(shù)角度,可以做模型分層路由、KV緩存(至少能避免10%以上的重復(fù)計(jì)算),以及優(yōu)化Agent結(jié)構(gòu)減少調(diào)用次數(shù)、降低失敗率。
肖嶸:我補(bǔ)充四個方向:使用側(cè)、平臺側(cè)、大模型側(cè)、硬件側(cè)都有優(yōu)化空間。
使用側(cè)最簡單的方法是“分層”:把模型能力分成大學(xué)生、中學(xué)生、小學(xué)生。讓最強(qiáng)模型(大學(xué)生)做任務(wù)拆解和規(guī)劃,中小模型(中學(xué)生和小學(xué)生)執(zhí)行具體任務(wù),效果不好再讓大模型指導(dǎo)或親自上手。整體效果差不多,但成本大幅下降。
另外,本地部署7B~14B的小模型也是省錢路子,比如用Mac mini(4000多人民幣)就能跑不錯的模型。最新技術(shù)如Google的TurboQuant,可以把KV Cache壓縮到1/4或1/5,結(jié)合模型的低精度量化技術(shù),本地部署越來越可行。
還有,控制上下文——不相關(guān)的歷史對話可以壓縮或另開話題。
最后,一定要有自己的提示詞模板,就像公司給新員工發(fā)員工手冊一樣,把常見場景的prompt固化下來,能省大量重復(fù)消耗。會用大模型的人一個人能干5個人的活,差別就在這。
關(guān)濤:我舉三個可避免Token浪費(fèi)的例子:
第一,用法錯誤——不是所有事情都應(yīng)該交給AI,比如把一萬行訪問日志直接丟給AI做統(tǒng)計(jì),又慢又錯。正確做法是讓AI寫Python程序來處理,或者把數(shù)據(jù)放在專業(yè)系統(tǒng)里用工具做。
第二,上下文信息不足或不準(zhǔn)確——比如問“上個月GMV增長原因”,數(shù)據(jù)庫里有幾十張表都含GMV字段,模型不知道用哪張,再貴的模型也解決不了。這是數(shù)據(jù)問題,不是模型問題。
第三,上下文過分臃腫——每次對話都攜帶大量歷史,不僅浪費(fèi)Token還影響模型效果。特別是當(dāng)Context被修改過、不符合模型設(shè)計(jì)時,會導(dǎo)致緩存失效,價格和性能都受到傷害。要保證Context足夠精確,盡量在同一Session內(nèi)追加,這樣更符合模型設(shè)計(jì),能大幅提升速度、節(jié)省Token。
談模型采購與分層:性價比不是看單價,而是看“單位業(yè)務(wù)結(jié)果成本”
雷峰網(wǎng)·胡敏:從采購側(cè)呢?模型選型、計(jì)費(fèi)方式、購買渠道上,大家有什么心得或踩過什么坑?
尚明棟:采購不能只看單價,要看單位業(yè)務(wù)結(jié)果成本。便宜的模型如果效果不穩(wěn)定、需要多次重試、人工復(fù)核,總成本反而更高。要根據(jù)實(shí)際應(yīng)用場景做模型分層和動態(tài)路由,簡單任務(wù)給小模型,復(fù)雜有規(guī)劃的給大模型。
計(jì)費(fèi)方式上,訂閱制看起來劃算,但如果負(fù)載不穩(wěn)定,綜合成本未必如意。還要考慮數(shù)據(jù)安全、資源穩(wěn)定等綜合因素,最終要回到業(yè)務(wù)價值來反推性價比。不同部門、不同場景差異很大,需要有專門的小團(tuán)隊(duì)來賦能。
肖嶸:我完全同意,目前Token是生產(chǎn)力工具,產(chǎn)生的效益遠(yuǎn)大于成本,建議盡量采用符合需求的模型,成本不是最重要。等大家都用上大模型、效率都上來了,再考慮降本?,F(xiàn)在社會變革還沒到卷成本的時候,大家都用上大模型后,那時降本就很重要了。
降本的具體方法:一是模型分層(大學(xué)生/中學(xué)生/小學(xué)生);二是利用波峰波谷——離線任務(wù)放在晚上提交,成本更低;三是訂閱制保證用量。
關(guān)濤:我們有個方法論:把場景分成兩個維度——高性價比/低性價比,以及穩(wěn)定確定性/探索不確定性。
高性價比+不確定的場景(比如核心代碼開發(fā)),直接用最好的模型,因?yàn)橄啾热肆Τ杀荆琓oken成本微不足道;
高性價比+確定性的場景,先用好模型跑通,再逐步降低模型能力,找到性價比平衡點(diǎn);
這需要兩個系統(tǒng)支持:一個AI Gateway(靈活切換模型),一個可觀測系統(tǒng)(監(jiān)控成功率、Token消耗等)。
低性價比+確定場景,用模型構(gòu)建工具形成流水線,而不是每次都靠模型;
低性價比+不確定場景:通常用不起來,需要探索其他方式或人工補(bǔ)位;
現(xiàn)在每家模型基本上每三個月就迭代一次,不管是美國還是中國,隔幾個月就會有一個新模型達(dá)到當(dāng)前SOTA水平。所以很難說哪個模型一定最好——有的性價比好一點(diǎn),有的能力強(qiáng)一點(diǎn)??赡艽蠹椅ㄒ坏墓沧R是從Coding視角看,Anthropic的模型更好一些。剩下的,甚至包括最新的視頻生成模型,現(xiàn)在很難講誰是第一名。
所以我們通常建議企業(yè)接一個或自己做一個AI Gateway,能夠靈活切換模型。這比現(xiàn)在死磕某一個模型更合理,畢竟整個模型迭代還處在非常高速的發(fā)展期。
談供給側(cè)優(yōu)化:從平臺、模型、硬件、數(shù)據(jù)四個層面“卷”成本
雷峰網(wǎng)·胡敏:三位都身處AI產(chǎn)業(yè)鏈,你們各自在做哪些事來幫企業(yè)降Token成本?
尚明棟:作為算力供給方,我們在工程化上做了很多:算力云建設(shè)的選型配置、PD分離架構(gòu)、四層存儲架構(gòu)、計(jì)算存儲網(wǎng)絡(luò)分離、隨機(jī)算法推理優(yōu)化等,最終提升Token產(chǎn)出率。
同時我們也在做模型動態(tài)路由,但核心觀點(diǎn)是:不要只關(guān)心Token貴不貴,要關(guān)心Token花得值不值。這需要把Token成本從技術(shù)問題變成產(chǎn)品、采購、財務(wù)共同管理的經(jīng)營指標(biāo)。要建立評估體系,看投入是否值得。
另外,AI能力要匹配組織管理變革,這放大了人與人之間的差距——有人效率提升3~5倍,有人只有30%,團(tuán)隊(duì)里會出現(xiàn)“木桶原理”?,F(xiàn)在團(tuán)隊(duì)更扁平化,開發(fā)工程師變成全棧工程師,一專多能。這不只是工具問題,更是團(tuán)隊(duì)組織管理方式的變革。
肖嶸:從平臺層、模型層、硬件層三個層次來說:
平臺層:做模型分層調(diào)度、記憶壓縮、任務(wù)反思總結(jié),讓“養(yǎng)龍蝦”的過程更智能。
模型層:通過更稀疏的架構(gòu)(如MoE)、新的注意力機(jī)制(如線性注意力、混合注意力),以及類似DeepSeek的Engram外掛記憶,讓模型更快、更聰明、知識面更廣。
硬件層:低精度計(jì)算(英偉達(dá)Blackwell引入FP4,精度降8倍但模型精度不跌)、協(xié)處理器(如Groq的方案,把參數(shù)直接放在芯片SRAM里,實(shí)現(xiàn)極低時延、高TPS)。這些方向都在讓Token成本持續(xù)下降。
關(guān)濤:我們更偏重數(shù)據(jù)側(cè)。AI三要素包括算法、算力、數(shù)據(jù)。對大多數(shù)企業(yè)來說,前兩者通常是買來的,數(shù)據(jù)是企業(yè)提升AI能力的關(guān)鍵。我們做三件事:
第一,讓企業(yè)現(xiàn)有數(shù)據(jù)平臺能被AI用好——做語義層(Semantic Layer)、MCP連接等,讓結(jié)構(gòu)化數(shù)據(jù)成為AI的Ground Truth;
第二,幫企業(yè)構(gòu)建統(tǒng)一、可共享的知識庫——把數(shù)據(jù)升級為信息,信息升級為知識,避免每個Agent都重復(fù)沉淀記憶和Skill;
第三,建立反饋鏈路——通過數(shù)據(jù)平臺采集分析,讓企業(yè)看清楚AI的投入產(chǎn)出比,并能靈活調(diào)整模型、Prompt、上下文。
作者持續(xù)關(guān)注AI算力芯片上下游,更多信息可添加作者微信 Evelynn7778 交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。