日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

<li id="ikgem"><th id="ikgem"></th></li><fieldset id="ikgem"></fieldset>

<li id="ikgem"><object id="ikgem"></object></li>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能學(xué)術(shù) 正文

發(fā)私信給鄭佳美

發(fā)送

0

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

本文作者：鄭佳美

2025-12-22 10:56

導(dǎo)語(yǔ)：系統(tǒng)實(shí)驗(yàn)表明，模型推理分為計(jì)算受限的 Prefill 與內(nèi)存受限的 Decode。

隨著大語(yǔ)言模型逐漸走向真實(shí)應(yīng)用，推理階段的性能問(wèn)題正在成為制約落地的關(guān)鍵因素。

模型規(guī)模不斷增大、上下文持續(xù)拉長(zhǎng)，再加上 RAG、MoE 等新用法的引入，使得延遲、吞吐和能耗不再只是“調(diào)一調(diào)參數(shù)”的問(wèn)題，而是直接影響系統(tǒng)架構(gòu)和算力成本的核心挑戰(zhàn)。

圍繞這些問(wèn)題，來(lái)自中國(guó)科學(xué)院計(jì)算所的嚴(yán)明玉團(tuán)隊(duì)，聯(lián)合中國(guó)電信云計(jì)算研究院、浙江實(shí)驗(yàn)室和北京大學(xué)的研究者，在論文《A Systematic Characterization of LLM Inference on GPUs》中，對(duì)大語(yǔ)言模型在 GPU 上的推理行為進(jìn)行了系統(tǒng)研究。

不同于以往側(cè)重單一模型、單一算子或局部?jī)?yōu)化的研究路徑，嚴(yán)明玉團(tuán)隊(duì)從系統(tǒng)和硬件協(xié)同的視角出發(fā)，通過(guò)大規(guī)模實(shí)驗(yàn)，對(duì)大語(yǔ)言模型在 GPU 上的推理行為進(jìn)行了全面刻畫，試圖從根本上回答一個(gè)長(zhǎng)期困擾工程實(shí)踐的問(wèn)題：大模型推理為什么會(huì)呈現(xiàn)出現(xiàn)在這樣的性能特征。

這項(xiàng)工作并沒有直接給出如何優(yōu)化的現(xiàn)成答案，而是首先建立了一套統(tǒng)一、可解釋的性能認(rèn)知框架，將 Prefill 與 Decode 的差異上升為系統(tǒng)級(jí)的基本規(guī)律，并在不同模型規(guī)模、不同硬件平臺(tái)以及 MoE、RAG 等新型推理范式下進(jìn)行了驗(yàn)證。

在這一框架下，推理延遲、資源利用率和能耗不再是孤立的指標(biāo)，而是隨著工作負(fù)載和系統(tǒng)配置發(fā)生有規(guī)律的變化。這種從現(xiàn)象出發(fā)、最終回到系統(tǒng)根因的研究方式，使得這項(xiàng)工作更像是在為大模型推理建立一張可理解、可推演的性能全景圖，而不是提供某個(gè)場(chǎng)景下的經(jīng)驗(yàn)結(jié)論。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

論文鏈接：https://arxiv.org/pdf/2512.01644v1

一次對(duì)大模型推理性能的系統(tǒng)性拆解

嚴(yán)明玉團(tuán)隊(duì)的這項(xiàng)工作通過(guò)大量有組織的實(shí)驗(yàn)，系統(tǒng)地總結(jié)了大語(yǔ)言模型在推理階段的性能規(guī)律，而不是停留在零散的經(jīng)驗(yàn)觀察上。研究團(tuán)隊(duì)發(fā)現(xiàn)，LLM 的推理過(guò)程在本質(zhì)上可以分成兩個(gè)完全不同的階段，而且這種差異并不是靠?jī)?yōu)化就能消除的。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

具體來(lái)說(shuō)，第一個(gè)階段是 Prefill 階段，主要任務(wù)是一次性處理用戶輸入的 prompt。這個(gè)階段可以并行執(zhí)行，核心計(jì)算是大規(guī)模矩陣乘法，因此計(jì)算量大、算得很滿，GPU 的計(jì)算單元利用率很高，整體性能主要受限于算力本身。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

第二個(gè)階段是 Decode 階段，用來(lái)逐個(gè)生成輸出 token。由于生成過(guò)程是一步一步進(jìn)行的，每一步都需要訪問(wèn)已經(jīng)緩存的上下文信息（KV Cache），實(shí)際計(jì)算量不大，但內(nèi)存訪問(wèn)非常頻繁，因此性能瓶頸從算力轉(zhuǎn)移到了內(nèi)存帶寬和訪問(wèn)延遲上。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在此基礎(chǔ)上，論文進(jìn)一步指出，推理過(guò)程中到底是 Prefill 慢還是 Decode 慢，并不是固定的，而是取決于具體的輸入和輸出情況。當(dāng)輸入較短時(shí)，雖然每一步 Decode 的計(jì)算不多，但需要執(zhí)行很多步，因此 Decode 往往成為主要耗時(shí)部分。

而當(dāng)輸入變長(zhǎng)時(shí)，Prefill 階段需要處理的 token 數(shù)迅速增加，其計(jì)算量增長(zhǎng)更快，在超過(guò)某個(gè)長(zhǎng)度之后就會(huì)反過(guò)來(lái)成為整體延遲的主要來(lái)源。這種從 Decode 主導(dǎo)到 Prefill 主導(dǎo)的轉(zhuǎn)變說(shuō)明，性能瓶頸更多是由工作負(fù)載決定的，而不是模型本身天生慢在哪。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

如果進(jìn)一步拆到模型內(nèi)部的算子層面，研究團(tuán)隊(duì)發(fā)現(xiàn)瓶頸同樣不是固定的。在常見的上下文長(zhǎng)度下，Prefill 階段的主要時(shí)間往往花在前饋網(wǎng)絡(luò)（FFN）上，但在上下文特別長(zhǎng)的情況下，由于注意力計(jì)算的復(fù)雜度增長(zhǎng)更快，Attention 會(huì)逐漸成為主要瓶頸。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

Decode 階段的情況則和模型規(guī)模有關(guān)：對(duì)于較小的模型，頻繁訪問(wèn) KV Cache 的 Attention 更容易成為瓶頸；而對(duì)于大模型，由于前饋網(wǎng)絡(luò)權(quán)重更大，F(xiàn)FN 的內(nèi)存加載成本反而更突出。這說(shuō)明，單純地說(shuō) Attention 是瓶頸或 FFN 是瓶頸都是不準(zhǔn)確的，必須結(jié)合所處階段、上下文長(zhǎng)度和模型規(guī)模來(lái)判斷。雷峰網(wǎng)

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在性能可預(yù)測(cè)性方面，論文發(fā)現(xiàn) Prefill 階段的行為非常規(guī)律。它的執(zhí)行時(shí)間幾乎只由真正需要計(jì)算的輸入 token 數(shù)量決定，而且二者之間呈現(xiàn)非常穩(wěn)定的線性關(guān)系。這意味著，只要知道輸入長(zhǎng)度和緩存命中情況，就可以比較準(zhǔn)確地預(yù)測(cè) Prefill 的延遲，這對(duì)系統(tǒng)調(diào)度和資源規(guī)劃非常有用。相比之下，Decode 階段由于是逐步生成，并且受到采樣和串行依賴的影響，性能波動(dòng)更大，也更難提前預(yù)測(cè)。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在能耗分析中，論文給出了一個(gè)非常直觀但重要的結(jié)論：整個(gè)推理過(guò)程消耗的能量，幾乎全部來(lái)自 Decode 階段。輸入有多長(zhǎng)，對(duì)總能耗影響很小，而輸出生成了多少 token，幾乎直接決定了能耗大小。同時(shí)，模型參數(shù)越多，總能耗也會(huì)隨之增加。這說(shuō)明，在真實(shí)系統(tǒng)中，如果想要降低推理能耗，限制輸出長(zhǎng)度往往比優(yōu)化 Prefill 更有效。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在多 GPU 擴(kuò)展實(shí)驗(yàn)中，研究團(tuán)隊(duì)發(fā)現(xiàn)并行化并不是在所有情況下都有效。Prefill 階段由于計(jì)算量大，把計(jì)算分?jǐn)偟蕉鄰?GPU 上通常能帶來(lái)收益，但 Decode 階段每一步計(jì)算都很小，多 GPU 之間的通信和同步反而會(huì)成為負(fù)擔(dān)，導(dǎo)致性能提升不明顯甚至變慢。因此，在 Decode 為主的場(chǎng)景下，使用單 GPU 或較輕量的流水并行往往更合適，這也打破了GPU 越多越快的直覺。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

最后，論文還分析了新的推理范式。對(duì)于 MoE 模型，推理速度主要取決于每次實(shí)際參與計(jì)算的參數(shù)規(guī)模，而不是模型的總參數(shù)量，這帶來(lái)了明顯的性能優(yōu)勢(shì)，但同時(shí)，在 Decode 階段會(huì)額外引入專家選擇和調(diào)度的開銷，使性能表現(xiàn)更加復(fù)雜。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

對(duì)于 RAG 工作流，研究團(tuán)隊(duì)發(fā)現(xiàn)隨著外部知識(shí)規(guī)模變大，系統(tǒng)瓶頸會(huì)從 GPU 推理轉(zhuǎn)移到 CPU 側(cè)的檢索和內(nèi)存訪問(wèn)上，形成新的性能限制。盡管推理流程變得更加復(fù)雜，但 Prefill 和 Decode 在性能上的根本差異依然存在，仍然是理解整體行為的關(guān)鍵。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

面向系統(tǒng)理解的大模型推理實(shí)驗(yàn)框架

為了讓結(jié)論更完整、也更容易理解，這篇論文在實(shí)驗(yàn)設(shè)計(jì)上采用了一種由淺入深的分析思路。研究團(tuán)隊(duì)并不是一開始就研究底層硬件細(xì)節(jié)，而是先觀察整體推理性能表現(xiàn)，再逐步深入到 GPU 的執(zhí)行和存儲(chǔ)行為，最后把得到的規(guī)律放回到真實(shí)系統(tǒng)和新型推理場(chǎng)景中進(jìn)行驗(yàn)證。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

在實(shí)驗(yàn)平臺(tái)方面，論文同時(shí)使用了數(shù)據(jù)中心級(jí)的 GPU（A100）和邊緣設(shè)備上的 GPU（Jetson AGX Orin）。這樣做的目的，是檢驗(yàn)前面總結(jié)出的性能規(guī)律是否只在高端服務(wù)器上成立，還是在算力和內(nèi)存條件更受限的設(shè)備上同樣適用。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

模型選擇上，研究團(tuán)隊(duì)覆蓋了多種主流的 dense 模型（從 7B 到 32B），同時(shí)還引入了一個(gè)具有代表性的 MoE 模型，以觀察不同參數(shù)規(guī)模和不同架構(gòu)設(shè)計(jì)對(duì)推理性能的影響。為了保證對(duì)比公平，所有實(shí)驗(yàn)都在同一套推理框架和相同精度設(shè)置下進(jìn)行，盡量減少實(shí)現(xiàn)細(xì)節(jié)帶來(lái)的干擾。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在工作負(fù)載設(shè)計(jì)上，研究團(tuán)隊(duì)并沒有簡(jiǎn)單地跑幾組固定 benchmark，而是有針對(duì)性地設(shè)計(jì)了多種輸入和輸出組合。例如，有的任務(wù)輸入短、輸出長(zhǎng)，有的輸入長(zhǎng)、輸出短，還有真實(shí)對(duì)話數(shù)據(jù)和可控的合成數(shù)據(jù)。這樣的設(shè)計(jì)是為了有意識(shí)地制造 Prefill 占主導(dǎo)或 Decode 占主導(dǎo)的不同場(chǎng)景，從而驗(yàn)證兩階段在不同條件下是否始終表現(xiàn)出不同的性能特征。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在性能分析方法上，論文采用了分層剖析的方式。首先在整體層面上，測(cè)量端到端的延遲、吞吐量和能耗，建立對(duì)系統(tǒng)行為的直觀認(rèn)識(shí)；接著在階段和算子層面，分析 Prefill 和 Decode 各自占用了多少時(shí)間，以及不同算子在其中的作用；最后深入到硬件層面，通過(guò) Roofline 模型、warp 停頓分析，以及緩存命中率和內(nèi)存帶寬使用情況，來(lái)判斷性能究竟是受限于計(jì)算還是受限于內(nèi)存。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

在能耗分析中，研究人員通過(guò)高頻功率采樣并扣除空閑功耗的方式，盡量保證測(cè)量結(jié)果的準(zhǔn)確性。在涉及 RAG 的實(shí)驗(yàn)中，還額外使用了 CPU 側(cè)的性能分析工具，專門分析檢索階段的瓶頸來(lái)源。

通過(guò)這種從“看現(xiàn)象”到“找原因”的逐步分析過(guò)程，論文避免了只憑經(jīng)驗(yàn)判斷或簡(jiǎn)單相關(guān)性分析下結(jié)論的問(wèn)題，使得每一個(gè)宏觀層面的性能現(xiàn)象，都能在底層硬件執(zhí)行機(jī)制上找到清晰的解釋。

當(dāng)問(wèn)題被看清，優(yōu)化才有方向

這篇論文的意義不在于提出某一種新的優(yōu)化技巧，而在于建立了一套統(tǒng)一、可解釋的大模型推理性能認(rèn)知框架。它首次將 Prefill 與 Decode 的階段差異提升為系統(tǒng)級(jí)基本規(guī)律，并證明這一規(guī)律在不同模型規(guī)模、硬件平臺(tái)和新興推理范式下均成立。

從工程角度看，論文糾正了多個(gè)長(zhǎng)期存在的直覺性誤解，例如Attention 永遠(yuǎn)是瓶頸、多 GPU 一定更快、Prefill 是主要能耗來(lái)源等，并給出了明確的反例和機(jī)制解釋。這些結(jié)論對(duì)實(shí)際推理服務(wù)的部署策略、資源配置和成本控制具有直接指導(dǎo)意義。

從系統(tǒng)研究角度看，這篇內(nèi)容為后續(xù)工作提供了清晰的問(wèn)題分解方式：優(yōu)化 Prefill 和優(yōu)化 Decode 不應(yīng)混為一談，而應(yīng)針對(duì)各自的根本瓶頸分別設(shè)計(jì)機(jī)制。這一思想對(duì)調(diào)度器設(shè)計(jì)、并行策略選擇以及新硬件特性利用都具有啟發(fā)作用。

從未來(lái)發(fā)展看，論文指出了 MoE 和 RAG 等新范式如何重塑瓶頸位置，提示研究者在模型和系統(tǒng)協(xié)同設(shè)計(jì)時(shí)需要關(guān)注路由開銷、內(nèi)存局部性和 CPU–GPU 協(xié)同，而不僅僅是算力規(guī)模。

總體而言，這是一篇以實(shí)驗(yàn)為基礎(chǔ)、以解釋為核心、以系統(tǒng)認(rèn)知為目標(biāo)的論文，其價(jià)值在于回答了“為什么 LLM 推理會(huì)這樣表現(xiàn)”，而不僅是“如何讓它更快一點(diǎn)”。

工作背后的研究者

本文通訊作者為中國(guó)科學(xué)院計(jì)算技術(shù)研究所的嚴(yán)明玉教授。他主要從事計(jì)算機(jī)體系結(jié)構(gòu)相關(guān)研究，研究方向涵蓋圖機(jī)器學(xué)習(xí)、設(shè)計(jì)空間探索以及復(fù)雜計(jì)算系統(tǒng)的性能分析等問(wèn)題。

計(jì)算所嚴(yán)明玉團(tuán)隊(duì)新作： Attention 并非永遠(yuǎn)是瓶頸，多 GPU 并不一定更快

參考鏈接：https://mingyuyan-ict.github.io/MingyuYan-ICT/

在學(xué)術(shù)研究方面，嚴(yán)明玉教授已在多個(gè)國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表近 20 篇論文，相關(guān)成果發(fā)表于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要學(xué)術(shù)平臺(tái)，覆蓋體系結(jié)構(gòu)、系統(tǒng)與應(yīng)用交叉等多個(gè)研究領(lǐng)域。

除科研工作外，嚴(yán)明玉教授也是 IEEE 和中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）的高級(jí)會(huì)員，并多次擔(dān)任 HPCA、ISCA、MICRO、IJCAI、ISPASS 等國(guó)際會(huì)議的技術(shù)程序委員會(huì)委員或?qū)徃迦耍L(zhǎng)期參與相關(guān)領(lǐng)域的學(xué)術(shù)評(píng)審與社區(qū)建設(shè)。

在學(xué)術(shù)培養(yǎng)與科研經(jīng)歷方面，他于中國(guó)科學(xué)院大學(xué)獲得博士學(xué)位，并曾赴美國(guó)加州大學(xué)圣塔芭芭拉分校進(jìn)行聯(lián)合培養(yǎng)。其博士論文曾獲得中國(guó)計(jì)算機(jī)學(xué)會(huì)優(yōu)秀博士論文獎(jiǎng)。此外，他還入選北京市科技新星計(jì)劃、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)，并主持或參與中國(guó)科學(xué)院青年團(tuán)隊(duì)項(xiàng)目等科研計(jì)劃。

總體而言，嚴(yán)明玉教授長(zhǎng)期致力于從系統(tǒng)視角理解復(fù)雜計(jì)算負(fù)載在硬件平臺(tái)上的執(zhí)行行為，強(qiáng)調(diào)通過(guò)系統(tǒng)性實(shí)驗(yàn)和硬件行為分析揭示性能瓶頸的形成機(jī)理，其研究成果兼具理論深度與工程實(shí)踐價(jià)值。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

融資摩托羅拉數(shù)據(jù) SpaceX 新能源汽車硬創(chuàng)邦移動(dòng)醫(yī)療虛擬貨幣掃地機(jī)器人李明劉強(qiáng)東

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)

<td id="aagay"><tfoot id="aagay"></tfoot></td>

<sup id="aagay"></sup>

<ul id="aagay"><menu id="aagay"></menu></ul>

<fieldset id="aagay"></fieldset>

<li id="aagay"><object id="aagay"></object></li>