上海AI Lab胡俠：KV Cache壓縮之后，可讓價(jià)格2萬(wàn)美金的GPU發(fā)揮出20萬(wàn)美金的價(jià)值 | GAIR 2025

本文作者：張進(jìn)

2026-01-08 10:36

導(dǎo)語(yǔ)：胡俠團(tuán)隊(duì)將 Key 跟 Value Cache按照不同的壓縮方法壓縮，可以讓模型不掉點(diǎn)。

目前，不同大模型廠商發(fā)布的大語(yǔ)言模型在處理超長(zhǎng)上下文方面已經(jīng)有顯著突破，最高的已能支持?jǐn)?shù)百萬(wàn) Token 的輸入，例如 MiniMax-M1、Qwen2.5-1M 系列模型，均支持百萬(wàn)Token（1M）級(jí)別的超長(zhǎng)上下文處理能力。

但是這場(chǎng)有關(guān)提升大模型上下文長(zhǎng)度的“軍備賽”依然不會(huì)停止，這是一項(xiàng)巨大的工程與效率之戰(zhàn)。因?yàn)槌L(zhǎng)下文為模型智能提供了最廣闊的發(fā)揮空間——在處理如金融、法律、醫(yī)療等領(lǐng)域的長(zhǎng)語(yǔ)境任務(wù)是表現(xiàn)更好。所以誰(shuí)能率先突破更長(zhǎng)上下文處理能力，便有機(jī)會(huì)創(chuàng)造出更大的商業(yè)與技術(shù)價(jià)值。

胡俠團(tuán)隊(duì)便針對(duì)這一目標(biāo)提出了一項(xiàng)最新研究方案——“通過(guò)有損計(jì)算（Lossy Computation）來(lái)提高大語(yǔ)言模型的推理效率”。這項(xiàng)研究的基本思路是，利用大語(yǔ)言模型對(duì)來(lái)自低精度計(jì)算等“有損”操作產(chǎn)生的噪聲具有極強(qiáng)魯棒性這一特點(diǎn)，主動(dòng)引入可控的、不損害性能的信息損失，以換取顯著的效率提升。

大模型中的“有損計(jì)算”是通過(guò)有選擇地犧牲一部分精度來(lái)大幅降低計(jì)算或者存儲(chǔ)成本，從而提升推理效率，主要圍繞模型參數(shù)量化、KV Cache 壓縮、模型剪枝與知識(shí)蒸餾等核心路徑展開(kāi)。

胡俠認(rèn)為，大語(yǔ)言模型雖已實(shí)現(xiàn)類人對(duì)話能力，但在處理醫(yī)療領(lǐng)域長(zhǎng)篇文獻(xiàn)信息提取等長(zhǎng)語(yǔ)境任務(wù)時(shí)，面臨著“預(yù)訓(xùn)練長(zhǎng)度限制”與“推理內(nèi)存需求激增”的雙重挑戰(zhàn)。

針對(duì)這兩項(xiàng)挑戰(zhàn)，團(tuán)隊(duì)提出的“通過(guò)有損計(jì)算（Lossy Computation）來(lái)提高大語(yǔ)言模型的推理效率”方案，實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵技術(shù)突破：一是在算法層面，通過(guò)粗化遠(yuǎn)距離標(biāo)記的位置信息，成功將大語(yǔ)言模型的語(yǔ)境長(zhǎng)度擴(kuò)展至原有水平的 8 倍；二是在系統(tǒng)層面，將過(guò)往標(biāo)記的中間狀態(tài)（KV Cache）量化為 2 比特?cái)?shù)字，實(shí)現(xiàn)了 8 倍內(nèi)存效率的提升和 3.5 倍時(shí)鐘時(shí)間加速的重大進(jìn)展。

胡俠是人工智能領(lǐng)域的國(guó)際知名學(xué)者，長(zhǎng)期從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能研究，目前是上海人工智能實(shí)驗(yàn)室主任助理、領(lǐng)軍科學(xué)家，曾擔(dān)任美國(guó)萊斯大學(xué)正教授、數(shù)據(jù)科學(xué)中心主任，亦是AIPOW公司聯(lián)合創(chuàng)始人兼首席科學(xué)家。其主導(dǎo)開(kāi)發(fā)的開(kāi)源系統(tǒng) AutoKeras 成為最常用的自動(dòng)機(jī)器學(xué)習(xí)框架之一（超過(guò) 8000 次 star 及 1000 次 fork），開(kāi)發(fā)的 NCF 算法及系統(tǒng)（單篇論文被引用超 8000 余次）成為主流人工智能框架 TensorFlow 的官方推薦系統(tǒng)，主導(dǎo)開(kāi)發(fā)的異常檢測(cè)系統(tǒng)在通用、Trane、蘋果等公司的產(chǎn)品中得到廣泛應(yīng)用。

關(guān)于這兩項(xiàng)關(guān)鍵技術(shù)的相關(guān)細(xì)節(jié)以及應(yīng)用前景，近日我們跟胡俠教授聊了聊，以下內(nèi)容經(jīng)過(guò)不改變?cè)獾木庉?、整理?/p>

從模糊的上下文位置信息以及模糊的 KV Cache 兩點(diǎn)入手做“有損計(jì)算”

雷峰網(wǎng)：請(qǐng)您先簡(jiǎn)單介紹下"通過(guò)有損計(jì)算實(shí)現(xiàn)高效大語(yǔ)言模型推理"的具體思路？

胡俠：我們根據(jù)大語(yǔ)言模型對(duì)來(lái)自低精度計(jì)算等"有損操作"產(chǎn)生的噪聲具有極強(qiáng)魯棒性這一特點(diǎn)，主動(dòng)引入可控的、不損害性能的信息損失，能夠極高地提供推理效率，實(shí)際上是用精度換取效率的思路。我們的"有損計(jì)算"主要實(shí)施方式是兩種，一是在算法層面，不要用上下文精確的相對(duì)距離來(lái)進(jìn)行計(jì)算，而是通過(guò)粗化遠(yuǎn)距離標(biāo)記的位置信息，成功將大語(yǔ)言模型的語(yǔ)境長(zhǎng)度擴(kuò)展至原來(lái)水平的 8 倍；二是在系統(tǒng)層面，將過(guò)去令牌的中間狀態(tài)（KV Cache）做相應(yīng)的量化，量化為 2 比特?cái)?shù)字，可以實(shí)現(xiàn) 8 倍內(nèi)存效率提升和 3.5 倍實(shí)際速度加速，且不影響模型性能。

雷峰網(wǎng)：“有損計(jì)算”的靈感是否部分源于對(duì)大模型本身作為一種“有損世界壓縮器”的理論認(rèn)知？

胡俠：整個(gè)方案的靈感來(lái)源于深度學(xué)習(xí)，深度學(xué)習(xí)中有兩個(gè)重要的發(fā)現(xiàn)。一個(gè)是模型的參數(shù)量實(shí)際上比模型的精度更重要，我們做了很多實(shí)驗(yàn)，其中一堆實(shí)驗(yàn)都表明相對(duì)大的模型比相對(duì)精確的模型，它的推理無(wú)論是效率還是準(zhǔn)確度來(lái)講都更好。

第二個(gè)重要發(fā)現(xiàn)是在深度模型中，當(dāng)我們把很多參數(shù)刪掉以后，模型的準(zhǔn)確率損失非常小。

于是我們就想到了怎樣從模糊的上下文信息以及模糊的 KV Cache 這兩點(diǎn)入手做有損計(jì)算。具體舉個(gè)例子，比如我們讀書(shū)時(shí)，當(dāng)我們?cè)噲D記憶上下文，比如想知道上一章出現(xiàn)了一個(gè)什么故事，但我們不需要知道這個(gè)故事發(fā)生在第 265 個(gè)字之前還是第 257 個(gè)字之前，我只需要知道大概兩三百個(gè)字之前出現(xiàn)了這么一個(gè)故事就行了。

雷峰網(wǎng)：您的"有損計(jì)算"方案主要通過(guò)兩種方案，其中通過(guò)粗化位置信息來(lái)擴(kuò)展上下文，這種粗化策略是靜態(tài)，還是根據(jù)文本內(nèi)容動(dòng)態(tài)調(diào)整的？

胡俠：都不是，它實(shí)際上是根據(jù)當(dāng)時(shí)上下文的需要進(jìn)行動(dòng)態(tài)調(diào)整的。

雷峰網(wǎng)：第二種方法是將 KV Cache 壓縮到 2 比特，這是一項(xiàng)非常激進(jìn)的優(yōu)化，在這個(gè)過(guò)程中您以及您團(tuán)隊(duì)遇到最大的挑戰(zhàn)是什么？

胡俠：整個(gè)研究最大的挑戰(zhàn)就是壓縮到 2 比特以后，在這種低精度表示的情況下是否還能夠讓模型保持相應(yīng)的準(zhǔn)確率，所以必須通過(guò)大量實(shí)驗(yàn)來(lái)解決。

雖然我們?cè)趯?shí)驗(yàn)環(huán)境下壓縮到 2 比特是可行的，但在現(xiàn)實(shí)應(yīng)用中很少有人這么做，工業(yè)界主流的優(yōu)化手段例如 DeepSeek 是壓縮到 8 比特，在實(shí)際應(yīng)用中壓縮到 4 比特已經(jīng)非常激進(jìn)了，2 比特現(xiàn)在更多還是一個(gè)實(shí)驗(yàn)室的結(jié)果。

壓縮能夠提高模型的工作效率，這已經(jīng)形成了廣泛共識(shí)，壓縮方法是最大的挑戰(zhàn)，所以我們的工作最大的貢獻(xiàn)就是對(duì) Key Cache 和 Value Cache 的壓縮方式是不一樣的。

雷峰網(wǎng)：壓縮 KV Cache 后，能實(shí)現(xiàn)什么價(jià)值？

胡俠：KV Cache 是大模型訓(xùn)練和推理中最重要的一個(gè)中間存儲(chǔ)狀態(tài)，KV Cache 直接跟 GPU 的內(nèi)存相關(guān)，例如A100 80GB，其中的 80GB 就是它的內(nèi)存，而 80GB 當(dāng)中可能有 90% 以上的用途都是用來(lái)存 KV Cache，它是計(jì)算中一個(gè)最重要的中間存儲(chǔ)計(jì)算工具。

如果從 16 比特壓到 2 比特，就相當(dāng)于壓縮了近 10 倍，就相當(dāng)于能夠讓 80GB A100 的 GPU 增加了 10 倍的存儲(chǔ)量，這就非常有價(jià)值了，因?yàn)橐粔K普通的 GPU 就是兩三萬(wàn)美金，如果能增加 10 倍存儲(chǔ)量的話，粗算下來(lái)相當(dāng)于把 2 萬(wàn)美金的 GPU 直接增值到 20 萬(wàn)美金。

雷峰網(wǎng)：這兩個(gè)方法主要在哪些模型上實(shí)驗(yàn)過(guò)？

胡俠：我們主要的結(jié)果是在 llama 上做的。兩篇文章都是 2024 年發(fā)的。

雷峰網(wǎng)：您團(tuán)隊(duì)開(kāi)發(fā)的 AutoKeras 等開(kāi)源項(xiàng)目已被廣泛采用。對(duì)于這項(xiàng)有損計(jì)算技術(shù)，您是否也計(jì)劃通過(guò)類似的路徑來(lái)推動(dòng)其工業(yè)界采納？

胡俠：已經(jīng)有很多主流的開(kāi)源軟件包都在使用了，像 hugging face 的 transformer，llama.cpp 都在使用這兩個(gè)方法。

雷峰網(wǎng)：您的方案跟當(dāng)前其他一些推理方法，比如混合專家模型 MoE，模擬計(jì)算等，在哲學(xué)和技術(shù)路徑有和根本不同？

胡俠：哲學(xué)上是差不多的，有句話叫 no free lunch，我們得到的是它的效率，損失的是精度，就看損失的精度會(huì)不會(huì)影響模型的準(zhǔn)確性。但是我們追求的并不是模型的精度，而是最后的準(zhǔn)確率。所以哲學(xué)上都是通過(guò)一些方法來(lái)讓模型效率更快，在快的同時(shí)還不掉點(diǎn)，即準(zhǔn)確率還不會(huì)下降。

技術(shù)上就完全不一樣了，MoE 是通過(guò) sparsity（稀疏性）來(lái)解決問(wèn)題。舉個(gè)例子，比如你讀篇文章，sparsity 意味著有些詞就完全不讀，刪掉，而我們的粗化位置信息方法則是都要讀完，但是讀的非?？?，不用去記準(zhǔn)確的位置，我只知道它可能在 1～10 之間，20～30 之間，但不需要去記位置是 5 還是 16。

“有損計(jì)算”在模型處理不同任務(wù)的準(zhǔn)確率不同

雷峰網(wǎng)：如果模型在生成過(guò)程中突然需要回顧一個(gè)之前被判定為“不重要”并丟棄的信息，您的算法如何應(yīng)對(duì)這種“大海撈針（Needle- in-a-Haystack）”的失敗風(fēng)險(xiǎn)？

胡俠：模型不用非要去看之前的絕對(duì)位置，所有的模型的目標(biāo)都是在最后生成正確的答案即可。

雷峰網(wǎng)：該“有損計(jì)算”方案對(duì)于模型處理不同任務(wù)的影響是相同的嗎？

胡俠：現(xiàn)在我們的方案更多是針對(duì)語(yǔ)言大模型，但對(duì)于多模態(tài)大模型或者其他智能體的效果是不同的，其他的我們也沒(méi)有實(shí)驗(yàn)去支撐，所以很難講效果會(huì)好還是不好。但從機(jī)理上來(lái)講，我們大概的思路就是用精度換效率，但這個(gè)損失的精度并沒(méi)有損害到模型的準(zhǔn)確率。所以從大的邏輯上來(lái)講對(duì)很多任務(wù)應(yīng)該沒(méi)有太多影響，但具體任務(wù)也要具體分析。

雷峰網(wǎng)：從柯氏復(fù)雜度和最小描述長(zhǎng)度的角度看，訓(xùn)練大模型是尋找數(shù)據(jù)背后的最短程序，那么您認(rèn)為在推理階段進(jìn)行有損計(jì)算，是否可以理解為在特定任務(wù)和上下文約束下進(jìn)一步尋找“最短的運(yùn)行時(shí)程序”？

胡俠：我覺(jué)得可以這么講，這個(gè)講法對(duì)我來(lái)說(shuō)還挺新穎。

雷峰網(wǎng)：如何評(píng)估并確保這些“有損操作”沒(méi)有過(guò)度？

胡俠：這是個(gè)很好的問(wèn)題。我們更多是用大量實(shí)驗(yàn)來(lái)看是否過(guò)度，比如說(shuō)現(xiàn)在常見(jiàn)的是 16 比特，究竟要壓縮到 8 比特、還是 4 比特、還是 2 比特，這就要根據(jù)實(shí)際需求來(lái)判斷，因?yàn)槟Ｐ蜏?zhǔn)確率的下降曲線在不同的任務(wù)上也是不同的。當(dāng)實(shí)驗(yàn)時(shí)模型的準(zhǔn)確率已經(jīng)開(kāi)始大幅下降了，就壓過(guò)頭了，就不能再壓了。

雷峰網(wǎng)：您提到壓縮時(shí)，模型準(zhǔn)確率的下降曲線在不同任務(wù)上不同，是否可以舉例在哪些任務(wù)上出現(xiàn)明顯不同？

胡俠：我們實(shí)驗(yàn)比較多的任務(wù)，包括多模態(tài)的任務(wù)、classification 的任務(wù)，主要是回答問(wèn)題，即 chatbot 的準(zhǔn)確率在壓縮到 2 比特的時(shí)候不會(huì)掉點(diǎn)，但是可能用來(lái)做生成程序比較困難。我們的有損方法對(duì)生成程序這種對(duì)精度要求非常高的任務(wù)可能會(huì)影響其準(zhǔn)確性，我們沒(méi)做相應(yīng)的實(shí)驗(yàn)，但我感覺(jué)可能比較困難。

雷峰網(wǎng)：經(jīng)歷了多少次實(shí)驗(yàn)才發(fā)現(xiàn)將 KV Cache 壓縮到 2 比特的時(shí)候掉點(diǎn)很少？

胡俠：很難講，因?yàn)檫@個(gè)項(xiàng)目也不是憑空從頭開(kāi)始做的，也是基于我們之前很多其他工作積累出來(lái)的。我們?cè)谕ㄟ^(guò)不同方式跑通大模型的過(guò)程中不斷做各種實(shí)驗(yàn)，然后發(fā)現(xiàn)了這個(gè)現(xiàn)象，但我們也不是第一個(gè)做壓縮的人，做壓縮的人很多。但我們主要貢獻(xiàn)了一種新的壓縮方法，就是 Key 跟 Value 這兩種 Cache，所以叫它 KV Cache，之前大家都用同一種方法來(lái)壓縮這兩種 Cache，但我們比較創(chuàng)新地將 Key 跟 Value 按照不同的壓縮方法壓縮，可以讓它在 2 比特的時(shí)候掉點(diǎn)非常少或者幾乎不掉點(diǎn)，這是最大的一個(gè)貢獻(xiàn)。

雷峰網(wǎng)：那有沒(méi)有實(shí)驗(yàn)證明壓縮到 1 比特的時(shí)候，開(kāi)始出現(xiàn)大的掉點(diǎn)？

胡俠：不可能 1 比特，1 比特就相當(dāng)于只用 0 和 1 來(lái)表示，整個(gè)矩陣就是 0、1，信息量太少了。

該“有損方案”應(yīng)用的潛力如何

雷峰網(wǎng)：在法律、醫(yī)療這種對(duì)準(zhǔn)確性要求極高的場(chǎng)景，您的有損計(jì)算方案是否完全不能應(yīng)用到這些場(chǎng)景？

胡俠：實(shí)際上，法律跟醫(yī)療沒(méi)有大家想象的對(duì)準(zhǔn)確性要求那么高，因?yàn)樗€是基于大量統(tǒng)計(jì)信息，比如要判斷某個(gè)人是否患有某種疾病，信息來(lái)源非常多，這就是為啥中醫(yī)、西醫(yī)都可以判斷有沒(méi)有病，做血檢也可以。所以不需要那么多的信息就可以做出非常精準(zhǔn)的判斷了。

這跟大家想象的可能不太一樣，反而需要精確地控制的比如說(shuō)做一道數(shù)學(xué)題，寫一個(gè)程序，而判斷一個(gè)人有沒(méi)有什么疾病，在多數(shù)情況下數(shù)據(jù)好的話是一個(gè)比較簡(jiǎn)單的任務(wù)。

雷峰網(wǎng)：您的有損計(jì)算方案可以應(yīng)用到哪些場(chǎng)景？

胡俠：現(xiàn)在主要是 chatbot，我們?cè)卺t(yī)療健康領(lǐng)域應(yīng)用的是一個(gè)基于罕見(jiàn)病的問(wèn)診系統(tǒng)，如果一個(gè)人出現(xiàn)一些癥狀，他是否可能有某種罕見(jiàn)病就可以問(wèn)這個(gè)系統(tǒng)，效果還是非常好的。醫(yī)療領(lǐng)域現(xiàn)有的系統(tǒng)、有關(guān)罕見(jiàn)病的數(shù)據(jù)創(chuàng)建得特別少，因?yàn)橐粋€(gè)醫(yī)生沒(méi)辦法囊括幾千種罕見(jiàn)病，但是大模型可以，而且具有了長(zhǎng)上下文能力的大模型能夠做得更好。

雷峰網(wǎng)：您的研究成果是否考慮了與特定硬件（如內(nèi)存計(jì)算、低精度AI芯片）的協(xié)同設(shè)計(jì)？要發(fā)揮最大潛力，是否需要硬件層面的相應(yīng)變革？

胡俠：現(xiàn)在還沒(méi)有考慮硬件。但 KV Cache 存在于 GPU 上，實(shí)際上是專用于 GPU 的一種方法，這個(gè)層面是考慮了硬件的。

雷峰網(wǎng)：如果推理階段我們可以丟棄 80% 的信息而不影響效果，這是否反向說(shuō)明，目前的模型架構(gòu)在預(yù)訓(xùn)練階段就存在巨大的效率浪費(fèi)，未來(lái)的架構(gòu)是否應(yīng)該直接把這種稀疏性設(shè)計(jì)在預(yù)訓(xùn)練階段，而不是留給推理階段來(lái)補(bǔ)救？

胡俠：這倒是一個(gè)好問(wèn)題，你可以這么講，可能有一個(gè)新的架構(gòu)會(huì)更好地利用這些信息讓預(yù)訓(xùn)練變得更高效，而不光是推理階段。

雷峰網(wǎng)：您的這個(gè)研究是否對(duì)于大模型部署到手機(jī)上或者筆記本電腦等端側(cè)的意義更大？

胡俠：很難講，實(shí)際上現(xiàn)在不管用 DeepSeek 還是其他大語(yǔ)言模型，不知道你注意到?jīng)]，點(diǎn)了發(fā)送鍵后，還是要等好一會(huì)兒才會(huì)出結(jié)果，原因就是它推理太慢了，所以在 server 端還沒(méi)解決推理慢的問(wèn)題，還沒(méi)到研究是否到端側(cè)更有用的地步。

雷峰網(wǎng)：您認(rèn)為有損計(jì)算的下一個(gè)前沿會(huì)是什么？

胡俠：我認(rèn)為更多的是比如 2 比特能不能真的應(yīng)用到實(shí)際中，什么情況下能用，什么情況下不能用，現(xiàn)在還不是特別清楚。還有就是理論研究得跟上，現(xiàn)在更多是實(shí)驗(yàn)型的研究。從哲學(xué)上來(lái)講有太多可以有損的地方，但具體一個(gè)系統(tǒng)的實(shí)現(xiàn)，從設(shè)計(jì)出來(lái)到最后落地哪些地方可以有損，哪些不能有損，這其中還有蠻多可以做的事情。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))：您的高效推理方案是“即插即用”的還是要針對(duì)特定的模型甚至特定的垂直領(lǐng)域數(shù)據(jù)進(jìn)行額外的微調(diào)呢？

胡俠：它好就好在是“即插即用”的，而且實(shí)現(xiàn)的原理非常簡(jiǎn)單大家都能理解，因?yàn)檫@些因素現(xiàn)在用戶很多。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。