日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給張進(jìn)
發(fā)送

0

上海AI Lab胡俠:KV Cache壓縮之后,可讓價(jià)格2萬(wàn)美金的GPU發(fā)揮出20萬(wàn)美金的價(jià)值 | GAIR 2025

本文作者: 張進(jìn)   2026-01-08 10:36
導(dǎo)語(yǔ):胡俠團(tuán)隊(duì)將 Key 跟 Value Cache按照不同的壓縮方法壓縮,可以讓模型不掉點(diǎn)。

目前,不同大模型廠商發(fā)布的大語(yǔ)言模型在處理超長(zhǎng)上下文方面已經(jīng)有顯著突破,最高的已能支持?jǐn)?shù)百萬(wàn) Token 的輸入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百萬(wàn)Token(1M)級(jí)別的超長(zhǎng)上下文處理能力。

但是這場(chǎng)有關(guān)提升大模型上下文長(zhǎng)度的“軍備賽”依然不會(huì)停止,這是一項(xiàng)巨大的工程與效率之戰(zhàn)。因?yàn)槌L(zhǎng)下文為模型智能提供了最廣闊的發(fā)揮空間——在處理如金融、法律、醫(yī)療等領(lǐng)域的長(zhǎng)語(yǔ)境任務(wù)是表現(xiàn)更好。所以誰(shuí)能率先突破更長(zhǎng)上下文處理能力,便有機(jī)會(huì)創(chuàng)造出更大的商業(yè)與技術(shù)價(jià)值。

胡俠團(tuán)隊(duì)便針對(duì)這一目標(biāo)提出了一項(xiàng)最新研究方案——“通過(guò)有損計(jì)算(Lossy Computation)來(lái)提高大語(yǔ)言模型的推理效率”。這項(xiàng)研究的基本思路是,利用大語(yǔ)言模型對(duì)來(lái)自低精度計(jì)算等“有損”操作產(chǎn)生的噪聲具有極強(qiáng)魯棒性這一特點(diǎn),主動(dòng)引入可控的、不損害性能的信息損失,以換取顯著的效率提升。

大模型中的“有損計(jì)算”是通過(guò)有選擇地犧牲一部分精度來(lái)大幅降低計(jì)算或者存儲(chǔ)成本,從而提升推理效率,主要圍繞模型參數(shù)量化、KV Cache 壓縮、模型剪枝與知識(shí)蒸餾等核心路徑展開(kāi)。

胡俠認(rèn)為,大語(yǔ)言模型雖已實(shí)現(xiàn)類人對(duì)話能力,但在處理醫(yī)療領(lǐng)域長(zhǎng)篇文獻(xiàn)信息提取等長(zhǎng)語(yǔ)境任務(wù)時(shí),面臨著“預(yù)訓(xùn)練長(zhǎng)度限制”與“推理內(nèi)存需求激增”的雙重挑戰(zhàn)。

針對(duì)這兩項(xiàng)挑戰(zhàn),團(tuán)隊(duì)提出的“通過(guò)有損計(jì)算(Lossy Computation)來(lái)提高大語(yǔ)言模型的推理效率”方案,實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵技術(shù)突破:一是在算法層面,通過(guò)粗化遠(yuǎn)距離標(biāo)記的位置信息,成功將大語(yǔ)言模型的語(yǔ)境長(zhǎng)度擴(kuò)展至原有水平的 8 倍;二是在系統(tǒng)層面,將過(guò)往標(biāo)記的中間狀態(tài)(KV Cache)量化為 2 比特?cái)?shù)字,實(shí)現(xiàn)了 8 倍內(nèi)存效率的提升和 3.5 倍時(shí)鐘時(shí)間加速的重大進(jìn)展。

胡俠是人工智能領(lǐng)域的國(guó)際知名學(xué)者,長(zhǎng)期從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能研究,目前是上海人工智能實(shí)驗(yàn)室主任助理、領(lǐng)軍科學(xué)家,曾擔(dān)任美國(guó)萊斯大學(xué)正教授、數(shù)據(jù)科學(xué)中心主任,亦是AIPOW公司聯(lián)合創(chuàng)始人兼首席科學(xué)家。其主導(dǎo)開(kāi)發(fā)的開(kāi)源系統(tǒng) AutoKeras 成為最常用的自動(dòng)機(jī)器學(xué)習(xí)框架之一(超過(guò) 8000 次 star 及 1000 次 fork),開(kāi)發(fā)的 NCF 算法及系統(tǒng)(單篇論文被引用超 8000 余次)成為主流人工智能框架 TensorFlow 的官方推薦系統(tǒng),主導(dǎo)開(kāi)發(fā)的異常檢測(cè)系統(tǒng)在通用、Trane、蘋果等公司的產(chǎn)品中得到廣泛應(yīng)用。

關(guān)于這兩項(xiàng)關(guān)鍵技術(shù)的相關(guān)細(xì)節(jié)以及應(yīng)用前景,近日我們跟胡俠教授聊了聊,以下內(nèi)容經(jīng)過(guò)不改變?cè)獾木庉?、整理?/p>

從模糊的上下文位置信息以及模糊的 KV Cache 兩點(diǎn)入手做“有損計(jì)算”

雷峰網(wǎng):請(qǐng)您先簡(jiǎn)單介紹下"通過(guò)有損計(jì)算實(shí)現(xiàn)高效大語(yǔ)言模型推理"的具體思路?

胡俠:我們根據(jù)大語(yǔ)言模型對(duì)來(lái)自低精度計(jì)算等"有損操作"產(chǎn)生的噪聲具有極強(qiáng)魯棒性這一特點(diǎn),主動(dòng)引入可控的、不損害性能的信息損失,能夠極高地提供推理效率,實(shí)際上是用精度換取效率的思路。我們的"有損計(jì)算"主要實(shí)施方式是兩種,一是在算法層面,不要用上下文精確的相對(duì)距離來(lái)進(jìn)行計(jì)算,而是通過(guò)粗化遠(yuǎn)距離標(biāo)記的位置信息,成功將大語(yǔ)言模型的語(yǔ)境長(zhǎng)度擴(kuò)展至原來(lái)水平的 8 倍;二是在系統(tǒng)層面,將過(guò)去令牌的中間狀態(tài)(KV Cache)做相應(yīng)的量化,量化為 2 比特?cái)?shù)字,可以實(shí)現(xiàn) 8 倍內(nèi)存效率提升和 3.5 倍實(shí)際速度加速,且不影響模型性能。

雷峰網(wǎng):“有損計(jì)算”的靈感是否部分源于對(duì)大模型本身作為一種“有損世界壓縮器”的理論認(rèn)知?

胡俠:整個(gè)方案的靈感來(lái)源于深度學(xué)習(xí),深度學(xué)習(xí)中有兩個(gè)重要的發(fā)現(xiàn)。一個(gè)是模型的參數(shù)量實(shí)際上比模型的精度更重要,我們做了很多實(shí)驗(yàn),其中一堆實(shí)驗(yàn)都表明相對(duì)大的模型比相對(duì)精確的模型,它的推理無(wú)論是效率還是準(zhǔn)確度來(lái)講都更好。

第二個(gè)重要發(fā)現(xiàn)是在深度模型中,當(dāng)我們把很多參數(shù)刪掉以后,模型的準(zhǔn)確率損失非常小。

于是我們就想到了怎樣從模糊的上下文信息以及模糊的 KV Cache 這兩點(diǎn)入手做有損計(jì)算。具體舉個(gè)例子,比如我們讀書(shū)時(shí),當(dāng)我們?cè)噲D記憶上下文,比如想知道上一章出現(xiàn)了一個(gè)什么故事,但我們不需要知道這個(gè)故事發(fā)生在第 265 個(gè)字之前還是第 257 個(gè)字之前,我只需要知道大概兩三百個(gè)字之前出現(xiàn)了這么一個(gè)故事就行了。

雷峰網(wǎng):您的"有損計(jì)算"方案主要通過(guò)兩種方案,其中通過(guò)粗化位置信息來(lái)擴(kuò)展上下文,這種粗化策略是靜態(tài),還是根據(jù)文本內(nèi)容動(dòng)態(tài)調(diào)整的?

胡俠:都不是,它實(shí)際上是根據(jù)當(dāng)時(shí)上下文的需要進(jìn)行動(dòng)態(tài)調(diào)整的。

雷峰網(wǎng):第二種方法是將 KV Cache 壓縮到 2 比特,這是一項(xiàng)非常激進(jìn)的優(yōu)化,在這個(gè)過(guò)程中您以及您團(tuán)隊(duì)遇到最大的挑戰(zhàn)是什么?

胡俠:整個(gè)研究最大的挑戰(zhàn)就是壓縮到 2 比特以后,在這種低精度表示的情況下是否還能夠讓模型保持相應(yīng)的準(zhǔn)確率,所以必須通過(guò)大量實(shí)驗(yàn)來(lái)解決。

雖然我們?cè)趯?shí)驗(yàn)環(huán)境下壓縮到 2 比特是可行的,但在現(xiàn)實(shí)應(yīng)用中很少有人這么做,工業(yè)界主流的優(yōu)化手段例如 DeepSeek 是壓縮到 8 比特,在實(shí)際應(yīng)用中壓縮到 4 比特已經(jīng)非常激進(jìn)了,2 比特現(xiàn)在更多還是一個(gè)實(shí)驗(yàn)室的結(jié)果。

壓縮能夠提高模型的工作效率,這已經(jīng)形成了廣泛共識(shí),壓縮方法是最大的挑戰(zhàn),所以我們的工作最大的貢獻(xiàn)就是對(duì) Key Cache 和 Value Cache 的壓縮方式是不一樣的。

雷峰網(wǎng):壓縮 KV Cache 后,能實(shí)現(xiàn)什么價(jià)值?

胡俠:KV Cache 是大模型訓(xùn)練和推理中最重要的一個(gè)中間存儲(chǔ)狀態(tài),KV Cache 直接跟 GPU 的內(nèi)存相關(guān),例如A100 80GB,其中的 80GB 就是它的內(nèi)存,而 80GB 當(dāng)中可能有 90% 以上的用途都是用來(lái)存 KV Cache,它是計(jì)算中一個(gè)最重要的中間存儲(chǔ)計(jì)算工具。

如果從 16 比特壓到 2 比特,就相當(dāng)于壓縮了近 10 倍,就相當(dāng)于能夠讓 80GB A100 的 GPU 增加了 10 倍的存儲(chǔ)量,這就非常有價(jià)值了,因?yàn)橐粔K普通的 GPU 就是兩三萬(wàn)美金,如果能增加 10 倍存儲(chǔ)量的話,粗算下來(lái)相當(dāng)于把 2 萬(wàn)美金的 GPU 直接增值到 20 萬(wàn)美金。

雷峰網(wǎng):這兩個(gè)方法主要在哪些模型上實(shí)驗(yàn)過(guò)?

胡俠:我們主要的結(jié)果是在 llama 上做的。兩篇文章都是 2024 年發(fā)的。

雷峰網(wǎng):您團(tuán)隊(duì)開(kāi)發(fā)的 AutoKeras 等開(kāi)源項(xiàng)目已被廣泛采用。對(duì)于這項(xiàng)有損計(jì)算技術(shù),您是否也計(jì)劃通過(guò)類似的路徑來(lái)推動(dòng)其工業(yè)界采納?

胡俠:已經(jīng)有很多主流的開(kāi)源軟件包都在使用了,像 hugging face 的 transformer,llama.cpp 都在使用這兩個(gè)方法。

雷峰網(wǎng):您的方案跟當(dāng)前其他一些推理方法,比如混合專家模型 MoE,模擬計(jì)算等,在哲學(xué)和技術(shù)路徑有和根本不同?

胡俠:哲學(xué)上是差不多的,有句話叫 no free lunch,我們得到的是它的效率,損失的是精度,就看損失的精度會(huì)不會(huì)影響模型的準(zhǔn)確性。但是我們追求的并不是模型的精度,而是最后的準(zhǔn)確率。所以哲學(xué)上都是通過(guò)一些方法來(lái)讓模型效率更快,在快的同時(shí)還不掉點(diǎn),即準(zhǔn)確率還不會(huì)下降。

技術(shù)上就完全不一樣了,MoE 是通過(guò) sparsity(稀疏性)來(lái)解決問(wèn)題。舉個(gè)例子,比如你讀篇文章,sparsity 意味著有些詞就完全不讀,刪掉,而我們的粗化位置信息方法則是都要讀完,但是讀的非???,不用去記準(zhǔn)確的位置,我只知道它可能在 1~10 之間,20~30 之間,但不需要去記位置是 5 還是 16。

“有損計(jì)算”在模型處理不同任務(wù)的準(zhǔn)確率不同

雷峰網(wǎng):如果模型在生成過(guò)程中突然需要回顧一個(gè)之前被判定為“不重要”并丟棄的信息,您的算法如何應(yīng)對(duì)這種“大海撈針(Needle- in-a-Haystack)”的失敗風(fēng)險(xiǎn)?

胡俠 :模型不用非要去看之前的絕對(duì)位置,所有的模型的目標(biāo)都是在最后生成正確的答案即可。

雷峰網(wǎng):該“有損計(jì)算”方案對(duì)于模型處理不同任務(wù)的影響是相同的嗎?

胡俠:現(xiàn)在我們的方案更多是針對(duì)語(yǔ)言大模型,但對(duì)于多模態(tài)大模型或者其他智能體的效果是不同的,其他的我們也沒(méi)有實(shí)驗(yàn)去支撐,所以很難講效果會(huì)好還是不好。但從機(jī)理上來(lái)講,我們大概的思路就是用精度換效率,但這個(gè)損失的精度并沒(méi)有損害到模型的準(zhǔn)確率。所以從大的邏輯上來(lái)講對(duì)很多任務(wù)應(yīng)該沒(méi)有太多影響,但具體任務(wù)也要具體分析。

雷峰網(wǎng):從柯氏復(fù)雜度和最小描述長(zhǎng)度的角度看,訓(xùn)練大模型是尋找數(shù)據(jù)背后的最短程序,那么您認(rèn)為在推理階段進(jìn)行有損計(jì)算,是否可以理解為在特定任務(wù)和上下文約束下進(jìn)一步尋找“最短的運(yùn)行時(shí)程序”?

胡俠:我覺(jué)得可以這么講,這個(gè)講法對(duì)我來(lái)說(shuō)還挺新穎。

雷峰網(wǎng):如何評(píng)估并確保這些“有損操作”沒(méi)有過(guò)度?

胡俠:這是個(gè)很好的問(wèn)題。我們更多是用大量實(shí)驗(yàn)來(lái)看是否過(guò)度,比如說(shuō)現(xiàn)在常見(jiàn)的是 16 比特,究竟要壓縮到 8 比特、還是 4 比特、還是 2 比特,這就要根據(jù)實(shí)際需求來(lái)判斷,因?yàn)槟P蜏?zhǔn)確率的下降曲線在不同的任務(wù)上也是不同的。當(dāng)實(shí)驗(yàn)時(shí)模型的準(zhǔn)確率已經(jīng)開(kāi)始大幅下降了,就壓過(guò)頭了,就不能再壓了。

雷峰網(wǎng):您提到壓縮時(shí),模型準(zhǔn)確率的下降曲線在不同任務(wù)上不同,是否可以舉例在哪些任務(wù)上出現(xiàn)明顯不同?

胡俠:我們實(shí)驗(yàn)比較多的任務(wù),包括多模態(tài)的任務(wù)、classification 的任務(wù),主要是回答問(wèn)題,即 chatbot 的準(zhǔn)確率在壓縮到 2 比特的時(shí)候不會(huì)掉點(diǎn),但是可能用來(lái)做生成程序比較困難。我們的有損方法對(duì)生成程序這種對(duì)精度要求非常高的任務(wù)可能會(huì)影響其準(zhǔn)確性,我們沒(méi)做相應(yīng)的實(shí)驗(yàn),但我感覺(jué)可能比較困難。

雷峰網(wǎng):經(jīng)歷了多少次實(shí)驗(yàn)才發(fā)現(xiàn)將 KV Cache 壓縮到 2 比特的時(shí)候掉點(diǎn)很少?

胡俠:很難講,因?yàn)檫@個(gè)項(xiàng)目也不是憑空從頭開(kāi)始做的,也是基于我們之前很多其他工作積累出來(lái)的。我們?cè)谕ㄟ^(guò)不同方式跑通大模型的過(guò)程中不斷做各種實(shí)驗(yàn),然后發(fā)現(xiàn)了這個(gè)現(xiàn)象,但我們也不是第一個(gè)做壓縮的人,做壓縮的人很多。但我們主要貢獻(xiàn)了一種新的壓縮方法,就是 Key 跟 Value 這兩種 Cache,所以叫它 KV Cache,之前大家都用同一種方法來(lái)壓縮這兩種 Cache,但我們比較創(chuàng)新地將 Key 跟 Value 按照不同的壓縮方法壓縮,可以讓它在 2 比特的時(shí)候掉點(diǎn)非常少或者幾乎不掉點(diǎn),這是最大的一個(gè)貢獻(xiàn)。

雷峰網(wǎng):那有沒(méi)有實(shí)驗(yàn)證明壓縮到 1 比特的時(shí)候,開(kāi)始出現(xiàn)大的掉點(diǎn)?

胡俠:不可能 1 比特,1 比特就相當(dāng)于只用 0 和 1 來(lái)表示,整個(gè)矩陣就是 0、1,信息量太少了。

該“有損方案”應(yīng)用的潛力如何

雷峰網(wǎng):在法律、醫(yī)療這種對(duì)準(zhǔn)確性要求極高的場(chǎng)景,您的有損計(jì)算方案是否完全不能應(yīng)用到這些場(chǎng)景?

胡俠:實(shí)際上,法律跟醫(yī)療沒(méi)有大家想象的對(duì)準(zhǔn)確性要求那么高,因?yàn)樗€是基于大量統(tǒng)計(jì)信息,比如要判斷某個(gè)人是否患有某種疾病,信息來(lái)源非常多,這就是為啥中醫(yī)、西醫(yī)都可以判斷有沒(méi)有病,做血檢也可以。所以不需要那么多的信息就可以做出非常精準(zhǔn)的判斷了。

這跟大家想象的可能不太一樣,反而需要精確地控制的比如說(shuō)做一道數(shù)學(xué)題,寫一個(gè)程序,而判斷一個(gè)人有沒(méi)有什么疾病,在多數(shù)情況下數(shù)據(jù)好的話是一個(gè)比較簡(jiǎn)單的任務(wù)。

雷峰網(wǎng):您的有損計(jì)算方案可以應(yīng)用到哪些場(chǎng)景?

胡俠:現(xiàn)在主要是 chatbot,我們?cè)卺t(yī)療健康領(lǐng)域應(yīng)用的是一個(gè)基于罕見(jiàn)病的問(wèn)診系統(tǒng),如果一個(gè)人出現(xiàn)一些癥狀,他是否可能有某種罕見(jiàn)病就可以問(wèn)這個(gè)系統(tǒng),效果還是非常好的。醫(yī)療領(lǐng)域現(xiàn)有的系統(tǒng)、有關(guān)罕見(jiàn)病的數(shù)據(jù)創(chuàng)建得特別少,因?yàn)橐粋€(gè)醫(yī)生沒(méi)辦法囊括幾千種罕見(jiàn)病,但是大模型可以,而且具有了長(zhǎng)上下文能力的大模型能夠做得更好。

雷峰網(wǎng):您的研究成果是否考慮了與特定硬件(如內(nèi)存計(jì)算、低精度AI芯片)的協(xié)同設(shè)計(jì)?要發(fā)揮最大潛力,是否需要硬件層面的相應(yīng)變革?

胡俠:現(xiàn)在還沒(méi)有考慮硬件。但 KV Cache 存在于 GPU 上,實(shí)際上是專用于 GPU 的一種方法,這個(gè)層面是考慮了硬件的。

雷峰網(wǎng):如果推理階段我們可以丟棄 80% 的信息而不影響效果,這是否反向說(shuō)明,目前的模型架構(gòu)在預(yù)訓(xùn)練階段就存在巨大的效率浪費(fèi),未來(lái)的架構(gòu)是否應(yīng)該直接把這種稀疏性設(shè)計(jì)在預(yù)訓(xùn)練階段,而不是留給推理階段來(lái)補(bǔ)救?

胡俠:這倒是一個(gè)好問(wèn)題,你可以這么講,可能有一個(gè)新的架構(gòu)會(huì)更好地利用這些信息讓預(yù)訓(xùn)練變得更高效,而不光是推理階段。

雷峰網(wǎng):您的這個(gè)研究是否對(duì)于大模型部署到手機(jī)上或者筆記本電腦等端側(cè)的意義更大?

胡俠:很難講,實(shí)際上現(xiàn)在不管用 DeepSeek 還是其他大語(yǔ)言模型,不知道你注意到?jīng)],點(diǎn)了發(fā)送鍵后,還是要等好一會(huì)兒才會(huì)出結(jié)果,原因就是它推理太慢了,所以在 server 端還沒(méi)解決推理慢的問(wèn)題,還沒(méi)到研究是否到端側(cè)更有用的地步。

雷峰網(wǎng):您認(rèn)為有損計(jì)算的下一個(gè)前沿會(huì)是什么?

胡俠:我認(rèn)為更多的是比如 2 比特能不能真的應(yīng)用到實(shí)際中,什么情況下能用,什么情況下不能用,現(xiàn)在還不是特別清楚。還有就是理論研究得跟上,現(xiàn)在更多是實(shí)驗(yàn)型的研究。從哲學(xué)上來(lái)講有太多可以有損的地方,但具體一個(gè)系統(tǒng)的實(shí)現(xiàn),從設(shè)計(jì)出來(lái)到最后落地哪些地方可以有損,哪些不能有損,這其中還有蠻多可以做的事情。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):您的高效推理方案是“即插即用”的還是要針對(duì)特定的模型甚至特定的垂直領(lǐng)域數(shù)據(jù)進(jìn)行額外的微調(diào)呢?

胡俠:它好就好在是“即插即用”的,而且實(shí)現(xiàn)的原理非常簡(jiǎn)單大家都能理解,因?yàn)檫@些因素現(xiàn)在用戶很多。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

上海AI Lab胡俠:KV Cache壓縮之后,可讓價(jià)格2萬(wàn)美金的GPU發(fā)揮出20萬(wàn)美金的價(jià)值 | GAIR 2025

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)