日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給張進
發(fā)送

0

上海AI Lab胡俠:KV Cache壓縮之后,可讓價格2萬美金的GPU發(fā)揮出20萬美金的價值 | GAIR 2025

本文作者: 張進   2026-01-08 10:36
導(dǎo)語:胡俠團隊將 Key 跟 Value Cache按照不同的壓縮方法壓縮,可以讓模型不掉點。

目前,不同大模型廠商發(fā)布的大語言模型在處理超長上下文方面已經(jīng)有顯著突破,最高的已能支持?jǐn)?shù)百萬 Token 的輸入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百萬Token(1M)級別的超長上下文處理能力。

但是這場有關(guān)提升大模型上下文長度的“軍備賽”依然不會停止,這是一項巨大的工程與效率之戰(zhàn)。因為超長下文為模型智能提供了最廣闊的發(fā)揮空間——在處理如金融、法律、醫(yī)療等領(lǐng)域的長語境任務(wù)是表現(xiàn)更好。所以誰能率先突破更長上下文處理能力,便有機會創(chuàng)造出更大的商業(yè)與技術(shù)價值。

胡俠團隊便針對這一目標(biāo)提出了一項最新研究方案——“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”。這項研究的基本思路是,利用大語言模型對來自低精度計算等“有損”操作產(chǎn)生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,以換取顯著的效率提升。

大模型中的“有損計算”是通過有選擇地犧牲一部分精度來大幅降低計算或者存儲成本,從而提升推理效率,主要圍繞模型參數(shù)量化、KV Cache 壓縮、模型剪枝與知識蒸餾等核心路徑展開。

胡俠認(rèn)為,大語言模型雖已實現(xiàn)類人對話能力,但在處理醫(yī)療領(lǐng)域長篇文獻信息提取等長語境任務(wù)時,面臨著“預(yù)訓(xùn)練長度限制”與“推理內(nèi)存需求激增”的雙重挑戰(zhàn)。

針對這兩項挑戰(zhàn),團隊提出的“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”方案,實現(xiàn)了兩項關(guān)鍵技術(shù)突破:一是在算法層面,通過粗化遠距離標(biāo)記的位置信息,成功將大語言模型的語境長度擴展至原有水平的 8 倍;二是在系統(tǒng)層面,將過往標(biāo)記的中間狀態(tài)(KV Cache)量化為 2 比特數(shù)字,實現(xiàn)了 8 倍內(nèi)存效率的提升和 3.5 倍時鐘時間加速的重大進展。

胡俠是人工智能領(lǐng)域的國際知名學(xué)者,長期從事數(shù)據(jù)挖掘、機器學(xué)習(xí)和人工智能研究,目前是上海人工智能實驗室主任助理、領(lǐng)軍科學(xué)家,曾擔(dān)任美國萊斯大學(xué)正教授、數(shù)據(jù)科學(xué)中心主任,亦是AIPOW公司聯(lián)合創(chuàng)始人兼首席科學(xué)家。其主導(dǎo)開發(fā)的開源系統(tǒng) AutoKeras 成為最常用的自動機器學(xué)習(xí)框架之一(超過 8000 次 star 及 1000 次 fork),開發(fā)的 NCF 算法及系統(tǒng)(單篇論文被引用超 8000 余次)成為主流人工智能框架 TensorFlow 的官方推薦系統(tǒng),主導(dǎo)開發(fā)的異常檢測系統(tǒng)在通用、Trane、蘋果等公司的產(chǎn)品中得到廣泛應(yīng)用。

關(guān)于這兩項關(guān)鍵技術(shù)的相關(guān)細(xì)節(jié)以及應(yīng)用前景,近日我們跟胡俠教授聊了聊,以下內(nèi)容經(jīng)過不改變原意的編輯、整理:

從模糊的上下文位置信息以及模糊的 KV Cache 兩點入手做“有損計算”

雷峰網(wǎng):請您先簡單介紹下"通過有損計算實現(xiàn)高效大語言模型推理"的具體思路?

胡俠:我們根據(jù)大語言模型對來自低精度計算等"有損操作"產(chǎn)生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,能夠極高地提供推理效率,實際上是用精度換取效率的思路。我們的"有損計算"主要實施方式是兩種,一是在算法層面,不要用上下文精確的相對距離來進行計算,而是通過粗化遠距離標(biāo)記的位置信息,成功將大語言模型的語境長度擴展至原來水平的 8 倍;二是在系統(tǒng)層面,將過去令牌的中間狀態(tài)(KV Cache)做相應(yīng)的量化,量化為 2 比特數(shù)字,可以實現(xiàn) 8 倍內(nèi)存效率提升和 3.5 倍實際速度加速,且不影響模型性能。

雷峰網(wǎng):“有損計算”的靈感是否部分源于對大模型本身作為一種“有損世界壓縮器”的理論認(rèn)知?

胡俠:整個方案的靈感來源于深度學(xué)習(xí),深度學(xué)習(xí)中有兩個重要的發(fā)現(xiàn)。一個是模型的參數(shù)量實際上比模型的精度更重要,我們做了很多實驗,其中一堆實驗都表明相對大的模型比相對精確的模型,它的推理無論是效率還是準(zhǔn)確度來講都更好。

第二個重要發(fā)現(xiàn)是在深度模型中,當(dāng)我們把很多參數(shù)刪掉以后,模型的準(zhǔn)確率損失非常小。

于是我們就想到了怎樣從模糊的上下文信息以及模糊的 KV Cache 這兩點入手做有損計算。具體舉個例子,比如我們讀書時,當(dāng)我們試圖記憶上下文,比如想知道上一章出現(xiàn)了一個什么故事,但我們不需要知道這個故事發(fā)生在第 265 個字之前還是第 257 個字之前,我只需要知道大概兩三百個字之前出現(xiàn)了這么一個故事就行了。

雷峰網(wǎng):您的"有損計算"方案主要通過兩種方案,其中通過粗化位置信息來擴展上下文,這種粗化策略是靜態(tài),還是根據(jù)文本內(nèi)容動態(tài)調(diào)整的?

胡俠:都不是,它實際上是根據(jù)當(dāng)時上下文的需要進行動態(tài)調(diào)整的。

雷峰網(wǎng):第二種方法是將 KV Cache 壓縮到 2 比特,這是一項非常激進的優(yōu)化,在這個過程中您以及您團隊遇到最大的挑戰(zhàn)是什么?

胡俠:整個研究最大的挑戰(zhàn)就是壓縮到 2 比特以后,在這種低精度表示的情況下是否還能夠讓模型保持相應(yīng)的準(zhǔn)確率,所以必須通過大量實驗來解決。

雖然我們在實驗環(huán)境下壓縮到 2 比特是可行的,但在現(xiàn)實應(yīng)用中很少有人這么做,工業(yè)界主流的優(yōu)化手段例如 DeepSeek 是壓縮到 8 比特,在實際應(yīng)用中壓縮到 4 比特已經(jīng)非常激進了,2 比特現(xiàn)在更多還是一個實驗室的結(jié)果。

壓縮能夠提高模型的工作效率,這已經(jīng)形成了廣泛共識,壓縮方法是最大的挑戰(zhàn),所以我們的工作最大的貢獻就是對 Key Cache 和 Value Cache 的壓縮方式是不一樣的。

雷峰網(wǎng):壓縮 KV Cache 后,能實現(xiàn)什么價值?

胡俠:KV Cache 是大模型訓(xùn)練和推理中最重要的一個中間存儲狀態(tài),KV Cache 直接跟 GPU 的內(nèi)存相關(guān),例如A100 80GB,其中的 80GB 就是它的內(nèi)存,而 80GB 當(dāng)中可能有 90% 以上的用途都是用來存 KV Cache,它是計算中一個最重要的中間存儲計算工具。

如果從 16 比特壓到 2 比特,就相當(dāng)于壓縮了近 10 倍,就相當(dāng)于能夠讓 80GB A100 的 GPU 增加了 10 倍的存儲量,這就非常有價值了,因為一塊普通的 GPU 就是兩三萬美金,如果能增加 10 倍存儲量的話,粗算下來相當(dāng)于把 2 萬美金的 GPU 直接增值到 20 萬美金。

雷峰網(wǎng):這兩個方法主要在哪些模型上實驗過?

胡俠:我們主要的結(jié)果是在 llama 上做的。兩篇文章都是 2024 年發(fā)的。

雷峰網(wǎng):您團隊開發(fā)的 AutoKeras 等開源項目已被廣泛采用。對于這項有損計算技術(shù),您是否也計劃通過類似的路徑來推動其工業(yè)界采納?

胡俠:已經(jīng)有很多主流的開源軟件包都在使用了,像 hugging face 的 transformer,llama.cpp 都在使用這兩個方法。

雷峰網(wǎng):您的方案跟當(dāng)前其他一些推理方法,比如混合專家模型 MoE,模擬計算等,在哲學(xué)和技術(shù)路徑有和根本不同?

胡俠:哲學(xué)上是差不多的,有句話叫 no free lunch,我們得到的是它的效率,損失的是精度,就看損失的精度會不會影響模型的準(zhǔn)確性。但是我們追求的并不是模型的精度,而是最后的準(zhǔn)確率。所以哲學(xué)上都是通過一些方法來讓模型效率更快,在快的同時還不掉點,即準(zhǔn)確率還不會下降。

技術(shù)上就完全不一樣了,MoE 是通過 sparsity(稀疏性)來解決問題。舉個例子,比如你讀篇文章,sparsity 意味著有些詞就完全不讀,刪掉,而我們的粗化位置信息方法則是都要讀完,但是讀的非???,不用去記準(zhǔn)確的位置,我只知道它可能在 1~10 之間,20~30 之間,但不需要去記位置是 5 還是 16。

“有損計算”在模型處理不同任務(wù)的準(zhǔn)確率不同

雷峰網(wǎng):如果模型在生成過程中突然需要回顧一個之前被判定為“不重要”并丟棄的信息,您的算法如何應(yīng)對這種“大海撈針(Needle- in-a-Haystack)”的失敗風(fēng)險?

胡俠 :模型不用非要去看之前的絕對位置,所有的模型的目標(biāo)都是在最后生成正確的答案即可。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):該“有損計算”方案對于模型處理不同任務(wù)的影響是相同的嗎?

胡俠:現(xiàn)在我們的方案更多是針對語言大模型,但對于多模態(tài)大模型或者其他智能體的效果是不同的,其他的我們也沒有實驗去支撐,所以很難講效果會好還是不好。但從機理上來講,我們大概的思路就是用精度換效率,但這個損失的精度并沒有損害到模型的準(zhǔn)確率。所以從大的邏輯上來講對很多任務(wù)應(yīng)該沒有太多影響,但具體任務(wù)也要具體分析。

雷峰網(wǎng):從柯氏復(fù)雜度和最小描述長度的角度看,訓(xùn)練大模型是尋找數(shù)據(jù)背后的最短程序,那么您認(rèn)為在推理階段進行有損計算,是否可以理解為在特定任務(wù)和上下文約束下進一步尋找“最短的運行時程序”?

胡俠:我覺得可以這么講,這個講法對我來說還挺新穎。

雷峰網(wǎng):如何評估并確保這些“有損操作”沒有過度?

胡俠:這是個很好的問題。我們更多是用大量實驗來看是否過度,比如說現(xiàn)在常見的是 16 比特,究竟要壓縮到 8 比特、還是 4 比特、還是 2 比特,這就要根據(jù)實際需求來判斷,因為模型準(zhǔn)確率的下降曲線在不同的任務(wù)上也是不同的。當(dāng)實驗時模型的準(zhǔn)確率已經(jīng)開始大幅下降了,就壓過頭了,就不能再壓了。

雷峰網(wǎng):您提到壓縮時,模型準(zhǔn)確率的下降曲線在不同任務(wù)上不同,是否可以舉例在哪些任務(wù)上出現(xiàn)明顯不同?

胡俠:我們實驗比較多的任務(wù),包括多模態(tài)的任務(wù)、classification 的任務(wù),主要是回答問題,即 chatbot 的準(zhǔn)確率在壓縮到 2 比特的時候不會掉點,但是可能用來做生成程序比較困難。我們的有損方法對生成程序這種對精度要求非常高的任務(wù)可能會影響其準(zhǔn)確性,我們沒做相應(yīng)的實驗,但我感覺可能比較困難。

雷峰網(wǎng):經(jīng)歷了多少次實驗才發(fā)現(xiàn)將 KV Cache 壓縮到 2 比特的時候掉點很少?

胡俠:很難講,因為這個項目也不是憑空從頭開始做的,也是基于我們之前很多其他工作積累出來的。我們在通過不同方式跑通大模型的過程中不斷做各種實驗,然后發(fā)現(xiàn)了這個現(xiàn)象,但我們也不是第一個做壓縮的人,做壓縮的人很多。但我們主要貢獻了一種新的壓縮方法,就是 Key 跟 Value 這兩種 Cache,所以叫它 KV Cache,之前大家都用同一種方法來壓縮這兩種 Cache,但我們比較創(chuàng)新地將 Key 跟 Value 按照不同的壓縮方法壓縮,可以讓它在 2 比特的時候掉點非常少或者幾乎不掉點,這是最大的一個貢獻。

雷峰網(wǎng):那有沒有實驗證明壓縮到 1 比特的時候,開始出現(xiàn)大的掉點?

胡俠:不可能 1 比特,1 比特就相當(dāng)于只用 0 和 1 來表示,整個矩陣就是 0、1,信息量太少了。

該“有損方案”應(yīng)用的潛力如何

雷峰網(wǎng):在法律、醫(yī)療這種對準(zhǔn)確性要求極高的場景,您的有損計算方案是否完全不能應(yīng)用到這些場景?

胡俠:實際上,法律跟醫(yī)療沒有大家想象的對準(zhǔn)確性要求那么高,因為它還是基于大量統(tǒng)計信息,比如要判斷某個人是否患有某種疾病,信息來源非常多,這就是為啥中醫(yī)、西醫(yī)都可以判斷有沒有病,做血檢也可以。所以不需要那么多的信息就可以做出非常精準(zhǔn)的判斷了。

這跟大家想象的可能不太一樣,反而需要精確地控制的比如說做一道數(shù)學(xué)題,寫一個程序,而判斷一個人有沒有什么疾病,在多數(shù)情況下數(shù)據(jù)好的話是一個比較簡單的任務(wù)。

雷峰網(wǎng):您的有損計算方案可以應(yīng)用到哪些場景?

胡俠:現(xiàn)在主要是 chatbot,我們在醫(yī)療健康領(lǐng)域應(yīng)用的是一個基于罕見病的問診系統(tǒng),如果一個人出現(xiàn)一些癥狀,他是否可能有某種罕見病就可以問這個系統(tǒng),效果還是非常好的。醫(yī)療領(lǐng)域現(xiàn)有的系統(tǒng)、有關(guān)罕見病的數(shù)據(jù)創(chuàng)建得特別少,因為一個醫(yī)生沒辦法囊括幾千種罕見病,但是大模型可以,而且具有了長上下文能力的大模型能夠做得更好。

雷峰網(wǎng):您的研究成果是否考慮了與特定硬件(如內(nèi)存計算、低精度AI芯片)的協(xié)同設(shè)計?要發(fā)揮最大潛力,是否需要硬件層面的相應(yīng)變革?

胡俠:現(xiàn)在還沒有考慮硬件。但 KV Cache 存在于 GPU 上,實際上是專用于 GPU 的一種方法,這個層面是考慮了硬件的。

雷峰網(wǎng):如果推理階段我們可以丟棄 80% 的信息而不影響效果,這是否反向說明,目前的模型架構(gòu)在預(yù)訓(xùn)練階段就存在巨大的效率浪費,未來的架構(gòu)是否應(yīng)該直接把這種稀疏性設(shè)計在預(yù)訓(xùn)練階段,而不是留給推理階段來補救?

胡俠:這倒是一個好問題,你可以這么講,可能有一個新的架構(gòu)會更好地利用這些信息讓預(yù)訓(xùn)練變得更高效,而不光是推理階段。

雷峰網(wǎng):您的這個研究是否對于大模型部署到手機上或者筆記本電腦等端側(cè)的意義更大?

胡俠:很難講,實際上現(xiàn)在不管用 DeepSeek 還是其他大語言模型,不知道你注意到?jīng)],點了發(fā)送鍵后,還是要等好一會兒才會出結(jié)果,原因就是它推理太慢了,所以在 server 端還沒解決推理慢的問題,還沒到研究是否到端側(cè)更有用的地步。

雷峰網(wǎng):您認(rèn)為有損計算的下一個前沿會是什么?

胡俠:我認(rèn)為更多的是比如 2 比特能不能真的應(yīng)用到實際中,什么情況下能用,什么情況下不能用,現(xiàn)在還不是特別清楚。還有就是理論研究得跟上,現(xiàn)在更多是實驗型的研究。從哲學(xué)上來講有太多可以有損的地方,但具體一個系統(tǒng)的實現(xiàn),從設(shè)計出來到最后落地哪些地方可以有損,哪些不能有損,這其中還有蠻多可以做的事情。

雷峰網(wǎng):您的高效推理方案是“即插即用”的還是要針對特定的模型甚至特定的垂直領(lǐng)域數(shù)據(jù)進行額外的微調(diào)呢?

胡俠:它好就好在是“即插即用”的,而且實現(xiàn)的原理非常簡單大家都能理解,因為這些因素現(xiàn)在用戶很多。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

上海AI Lab胡俠:KV Cache壓縮之后,可讓價格2萬美金的GPU發(fā)揮出20萬美金的價值 | GAIR 2025

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說