日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型

本文作者: 徐咪   2026-02-10 12:07
導(dǎo)語(yǔ):2月10日,騰訊混元推出面向消費(fèi)級(jí)硬件場(chǎng)景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數(shù)的小尺寸模型,通過(guò)2Bit量化技術(shù),等效參數(shù)量約為0.3

2月10日,騰訊混元推出面向消費(fèi)級(jí)硬件場(chǎng)景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數(shù)的小尺寸模型,通過(guò)2Bit量化技術(shù),等效參數(shù)量約為0.3B,實(shí)際存儲(chǔ)占用僅約600MB,比常用的一些手機(jī)應(yīng)用還小,實(shí)現(xiàn)了端側(cè)部署的新突破。

 

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型 

 

該模型基于混元團(tuán)隊(duì)首創(chuàng)的產(chǎn)業(yè)級(jí)2Bit端側(cè)量化方案,通過(guò)對(duì)HY-1.8B-Instruct模型進(jìn)行2比特量化感知訓(xùn)練(QAT)產(chǎn)出,模型大小減少至原始精度模型的1/6,同時(shí)在真實(shí)端側(cè)設(shè)備上生成速度提升2-3倍,可大幅提升使用體驗(yàn)。能力上,模型還保留了原版的思維鏈,可以為不同復(fù)雜度的任務(wù)提供相應(yīng)深度的推理過(guò)程。這是業(yè)界首個(gè)實(shí)現(xiàn)2bit產(chǎn)業(yè)級(jí)量化的端側(cè)模型實(shí)踐。

 

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型 

左圖為HY-1.8B原始精度模型,右圖為HY-1.8B-2Bit模型,量化后的模型速度明顯更快

 

隨著大語(yǔ)言模型普及,如何將模型在比如手機(jī)、耳機(jī)或者智能家居設(shè)備應(yīng)用,成為業(yè)界難題,尤其不少應(yīng)用對(duì)模型的離線部署、私密性等都有更高的需求,這就需要更多能夠在端側(cè)運(yùn)行的又小又強(qiáng)的模型。端側(cè)部署的展開(kāi),本質(zhì)上是一條在“小而精,快而準(zhǔn)”的艱難探索之路,我們既需要模型足夠聰明,能應(yīng)對(duì)千變?nèi)f化的真實(shí)需求,又必須將它約束在極其有限的硬件資源內(nèi)部署并快速推理,這就好像在給模型進(jìn)行“減脂增肌,減重提質(zhì)”。

 

比特(Bit)是計(jì)算機(jī)存儲(chǔ)的最小單位,1比特能表示2種狀態(tài)(0或1),2比特能表示4種狀態(tài),依此類推,一般模型的精度有2比特、4比特、8比特、32比特等表示方法,數(shù)值越大模型的精度更高,所占的內(nèi)存就越大。

 

雖然2比特量化的精度損失較大,但通過(guò)QAT和先進(jìn)的量化策略,已經(jīng)能讓2比特模型接近全精度模型的性能。在模型能力方面,對(duì)比4比特PTQ模型版本數(shù)學(xué)、代碼、科學(xué)等指標(biāo)上表現(xiàn)相當(dāng),實(shí)現(xiàn)了“小而強(qiáng)”的設(shè)計(jì)目標(biāo)。

 

技術(shù)上,量化作為大模型部署上線不可或缺的一環(huán),肩負(fù)了降低部署成本與保精度的使命,大部分情況下對(duì)于int4、int8、fp8的壓縮精度要求,采用PTQ量化策略即可實(shí)現(xiàn)幾乎無(wú)損,但隨著原始模型大小的縮小、壓縮bit數(shù)的進(jìn)一步降低,PTQ帶來(lái)的量化損失是巨大的。因此,對(duì)于原始模型大小只有1.8B,量化bit數(shù)只有2bit的HY-1.8B-2Bit,混元團(tuán)隊(duì)采用了量化感知訓(xùn)練策略,這顯著提升了量化后模型的性能。

 

騰訊混元還通過(guò)數(shù)據(jù)優(yōu)化、彈性拉伸量化以及訓(xùn)練策略創(chuàng)新三個(gè)方法來(lái)最大限度的提升HY-1.8B-2Bit的全科能力。

 

部署方面,騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權(quán)重與bf16偽量化權(quán)重,對(duì)比原始精度模型,HY-1.8B-2Bit 能夠靈活用于端側(cè)設(shè)備上,該模型也已在 Arm 等計(jì)算平臺(tái)上完成適配,可部署于啟用 Arm SME2 技術(shù)的移動(dòng)設(shè)備上,并實(shí)現(xiàn)高效運(yùn)行。

 

在MacBook M4芯片上,HY-1.8B-2Bit 固定了線程數(shù)為2測(cè)試了不同窗口大小下的首字時(shí)延和生成速度,模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對(duì)比,首字時(shí)延在1024輸入內(nèi)能夠保持3—8倍的加速,生成速度上常用窗口下對(duì)比原始模型精度,HY-1.8B-2Bit能夠?qū)崿F(xiàn)至少2倍穩(wěn)定加速。

 

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型 

 

在天璣9500上同樣進(jìn)行了測(cè)試,對(duì)比HY-1.8B-Q4格式首字時(shí)延能夠加速1.5—2倍,生成速度加速約1.5倍。

 

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破,騰訊混元推出0.3B端側(cè)模型 

 

當(dāng)前,HY-1.8B-2Bit的能力仍受限于監(jiān)督微調(diào)(SFT)的訓(xùn)練流程,以及基礎(chǔ)模型本身的性能與抗壓能力。針對(duì)這一問(wèn)題,混元團(tuán)隊(duì)未來(lái)將重點(diǎn)轉(zhuǎn)向強(qiáng)化學(xué)習(xí)與模型蒸餾等技術(shù)路徑,以期進(jìn)一步縮小低比特量化模型與全精度模型之間的能力差距,從而為邊緣設(shè)備上的大語(yǔ)言模型部署開(kāi)拓更廣闊的應(yīng)用前景。

 

項(xiàng)目鏈接:https://github.com/Tencent/AngelSlim

模型地址:https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技術(shù)報(bào)告:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)