首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破，騰訊混元推出0.3B端側(cè)模型

本文作者：徐咪

2026-02-10 12:07

導(dǎo)語(yǔ)：2月10日，騰訊混元推出面向消費(fèi)級(jí)硬件場(chǎng)景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數(shù)的小尺寸模型，通過(guò)2Bit量化技術(shù)，等效參數(shù)量約為0.3

2月10日，騰訊混元推出面向消費(fèi)級(jí)硬件場(chǎng)景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數(shù)的小尺寸模型，通過(guò)2Bit量化技術(shù)，等效參數(shù)量約為0.3B，實(shí)際存儲(chǔ)占用僅約600MB，比常用的一些手機(jī)應(yīng)用還小，實(shí)現(xiàn)了端側(cè)部署的新突破。

該模型基于混元團(tuán)隊(duì)首創(chuàng)的產(chǎn)業(yè)級(jí)2Bit端側(cè)量化方案，通過(guò)對(duì)HY-1.8B-Instruct模型進(jìn)行2比特量化感知訓(xùn)練（QAT）產(chǎn)出，模型大小減少至原始精度模型的1/6，同時(shí)在真實(shí)端側(cè)設(shè)備上生成速度提升2-3倍，可大幅提升使用體驗(yàn)。能力上，模型還保留了原版的思維鏈，可以為不同復(fù)雜度的任務(wù)提供相應(yīng)深度的推理過(guò)程。這是業(yè)界首個(gè)實(shí)現(xiàn)2bit產(chǎn)業(yè)級(jí)量化的端側(cè)模型實(shí)踐。

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破，騰訊混元推出0.3B端側(cè)模型

左圖為HY-1.8B原始精度模型，右圖為HY-1.8B-2Bit模型，量化后的模型速度明顯更快

隨著大語(yǔ)言模型普及，如何將模型在比如手機(jī)、耳機(jī)或者智能家居設(shè)備應(yīng)用，成為業(yè)界難題，尤其不少應(yīng)用對(duì)模型的離線部署、私密性等都有更高的需求，這就需要更多能夠在端側(cè)運(yùn)行的又小又強(qiáng)的模型。端側(cè)部署的展開(kāi)，本質(zhì)上是一條在“小而精，快而準(zhǔn)”的艱難探索之路，我們既需要模型足夠聰明，能應(yīng)對(duì)千變?nèi)f化的真實(shí)需求，又必須將它約束在極其有限的硬件資源內(nèi)部署并快速推理，這就好像在給模型進(jìn)行“減脂增肌，減重提質(zhì)”。

比特（Bit）是計(jì)算機(jī)存儲(chǔ)的最小單位，1比特能表示2種狀態(tài)（0或1），2比特能表示4種狀態(tài)，依此類推，一般模型的精度有2比特、4比特、8比特、32比特等表示方法，數(shù)值越大模型的精度更高，所占的內(nèi)存就越大。

雖然2比特量化的精度損失較大，但通過(guò)QAT和先進(jìn)的量化策略，已經(jīng)能讓2比特模型接近全精度模型的性能。在模型能力方面，對(duì)比4比特PTQ模型版本數(shù)學(xué)、代碼、科學(xué)等指標(biāo)上表現(xiàn)相當(dāng)，實(shí)現(xiàn)了“小而強(qiáng)”的設(shè)計(jì)目標(biāo)。

技術(shù)上，量化作為大模型部署上線不可或缺的一環(huán)，肩負(fù)了降低部署成本與保精度的使命，大部分情況下對(duì)于int4、int8、fp8的壓縮精度要求，采用PTQ量化策略即可實(shí)現(xiàn)幾乎無(wú)損，但隨著原始模型大小的縮小、壓縮bit數(shù)的進(jìn)一步降低，PTQ帶來(lái)的量化損失是巨大的。因此，對(duì)于原始模型大小只有1.8B，量化bit數(shù)只有2bit的HY-1.8B-2Bit，混元團(tuán)隊(duì)采用了量化感知訓(xùn)練策略，這顯著提升了量化后模型的性能。

騰訊混元還通過(guò)數(shù)據(jù)優(yōu)化、彈性拉伸量化以及訓(xùn)練策略創(chuàng)新三個(gè)方法來(lái)最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面，騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權(quán)重與bf16偽量化權(quán)重，對(duì)比原始精度模型，HY-1.8B-2Bit 能夠靈活用于端側(cè)設(shè)備上，該模型也已在 Arm 等計(jì)算平臺(tái)上完成適配，可部署于啟用 Arm SME2 技術(shù)的移動(dòng)設(shè)備上，并實(shí)現(xiàn)高效運(yùn)行。

在MacBook M4芯片上，HY-1.8B-2Bit 固定了線程數(shù)為2測(cè)試了不同窗口大小下的首字時(shí)延和生成速度，模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對(duì)比，首字時(shí)延在1024輸入內(nèi)能夠保持3—8倍的加速，生成速度上常用窗口下對(duì)比原始模型精度，HY-1.8B-2Bit能夠?qū)崿F(xiàn)至少2倍穩(wěn)定加速。

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破，騰訊混元推出0.3B端側(cè)模型

在天璣9500上同樣進(jìn)行了測(cè)試，對(duì)比HY-1.8B-Q4格式首字時(shí)延能夠加速1.5—2倍，生成速度加速約1.5倍。

首個(gè)產(chǎn)業(yè)級(jí)2Bit量化新突破，騰訊混元推出0.3B端側(cè)模型

當(dāng)前，HY-1.8B-2Bit的能力仍受限于監(jiān)督微調(diào)（SFT）的訓(xùn)練流程，以及基礎(chǔ)模型本身的性能與抗壓能力。針對(duì)這一問(wèn)題，混元團(tuán)隊(duì)未來(lái)將重點(diǎn)轉(zhuǎn)向強(qiáng)化學(xué)習(xí)與模型蒸餾等技術(shù)路徑，以期進(jìn)一步縮小低比特量化模型與全精度模型之間的能力差距，從而為邊緣設(shè)備上的大語(yǔ)言模型部署開(kāi)拓更廣闊的應(yīng)用前景。

項(xiàng)目鏈接：https://github.com/Tencent/AngelSlim

模型地址：https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技術(shù)報(bào)告：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門文章