1B 參數(shù)跑出 2B 性能？面壁 MiniCPM5-1B 用 AI 自進化，提速 AGI 進程

本文作者：高允毅

2026-05-29 10:43

導(dǎo)語：AI“自造”時代開啟，端側(cè)算力迎來“工業(yè)母機”。

1B 參數(shù)跑出 2B 性能？面壁 MiniCPM5-1B 用 AI 自進化，提速 AGI 進程

AI“自造”時代開啟，端側(cè)算力迎來“工業(yè)母機”。

作者丨高允毅

編輯丨岑峰馬曉寧

在萬億參數(shù)的軍備競賽中，全球 AI 行業(yè)正陷入算力受制、高質(zhì)量數(shù)據(jù)枯竭、電力成本飆升的資源消耗戰(zhàn)。當北美巨頭們斥資數(shù)十億美元狂賭超算中心時，中國的一支 AI “特種部隊”正繞開物理瓶頸，切入另一條決定勝負的岔路。

在資源有限的背景下，想讓大模型的能力繼續(xù)狂飆，唯一的解法就是從底層改變研發(fā)模式，大幅壓縮每一代模型的迭代成本與周期。基于這一共識，“AI 制造 AI”的技術(shù)路徑應(yīng)運而生。

面壁智能發(fā)現(xiàn)，大模型進化速度，正面臨一個隱形的天花板，即“碳基程序員”手寫代碼的生理極限。如果底層的訓(xùn)練框架持續(xù)依賴人工迭代，智能的進化速度就會被永遠鎖死。

正如 AI 大神 Andrej Karpathy 提出的“自動研究員”設(shè)想，行業(yè)的底層共識正在發(fā)生根本性轉(zhuǎn)移：破局的關(guān)鍵不再是盲目堆砌算力，而是讓 AI 接管編碼，激活“遞歸自我改進”的速率爆發(fā)。一旦“AI 研發(fā) AI 的速度”超越了“人類研發(fā) AI 的速度”，人類距離 AGI 的時間將被大幅縮短。

2026年5月25日，面壁智能正式交出答卷——全球首個由“AI創(chuàng)造AI”孕育而生的基座模型MiniCPM5-1B震撼發(fā)布。

MiniCPM5-1B的越級性能與端側(cè)革命

作為“AI 創(chuàng)造 AI”的時代首作，MiniCPM5-1B一登場，就讓人眼前一亮。

首先是堪比行業(yè)標桿的“越級性能”。 作為一款參數(shù)量極小的 1B模型，它在綜合知識儲備、邏輯推理與工具調(diào)用等長板能力上，展現(xiàn)出了極高的參數(shù)利用率。在國際權(quán)威第三方評測機構(gòu)Artificial Analysis (AA) 最新發(fā)布的榜單中，MiniCPM5-1B綜合分位列「小尺寸模型」榜單第一，成為了全球 2B 參數(shù)規(guī)模以內(nèi)最強的開源基座模型。

這一跨代級的性能飛躍，在對比中尤為顯著，它僅憑一半的參數(shù)量，便超越了 3 個月前的主流 2B 級別模型，用事實有力地驗證了面壁“智能密度約每 3.5 個月翻一番”的行業(yè)定律。

圖注：MiniCPM5-1B在Artificial Analysis 智能指數(shù)輕量級大模型性能排行第一

圖注：MiniCPM5-1B在 Artificial Analysis “模型智能與輸出 Token 消耗量”對比圖

在衡量“奧賽級”代碼能力的 LCB-Pro 25Q2 (Easy) 測評中，它以 22.68 的高分遙遙領(lǐng)先，而在奧林匹克競賽級數(shù)學推理測試 AIME-2025/2026 中，它同樣斬獲了 40.42 的高分。

圖注：MiniCPM5-1B與同體量模型評測結(jié)果對比圖

其次，是釋放應(yīng)用潛能的“極致壓縮比”。與云端那些動輒需要千卡集群支撐、高不可攀的API不同，MiniCPM5-1B天生具備極強的“生存能力”，支持 CPU 和瀏覽器運行，日常設(shè)備都能輕松駕馭。

在 FP16 高精度下，它僅占約 2GB 內(nèi)存；而在極限的 INT4/Q4 量化下，更是被壓縮至驚人的 0.5GB且?guī)缀鯚o損。

圖注：MiniCPM5-1B在不同精度下的權(quán)重體積與推薦部署場景

這極大降低了開發(fā)者的部署門檻，讓“人人擁有一個聰明的賽博桌寵”與端側(cè)全能助手成為現(xiàn)實。

圖注：MiniCPM5-1B落地端側(cè)應(yīng)用，低載、常駐“賽博桌寵”演示

項目地址：https://github.com/OpenBMB/MiniCPM-Desk-Pet

（本項目基于clawd-on-desk項目二次開發(fā)）

最后，是模型表現(xiàn)出的均衡能力。在與同等體量的模型對比中，MiniCPM5-1B在七個評估維度中名列前茅，展現(xiàn)了“六邊形戰(zhàn)士”般的整體實力。其中，在智能體和代碼編程領(lǐng)域大幅領(lǐng)先，在邏輯推理、數(shù)學推理、綜合知識方面也優(yōu)勢明顯。

圖注：MiniCPM5-1B與同體量模型各領(lǐng)域能力維度對比圖

那么問題來了：為什么一個體量如此小巧的模型，卻能打破“小參數(shù)=低智能”的魔咒？這并非單純的參數(shù)微調(diào)，而是源于面壁智能重構(gòu)的一套由“模型、框架、數(shù)據(jù)”并駕齊驅(qū)的全新自進化范式。

模型、框架、數(shù)據(jù)：面壁AI自進化范式三駕馬車

MiniCPM5-1B之所以表現(xiàn)驚艷，根源在于其底層采用了面壁智能提出的全新軟件工程范式，“Forge Engineering”（鍛造工程）。

它讓“AI 制造 AI”從前沿的實驗室概念，真正落地為了可復(fù)用的工業(yè)化流水線。

放眼全球，“AI 制造 AI”的探索正在快速推進。從 Anthropic 用智能體編寫 C 編譯器，到 OpenAI 的 Harness 規(guī)約工程，再到 Andrej Karpathy 提出的“自動研究員”構(gòu)想，這些嘗試都在不同方向上驗證了 AI 自主編程的可行性。

然而，在難度最高、架構(gòu)最復(fù)雜的“完整訓(xùn)練框架”這一粒度上，已有嘗試大多停留在研究原型或局部工具鏈層面。例如，英偉達的 VibeTensor 官方明確標注為“研究級系統(tǒng)”，不適合生產(chǎn)使用；Anthropic 的 C 編譯器規(guī)模較小；OpenAI 的 Harness 更側(cè)重于規(guī)約方法論而非完整框架。相比之下，面壁發(fā)布的 ForgeTrain，是目前已知首個完全由 AI 編寫、并已成功訓(xùn)練出工業(yè)生產(chǎn)級模型（MiniCPM5-1B）的大模型訓(xùn)練框架。

ForgeTrain，可以被理解為“AI版 Megatron”。

Megatron 是過去幾年大模型訓(xùn)練領(lǐng)域最具影響力的工業(yè)標準之一，而 ForgeTrain 背后的 Forge Engineering 范式，則重構(gòu)了傳統(tǒng)軟件工程的核心邏輯：

當 AI 生成代碼的成本趨近于零時，行業(yè)不再需要長期維護臃腫的通用框架。面對新的硬件或模型，F(xiàn)orge Engineering 可以讓 AI 直接“按需生成”專用的極致優(yōu)化代碼。

可以說，面壁率先在業(yè)內(nèi)跑通了“AI制造AI”任務(wù)中這個由算法（模型）、算力（Infra/框架）、數(shù)據(jù)三駕馬車環(huán)環(huán)相扣湊成的遞歸閉環(huán)。參照行業(yè)對“AI制造AI”進化能力的L1-L5梯度劃分，面壁正向自改進的 L4 階段發(fā)起全面沖鋒。

在算力/Infra層，打造動力澎湃的發(fā)動機：AI 徹底告別了人類手寫代碼的局限，能夠針對特定硬件，動態(tài)地“現(xiàn)場鍛造”出專屬的最優(yōu)算子與分布式策略。

ForgeTrain 提供了一套由 AI 生成訓(xùn)練框架的工程實現(xiàn)。在實際使用中，人類設(shè)定目標，例如“在昇騰 910B 上訓(xùn)練 1B 模型”，后續(xù)的代碼生成、測試與調(diào)優(yōu)均在 AI 主導(dǎo)的閉環(huán)中完成。ForgeTrain 是該范式下的首個訓(xùn)練框架實例，在一定條件下實現(xiàn)了針對特定場景的定制化生成，部分緩解了通用框架在效率與適配之間的權(quán)衡問題。

在數(shù)據(jù)層，提煉高純度的燃油：優(yōu)秀的模型離不開高質(zhì)量的數(shù)據(jù)。ForgeTrain 解決了“怎么訓(xùn)”的效率問題，而面壁的分級數(shù)據(jù)治理與大規(guī)模合成數(shù)據(jù)（超 1T Tokens，中文部分開源最大）則解決了“用什么訓(xùn)”的質(zhì)量問題。兩者結(jié)合，才造就了 MiniCPM5-1B 的驚艷表現(xiàn)。

面對高質(zhì)量數(shù)據(jù)日益枯竭的行業(yè)痛點，面壁與清華、OpenBMB聯(lián)合推出了 L0-L4 模型驅(qū)動分層數(shù)據(jù)管理框架。這套體系摒棄了傳統(tǒng)的粗放式清洗，通過“人類定義標準、AI 執(zhí)行操作”的邏輯將數(shù)據(jù)精準分級，將數(shù)據(jù)從原始資源到結(jié)構(gòu)化知識精準分為五級。

圖注：面壁智能與清華、OpenBMB聯(lián)合提出 L0–L4 分級數(shù)據(jù)治理框架

其中，L1 階段通過工程化方法完成基礎(chǔ)清洗和去重，L2階段針對特定任務(wù)或領(lǐng)域篩選出相關(guān)數(shù)據(jù)，構(gòu)建模型的基礎(chǔ)語言與邏輯能力。

而在關(guān)鍵的 L3 階段，面壁讓 AI “自主擇數(shù)”，對海量網(wǎng)頁與數(shù)學語料進行系統(tǒng)性編輯與合成，識別出更接近第一性原理的數(shù)據(jù)。

而 L4 則轉(zhuǎn)化為可驗證的結(jié)構(gòu)化知識，為 RAG 系統(tǒng)提供事實支撐。

實驗效果是十分驚人的，在相同的訓(xùn)練算力下，使用 L3 數(shù)據(jù)訓(xùn)練的模型比使用傳統(tǒng) L1 數(shù)據(jù)的模型，數(shù)學能力提升了 7.06pp，而這種提升還能跨域遷移到英文、中文和代碼任務(wù)上，通用推理能力平均提升超過 3pp。

此外，分級管理也徹底重塑了訓(xùn)練策略。當采用 “先 L1 筑基、再 L2 強化、最后 L3 拔高” 的分級訓(xùn)練策略時，同樣 120B Tokens 的數(shù)據(jù)量，整體性能比傳統(tǒng)混合訓(xùn)練提升了 1.49pp，后期訓(xùn)練效率更是達到了混合策略的 1.7 倍。

高質(zhì)量合成數(shù)據(jù)不僅可以替代天然數(shù)據(jù)，在很多方面甚至優(yōu)于天然數(shù)據(jù)，這將為解決數(shù)據(jù)枯竭問題提供系統(tǒng)性方案。基于這一流程，團隊開源了 Ultra-Fineweb-zh-L3 數(shù)據(jù)集，包含超過 1T Tokens（其中中文約 410B Tokens），不僅服務(wù)于面壁自身的模型訓(xùn)練，也將這套數(shù)據(jù)提純能力開放出來，反哺社區(qū)生態(tài)。

這也是目前開源社區(qū)中規(guī)模最大的中文預(yù)訓(xùn)練合成數(shù)據(jù)集之一。

在算法/模型層，驅(qū)動自進化飛輪：AI 編寫的框架加上 AI 提純的高質(zhì)量數(shù)據(jù)，最終孕育出了更強大的基座模型（MiniCPM5-1B）。

一個更聰明的基座模型，本身也具備更強的代碼生成能力與數(shù)據(jù)理解能力。這意味著，它可以用 ForgeTrain 同樣的方法，生成比當前版本更優(yōu)的訓(xùn)練框架，也可以從海量語料中篩選出比當前 L3 數(shù)據(jù)集更高質(zhì)量的訓(xùn)練數(shù)據(jù)。用新框架 + 新數(shù)據(jù)，又能訓(xùn)練出下一代更強的模型。如此循環(huán)往復(fù)，形成一個“模型越強 → 框架與數(shù)據(jù)越優(yōu) → 下一代模型更強”的自進化飛輪。這正是面壁“AI 制造 AI”閉環(huán)能夠加速運轉(zhuǎn)的核心機制。

在這套體系的全面落地中，F(xiàn)orgeTrain 交出了實質(zhì)性的工程數(shù)據(jù)：

在“零人工代碼介入”的硬約束下，面對國產(chǎn)算力，它僅耗時 3-5 天便跑通華為昇騰系列，跨越了底層適配的周期長考；在頂尖算力端，其生成的純 AI 代碼在英偉達 H100 上的訓(xùn)練速度超越標桿 Megatron 10%，直接等效降低 10% 算力成本。

ForgeTrain在華為昇騰上預(yù)訓(xùn)練MiniCPM5-1B，相比昇騰的MindSpeed框架也有10%的加速。而基于該框架訓(xùn)練的 MiniCPM5-1B性能反超同級基準。

這背后的商業(yè)價值不言而喻：當企業(yè)需要為某款芯片（比如國產(chǎn)芯片）或某個端側(cè)場景做模型時，不需要請專門的技術(shù)團隊花幾個月去手動調(diào)優(yōu)。只要告訴系統(tǒng)需求，AI 就能在幾天內(nèi)為特定端側(cè)設(shè)備“現(xiàn)場鍛造”一套最契合的專屬模型和專屬訓(xùn)練/推理框架，真正將模型訓(xùn)練從“手工作坊”帶進了“工業(yè)流水線”時代。

重塑國產(chǎn)算力的底層軟件棧

在國際地緣博弈的背景下，英偉達萬億市值的真正護城河，并不在于 GPU 硬件本身，而在于其背后經(jīng)過十幾年積累、由百萬開發(fā)者共同構(gòu)建的 CUDA 軟件生態(tài)。

正如創(chuàng)始人黃仁勛自己所承認的：“英偉達本質(zhì)上是一家軟件公司。” 確實，如果沒有這套涵蓋算法庫、編譯器、開發(fā)工具在內(nèi)的完整生態(tài)系統(tǒng)，再強大的芯片也無法高效運行客戶的業(yè)務(wù)。

當前，以華為昇騰為代表的國產(chǎn)異構(gòu)芯片在硬件算力與架構(gòu)創(chuàng)新上發(fā)展迅猛，展現(xiàn)出強大的硬件潛力。然而，隨著新算法與新芯片層出不窮，異構(gòu)計算的 "組合爆炸" 已成為全行業(yè)的適配難題。從手機里的異構(gòu)芯片，到驅(qū)動萬億參數(shù)大模型的上萬張加速卡集群，問題的本質(zhì)沒有變，只是復(fù)雜度呈指數(shù)級放大。

面對這一底層困局，整個高性能計算（HPC）行業(yè)苦苦摸索了近十年。

行業(yè)曾嘗試通過傳統(tǒng)編譯器抹平異構(gòu)差異，但傳統(tǒng)編譯器極度依賴人類專家提前寫好優(yōu)化規(guī)則。但面對如今海量的硬件和算法組合，人力根本無法覆蓋所有可能性。這導(dǎo)致生成的代碼性能，通常只能觸及人類手寫極致代碼的 70%-80%。

另一種方法是行業(yè)嘗試讓AI自動寫底層代碼，結(jié)果卻變成了“盲拼樂高”，AI往往只能做好局部的單個功能，一旦要把這些功能組裝成一個大系統(tǒng)，接口之間就會互相沖突，最終導(dǎo)致系統(tǒng)崩潰。

在人類試圖用規(guī)則掌控硬件的時代，頂級科學家陳天奇主導(dǎo)的 TVM，成為了那個時代最引人矚目的突破；而到了 AI 自動生成軟件的新時代，NVIDIA 實驗室推出的VibeTensor，用AI完整寫出深度學習系統(tǒng)軟件，更是為行業(yè)后續(xù)探索鋪平了道路。而面壁智能今天的突破，正是站在了前人的肩膀上，補齊了工業(yè)級落地的最后一塊拼圖。

VibeTensor和ForgeTrain的故事，生動地演示了在AI生成軟件的新時代中，僅靠模型本身的能力是遠遠不夠的。成功的關(guān)鍵，在于如何設(shè)計一套能有效約束和引導(dǎo)AI的“游戲規(guī)則”。

ForgeTrain通過在限定范圍、明確目標、自動驗證的工程范式下取得了成功，而VibeTensor則在更廣闊、更模糊的空間里，為我們揭示了未來的挑戰(zhàn)，同樣意義重大。它們分別代表了AI在軟件工程領(lǐng)域的兩種探索路徑，共同推動著這個領(lǐng)域的進步。

通過 ForgeTrain 的范式創(chuàng)新，國產(chǎn)芯片終于不必再去痛苦地像素級模仿、追趕英偉達的 CUDA 生態(tài)，也不必在傳統(tǒng)編譯器的死胡同里耗盡心血。

隨著這一技術(shù)有望徹底重寫昇騰的底層軟件棧，它不僅將實質(zhì)性解決“國產(chǎn)卡難用”的工程瓶頸，更在戰(zhàn)略層面上，為中國 AI 產(chǎn)業(yè)提供了一條繞過英偉達 CUDA 生態(tài)壁壘、實現(xiàn)底層軟件解耦的非線性突圍路徑。

“端側(cè)大模型開源狀元”的堅持

2024年，面壁智能提出大模型“密度定律”（Densing Law ）：大模型的最大智能密度，大約每 100 天就會翻一倍。在“密度定律”的指引下，面壁智能自然而然地選擇了一條與北美巨頭完全不同、追求極致智能密度的道路。

回顧面壁智能的探索史，從 2024 年初的 MiniCPM 1.0開始，這支“小鋼炮”家族就在不斷刷新大模型“以小博大”的物理極限。憑借極小的參數(shù)量，先后越級超越 Llama2-13B 與 GPT-3.5，并將端側(cè)推理速度一路提升至最高 600 Token/s 的行業(yè)巔峰。

憑借在端側(cè)模型上毫無保留的貢獻，面壁智能毫無疑問是“中國端側(cè)大模型開源狀元”。

今天，MiniCPM5-1B的發(fā)布，不僅僅是一個好用的小模型問世，其背后的Forge Engineering就是這種思維的延續(xù)，更是一種全新 AI 生產(chǎn)力范式的宣告。

當大模型能夠自主鍛造底層框架，研發(fā)與適配的軟件成本被 AI 壓縮到接近于零時，大模型將真正蛻變?yōu)槿袠I(yè)都能低成本接入、每一臺日常設(shè)備都能被智能點亮的普惠事業(yè)。

當算力資源逐步向巨頭集中，面壁智能不僅堅持把強大的大模型壓縮到每個普通人的手機、電腦里，更試圖將制造大模型的“鐵錘”交還給 AI 自己。在通往AGI的道路上，一條無視算力封鎖、屬于中國大模型的自我進化飛輪已然開啟，屬于大模型自我進化的復(fù)利時代，已經(jīng)到來。

ForgeTrain開源鏈接：https://github.com/OpenBMB/ForgeTrain（5.26晚后上線）雷峰網(wǎng)(公眾號：雷峰網(wǎng))