一臺手掌大小、300克的AI主機，為什么能跑122B模型？

本文作者：包永剛

2026-05-25 18:41

導語：當AI原生設(shè)備成為Agent新物種主力，底層算力也正在加速重構(gòu)。

把一臺能運行122B大模型的AI主機塞進口袋，需要付出什么代價？

過去大半年，端側(cè)AI硬件的邏輯正在發(fā)生變化。

兩個月前，國內(nèi)掀起一場現(xiàn)象級的本地部署Agent熱潮，大量AI愛好者開始“養(yǎng)蝦”，讓原本偏小眾的Mac mini意外出圈，一度出現(xiàn)溢價和缺貨。在更硬核的開發(fā)者圈子里，三四萬元的英偉達DGX Spark同樣熱度不低，因為它已經(jīng)能夠在本地運行千億參數(shù)模型。

Mac mini和DGX Spark同時走紅，背后其實指向的是同一個趨勢：Agent正在迅速抬高端側(cè)AI硬件的門檻。

此前，40TOPS級別的AI PC，僅能完成對話、生成等輕量任務。但進入Agent時代后，開發(fā)者開始追求更大的模型、更長時間的本地推理，以及真正能夠承擔生產(chǎn)力任務的端側(cè)AI設(shè)備。

問題隨之出現(xiàn)。Mac mini足夠安靜、低功耗，卻很難支撐更大的本地模型；DGX Spark擁有強悍性能，但價格、功耗與散熱，又很難真正走向大眾化。大算力、低功耗與小體積之間，似乎始終難以兼得。

Agent時代真正缺少的，不再只是一臺更強的AI PC，而是一種能夠7×24小時運行、低功耗、安靜，并具備本地執(zhí)行能力的新終端。

一種介于AI PC與AI工作站之間的Agent Computer出現(xiàn)了。最近發(fā)布的聯(lián)想AI主機P7，僅300克、30W功耗的設(shè)備，擁有190TOPS端側(cè)AI算力，能在本地運行122B參數(shù)模型。

AI 2.0時代，需要怎樣的Agent Computer？

傳統(tǒng)AI更多還是一問一答式交互，任務結(jié)束后，模型也隨之停止運行。但Agent不同，它需要長期在線、持續(xù)調(diào)用模型、自主拆解任務，并在本地完成記憶、推理、執(zhí)行等一整套過程。

這意味著Agent設(shè)備比拼的，不再只是瞬時性能，而是長期穩(wěn)定運行能力。

換句話說，AI 2.0時代真正需要的不是AI PC的簡單升級版，而是一種介于AI PC與AI工作站之間的新終端，它既要具備運行大模型的能力，又必須兼顧低功耗、靜音、小體積，以及7×24小時持續(xù)工作的穩(wěn)定性。

聯(lián)想AI主機P7，正是在AI 2.0需求下誕生的Agent Computer新物種。它既嘗試接近DGX Spark的大模型生產(chǎn)力能力，又保留了類似Mac mini的低功耗與靜音特性。

一臺手掌大小、300克的AI主機，為什么能跑122B模型？

P7擁有190TOPS異構(gòu)AI算力（dNPU+SoC），其中160TOPS來自后摩漫界M50 dNPU，30TOPS來自此芯P1 SoC。整機最高支持122B參數(shù)模型本地部署，最高可配置80GB RAM，并支持128K上下文窗口。

在無網(wǎng)環(huán)境下，P7本地自主推理速度最高可達50 Tokens/s，可以實現(xiàn)7×24小時連續(xù)執(zhí)行Agent任務。

圍繞Agent長期在線需求，P7的機身只有手掌大小，重量約300克，甚至可以直接通過充電寶供電運行。為了在小體積下實現(xiàn)持續(xù)穩(wěn)定運行，P7還將整機功耗控制在30W以內(nèi)，并將運行噪音壓低至35分貝以下。

這意味著，聯(lián)想AI主機P7已經(jīng)開始真正具備本地生產(chǎn)力價值。

更重要的是，與傳統(tǒng)PC+AI的思路不同，P7并不是在原有設(shè)備中增加AI功能，而是圍繞Agent場景重新定義終端邏輯。

例如，P7采用了一機雙模設(shè)計，在智能體模式下，本地運行天禧Claw，將復雜任務盡可能留在本地執(zhí)行；在大模型模式下，則通過開放API Key接入各類AI應用與智能體，直接承擔本地推理與Token生成能力。

P7的推出代表著過去只有高功耗工作站才能承擔的大模型本地推理能力，開始有機會進入更低功耗、更低成本的小型設(shè)備。

而只有當大模型推理能夠在低功耗、小體積條件下長期運行，Agent才有可能真正從少數(shù)開發(fā)者設(shè)備，逐漸走向更廣泛的消費級與行業(yè)終端場景。

支撐這種Agent Computer形態(tài)成立的，是P7背后一套不同于傳統(tǒng)GPU路線的新算力方案。

千億模型裝進口袋之后，算力邏輯也變了

聯(lián)想在P7立項初期就已經(jīng)明確，要做一臺能放進口袋、又能本地運行大模型的AI主機。這意味著它的芯片必須同時滿足三個幾乎互斥的條件：大算力、低功耗、小體積。

傳統(tǒng)AI芯片很難同時兼顧這些需求，核心在于數(shù)據(jù)搬運——計算單元與存儲單元物理分離，數(shù)據(jù)在兩者之間頻繁流動，帶來額外的能耗與延遲。

AI芯片行業(yè)因此不斷探索新的架構(gòu)路徑，其中一個正在被越來越多廠商探索的方向就是存算一體，存算一體讓數(shù)據(jù)在存儲側(cè)就近完成計算，從而減少搬運開銷，提升整體能效。

聯(lián)想選擇引入存算一體架構(gòu)芯片，作為P7的主要AI算力來源，也就是dNPU（Discrete NPU），它類似于獨立GPU的定位，擁有更強的AI性能。

這顆dNPU，正是后摩智能在2025年推出的存算一體AI芯片——后摩漫界M50。

后摩漫界M50采用存算一體架構(gòu)設(shè)計，具備160TOPS物理算力，配備最高48GB內(nèi)存與153.6GB/s帶寬，典型功耗僅10W，能效達到傳統(tǒng)架構(gòu)芯片的5～10倍。

一臺手掌大小、300克的AI主機，為什么能跑122B模型？

雷峰網(wǎng)(公眾號：雷峰網(wǎng))了解到，M50在設(shè)計階段就針對大模型部署進行了優(yōu)化，通過SRAM與48GB LPDDR5的組合方案，在兼顧性能的同時，提升了千億參數(shù)模型的可部署性與成本可控性。

真正的挑戰(zhàn)不止于芯片，而是如何讓千億參數(shù)模型在一臺300克級別的設(shè)備上長期穩(wěn)定運行。這需要聯(lián)想與后摩智能在本地Agent系統(tǒng)、推理框架以及軟硬件協(xié)同層面進行深度配合。

尤其是在Agent執(zhí)行鏈路、模型調(diào)度與端側(cè)資源管理上，聯(lián)想需要一套全新的系統(tǒng)能力來支撐持續(xù)運行的AI任務。

從2025年下半年項目正式啟動開始，聯(lián)想與后摩智能組建聯(lián)合團隊，圍繞硬件設(shè)計、軟件適配與推理框架展開了長達十多個月的聯(lián)合攻堅，最終實現(xiàn)了在后摩漫界M50上運行千億參數(shù)大模型。

目前，P7已經(jīng)支持千問、智譜、DeepSeek等主流模型，并可實現(xiàn)新模型的Day0適配，即模型發(fā)布當天即可完成運行支持。對于用戶而言，這使得P7不再只是演示型設(shè)備，而是一臺可長期運行Agent任務的本地AI終端。

從芯片到系統(tǒng)，再到Agent執(zhí)行能力，聯(lián)想與后摩智能正在共同驗證一種新的AI主機形態(tài)。

隨著端側(cè)大模型持續(xù)演進，這種兼顧性能、功耗與長期運行能力的Agent Computer，正在成為AI 2.0時代最具現(xiàn)實落地潛力的終端方向之一。

Agent 浪潮重構(gòu)硬件規(guī)則，存算一體迎來推理黃金時代

AI芯片的競爭邏輯，正在發(fā)生一場靜默的翻轉(zhuǎn)。

過去幾年，行業(yè)的核心指標是峰值算力，比拼的是誰能訓練更大的模型，GPU也因此成為整個AI時代的核心基礎(chǔ)設(shè)施。

但當AI從1.0時代的生成一次回答走向2.0時代的長期運行、持續(xù)執(zhí)行任務的Agent形態(tài)后，芯片的評價體系開始變化：能效比、持續(xù)推理能力、本地執(zhí)行復雜任務的穩(wěn)定性，逐漸與峰值算力同等重要。

這一變化并不是傳統(tǒng)AI芯片的優(yōu)勢所在，卻為新的架構(gòu)路徑打開了窗口。

一個明顯的信號來自行業(yè)巨頭。英偉達重金收購初創(chuàng)公司 Groq 核心技術(shù)資產(chǎn)，將其 LPU （Language Processing Unit）語言處理單元用于高性能推理場景。后摩智能與Groq都是存算一體技術(shù)路線，都是基于SRAM設(shè)計產(chǎn)品，減少數(shù)據(jù)搬運、提升推理能效，只是產(chǎn)品叫法不同。

后摩智能在成立之初就專注于存算一體技術(shù)的研發(fā)與產(chǎn)業(yè)化，2024年推出針對大模型推理優(yōu)化的后摩漫界M30，支持運行60億參數(shù)模型，并獲得了中國移動等客戶。

目前，基于后摩漫界M50，后摩智能已經(jīng)搭建起M.2卡、DM.2卡、Pcie卡，最高 640TOPS 算力的完整產(chǎn)品矩陣，并完成了從技術(shù)原型到規(guī)?；逃玫年P(guān)鍵跨越。如今后摩漫界M50已全面落地聯(lián)想AI主機P7、 AI PC、桌面機器人、Agent Box、智能語音終端、AI 網(wǎng)關(guān)等多元端邊場景。

后摩智能也在研發(fā)下一代芯片，目標是進一步提升能效比與大模型推理能力，以適配未來更復雜的Agent時代。

這是一個標志性的轉(zhuǎn)折點，GPU 定義了大模型訓練時代，而 Agent 的全面爆發(fā)，正將算力競爭從云端訓練中心，推向海量的端側(cè)、邊緣推理節(jié)點。在這場算力格局遷移中，以存算一體為代表的 AI 原生架構(gòu)，不再只是 GPU 的補充或替代，更在逐步建立端側(cè) Agent 時代的全新硬件標準。

隨著Agent開始向更多本地設(shè)備滲透，行業(yè)對于低功耗、高能效端邊推理芯片的需求也會持續(xù)增加。

未來，圍繞端側(cè)大模型推理，還會出現(xiàn)更多新的芯片形態(tài)與架構(gòu)路線。

在這場Agent驅(qū)動的AI硬件范式切換中，AI原生的芯片成為競爭的關(guān)鍵，像后摩智能這樣率先完成存算一體商業(yè)化落地的公司，正在進入更大的增長通道。

更多關(guān)于推理時代算力需求的深度交流歡迎添加作者微信BENSONEIT。雷峰網(wǎng)雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當月熱門文章

一臺手掌大小、300克的AI主機，為什么能跑122B模型？

一臺手掌大小、300克的AI主機，為什么能跑122B模型？