去掉 VAE 之后，商湯用 8B 參數(shù)重新定義了開源生圖的上限

本文作者：梁丙鑒

2026-05-31 16:14

導(dǎo)語：多模態(tài)理解與生成的真統(tǒng)一。

雷峰網(wǎng)文章開源一周多，GitHub 破 1,500 Star，沖上HuggingFace趨勢榜——商湯SenseNova U1 在開發(fā)者社區(qū)引發(fā)的熱度，和這個模型本身的技術(shù)野心一樣不尋常。它做的事情，是把多模態(tài)理解和生成這兩件事，真正塞進同一個大腦。

開發(fā)者在討論什么？除了效果有多驚艷，還有一個更底層的問題：為什么這次把 VAE也去掉了？從 Stable Diffusion 到 FLUX，幾乎所有主流擴散模型都依賴變分自編碼器（VAE）把圖像壓進潛空間，這是近年來整個圖像生成技術(shù)棧的地基。SenseNova U1 的 NEO-unify 架構(gòu)選擇把它整個拆掉，直接在像素層面端到端建模語言與視覺。這不是工程優(yōu)化，是架構(gòu)層面的重新選邊站。

HuggingFace 社區(qū)的熱門討論包括「能否在單張 RTX 5090 上運行」、「是否會有更輕量版本」等極具落地指向的問題，說明已經(jīng)有大量開發(fā)者在認真跑通它。有開發(fā)者評價稱，這是「終于有人在原生統(tǒng)一方向上認真做了工程落地」，和此前的偽統(tǒng)一架構(gòu)完全不可同日而語。

與此同時，模型以 Apache 2.0 協(xié)議完全開源，支持商用，發(fā)布后不到兩周，團隊已陸續(xù)推出 8 步推理加速版、LoRA 微調(diào)版、GGUF 量化版及低顯存layer-offload 推理模式，迭代節(jié)奏之快，也是社區(qū)熱度持續(xù)的原因之一。

多模態(tài)的「兩條腿走路」，走了太久

多模態(tài)的理解與生成，長期以來都是“兩條腿走路”。在多模態(tài)理解方面，以GPT-4V、LLaVA、Qwen-VL 為代表的視覺語言模型（VLM）能夠執(zhí)行復(fù)雜的圖像描述、視覺問答和推理任務(wù)，而圖像生成技術(shù)，則有Stable Diffusion、FLUX、DALL-E 3 為代表的擴散模型。兩條技術(shù)路線雖然各有突破，但長期以來因獨立演進，形成了截然不同的架構(gòu)范式，是不爭的事實。

變革最初發(fā)生在 2025 年，GPT-4o 的統(tǒng)一多模態(tài)能力引爆了業(yè)界對統(tǒng)一架構(gòu)的追求，也就是用一款模型既能理解圖像內(nèi)容，又能生成高質(zhì)量圖像。不過業(yè)界普遍推測，GPT-4o的圖像理解能力仍然是依賴視覺編碼器提取圖像特征實現(xiàn)，這款模型本身也并不原生生成高質(zhì)量圖像，而是依賴集成的DALL-E 3。

實現(xiàn)路徑之所以重要，是因為它關(guān)系到模型的多模態(tài)能力是否真正實現(xiàn)了統(tǒng)一。以 GPT-4o 為代表的混合架構(gòu)雖然在物理上共享部分參數(shù)，但是理解與生成在特征表示和計算路徑上仍相對獨立。這種不同模塊接力完成任務(wù)的路徑，不可避免地導(dǎo)致了模型冗余、能力割裂和交互障礙。

NEO-unify：真正靠同一個大腦做到這件事

真正靠同一個大腦做到這件事，曾經(jīng)是很多人的設(shè)想，今天被商湯實現(xiàn)了。SenseNova U1 系列模型基于商湯于今年 3月自主研發(fā)的NEO-unify 架構(gòu)，率先在單一模型架構(gòu)上統(tǒng)一多模態(tài)理解、推理與生成，實現(xiàn)了從「模態(tài)集成」向「原生統(tǒng)一」的范式跨越。

NEO-unify 架構(gòu)的核心突破在于，它徹底摒棄了視覺編碼器（VE）和變分自編碼器（VAE），直接從像素和文本進行端到端學(xué)習。商湯在官方文章里打了個比方，傳統(tǒng)架構(gòu)像“說不同語言的人組成的工作組”，而 SenseNova U1更像「一個從一開始就同時掌握多項技能的人」。

這一設(shè)計的技術(shù)意義在于：VAE 的壓縮過程本質(zhì)上是有損的，開發(fā)者為此花了數(shù)年時間調(diào)參和打補??；而 NEO-unify 直接在像素層面建模語言與視覺信息，像素與詞語的信息從一開始就在同一個表征空間里共同參與每一層計算，消除了跨模塊傳遞帶來的信息損耗。

圖注：該框架結(jié)合了（1）近無損視覺接口，（2）由兩層卷積編碼與類 MLP 編碼層實現(xiàn)，以及（3）原生的混合 Transformer（MoT）主干架構(gòu)。架構(gòu)重點在于同時解決三組?盾：語義抽象與像素細節(jié)的共同表征、理解與?成的協(xié)同、語?因果性與圖像空間?致性。

到此為止，我們才能說端到端統(tǒng)一框架真正得到了實現(xiàn)。下到一次圖像生成的效果，上到整個多模態(tài)模型的智能上限，都和這一里程碑的實現(xiàn)與否休戚相關(guān)。

本次開源的 SenseNova U1 Lite，包含兩個不同規(guī)格的模型：

? 基于稠密骨干網(wǎng)絡(luò)的 SenseNova-U1-8B-MoT：理解與生成兩條分支參數(shù)約 9.37B / 8.19B

? 基于混合專家（MoE）骨干網(wǎng)絡(luò)的 SenseNova-U1-A3B-MoT：理解分支約 30.54B，生成分支約 8.2B，每 token 激活 top-8 專家，實際活躍參數(shù)約 3B

模型測評：數(shù)據(jù)說話

在商湯最新發(fā)布的U1技術(shù)報告中，有一些數(shù)據(jù)格外亮眼。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中，8B-MoT均達到同量級開源模型SOTA 水平，甚至在部分指標上超越了部分大型商業(yè)閉源模型。

圖注：SenseNova-U1 與其他頂級多模態(tài)理解模型在多模態(tài)基準測試（Benchmarks）上的對比。

圖注：SenseNova-U1 與僅具備理解能力的頂級模型在純文本基準測試（Benchmarks）上的對比

圖注：GenEval 上的定量評估結(jié)果

從上表可以看出，SenseNova U1 實現(xiàn)了理解、生成、編輯、交錯和智能體能力的一體融合，形成了相對均衡的能力譜系。關(guān)鍵數(shù)據(jù)上，GenEval總分約 0.91-0.92，OneIG中文文字渲染達0.977，信息圖生成領(lǐng)先多數(shù)開放模型，多模態(tài)理解MMMU 達 80.55——這些數(shù)字發(fā)生在同一個模型內(nèi)部，而不是多個專用模型的拼接。

技術(shù)報告中一個值得單獨拿出來說的結(jié)論是：統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify相比類似統(tǒng)一模型BAGEL，在更少訓(xùn)練token 下取得了更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監(jiān)督信號，訓(xùn)練數(shù)據(jù)利用率因此更高。

在生成延遲與平均性能的綜合對比中，SenseNova U1 Lite 在保證圖像生成質(zhì)量比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型閉源模型的同時，推理響應(yīng)速度也展現(xiàn)出顯著優(yōu)勢，尤其在復(fù)雜信息圖（Infographic）生成任務(wù)中，控制力超出預(yù)期。

更值得注意的是，作為最強開源生圖模型的 SenseNova U1 Lite，僅僅只有 8B的體量。光是這個數(shù)字本身，就意味著落地上的巨大潛力。

實測與部署方案

回到生產(chǎn)場景，SenseNova U1 對長文檔和數(shù)據(jù)圖表進行總結(jié)分析、生成高質(zhì)量信息圖表的能力，有著廣闊的應(yīng)用空間。我們也針對性地設(shè)計了一個任務(wù)，看看SenseNova U1 在實際工作流中的表現(xiàn)。

先讓U1畫一幅云南的水彩風景畫，用連續(xù)圖文創(chuàng)作輸出的方式，展示從線稿到上色完稿的逐步過程。SenseNova U1 能夠很好的理解要求，進行符合邏輯的連貫輸出，并保持畫面信息的一致性。

同樣是在生產(chǎn)場景，圖文交錯生成、帶圖思考背后的一致性也讓 SenseNova U1 帶來了更多可能性。在下面這個用例中，我們請它為一座建筑群設(shè)計了7步分鏡，覆蓋了從二維底圖到帶有好萊塢級CG效果的人視街景。

去掉 VAE 之后，商湯用 8B 參數(shù)重新定義了開源生圖的上限

信息圖生成方面，我們先讓 SenseNova U1 根據(jù)公開信息，做了一份 5 月院線電影觀影指南。

觀影指南是一個關(guān)鍵信息高度密集的場景，每部電影的片名、日期、主題等標簽都需要保證可讀，在文字渲染準確性的難關(guān)之上，這又對SenseNova U1 處理多對象結(jié)構(gòu)化排版的能力提出了考驗。

此時文字的清晰呈現(xiàn)已經(jīng)成為了最基本要求，更進一步的表現(xiàn)，是在高信息密度的約束下，仍然保持雜志級的排版審美。平面設(shè)計師的排版能力，與產(chǎn)品經(jīng)理的信息架構(gòu)能力，這二者的交叉點，恰恰是最容易暴露AI 能力的短板。

為了進一步測試 SenseNova U1 的結(jié)構(gòu)化敘事和設(shè)計能力，我們又讓它做了一份介紹《甄嬛傳》中“滴血驗親”這場戲的信息圖，并且把關(guān)鍵臺詞融入設(shè)計中。

去掉 VAE 之后，商湯用 8B 參數(shù)重新定義了開源生圖的上限

兩份信息圖都沒有拿模板套作的痕跡，每一頁都做到了根據(jù)內(nèi)容密度自適應(yīng)，信息圖表和數(shù)據(jù)可視化都有對應(yīng)的視覺呈現(xiàn)，字體、顏色、元素比例在視覺效果上也很協(xié)調(diào)。

這兩項任務(wù)真正的難點有兩個。首先是異構(gòu)素材的知識合并能力，公開信息來源涵蓋了文本、圖像等多種格式，SenseNova U1 需要讓重疊的知識點相互印證、合并，最終得到差異化的分層信息。沒有真正的理解能力，做不到這一點。其次是邏輯感，提示詞非常簡練，SenseNova U1卻能自主對搜集的內(nèi)容進行取舍，找到一條合理的敘述邏輯，這一點在總結(jié)“滴血驗親”劇情的用例中，體現(xiàn)得更為明顯。

見慣了漢字在 AI 圖片里扭曲成麻花，SenseNova U1 在如此高密度的信息輸出之下，準確率居然也已經(jīng)達到了落地級別。手搓信息圖乃至 PPT，或許很快就要成為一種正在消失的技能。

ComfyUI 快速部署方案：5 分鐘上手

在SenseNova U1 的最近一次更新中，商湯正式上線了 ComfyUI 部署支持，開發(fā)者可以將 U1 作為自定義節(jié)點直接嵌入 ComfyUI 工作流，實現(xiàn)從“提示詞構(gòu)建 → 圖像生成 →結(jié)果預(yù)覽”的全鏈路可視化操作。值得一提的是，U1 在 ComfyUI 中提供了“帶圖思考”的交錯生成節(jié)點，復(fù)雜邏輯的可視化推理過程一目了然。

環(huán)境要求

? Python ≥ 3.10，ComfyUI 最新版

? GPU：推薦 16GB 顯存（8B-MoT 標準版）

? 低顯存用戶：8B-MoT-GGUF 版本可在 8GB 顯存下運行；支持 layer-offload，進一步降低顯存占用

安裝步驟

# 1. 進入 ComfyUI 的 custom_nodes 目錄

cd ComfyUI/custom_nodes

# 2. 克隆官方倉庫

git clone https://github.com/OpenSenseNova/SenseNova-U1

# 3. 安裝依賴（推薦 uv）

uv pip install -r requirements.txt

# 4. 配置 API Key（本地推理可跳過此步）

export SENSENOVA_API_KEY=your_key_here

# 5. 啟動 ComfyUI，拖入 workflow_demo.json 即可運行

▎核心節(jié)點說明

▎加速與量化選項

? 8 步推理加速版（SenseNova-U1-8B-MoT-8step-preview）：大多數(shù)場景下生成質(zhì)量與基礎(chǔ)模型接近，推理速度大幅提升

? LoRA 微調(diào)版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）：支持風格定制與場景適配

? GGUF 量化版：由社區(qū)貢獻者 @smthem 提供，權(quán)重已發(fā)布于 HuggingFace，適合消費級 GPU 本地推理

對于偏好免安裝體驗的用戶，商湯還同步提供了辦公小浣熊https://office.xiaohuanxiong.com/home的體驗方式，無需 GPU，直接在瀏覽器中即可試用 U1 的核心功能。

生產(chǎn)級任務(wù)新選擇

過去一年，主流大模型廠商在多模態(tài)理解側(cè)的表現(xiàn)已相對趨同，GPT-4V、Gemini Pro、Qwen-VL 等模型在圖像理解、視頻解析、文檔理解等任務(wù)上的差距日益收窄。但生成側(cè)始終是短板——理解一個數(shù)據(jù)集，然后生成信息圖或制作一份 PPT，往往需要調(diào)用多個專用模型串聯(lián)完成，不僅延遲高、風格一致性差，而且交付質(zhì)量也參差不齊。

SenseNova U1 的差異化正在于此。把 SenseNova U1 放進多模態(tài)當前的競爭格局，你幾乎無法找到同樣的定位：

? GPT 系列多模態(tài)理解能力一流，但原生圖像生成仍然依賴獨立模塊，走專用模型協(xié)作的路子

? Qwen-VL 開源生態(tài)龐大，但生成以文本輸出為主

? DeepSeek-V4 行業(yè)翹首以盼，但多模態(tài)生成亦不是其核心賣點

此前頭部玩家的核心能力多集中在理解側(cè)，SenseNova U1 率先實現(xiàn)了生成和理解的原生融合。在端到端交付已經(jīng)成為 Agent 落地共識的今天，只要理解與生成之間還橫亙著跨模塊的鴻溝，反映在落地上，就是交付質(zhì)量和生產(chǎn)效率的真實痛點。SenseNova U1 一己之力，將這場拼交付的競爭，拉到了底層架構(gòu)創(chuàng)新的高度。

技術(shù)階段的代差本身就意味著生產(chǎn)力。SenseNova U1 針對企業(yè)辦公場景做了定向優(yōu)化，將信息圖、PPT、研究報告這類高頻交付物作為重要戰(zhàn)場，技術(shù)優(yōu)勢直接轉(zhuǎn)化為了落地能力。由此，SenseNova U1 才能在已經(jīng)是一片紅海的生圖市場占據(jù)一席之地，成為生產(chǎn)級任務(wù)的全新選擇。

結(jié)語

NEO-unify 的核心創(chuàng)新，就是讓語言和視覺在同一個表征空間里共同參與每一層計算。此后模型在生成圖像時，不是在翻譯文字指令，而是在同一個思維框架之下，使語言與視覺信息能夠作為一個統(tǒng)一的復(fù)合體被直接建模。

統(tǒng)一架構(gòu)會打破理解與生成之間的信息壁壘，消除模塊邊界本身帶來的信息損耗。當理解和生成成為同一種認知能力的兩面，協(xié)同效應(yīng)就不再是設(shè)計的結(jié)果，而只是統(tǒng)一表征自然涌現(xiàn)的屬性。這些革新共同支撐了應(yīng)用層面的全新體驗：統(tǒng)一架構(gòu)首先意味著更強的復(fù)雜指令遵循能力，同時多輪交互中跨模態(tài)推理的可視化，也增強了輸出的可解釋性，對于抽象推理過程尤其如此。

商湯還在技術(shù)報告中通過一系列消融實驗，回答了一個核心問題：理解生成統(tǒng)一是否帶來了真正的收益？

實驗結(jié)論明確：統(tǒng)一架構(gòu)在表示、訓(xùn)練穩(wěn)定性和數(shù)據(jù)效率上確實有收益，而不是一種折中。

? 原生像素-文本設(shè)計能同時保留語義和像素信息。實驗驗證了 encoder-free 架構(gòu)不僅能學(xué)到理解所需的語義表示，也能支持像素級重建與編輯。即使凍結(jié)理解分支，生成路徑仍能恢復(fù)細節(jié)并完成較好的圖像編輯——說明理解端訓(xùn)練的內(nèi)在表征并不只是「理解 token」，也具備生成所需的細粒度信息。

? MoT讓理解與生成協(xié)同，而不是互相干擾。在聯(lián)合 mid-training 和 SFT 階段，即使生成數(shù)據(jù)和理解數(shù)據(jù)共同訓(xùn)練，理解能力仍保持穩(wěn)定，生成能力還收斂更快。MoT 的參數(shù)解耦加共享注意力上下文，能有效降低理解/生成之間的內(nèi)在沖突。

? 統(tǒng)一架構(gòu)具備更高數(shù)據(jù)效率。NEO-unify 相比類似統(tǒng)一模型 BAGEL，在更少訓(xùn)練 token 下取得更好表現(xiàn)。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監(jiān)督信號，訓(xùn)練數(shù)據(jù)利用率因此更高。

單一模型替代專用模型協(xié)作的傳統(tǒng)范式，能夠顯著降低存儲、計算和部署成本，不過這還只是真原生架構(gòu)革命性的一角。

而更深遠的意義在于，原生統(tǒng)一的多模態(tài)智能，仍然是一條被寄予厚望的 AGI 之路。多模態(tài)智能的未來突破，并不只是簡單的規(guī)模擴大，更重要的是朝著深度融合進化的內(nèi)核架構(gòu)創(chuàng)新。今天底層范式和模型架構(gòu)的創(chuàng)新正變得越來越珍貴。開原生統(tǒng)一架構(gòu)之先河的SenseNova U1，或許會有與其歷史地位相匹配的表現(xiàn)——而這，才剛剛開始。

SenseNova U1：https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills：https://github.com/OpenSenseNova/SenseNova-Skills

雷峰網(wǎng)(公眾號：雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當月熱門文章