美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA

本文作者：徐咪

2025-12-08 14:51

導(dǎo)語(yǔ)：我們堅(jiān)信，真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧。

盡管近年來(lái)AIGC關(guān)鍵技術(shù)不斷突破，但圖像生成領(lǐng)域始終面臨著一個(gè)“兩難困境”：閉源模型性能強(qiáng)大但難以私有化部署；開(kāi)源方案在輕量化與高性能之間難以取舍，且缺乏面向商用的專項(xiàng)能力。

針對(duì)這一行業(yè)痛點(diǎn)，美團(tuán)LongCat團(tuán)隊(duì)近日宣布，開(kāi)源其最新研發(fā)的LongCat-Image模型。該模型通過(guò)高性能模型架構(gòu)設(shè)計(jì)、系統(tǒng)性的訓(xùn)練策略和數(shù)據(jù)工程，以6B的緊湊參數(shù)規(guī)模，在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型，為開(kāi)發(fā)者與產(chǎn)業(yè)界提供了一個(gè)“高性能、低門檻、全開(kāi)放”的全新選擇。

美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA ▲模型架構(gòu)

據(jù)介紹，LongCat-Image的核心優(yōu)勢(shì)在于其架構(gòu)設(shè)計(jì)與訓(xùn)練策略。

具體來(lái)看，模型采用文生圖與圖像編輯同源的架構(gòu)，結(jié)合漸進(jìn)式學(xué)習(xí)策略，成功在6B參數(shù)下實(shí)現(xiàn)了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染能力的高效協(xié)同。

在圖像編輯方面，LongCat-Image的“可控性”表現(xiàn)突出，而性能突破的關(guān)鍵在于一套緊密協(xié)同的訓(xùn)練范式和數(shù)據(jù)策略。

為有效繼承文生圖模型的知識(shí)和美感，同時(shí)避免文生圖后訓(xùn)練階段收窄的狀態(tài)空間對(duì)編輯指令多樣性的限制，團(tuán)隊(duì)一方面基于文生圖Mid-training階段模型進(jìn)行初始化，并采用指令編輯與文生圖多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制，深化對(duì)復(fù)雜多樣化指令的理解；另一方面，通過(guò)預(yù)訓(xùn)練階段的多源數(shù)據(jù)及指令改寫(xiě)策略，以及結(jié)合SFT階段引入的人工精標(biāo)數(shù)據(jù)，最終實(shí)現(xiàn)了指令遵循精準(zhǔn)度、泛化性和編輯前后視覺(jué)一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等權(quán)威基準(zhǔn)測(cè)試中，LongCat-Image均達(dá)到開(kāi)源SOTA（當(dāng)前最佳）水平，可精準(zhǔn)響應(yīng)用戶的多樣化修改需求。

在中文文本渲染這一長(zhǎng)期困擾業(yè)界的難題上，LongCat-Image也取得了很大進(jìn)展，通過(guò)課程學(xué)習(xí)策略提升字符覆蓋度和渲染精準(zhǔn)度：預(yù)訓(xùn)練階段基于千萬(wàn)量級(jí)合成數(shù)據(jù)學(xué)習(xí)字形，覆蓋通用規(guī)范漢字表的8105個(gè)漢字；SFT 階段引入真實(shí)世界文本圖像數(shù)據(jù)，提升在字體、排版布局上的泛化能力；在RL（強(qiáng)化學(xué)習(xí)）階段，引入OCR與美學(xué)雙獎(jiǎng)勵(lì)模型，進(jìn)一步提升文本準(zhǔn)確性與背景融合自然度。

該模型在ChineseWord評(píng)測(cè)中以90.7的得分領(lǐng)先同類產(chǎn)品。無(wú)論是商業(yè)海報(bào)中的復(fù)雜筆畫(huà)，還是古詩(shī)詞插圖中的生僻字，LongCat-Image均能實(shí)現(xiàn)精準(zhǔn)、自然的渲染，進(jìn)一步拓展AI在設(shè)計(jì)領(lǐng)域的應(yīng)用邊界。

為了提升生成圖像的審美與真實(shí)感，LongCat團(tuán)隊(duì)還構(gòu)建了系統(tǒng)性的數(shù)據(jù)篩選與對(duì)抗訓(xùn)練框架。團(tuán)隊(duì)在預(yù)訓(xùn)練階段嚴(yán)格過(guò)濾低質(zhì)量AIGC數(shù)據(jù)，并在RL階段創(chuàng)新性引入AIGC內(nèi)容檢測(cè)器作為獎(jiǎng)勵(lì)模型，利用其對(duì)抗信號(hào)逆向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理、光影和質(zhì)感，從而顯著改善了AI繪圖常見(jiàn)的“塑料感”紋理。

美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA ▲客觀基準(zhǔn)測(cè)試性能對(duì)比

全面的客觀與主觀評(píng)測(cè)數(shù)據(jù)均驗(yàn)證了LongCat-Image的能力：在客觀基準(zhǔn)測(cè)試中，其圖像編輯得分與中文渲染能力均領(lǐng)跑參評(píng)模型；在文生圖任務(wù)上，GenEval與DPG-Bench的優(yōu)異表現(xiàn)證明了其相比頭部開(kāi)源與閉源模型依然具備強(qiáng)競(jìng)爭(zhēng)力。

美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA ▲人類主觀評(píng)分對(duì)比& 并列對(duì)比評(píng)估勝率

在更貼近用戶體驗(yàn)的主觀評(píng)測(cè)（文生圖方面采用大規(guī)模的人工主觀評(píng)分與圖像編輯方面采用嚴(yán)格的并列對(duì)比評(píng)估）中，LongCat-Image在真實(shí)度方面相比主流開(kāi)閉源模型表現(xiàn)出色，同時(shí)在文本-圖像對(duì)齊與合理度上達(dá)到開(kāi)源SOTA水平；至于綜合編輯質(zhì)量和視覺(jué)一致性方面，雖然與Nano Banana等商業(yè)閉源模型仍有一定差距，但在開(kāi)源領(lǐng)域已形成領(lǐng)先優(yōu)勢(shì)。

值得一提的是，為了構(gòu)建一個(gè)更透明、開(kāi)放、協(xié)作的開(kāi)源生態(tài)系統(tǒng)，美團(tuán) LongCat團(tuán)隊(duì)此次全面開(kāi)源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型，旨在支持從前沿研究到商業(yè)應(yīng)用的全流程。相關(guān)資源已在Hugging Face和GitHub上線，用戶也可在官網(wǎng)longcat.ai上體驗(yàn)。

與此同時(shí)，面向終端用戶的“LongCat APP”也迎來(lái)重大升級(jí)，全新上線的圖生圖功能與24個(gè)零門檻玩法模板，讓普通用戶也能一鍵生成海報(bào)、精修人像，實(shí)現(xiàn)“專業(yè)AI創(chuàng)作零門檻”。

美團(tuán)LongCat團(tuán)隊(duì)還表示：“我們堅(jiān)信，真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧?，F(xiàn)誠(chéng)邀廣大開(kāi)發(fā)者體驗(yàn)?zāi)Ｐ汀⑴c共建，與我們共同基于這個(gè)高效能模型，探索視覺(jué)生成的更多可能?！?/p>

相關(guān)鏈接：

· Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

· GitHub: https://github.com/meituan-longcat/LongCat-Image

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門文章

美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA

美團(tuán)發(fā)布LongCat-Image圖像生成模型，編輯能力登頂開(kāi)源SOTA