日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA

本文作者: 徐咪   2025-12-08 14:51
導(dǎo)語:我們堅(jiān)信,真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧。

盡管近年來AIGC關(guān)鍵技術(shù)不斷突破,但圖像生成領(lǐng)域始終面臨著一個(gè)“兩難困境”:閉源模型性能強(qiáng)大但難以私有化部署;開源方案在輕量化與高性能之間難以取舍,且缺乏面向商用的專項(xiàng)能力。

針對(duì)這一行業(yè)痛點(diǎn),美團(tuán)LongCat團(tuán)隊(duì)近日宣布,開源其最新研發(fā)的LongCat-Image模型。該模型通過高性能模型架構(gòu)設(shè)計(jì)、系統(tǒng)性的訓(xùn)練策略和數(shù)據(jù)工程,以6B的緊湊參數(shù)規(guī)模,在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型,為開發(fā)者與產(chǎn)業(yè)界提供了一個(gè)“高性能、低門檻、全開放”的全新選擇。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲模型架構(gòu)

據(jù)介紹,LongCat-Image的核心優(yōu)勢(shì)在于其架構(gòu)設(shè)計(jì)與訓(xùn)練策略。

具體來看,模型采用文生圖與圖像編輯同源的架構(gòu),結(jié)合漸進(jìn)式學(xué)習(xí)策略,成功在6B參數(shù)下實(shí)現(xiàn)了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染能力的高效協(xié)同。

在圖像編輯方面,LongCat-Image的“可控性”表現(xiàn)突出,而性能突破的關(guān)鍵在于一套緊密協(xié)同的訓(xùn)練范式和數(shù)據(jù)策略。

為有效繼承文生圖模型的知識(shí)和美感,同時(shí)避免文生圖后訓(xùn)練階段收窄的狀態(tài)空間對(duì)編輯指令多樣性的限制,團(tuán)隊(duì)一方面基于文生圖Mid-training階段模型進(jìn)行初始化,并采用指令編輯與文生圖多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,深化對(duì)復(fù)雜多樣化指令的理解;另一方面,通過預(yù)訓(xùn)練階段的多源數(shù)據(jù)及指令改寫策略,以及結(jié)合SFT階段引入的人工精標(biāo)數(shù)據(jù),最終實(shí)現(xiàn)了指令遵循精準(zhǔn)度、泛化性和編輯前后視覺一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等權(quán)威基準(zhǔn)測(cè)試中,LongCat-Image均達(dá)到開源SOTA(當(dāng)前最佳)水平,可精準(zhǔn)響應(yīng)用戶的多樣化修改需求。

在中文文本渲染這一長(zhǎng)期困擾業(yè)界的難題上,LongCat-Image也取得了很大進(jìn)展,通過課程學(xué)習(xí)策略提升字符覆蓋度和渲染精準(zhǔn)度:預(yù)訓(xùn)練階段基于千萬量級(jí)合成數(shù)據(jù)學(xué)習(xí)字形,覆蓋通用規(guī)范漢字表的8105個(gè)漢字;SFT 階段引入真實(shí)世界文本圖像數(shù)據(jù),提升在字體、排版布局上的泛化能力;在RL(強(qiáng)化學(xué)習(xí))階段,引入OCR與美學(xué)雙獎(jiǎng)勵(lì)模型,進(jìn)一步提升文本準(zhǔn)確性與背景融合自然度。

該模型在ChineseWord評(píng)測(cè)中以90.7的得分領(lǐng)先同類產(chǎn)品。無論是商業(yè)海報(bào)中的復(fù)雜筆畫,還是古詩詞插圖中的生僻字,LongCat-Image均能實(shí)現(xiàn)精準(zhǔn)、自然的渲染,進(jìn)一步拓展AI在設(shè)計(jì)領(lǐng)域的應(yīng)用邊界。

為了提升生成圖像的審美與真實(shí)感,LongCat團(tuán)隊(duì)還構(gòu)建了系統(tǒng)性的數(shù)據(jù)篩選與對(duì)抗訓(xùn)練框架。團(tuán)隊(duì)在預(yù)訓(xùn)練階段嚴(yán)格過濾低質(zhì)量AIGC數(shù)據(jù),并在RL階段創(chuàng)新性引入AIGC內(nèi)容檢測(cè)器作為獎(jiǎng)勵(lì)模型,利用其對(duì)抗信號(hào)逆向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理、光影和質(zhì)感,從而顯著改善了AI繪圖常見的“塑料感”紋理。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲客觀基準(zhǔn)測(cè)試性能對(duì)比

全面的客觀與主觀評(píng)測(cè)數(shù)據(jù)均驗(yàn)證了LongCat-Image的能力:在客觀基準(zhǔn)測(cè)試中,其圖像編輯得分與中文渲染能力均領(lǐng)跑參評(píng)模型;在文生圖任務(wù)上,GenEval與DPG-Bench的優(yōu)異表現(xiàn)證明了其相比頭部開源與閉源模型依然具備強(qiáng)競(jìng)爭(zhēng)力。

美團(tuán)發(fā)布LongCat-Image圖像生成模型,編輯能力登頂開源SOTA ▲人類主觀評(píng)分對(duì)比& 并列對(duì)比評(píng)估勝率

在更貼近用戶體驗(yàn)的主觀評(píng)測(cè)(文生圖方面采用大規(guī)模的人工主觀評(píng)分與圖像編輯方面采用嚴(yán)格的并列對(duì)比評(píng)估)中,LongCat-Image在真實(shí)度方面相比主流開閉源模型表現(xiàn)出色,同時(shí)在文本-圖像對(duì)齊與合理度上達(dá)到開源SOTA水平;至于綜合編輯質(zhì)量和視覺一致性方面,雖然與Nano Banana等商業(yè)閉源模型仍有一定差距,但在開源領(lǐng)域已形成領(lǐng)先優(yōu)勢(shì)。

值得一提的是,為了構(gòu)建一個(gè)更透明、開放、協(xié)作的開源生態(tài)系統(tǒng),美團(tuán) LongCat團(tuán)隊(duì)此次全面開源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型,旨在支持從前沿研究到商業(yè)應(yīng)用的全流程。相關(guān)資源已在Hugging Face和GitHub上線,用戶也可在官網(wǎng)longcat.ai上體驗(yàn)。

與此同時(shí),面向終端用戶的“LongCat APP”也迎來重大升級(jí),全新上線的圖生圖功能與24個(gè)零門檻玩法模板,讓普通用戶也能一鍵生成海報(bào)、精修人像,實(shí)現(xiàn)“專業(yè)AI創(chuàng)作零門檻”。

美團(tuán)LongCat團(tuán)隊(duì)還表示:“我們堅(jiān)信,真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧。現(xiàn)誠(chéng)邀廣大開發(fā)者體驗(yàn)?zāi)P?、參與共建,與我們共同基于這個(gè)高效能模型,探索視覺生成的更多可能。”

相關(guān)鏈接:

· Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

· GitHub: https://github.com/meituan-longcat/LongCat-Image

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說