日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給鄭佳美

發(fā)送

0

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

本文作者：鄭佳美

2026-03-24 11:33

導(dǎo)語(yǔ)：PaCo-RL：基于成對(duì)獎(jiǎng)勵(lì)與強(qiáng)化學(xué)習(xí)的圖像一致性生成方法。

很多人都有這樣的體驗(yàn)：讓 AI 畫一個(gè)角色，第一張很好看，但第二張開始有點(diǎn)不一樣，第三張基本就像換了個(gè)人。你讓它做一套海報(bào)，單張都不錯(cuò)，但放在一起風(fēng)格卻完全不統(tǒng)一，再或者你讓它畫一個(gè)故事分鏡，人物形象會(huì)一會(huì)胖一會(huì)瘦，甚至連臉都對(duì)不上，你只是改一下衣服顏色，它卻順手把臉也改了。

這些看起來(lái)像小問(wèn)題，但在真實(shí)應(yīng)用中卻是致命的。在 IP 設(shè)計(jì)、品牌視覺、內(nèi)容生產(chǎn)甚至工業(yè)和醫(yī)療場(chǎng)景中，要求的從來(lái)不是某一張圖好看，而是一整組都要一致。

問(wèn)題的關(guān)鍵在于，當(dāng)前圖像2生成模型雖然已經(jīng)從“能用”走向“高質(zhì)量”，但能力仍停留在單次生成優(yōu)化，也就是“單樣本最優(yōu)”。它擅長(zhǎng)把一張圖畫好，卻不知道哪些東西必須在多張圖之間保持不變。換句話說(shuō)，模型缺少的不是生成能力，而是一種對(duì)跨圖關(guān)系的穩(wěn)定建模能力，而這一能力，正是生成模型走向規(guī)?；瘧?yīng)用的關(guān)鍵瓶頸。

在這一背景下，來(lái)自西安交通大學(xué)與新加坡 A*STAR 的研究團(tuán)隊(duì)提出了論文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling 》，從建模范式層面對(duì)這一問(wèn)題進(jìn)行重構(gòu)。

這項(xiàng)研究沒有沿用傳統(tǒng)的單圖打分或圖文對(duì)齊思路，而是將一致性問(wèn)題轉(zhuǎn)化為“跨圖比較”的學(xué)習(xí)問(wèn)題，通過(guò)構(gòu)建成對(duì)比較的獎(jiǎng)勵(lì)模型，使模型能夠?qū)W習(xí)人類在判斷一致性時(shí)所依賴的相對(duì)關(guān)系與多維標(biāo)準(zhǔn)，并進(jìn)一步結(jié)合強(qiáng)化學(xué)習(xí)，將這種判斷能力反向作用于生成過(guò)程之中，從而實(shí)現(xiàn)從“會(huì)判斷”到“會(huì)生成”的能力閉環(huán)。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

論文地址：https://arxiv.org/pdf/2512.04784

從「不會(huì)判斷」到「穩(wěn)定生成」

整體來(lái)看，實(shí)驗(yàn)結(jié)果可以歸納為一條完整且有數(shù)據(jù)支撐的邏輯鏈。

首先，研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，現(xiàn)有模型并不具備真正的圖像一致性理解能力。在 ConsistencyRank 基準(zhǔn)測(cè)試中，大模型 Qwen2.5-VL-7B 的準(zhǔn)確率僅為 0.344，而傳統(tǒng)方法 CLIP-I 和 DreamSim 分別達(dá)到 0.394 和 0.403，反而表現(xiàn)更好，同時(shí)在排序相關(guān)性指標(biāo)上也明顯領(lǐng)先。

這說(shuō)明通用大模型雖然具備較強(qiáng)的圖文理解能力，但在需要跨圖比較并綜合身份、風(fēng)格和邏輯等多維因素的一致性判斷任務(wù)中存在明顯不足，因此一致性屬于一種無(wú)法通過(guò)通用能力直接獲得的專門能力。

在此基礎(chǔ)上，研究團(tuán)隊(duì)訓(xùn)練了 PaCo-Reward 模型，并在同一基準(zhǔn)上測(cè)試，結(jié)果顯示準(zhǔn)確率提升至 0.449，相比原模型提升超過(guò) 10%，同時(shí)在 Spearman 相關(guān)系數(shù)上也達(dá)到 0.288，顯著優(yōu)于所有對(duì)比方法，說(shuō)明這一模型在排序能力上更接近人類判斷標(biāo)準(zhǔn)。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

進(jìn)一步地，在 EditReward-Bench 測(cè)試中，PaCo-Reward 在一致性指標(biāo)上達(dá)到 0.709，在整體指標(biāo)上達(dá)到 0.751，不僅超過(guò)所有開源方法，而且接近 GPT-5 的表現(xiàn)，說(shuō)明模型具備良好的跨任務(wù)泛化能力，而不是簡(jiǎn)單記憶訓(xùn)練數(shù)據(jù)。在此基礎(chǔ)上，研究人員將這一獎(jiǎng)勵(lì)模型引入強(qiáng)化學(xué)習(xí)訓(xùn)練，在生成任務(wù)中進(jìn)一步驗(yàn)證性能提升。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

在 Text-to-ImageSet 任務(wù)中，一致性指標(biāo)整體提升約 10.3% 到 11.7%，在身份、風(fēng)格和邏輯等多個(gè)維度均有明顯改善，同時(shí)在 GEdit-Bench 圖像編輯任務(wù)中，語(yǔ)義一致性和提示質(zhì)量指標(biāo)均持續(xù)提升，例如在 Qwen-Image-Edit 模型上，整體分?jǐn)?shù)從 7.307 提升至 7.451，在多語(yǔ)言設(shè)置下也表現(xiàn)出一致的改進(jìn)趨勢(shì)，這說(shuō)明模型不僅能夠提升一致性，還能夠保持甚至提升生成質(zhì)量。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

在訓(xùn)練效率方面，研究發(fā)現(xiàn)采用低分辨率訓(xùn)練策略時(shí)，512 分辨率訓(xùn)練大約 6 小時(shí)即可達(dá)到與 1024 分辨率約 12 小時(shí)訓(xùn)練相當(dāng)?shù)男Ч?，在約 50 個(gè)訓(xùn)練輪次后性能基本收斂一致，顯著降低計(jì)算成本。

在訓(xùn)練穩(wěn)定性方面，傳統(tǒng)多獎(jiǎng)勵(lì)加權(quán)方法會(huì)導(dǎo)致獎(jiǎng)勵(lì)比例在訓(xùn)練過(guò)程中迅速超過(guò) 2.5，從而出現(xiàn)單一獎(jiǎng)勵(lì)主導(dǎo)優(yōu)化的問(wèn)題，而改進(jìn)方法能夠?qū)ⅹ?jiǎng)勵(lì)比例穩(wěn)定控制在 1.8 以內(nèi)，從而避免優(yōu)化偏移并保持多目標(biāo)平衡。

綜合以上實(shí)驗(yàn)結(jié)果可以得出結(jié)論，研究不僅成功訓(xùn)練出能夠準(zhǔn)確建模人類一致性判斷的模型，而且能夠?qū)⑦@一能力有效用于生成模型優(yōu)化，并在保證訓(xùn)練效率和穩(wěn)定性的前提下實(shí)現(xiàn)性能提升，從而形成一個(gè)完整且可行的技術(shù)閉環(huán)。

從可解釋判斷，到可控生成

整個(gè)實(shí)驗(yàn)過(guò)程可以清晰地劃分為兩個(gè)階段。第一階段圍繞如何判斷圖像一致性展開。研究團(tuán)隊(duì)首先發(fā)現(xiàn)缺乏可以直接用于訓(xùn)練一致性判斷的數(shù)據(jù)，其根本原因在于一致性本身具有較強(qiáng)的主觀性，同時(shí)涉及身份、風(fēng)格和邏輯等多維度因素，很難通過(guò)統(tǒng)一標(biāo)準(zhǔn)進(jìn)行標(biāo)注。

因此，研究人員設(shè)計(jì)了一套結(jié)合自動(dòng)生成與人工標(biāo)注的數(shù)據(jù)構(gòu)建流程。具體而言，首先利用生成模型構(gòu)建數(shù)據(jù)源，通過(guò)生成約 2000 條文本 prompt，并進(jìn)一步篩選出 708 條具有代表性和多樣性的 prompt，然后基于這些 prompt 使用圖像生成模型生成具有內(nèi)部一致性的圖像網(wǎng)格，每個(gè) prompt 會(huì)生成多個(gè)圖像網(wǎng)格，每個(gè)網(wǎng)格包含多個(gè)子圖。

接下來(lái)進(jìn)入關(guān)鍵步驟，即對(duì)子圖進(jìn)行拆分與組合，也就是將每個(gè)圖像網(wǎng)格劃分為多個(gè) sub-figure，并在不同網(wǎng)格之間進(jìn)行組合，從而構(gòu)造出大量具有不同一致性關(guān)系的圖像對(duì)。這一過(guò)程通過(guò)組合方式顯著擴(kuò)大數(shù)據(jù)規(guī)模，在約 708 個(gè) prompt 和 2832 張圖像的基礎(chǔ)上構(gòu)造出 33984 個(gè)排序樣本。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

隨后，研究人員構(gòu)建排序任務(wù)，每個(gè)樣本包含 1 張參考圖和 4 張候選圖，標(biāo)注任務(wù)是根據(jù)視覺一致性對(duì)候選圖進(jìn)行排序。標(biāo)注過(guò)程由 6 名標(biāo)注人員完成，每人標(biāo)注約 5664 個(gè)樣本，標(biāo)注過(guò)程中不依賴嚴(yán)格規(guī)則，而是基于人類直覺對(duì)一致性進(jìn)行判斷，同時(shí)保留部分?jǐn)?shù)據(jù)作為評(píng)測(cè)基準(zhǔn)。

為了便于模型訓(xùn)練，研究團(tuán)隊(duì)進(jìn)一步將排序數(shù)據(jù)轉(zhuǎn)換為 pairwise 數(shù)據(jù)形式，即將排序關(guān)系轉(zhuǎn)化為兩兩比較的樣本，例如將多個(gè)候選之間的排序關(guān)系拆解為多個(gè) A 與 B 的一致性判斷，從而得到超過(guò) 54624 個(gè)圖像對(duì)，其中包括 27599 個(gè)一致樣本和 27025 個(gè)不一致樣本，每個(gè)樣本不僅包含標(biāo)簽，還配有對(duì)應(yīng)的推理解釋，從而增強(qiáng)數(shù)據(jù)的可解釋性與泛化能力。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

在完成數(shù)據(jù)構(gòu)建之后，研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)獎(jiǎng)勵(lì)模型的訓(xùn)練方式。傳統(tǒng)方法通常采用輸入圖像并輸出一個(gè)標(biāo)量分?jǐn)?shù)的方式來(lái)表示質(zhì)量或一致性，但這種方式與視覺語(yǔ)言模型基于自回歸生成的機(jī)制不匹配，同時(shí)難以表達(dá)復(fù)雜判斷過(guò)程。雷峰網(wǎng)

為了解決這一問(wèn)題，研究人員提出將一致性判斷建模為生成任務(wù)，在 PaCo-Reward 模型中，輸入由兩張圖像和對(duì)應(yīng)文本組成，模型輸出為 Yes 或 No，用于表示兩張圖像是否一致，同時(shí)還會(huì)生成一段推理過(guò)程來(lái)解釋判斷依據(jù)。這一設(shè)計(jì)使一致性判斷轉(zhuǎn)化為語(yǔ)言生成問(wèn)題，從而能夠直接利用視覺語(yǔ)言模型的生成能力進(jìn)行訓(xùn)練，并提升模型穩(wěn)定性與可解釋性。

模型在訓(xùn)練過(guò)程中不僅學(xué)習(xí)最終的判斷結(jié)果，還學(xué)習(xí)推理過(guò)程，從而避免僅依賴表面特征進(jìn)行判斷。完成訓(xùn)練后，研究人員通過(guò)排序一致性任務(wù)和圖像編輯任務(wù)對(duì)模型進(jìn)行驗(yàn)證，結(jié)果表明這一獎(jiǎng)勵(lì)模型在多個(gè)指標(biāo)上均優(yōu)于現(xiàn)有方法。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

第二階段圍繞如何生成一致圖像展開。研究人員在這一階段引入強(qiáng)化學(xué)習(xí)框架，其基本流程包括模型根據(jù)輸入生成圖像集合，然后由獎(jiǎng)勵(lì)模型對(duì)生成結(jié)果進(jìn)行評(píng)分，再根據(jù)評(píng)分信號(hào)更新生成模型參數(shù)，這一過(guò)程類似人類通過(guò)反饋不斷優(yōu)化行為的學(xué)習(xí)方式。

在具體實(shí)現(xiàn)中，研究團(tuán)隊(duì)提出了兩個(gè)關(guān)鍵優(yōu)化策略以提升訓(xùn)練效率與穩(wěn)定性。首先是分辨率解耦策略，即在訓(xùn)練階段使用低分辨率圖像進(jìn)行采樣與優(yōu)化，而在推理階段仍然生成高分辨率圖像，這樣可以顯著降低計(jì)算開銷，因?yàn)閳D像生成模型的計(jì)算復(fù)雜度與分辨率呈平方關(guān)系增長(zhǎng)，而實(shí)驗(yàn)表明低分辨率圖像已經(jīng)能夠提供足夠的獎(jiǎng)勵(lì)信號(hào)來(lái)指導(dǎo)優(yōu)化方向。

其次是獎(jiǎng)勵(lì)平衡策略，用于解決多目標(biāo)優(yōu)化中的沖突問(wèn)題。在一致性生成任務(wù)中，模型通常需要同時(shí)優(yōu)化一致性與文本對(duì)齊等多個(gè)目標(biāo)，而不同獎(jiǎng)勵(lì)之間可能存在尺度差異和波動(dòng)差異，從而導(dǎo)致某一獎(jiǎng)勵(lì)在訓(xùn)練過(guò)程中占據(jù)主導(dǎo)地位。為了解決這一問(wèn)題，研究人員對(duì)波動(dòng)較大的獎(jiǎng)勵(lì)進(jìn)行壓縮處理，從而降低其影響范圍，使多個(gè)獎(jiǎng)勵(lì)在優(yōu)化過(guò)程中保持相對(duì)平衡，避免訓(xùn)練偏移。

最終，研究團(tuán)隊(duì)在多圖生成任務(wù)和圖像編輯任務(wù)上對(duì)方法進(jìn)行驗(yàn)證，結(jié)果顯示模型在身份一致性、風(fēng)格一致性以及邏輯一致性等多個(gè)方面均得到明顯提升，同時(shí)在編輯任務(wù)中能夠?qū)崿F(xiàn)局部修改與整體保持之間的良好平衡，從而驗(yàn)證整個(gè)方法在實(shí)際生成任務(wù)中的有效性。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

從單點(diǎn)生成到關(guān)系建模的范式變化

這項(xiàng)研究的意義不僅體現(xiàn)在技術(shù)層面，也正在改變普通人使用 AI 的體驗(yàn)。首先在問(wèn)題層面，研究團(tuán)隊(duì)解決了多圖一致性這一長(zhǎng)期存在的難題。過(guò)去人工智能模型雖然可以生成單張高質(zhì)量圖像，但一旦需要連續(xù)生成角色、設(shè)計(jì)系列海報(bào)或制作故事分鏡，就會(huì)出現(xiàn)人物變化、風(fēng)格不統(tǒng)一甚至邏輯混亂的問(wèn)題。

這意味著普通用戶即使生成了好看的圖片，也很難真正用在創(chuàng)作、設(shè)計(jì)或內(nèi)容生產(chǎn)中。而通過(guò)系統(tǒng)性的設(shè)計(jì)與訓(xùn)練，這項(xiàng)研究讓模型能夠在多張圖像之間保持一致，使 AI 從“能用”走向“可用”，真正具備連續(xù)創(chuàng)作能力。

在方法層面，研究提出了一種更接近人類思維的學(xué)習(xí)方式，即通過(guò)比較來(lái)學(xué)習(xí)，而不是直接打分。對(duì)于普通用戶來(lái)說(shuō)，這種變化意味著模型更“懂人”的審美和判斷標(biāo)準(zhǔn)，不再只是機(jī)械優(yōu)化指標(biāo)，而是能夠更自然地理解“像不像”“一致不一致”這樣的主觀概念，從而生成更符合人類預(yù)期的結(jié)果。

在訓(xùn)練層面，研究進(jìn)一步推動(dòng)了強(qiáng)化學(xué)習(xí)在圖像生成中的實(shí)際應(yīng)用。過(guò)去這類方法往往成本高、訓(xùn)練不穩(wěn)定，難以真正落地，而研究通過(guò)低分辨率訓(xùn)練與獎(jiǎng)勵(lì)平衡機(jī)制，在降低計(jì)算成本的同時(shí)提升穩(wěn)定性。這不僅提升了模型性能，也意味著未來(lái)類似能力可以更快進(jìn)入產(chǎn)品，普通用戶在工具中直接體驗(yàn)到更穩(wěn)定、更一致的生成效果。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

更深層來(lái)看，這項(xiàng)研究構(gòu)建了一種生成與評(píng)價(jià)相結(jié)合的閉環(huán)機(jī)制。傳統(tǒng)模型只負(fù)責(zé)“生成”，而在這一方法中，模型不僅能夠生成圖像，還能夠在生成過(guò)程中不斷“自我檢查”和優(yōu)化結(jié)果。

對(duì)于普通人而言，這意味著未來(lái)的 AI 不再需要反復(fù)手動(dòng)調(diào)整提示詞，而是可以自動(dòng)修正偏差，逐步生成符合預(yù)期的內(nèi)容，從而大幅降低使用門檻。

構(gòu)建 PaCo-RL 的人

這篇論文的共同一作分別是平博文和賈成銪。其中，賈成銪目前是西安交通大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士研究生，處于博士階段后期，導(dǎo)師為羅敏楠教授，同時(shí)與常曉軍教授開展合作研究，并且未來(lái)將加入騰訊混元的青云計(jì)劃從事研究工作。在科研經(jīng)歷方面，賈成銪曾在新加坡進(jìn)行訪問(wèn)研究，并在上海人工智能實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生。

在學(xué)術(shù)成果方面，賈成銪已在多個(gè)國(guó)際頂級(jí)會(huì)議和期刊發(fā)表論文，包括 CVPR、AAAI、ACL、IEEE TIP 等，同時(shí)擔(dān)任 NeurIPS、ICML、CVPR、ECCV 等重要會(huì)議與期刊的審稿人，體現(xiàn)出較高的學(xué)術(shù)影響力與認(rèn)可度。

在研究方向上，主要從事計(jì)算機(jī)視覺與多模態(tài)領(lǐng)域的研究，重點(diǎn)關(guān)注視覺生成與智能體相關(guān)問(wèn)題。具體研究?jī)?nèi)容包括一致性圖像生成、視頻生成，以及獎(jiǎng)勵(lì)模型與強(qiáng)化學(xué)習(xí)在視覺生成中的應(yīng)用，整體目標(biāo)是提升模型在生成任務(wù)中的一致性、可控性與智能性。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

參考地址：https://chengyou-jia.github.io/

這篇論文的通訊作者錢航薇，目前在新加坡 A*STAR 前沿人工智能研究中心從事研究工作。

在研究方向方面，錢航薇主要從事人工智能與多模態(tài)學(xué)習(xí)相關(guān)研究，重點(diǎn)包括多模態(tài)大語(yǔ)言模型、面向科學(xué)研究的人工智能、生成式人工智能與智能體系統(tǒng)，以及基于大模型的科學(xué)發(fā)現(xiàn)方法，同時(shí)還關(guān)注可信與可解釋人工智能以及時(shí)間序列建模等方向。

在科研成果方面，錢航薇在 AAAI、IJCAI、KDD 等國(guó)際會(huì)議以及人工智能領(lǐng)域重要期刊發(fā)表多篇論文，研究?jī)?nèi)容涵蓋對(duì)比學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、時(shí)間序列建模以及可解釋性等方向，并參與多個(gè)科研項(xiàng)目，包括 A*STAR Career Development Fund 和相關(guān)研究基金項(xiàng)目。

西交大 x A*STAR 論文：讓 AI 學(xué)會(huì)「保持一致」，多圖生成迎來(lái)關(guān)鍵突破丨CVPR 2026

參考鏈接：https://hangwei12358.github.io/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

Google 創(chuàng)業(yè) 直播 iPhone 6 大疆銀行工業(yè)互聯(lián)網(wǎng) NASA Yann LeCun Dropbox 大眾

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)

<ul id="c4ca4"></ul>

<small id="c4ca4"><table id="c4ca4"></table></small>

<menu id="c4ca4"><object id="c4ca4"></object></menu>

<ul id="c4ca4"><acronym id="c4ca4"></acronym></ul><ul id="c4ca4"><tr id="c4ca4"></tr></ul>

<ul id="c4ca4"><tr id="c4ca4"></tr></ul>

<small id="c4ca4"></small>

<menu id="c4ca4"></menu>