騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

本文作者：鄭佳美

2026-03-20 16:19

導(dǎo)語(yǔ)：HY-WU ：一種在推理階段動(dòng)態(tài)生成模型參數(shù)，而非依賴固定參數(shù)處理任務(wù)的方法。

很多機(jī)器學(xué)習(xí)系統(tǒng)在設(shè)計(jì)時(shí)都默認(rèn)一個(gè)前提：模型一旦訓(xùn)練完成，其參數(shù)基本是固定的。無(wú)論輸入是什么樣的數(shù)據(jù)，模型都會(huì)依賴同一套參數(shù)完成推理。這種范式在過(guò)去十多年里非常成功，模型能力的提升主要依賴更大的模型規(guī)模、更多的數(shù)據(jù)以及更長(zhǎng)時(shí)間的訓(xùn)練。但當(dāng)人工智能逐漸進(jìn)入更加復(fù)雜的應(yīng)用環(huán)境時(shí)，這種“固定參數(shù)”的方式也開(kāi)始顯現(xiàn)出局限。

現(xiàn)實(shí)任務(wù)往往具有高度多樣性，不同用戶需求、不同任務(wù)目標(biāo)甚至可能彼此沖突。例如在圖像編輯場(chǎng)景中，同一張圖片可能會(huì)對(duì)應(yīng)完全不同的修改要求。有的任務(wù)需要增強(qiáng)細(xì)節(jié)，例如去模糊或圖像修復(fù)，而另一些任務(wù)則需要弱化細(xì)節(jié)，例如增加模糊效果或模擬老照片的老化過(guò)程。如果模型始終依賴同一套參數(shù)，它往往只能在不同目標(biāo)之間做出折中，從而影響最終效果。

過(guò)去，研究人員通常通過(guò) domain adaptation 或模型微調(diào)來(lái)緩解這一問(wèn)題。當(dāng)模型進(jìn)入新的領(lǐng)域時(shí)，需要重新訓(xùn)練或調(diào)整參數(shù)，使其適應(yīng)新的數(shù)據(jù)分布。然而這種方式往往意味著額外訓(xùn)練成本，同時(shí)也增加了系統(tǒng)部署和維護(hù)的復(fù)雜度。那么有沒(méi)有機(jī)會(huì)做到實(shí)時(shí)adaptation？

在這樣的背景下，騰訊混元團(tuán)隊(duì)提出了論文《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》。

這項(xiàng)研究嘗試改變模型適應(yīng)任務(wù)的方式：讓模型在推理階段根據(jù)當(dāng)前輸入實(shí)時(shí)動(dòng)態(tài)生成適合該任務(wù)的參數(shù)，而不是始終依賴一套固定參數(shù)。通過(guò)這種機(jī)制，同一個(gè)基礎(chǔ)模型在面對(duì)不同任務(wù)時(shí)可以表現(xiàn)出不同的行為模式，從而實(shí)現(xiàn)更加靈活的實(shí)時(shí)適配能力。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

論文地址：https://arxiv.org/pdf/2603.07236

一個(gè)模型，多種行為

研究通過(guò)多種實(shí)驗(yàn)驗(yàn)證了一個(gè)核心觀點(diǎn)：如果模型能夠針對(duì)每個(gè)輸入動(dòng)態(tài)生成參數(shù)，而不是始終使用一套固定參數(shù)，那么在復(fù)雜任務(wù)中會(huì)表現(xiàn)得更好。為驗(yàn)證這一點(diǎn)，研究人員設(shè)計(jì)并開(kāi)展了四類實(shí)驗(yàn)。

首先是人類評(píng)測(cè)實(shí)驗(yàn)。研究團(tuán)隊(duì)進(jìn)行了大規(guī)模人工評(píng)測(cè)。評(píng)測(cè)流程是：在同一輸入圖片和編輯指令的條件下，讓不同模型分別生成編輯結(jié)果，然后由人類評(píng)審在兩個(gè)結(jié)果之間選擇更好的一個(gè)，并統(tǒng)計(jì)最終的勝率。

結(jié)果顯示，HY-WU 在多個(gè)主流模型對(duì)比中具有明顯優(yōu)勢(shì)。例如，對(duì) Step1X-Edit 的勝率約為 78.4%，對(duì) Qwen-Image-Edit 的勝率約為 70.5%，對(duì) LongCat-Image-Edit 的勝率約為 68.3%，對(duì) FLUX.2 的勝率約為 55.5%。在與部分閉源商業(yè)系統(tǒng)比較時(shí)，對(duì) Seedream 4.5 的勝率約為 55.6%，對(duì) GPT Image 1.5 的勝率約為 55.5%。與最先進(jìn)的商業(yè)系統(tǒng) Nano Banana 系列相比，HY-WU 的表現(xiàn)略微落后，但整體差距不大。這些結(jié)果表明，通過(guò)動(dòng)態(tài)生成參數(shù)的方式，在視覺(jué)編輯效果上具有明顯優(yōu)勢(shì)。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

其次是自動(dòng)評(píng)測(cè)實(shí)驗(yàn)。除了人工評(píng)測(cè)，研究人員還設(shè)計(jì)了自動(dòng)評(píng)估系統(tǒng) WU-Eval。該系統(tǒng)從四個(gè)維度對(duì)圖像結(jié)果進(jìn)行評(píng)價(jià)，包括指令對(duì)齊、內(nèi)容一致性、結(jié)構(gòu)合理性以及圖像質(zhì)量。

實(shí)驗(yàn)結(jié)果顯示，HY-WU 在這些指標(biāo)上取得了最高的總體得分 4.27，其中 consistency 為 4.13，structure 為 4.30，quality 為 3.98。與最強(qiáng)的開(kāi)源模型相比，consistency 提高約 0.27，structure 提高約 0.23。這些結(jié)果說(shuō)明，通過(guò)動(dòng)態(tài)生成參數(shù)的機(jī)制，可以顯著提升圖像編輯過(guò)程中的穩(wěn)定性以及結(jié)構(gòu)保持能力。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

第三類實(shí)驗(yàn)是在公開(kāi) benchmark 上的評(píng)測(cè)。研究團(tuán)隊(duì)在兩個(gè)公開(kāi)圖像編輯評(píng)測(cè)數(shù)據(jù)集上進(jìn)行了測(cè)試。在 GEdit-Bench 上，HY-WU 在所有開(kāi)源模型中排名第一；在 ImgEdit-Bench 上，HY-WU 的總體得分為 4.05，在開(kāi)源模型中排名第二。這說(shuō)明該方法不僅在內(nèi)部實(shí)驗(yàn)中有效，在公開(kāi)評(píng)測(cè)環(huán)境中同樣具有較強(qiáng)競(jìng)爭(zhēng)力。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

第四類實(shí)驗(yàn)是沖突任務(wù)實(shí)驗(yàn)。研究人員設(shè)計(jì)了一組互相矛盾的編輯任務(wù)，用來(lái)測(cè)試模型在復(fù)雜條件下的表現(xiàn)。例如圖像去模糊與圖像模糊、圖像恢復(fù)與圖像老化等任務(wù)，這些任務(wù)在本質(zhì)上具有相反的目標(biāo)。

實(shí)驗(yàn)比較了三種不同策略。第一種是 Single LoRA，即為每個(gè)任務(wù)分別訓(xùn)練獨(dú)立模型。實(shí)驗(yàn)結(jié)果顯示，這種方法在對(duì)應(yīng)任務(wù)上表現(xiàn)很好，但無(wú)法處理其他任務(wù)，說(shuō)明模型出現(xiàn)過(guò)度專門化的問(wèn)題。第二種是 Shared LoRA，即多個(gè)任務(wù)共享一個(gè)模型。實(shí)驗(yàn)結(jié)果顯示，這種方式雖然可以處理所有任務(wù)，但效果明顯被折中，例如在去模糊和模糊之間出現(xiàn)一種“半模糊”的結(jié)果。第三種是 HY-WU 方法，即針對(duì)每個(gè)輸入動(dòng)態(tài)生成不同參數(shù)。實(shí)驗(yàn)結(jié)果表明，在這種機(jī)制下，每個(gè)任務(wù)都能夠被正確執(zhí)行，而且不同任務(wù)之間不會(huì)互相干擾，這說(shuō)明動(dòng)態(tài)參數(shù)生成可以有效避免任務(wù)沖突問(wèn)題。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

一個(gè)模型，多套參數(shù)

在實(shí)驗(yàn)過(guò)程中，研究團(tuán)隊(duì)提出的 HY-WU 系統(tǒng)本質(zhì)上是一種動(dòng)態(tài)參數(shù)生成框架，其核心思想是讓模型在推理階段根據(jù)當(dāng)前輸入動(dòng)態(tài)生成適合該任務(wù)的參數(shù)，而不再始終依賴一套固定參數(shù)來(lái)處理所有問(wèn)題。傳統(tǒng)模型在部署后通常使用同一組參數(shù)處理所有輸入，而 HY-WU 的設(shè)計(jì)思路則不同，它通過(guò)一個(gè)額外的參數(shù)生成模塊，使模型在面對(duì)不同輸入時(shí)能夠產(chǎn)生不同的參數(shù)配置，從而形成針對(duì)當(dāng)前任務(wù)更加合適的計(jì)算方式。

在任務(wù)設(shè)置方面，研究人員將實(shí)驗(yàn)任務(wù)設(shè)定為文本指導(dǎo)圖像編輯。在這一任務(wù)中，系統(tǒng)的輸入包括兩部分信息，一部分是一張?jiān)紙D片，另一部分是一條描述編輯需求的文本指令。模型需要根據(jù)這兩部分信息生成一張新的編輯結(jié)果圖像。

為了保證編輯結(jié)果具有良好的可用性，任務(wù)目標(biāo)包括三個(gè)方面。首先，模型必須正確執(zhí)行文本指令中所描述的編輯操作，例如改變某個(gè)物體的屬性或替換某個(gè)區(qū)域。其次，在執(zhí)行編輯時(shí)需要保留與指令無(wú)關(guān)的重要內(nèi)容，也就是說(shuō)只修改需要改變的部分，而盡量保持其他區(qū)域不發(fā)生變化。

第三，生成圖像需要保持整體結(jié)構(gòu)的一致性，例如人物的姿態(tài)、空間關(guān)系或背景結(jié)構(gòu)不能出現(xiàn)明顯破壞。例如在一個(gè)典型場(chǎng)景中，輸入是一張人物圖片，同時(shí)給出一條指令要求將人物的衣服替換為另一張圖中的衣服。在這種情況下，系統(tǒng)需要在改變衣服外觀的同時(shí)保持人物身份特征、姿態(tài)以及背景環(huán)境不發(fā)生變化，使最終生成的圖像看起來(lái)真實(shí)且自然。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

在系統(tǒng)結(jié)構(gòu)方面，HY-WU 系統(tǒng)可以分為三個(gè)主要階段。第一階段是條件信息提取階段。在這一階段中，系統(tǒng)分別從輸入圖像和文本指令中提取特征信息，并將兩種模態(tài)的信息融合形成一個(gè)統(tǒng)一的條件表示。

這一條件表示描述了當(dāng)前輸入中包含的視覺(jué)內(nèi)容以及用戶所提出的編輯需求，是后續(xù)參數(shù)生成過(guò)程的重要依據(jù)。通過(guò)這種方式，系統(tǒng)能夠理解當(dāng)前圖像中包含的對(duì)象、結(jié)構(gòu)以及文本指令所要求的變化方向。

第二階段是模型參數(shù)生成階段。在這一階段中，提取到的條件信息會(huì)被輸入到一個(gè)基于 Transformer 架構(gòu)的參數(shù)生成網(wǎng)絡(luò)中。該網(wǎng)絡(luò)的任務(wù)不是直接生成圖像，而是根據(jù)輸入條件生成一組新的模型參數(shù)，這些參數(shù)以 LoRA adapter 的形式存在。

LoRA adapter 是一種常見(jiàn)的參數(shù)高效更新方式，可以在不修改原始模型主體結(jié)構(gòu)的情況下改變模型行為。通過(guò)這一機(jī)制，參數(shù)生成網(wǎng)絡(luò)能夠根據(jù)當(dāng)前輸入條件生成適合該任務(wù)的參數(shù)更新，從而使基礎(chǔ)模型在執(zhí)行推理時(shí)具備針對(duì)當(dāng)前任務(wù)的能力。

第三階段是執(zhí)行圖像編輯階段。在這一階段中，系統(tǒng)會(huì)將生成的 LoRA adapter 參數(shù)插入到基礎(chǔ)模型中，使模型在當(dāng)前輸入條件下以新的參數(shù)結(jié)構(gòu)運(yùn)行。隨后基礎(chǔ)模型在這些參數(shù)的作用下完成圖像生成或編輯過(guò)程，并輸出最終結(jié)果。由于參數(shù)生成網(wǎng)絡(luò)會(huì)針對(duì)每一個(gè)輸入生成不同的參數(shù)，因此即使使用同一個(gè)基礎(chǔ)模型，不同輸入也會(huì)對(duì)應(yīng)不同的參數(shù)配置。這意味著模型在處理不同任務(wù)時(shí)能夠表現(xiàn)出不同的行為模式，從而提升整體適應(yīng)能力。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

在訓(xùn)練方式方面，HY-WU 采用了一種與傳統(tǒng)方法明顯不同的訓(xùn)練策略。傳統(tǒng)方法在進(jìn)行參數(shù)生成或適配研究時(shí)，通常需要先預(yù)先訓(xùn)練大量模型，然后再通過(guò)學(xué)習(xí)過(guò)程重建這些模型參數(shù)，從而訓(xùn)練一個(gè)能夠生成參數(shù)的網(wǎng)絡(luò)。這種方式不僅需要存儲(chǔ)大量模型，還會(huì)帶來(lái)較高的訓(xùn)練和數(shù)據(jù)管理成本。雷峰網(wǎng)

與之相比，研究團(tuán)隊(duì)在 HY-WU 中采用了更加直接的訓(xùn)練方式。在訓(xùn)練過(guò)程中，系統(tǒng)首先輸入圖像和編輯指令，然后由參數(shù)生成網(wǎng)絡(luò)根據(jù)輸入條件生成對(duì)應(yīng)的模型參數(shù)。接著系統(tǒng)利用這些參數(shù)在基礎(chǔ)模型中生成編輯后的圖像。隨后根據(jù)生成結(jié)果與目標(biāo)之間的差異計(jì)算損失，并根據(jù)損失結(jié)果更新參數(shù)生成網(wǎng)絡(luò)。

整個(gè)訓(xùn)練流程可以概括為五個(gè)步驟，即輸入圖像和指令、生成模型參數(shù)、生成編輯圖像、根據(jù)編輯效果計(jì)算損失以及更新參數(shù)生成網(wǎng)絡(luò)。通過(guò)這種方式，系統(tǒng)能夠直接圍繞最終任務(wù)目標(biāo)進(jìn)行優(yōu)化，同時(shí)避免存儲(chǔ)和管理大量模型參數(shù)，從而降低訓(xùn)練過(guò)程中的復(fù)雜度，并使參數(shù)生成機(jī)制更加靈活。

騰訊混元團(tuán)隊(duì)最新研究：讓 AI 從「固定模型」走向「實(shí)時(shí)適配系統(tǒng)」

一個(gè)模型，應(yīng)對(duì)無(wú)限變化的任務(wù)

從技術(shù)層面來(lái)看，這項(xiàng)研究可以被理解為一種新的圖像編輯方法，但如果從更宏觀的角度進(jìn)行分析，它實(shí)際上提出了一種新的模型適應(yīng)方式。

傳統(tǒng)模型通常依賴一套固定參數(shù)來(lái)處理所有任務(wù)，而現(xiàn)實(shí)世界的問(wèn)題往往是多樣且不斷變化的。例如，不同用戶需求可能完全不同，不同任務(wù)目標(biāo)之間也可能存在明顯差異，同時(shí)數(shù)據(jù)分布在不同場(chǎng)景中也會(huì)發(fā)生變化。在這種情況下，一套固定參數(shù)很難同時(shí)適應(yīng)所有情況，因此模型在復(fù)雜環(huán)境中的表現(xiàn)往往受到限制。

在過(guò)去十幾年中，機(jī)器學(xué)習(xí)領(lǐng)域通常通過(guò) domain adaptation 來(lái)解決這一問(wèn)題。當(dāng)模型進(jìn)入新的領(lǐng)域時(shí)，研究人員往往需要重新訓(xùn)練模型，或者通過(guò)微調(diào)的方式使模型適應(yīng)新的數(shù)據(jù)分布。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

這種方法確實(shí)可以在一定程度上提升模型在新領(lǐng)域中的表現(xiàn)，但其成本也相對(duì)較高。每進(jìn)入一個(gè)新的領(lǐng)域通常都需要重新進(jìn)行訓(xùn)練，系統(tǒng)部署過(guò)程會(huì)變得更加復(fù)雜，同時(shí)模型更新的周期也會(huì)變得較長(zhǎng)。

隨著模型規(guī)模的不斷發(fā)展，研究人員開(kāi)始探索另一種新的思路，即是否可以讓模型在運(yùn)行過(guò)程中自動(dòng)適應(yīng)任務(wù)，而不需要重新訓(xùn)練模型。在這一背景下，HY-WU 可以被看作這種思路的一種具體實(shí)現(xiàn)方式。與傳統(tǒng)方法不同，這一方法學(xué)習(xí)的并不是一組固定的模型參數(shù)，而是學(xué)習(xí)如何根據(jù)當(dāng)前輸入生成合適的參數(shù)更新，從而讓同一個(gè)基礎(chǔ)模型在面對(duì)不同任務(wù)時(shí)能夠表現(xiàn)出不同的行為模式。

從更抽象的角度來(lái)看，一個(gè)真正強(qiáng)大的模型需要具備兩個(gè)關(guān)鍵能力。首先，模型必須具備 adaptation 能力，也就是說(shuō)模型能夠根據(jù)不同任務(wù)改變自己的行為方式，而不是始終使用同一種處理策略。

其次，這種 adaptation 必須是實(shí)時(shí)發(fā)生的。如果每一次適應(yīng)都需要重新訓(xùn)練模型，那么系統(tǒng)在真實(shí)環(huán)境中的使用就會(huì)受到很大限制。因此，一個(gè)真正智能的系統(tǒng)不僅需要具備適應(yīng)能力，還需要能夠?qū)崿F(xiàn)實(shí)時(shí)適應(yīng)。

在這樣的框架下，在這樣的框架下，HY-WU 的核心意義不僅在于提升圖像編輯任務(wù)中的性能，更重要的是，它實(shí)現(xiàn)了一種推理階段的實(shí)時(shí)適應(yīng)機(jī)制（real-time adaptation）。具體來(lái)說(shuō)，模型在處理每一次輸入時(shí)，都會(huì)根據(jù)當(dāng)前圖像和指令動(dòng)態(tài)生成一組新的參數(shù)，使模型能夠針對(duì)當(dāng)前任務(wù)調(diào)整自身行為。

在這一機(jī)制下，模型在面對(duì)每一個(gè)輸入時(shí)都會(huì)生成一組新的參數(shù)調(diào)整，從而使同一個(gè)基礎(chǔ)模型能夠在不同任務(wù)之間靈活切換，并表現(xiàn)出不同的行為模式。

從更長(zhǎng)遠(yuǎn)的角度來(lái)看，這項(xiàng)研究也為未來(lái)人工智能系統(tǒng)的發(fā)展提供了一種新的方向。未來(lái)的 AI 系統(tǒng)可能不再依賴單一的固定模型，而是需要在運(yùn)行過(guò)程中實(shí)時(shí)調(diào)整自身的參數(shù)結(jié)構(gòu)，從而持續(xù)適應(yīng)不斷變化的任務(wù)環(huán)境和應(yīng)用場(chǎng)景。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。