日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給鄭佳美
發(fā)送

0

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

本文作者: 鄭佳美   2026-03-18 15:06
導(dǎo)語(yǔ):MultiAnimate:利用身份編碼與空間關(guān)系建模提升互動(dòng)生成穩(wěn)定性。

在視覺(jué)生成領(lǐng)域,從圖像生成到視頻生成,研究的核心問(wèn)題正逐漸從“能否生成內(nèi)容”轉(zhuǎn)向“能否生成可控且結(jié)構(gòu)正確的內(nèi)容”。

尤其是在人物動(dòng)畫(huà)生成任務(wù)中,研究人員不僅希望模型能夠生成具有真實(shí)感的畫(huà)面,還希望生成過(guò)程能夠受到精確控制,例如通過(guò)輸入人物圖像與動(dòng)作姿態(tài)序列,使模型自動(dòng)生成連續(xù)的人物動(dòng)畫(huà)。在這一方向上,姿態(tài)驅(qū)動(dòng)的人物圖像動(dòng)畫(huà)已經(jīng)取得了顯著進(jìn)展。然而,這些方法大多集中于單人物場(chǎng)景,當(dāng)生成對(duì)象擴(kuò)展到多人物時(shí),問(wèn)題的復(fù)雜度會(huì)顯著增加。

而在在多人物動(dòng)畫(huà)生成過(guò)程中,模型不僅需要保持每個(gè)人物外觀的穩(wěn)定性,還必須在動(dòng)態(tài)過(guò)程中正確建立人物與動(dòng)作之間的對(duì)應(yīng)關(guān)系,并處理人物之間的空間交互。如果模型無(wú)法持續(xù)區(qū)分不同人物,生成結(jié)果就容易出現(xiàn)身份混淆、動(dòng)作錯(cuò)位或空間關(guān)系不合理等問(wèn)題。因此,如何在復(fù)雜互動(dòng)過(guò)程中保持人物身份一致,并同時(shí)建模多人物之間的空間關(guān)系,已經(jīng)成為多人物視頻生成研究中的關(guān)鍵挑戰(zhàn)。

在這樣的研究背景下,來(lái)自中國(guó)科學(xué)院計(jì)算技術(shù)研究所與上海交通大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種新的多人物動(dòng)畫(huà)生成框架,并發(fā)表了題為《MultiAnimate: Pose-Guided Image Animation Made Extensible》的研究工作。這項(xiàng)研究通過(guò)引入人物身份標(biāo)識(shí)機(jī)制以及基于人物掩碼的空間關(guān)系建模方法,使生成模型能夠在多人物互動(dòng)過(guò)程中持續(xù)區(qū)分不同個(gè)體,并保持人物外觀與動(dòng)作的一致性。

值得注意的是,這個(gè)方法在訓(xùn)練階段只使用雙人數(shù)據(jù),卻能夠在推理階段擴(kuò)展到三人甚至更多人物的動(dòng)畫(huà)生成任務(wù),為多人物視頻生成提供了一種具有良好擴(kuò)展性的解決思路。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

從雙人到多人:模型生成能力的驗(yàn)證

從實(shí)驗(yàn)的整體來(lái)看,MultiAnimate 在多人物動(dòng)畫(huà)生成任務(wù)中明顯優(yōu)于現(xiàn)有方法,并且具有很強(qiáng)的擴(kuò)展能力和泛化能力。

研究人員首先在 Swing Dance 數(shù)據(jù)集上測(cè)試模型性能。這個(gè)數(shù)據(jù)集包含大量雙人舞蹈視頻,人物之間的互動(dòng)非常復(fù)雜,例如旋轉(zhuǎn)、交換位置以及身體接觸等。實(shí)驗(yàn)結(jié)果顯示,MultiAnimate 生成的視頻在視覺(jué)上更加真實(shí),人物動(dòng)作與輸入姿態(tài)更加一致,視頻幀之間的連續(xù)性更好,同時(shí)人物身份保持更加穩(wěn)定。

相比之下,其他方法在復(fù)雜交互場(chǎng)景中容易出現(xiàn)多種問(wèn)題。例如,當(dāng)兩個(gè)人旋轉(zhuǎn)或靠近時(shí),模型容易出現(xiàn)身份混亂的現(xiàn)象,人物外觀可能被混淆,甚至出現(xiàn)衣服突然交換的情況。當(dāng)兩個(gè)人互相遮擋時(shí),一些模型會(huì)產(chǎn)生遮擋錯(cuò)誤,導(dǎo)致身體部位生成不正確,例如手臂位置異常。雷峰網(wǎng)

此外,在復(fù)雜動(dòng)作過(guò)程中,一些方法還會(huì)導(dǎo)致背景質(zhì)量下降,出現(xiàn)背景模糊或者抖動(dòng)的現(xiàn)象。而 MultiAnimate 在整個(gè)視頻生成過(guò)程中能夠保持每個(gè)人的外觀一致,動(dòng)作順序合理,人物之間的空間關(guān)系穩(wěn)定,這說(shuō)明該方法在理解多人物空間關(guān)系方面具有更強(qiáng)的能力。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

研究團(tuán)隊(duì)還在 Gen-dataset 上對(duì)模型進(jìn)行了測(cè)試。這個(gè)數(shù)據(jù)集由視頻生成模型自動(dòng)生成,包含兩人或三人場(chǎng)景,并且具有不同背景環(huán)境和不同動(dòng)作組合。實(shí)驗(yàn)結(jié)果表明,即使模型沒(méi)有專(zhuān)門(mén)在該數(shù)據(jù)集上進(jìn)行訓(xùn)練,仍然能夠生成質(zhì)量較高的視頻。

具體表現(xiàn)為動(dòng)作控制準(zhǔn)確,人物外觀保持一致,并且視頻在時(shí)間維度上具有良好的連續(xù)性。不過(guò)研究人員也發(fā)現(xiàn),由于場(chǎng)景更加復(fù)雜,在某些視覺(jué)感知指標(biāo)上優(yōu)勢(shì)略小,這說(shuō)明模型在更加復(fù)雜環(huán)境中的表現(xiàn)仍然存在進(jìn)一步提升的空間。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

在泛化能力測(cè)試中,研究團(tuán)隊(duì)使用來(lái)自社交媒體的視頻作為測(cè)試數(shù)據(jù),這些視頻包含三人舞蹈、四人舞蹈以及最多七人同時(shí)參與的舞蹈場(chǎng)景。這些數(shù)據(jù)完全沒(méi)有參與模型訓(xùn)練。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),即使模型只使用兩個(gè)人的視頻進(jìn)行訓(xùn)練,仍然能夠生成三人動(dòng)畫(huà)以及更多人物參與的互動(dòng)動(dòng)畫(huà),并且可以正確區(qū)分不同人物,保持每個(gè)人物的身份一致,同時(shí)能夠正確生成多人物之間的空間關(guān)系。這說(shuō)明模型具有很強(qiáng)的擴(kuò)展能力,也意味著訓(xùn)練人數(shù)與最終生成人數(shù)并不完全一致,模型能夠推廣到更加復(fù)雜的多人物場(chǎng)景。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

此外,研究還展示了大量生成視頻的畫(huà)面對(duì)比結(jié)果??梢暬治霭l(fā)現(xiàn),一些已有方法例如 MimicMotion 和 DisPose 在動(dòng)畫(huà)生成初期就可能出現(xiàn)人物身份混亂的情況,例如人物衣服顏色突然發(fā)生變化,或者兩個(gè)角色在交換位置之后身份發(fā)生混淆。

還有一些方法例如 UniAnimate-DiT 和 VACE 在簡(jiǎn)單動(dòng)作階段表現(xiàn)較好,但在復(fù)雜的人物互動(dòng)之后仍然容易出現(xiàn)身份交換以及遮擋錯(cuò)誤等問(wèn)題。相比之下,MultiAnimate 在整個(gè)視頻生成過(guò)程中都能夠保持人物身份穩(wěn)定,動(dòng)作生成合理,并且人物之間的空間關(guān)系正確,因此在視覺(jué)效果上明顯優(yōu)于其他方法。

MultiAnimate 的構(gòu)建與驗(yàn)證路徑

為了得到上述實(shí)驗(yàn)結(jié)果,研究人員先是于數(shù)據(jù)準(zhǔn)備階段,在實(shí)驗(yàn)中使用了三類(lèi)數(shù)據(jù)。第一類(lèi)是 Swing Dance 數(shù)據(jù)集,這是一個(gè)雙人舞蹈視頻數(shù)據(jù)集,總時(shí)長(zhǎng)約為 30 小時(shí),包含 680 對(duì)舞者。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

數(shù)據(jù)中存在大量旋轉(zhuǎn)動(dòng)作、人物互動(dòng)動(dòng)作以及頻繁的人物遮擋現(xiàn)象,因此非常適合用于訓(xùn)練模型理解多人物之間的空間關(guān)系。在訓(xùn)練過(guò)程中,模型通過(guò)這些視頻學(xué)習(xí)兩個(gè)人如何進(jìn)行互動(dòng),如何在動(dòng)作過(guò)程中保持人物身份一致,以及在人物相互遮擋時(shí)如何正確處理空間關(guān)系。

第二類(lèi)數(shù)據(jù)是 Gen-dataset 數(shù)據(jù)集,研究團(tuán)隊(duì)利用視頻生成模型 Wan2.2 自動(dòng)生成了 2079 個(gè)視頻,每個(gè)視頻長(zhǎng)度約為 5 秒。這些視頻包含兩人或三人的場(chǎng)景,并具有不同的背景環(huán)境和不同的動(dòng)作組合。使用這一數(shù)據(jù)集的目的主要有兩個(gè),一是增加訓(xùn)練場(chǎng)景的多樣性,二是提高模型的泛化能力。

第三類(lèi)數(shù)據(jù)來(lái)自社交媒體平臺(tái) TikTok 的舞蹈視頻,這些視頻中通常包含三到七個(gè)人同時(shí)跳舞,動(dòng)作復(fù)雜且場(chǎng)景多樣。這部分?jǐn)?shù)據(jù)只用于測(cè)試模型性能,并不參與訓(xùn)練,主要用于驗(yàn)證模型是否能夠推廣到更多人物的場(chǎng)景。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

在模型訓(xùn)練之前,研究人員還對(duì)視頻數(shù)據(jù)進(jìn)行了預(yù)處理。預(yù)處理主要包括兩個(gè)步驟。第一步是姿態(tài)提取,研究人員使用人體姿態(tài)檢測(cè)模型提取人物的骨架信息,這些骨架信息可以表示人物的手臂位置、腿部位置以及整體身體姿態(tài)。

通過(guò)這些骨架序列,模型能夠根據(jù)姿態(tài)信息驅(qū)動(dòng)人物動(dòng)作生成。第二步是人物掩碼提取,研究人員使用視頻分割方法生成每個(gè)人物的追蹤掩碼。掩碼能夠表示在每一幀圖像中哪些像素屬于人物 A,哪些像素屬于人物 B,從而使模型能夠區(qū)分不同的人物。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

模型訓(xùn)練過(guò)程分為兩個(gè)階段。在第一階段訓(xùn)練中,研究人員使用 Swing Dance 數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練目標(biāo)是讓模型學(xué)習(xí)雙人之間的互動(dòng)關(guān)系。訓(xùn)練設(shè)置為大約 40 個(gè)訓(xùn)練周期,總訓(xùn)練步數(shù)約為 7000 步,每個(gè)GPU的 batch size 為 1,訓(xùn)練過(guò)程中使用兩張 A100 GPU。在這一階段訓(xùn)練完成后,模型最多可以支持三個(gè)人的動(dòng)畫(huà)生成。

第二階段訓(xùn)練是在第一階段的基礎(chǔ)上繼續(xù)進(jìn)行,研究人員加入 Gen-dataset 數(shù)據(jù)集進(jìn)行訓(xùn)練,其主要目的是提高模型對(duì)不同場(chǎng)景環(huán)境的適應(yīng)能力。第二階段訓(xùn)練約進(jìn)行 3 個(gè)周期,總訓(xùn)練步數(shù)約為 2400 步。除此之外,研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)擴(kuò)展版本模型,這一模型可以支持最多七個(gè)人的動(dòng)畫(huà)生成。擴(kuò)展模型仍然使用雙人數(shù)據(jù)進(jìn)行訓(xùn)練,但通過(guò)新的訓(xùn)練策略使模型能夠?qū)W習(xí)區(qū)分更多人物,該模型訓(xùn)練了 24 個(gè)周期。

在對(duì)比實(shí)驗(yàn)中,研究人員將 MultiAnimate 與多個(gè)已有模型進(jìn)行了比較,包括 UniAnimate-DiT、MimicMotion、DisPose 和 VACE。實(shí)驗(yàn)主要比較視頻質(zhì)量、動(dòng)作生成的準(zhǔn)確性、人物身份一致性以及視頻時(shí)間連續(xù)性等方面。實(shí)驗(yàn)結(jié)果顯示,MultiAnimate 在幾乎所有指標(biāo)上都優(yōu)于這些方法。

此外,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),用于驗(yàn)證各個(gè)模塊設(shè)計(jì)是否有效。消融實(shí)驗(yàn)主要測(cè)試了兩種設(shè)計(jì)。第一種是基于人物掩碼的 Mask-driven 設(shè)計(jì),如果去掉這一設(shè)計(jì),模型在生成視頻時(shí)容易出現(xiàn)人物身份混亂以及空間關(guān)系錯(cuò)誤的問(wèn)題。

實(shí)驗(yàn)結(jié)果說(shuō)明,掩碼設(shè)計(jì)能夠幫助模型更好地理解人物之間的位置關(guān)系。第二種是 Identifier 模塊設(shè)計(jì),其中包括 Identifier Assigner 和 Identifier Adapter 兩個(gè)模塊,這兩個(gè)模塊的作用是為每個(gè)人物分配唯一的身份標(biāo)識(shí)。如果去掉這兩個(gè)模塊,模型在多人物場(chǎng)景中容易出現(xiàn)身份交換和動(dòng)作混亂的現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,這兩個(gè)模塊能夠顯著提升模型在多人物動(dòng)畫(huà)生成中的穩(wěn)定性。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

突破多人物動(dòng)畫(huà)生成的關(guān)鍵瓶頸

總的來(lái)說(shuō),這項(xiàng)研究的實(shí)驗(yàn)意義主要體現(xiàn)在三個(gè)方面。首先,在多人物動(dòng)畫(huà)生成任務(wù)中,傳統(tǒng)方法大多只針對(duì)單人物動(dòng)畫(huà)進(jìn)行研究,當(dāng)場(chǎng)景中出現(xiàn)多人時(shí),模型往往容易出現(xiàn)身份混亂、動(dòng)作錯(cuò)誤以及空間關(guān)系不正確等問(wèn)題。針對(duì)這一情況,研究團(tuán)隊(duì)提出了 MultiAnimate 方法,通過(guò)身份標(biāo)識(shí)機(jī)制、人物掩碼以及空間關(guān)系建模,使模型能夠在生成視頻時(shí)正確區(qū)分不同人物,并保持人物之間的空間關(guān)系,從而提升了多人物動(dòng)畫(huà)生成的穩(wěn)定性和準(zhǔn)確性。

其次,在人物數(shù)量的擴(kuò)展能力方面,傳統(tǒng)方法通常需要按照固定人數(shù)進(jìn)行訓(xùn)練,例如兩人模型只能生成兩人動(dòng)畫(huà),如果需要生成更多人物的動(dòng)畫(huà),就需要重新收集數(shù)據(jù)并重新訓(xùn)練模型。而在這一研究中,研究人員發(fā)現(xiàn),只使用兩人數(shù)據(jù)進(jìn)行訓(xùn)練,模型仍然可以生成三人甚至更多人物參與的動(dòng)畫(huà),這說(shuō)明模型在多人物場(chǎng)景中的擴(kuò)展能力得到了明顯提升。

最后,在數(shù)據(jù)利用效率方面,收集包含多人物互動(dòng)的視頻數(shù)據(jù)往往成本較高,因此獲取大規(guī)模多人物數(shù)據(jù)集比較困難。研究結(jié)果表明,只需要少量雙人數(shù)據(jù),就能夠訓(xùn)練出支持多人物動(dòng)畫(huà)生成的模型,這在實(shí)際應(yīng)用中具有重要價(jià)值。

MultiAnimate 背后的科研工作者

論文的通訊作者為安竹林,現(xiàn)為中國(guó)科學(xué)院計(jì)算技術(shù)研究所的副研究員,同時(shí)也是博士生導(dǎo)師,長(zhǎng)期從事人工智能和計(jì)算機(jī)視覺(jué)相關(guān)研究工作。他在中國(guó)科學(xué)院獲得博士學(xué)位后,一直在該研究機(jī)構(gòu)從事科研與人才培養(yǎng)工作。

研究方向方面,安竹林的研究主要集中在神經(jīng)網(wǎng)絡(luò)加速和計(jì)算機(jī)視覺(jué)兩個(gè)領(lǐng)域。他的研究關(guān)注如何提高深度學(xué)習(xí)模型的效率,以及如何將深度學(xué)習(xí)技術(shù)應(yīng)用到視覺(jué)理解和視覺(jué)生成任務(wù)中,例如圖像識(shí)別、視頻分析以及視覺(jué)模型優(yōu)化等問(wèn)題。

在研究成果方面,安竹林及其研究團(tuán)隊(duì)圍繞深度學(xué)習(xí)模型效率和視覺(jué)任務(wù)展開(kāi)了多項(xiàng)研究。另一些研究則關(guān)注視覺(jué)任務(wù)中的模型設(shè)計(jì)與性能提升,通過(guò)改進(jìn)算法方法來(lái)提高圖像識(shí)別或視覺(jué)理解的效果。這些研究不僅推動(dòng)了計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,也為深度學(xué)習(xí)模型在實(shí)際場(chǎng)景中的應(yīng)用提供了重要技術(shù)基礎(chǔ)。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

參考鏈接:https://oldoc.github.io/

論文的另一位通訊作者為劉松華,目前任職于上海交通大學(xué)人工智能學(xué)院,擔(dān)任助理教授,主要從事計(jì)算機(jī)視覺(jué)與人工智能相關(guān)研究。在進(jìn)入高校任教之前,他曾在新加坡國(guó)立大學(xué)完成博士學(xué)位,研究方向集中在深度學(xué)習(xí)與視覺(jué)生成等領(lǐng)域。

在研究方向方面,劉松華的工作主要集中在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域,重點(diǎn)關(guān)注視覺(jué)生成模型、數(shù)據(jù)蒸餾、模型適配以及深度學(xué)習(xí)模型效率提升等問(wèn)題。這些研究?jī)?nèi)容主要圍繞如何提高生成模型的質(zhì)量、效率以及在實(shí)際場(chǎng)景中的應(yīng)用能力展開(kāi)。

在學(xué)術(shù)成果方面,他在人工智能和計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)表了多篇學(xué)術(shù)論文,相關(guān)研究成果被多個(gè)國(guó)際重要學(xué)術(shù)會(huì)議收錄。同時(shí),他還參與提出了多種視覺(jué)生成與圖像處理方法,例如利用神經(jīng)網(wǎng)絡(luò)自動(dòng)生成繪畫(huà)筆觸的繪畫(huà)生成方法,以及通過(guò)改進(jìn)注意力機(jī)制提升圖像風(fēng)格遷移效果的方法。這些研究成果在圖像生成、藝術(shù)風(fēng)格遷移以及視覺(jué)內(nèi)容生成等方向具有一定影響。

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

參考鏈接: https://huage001.github.io/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

計(jì)算所 x 上交大論文:只用雙人數(shù)據(jù),也能生成多人動(dòng)畫(huà)丨CVPR 2026

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)