【CVPR 2026】自-交叉注意力SCA，兼顧自身依賴與跨分支交互的增強特征，即插即用！

本文作者：陳淑瑜

2026-05-29 16:28

專題：CVPR 計算機視覺與模式識別會議

導(dǎo)語：ParTY：富有表現(xiàn)力的文本到動作合成的部分指南

來源：公眾號“AI縫合術(shù)”

原文鏈接：https://mp.weixin.qq.com/s/dvUEI6c9RijskB-Xe1mX_g?scene=1&click_id=52

【CVPR 2026】自-交叉注意力SCA，兼顧自身依賴與跨分支交互的增強特征，即插即用！

一、論文信息

論文題目：ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文題目：ParTY：富有表現(xiàn)力的文本到動作合成的部分指南論文鏈接：https://arxiv.org/pdf/2603.09611

所屬單位：慶熙大學(xué)

核心速覽：

提出ParTY框架以解決文本到動作合成中特定身體部位動作表達不足和全身動作連貫性差的問題，通過部分引導(dǎo)網(wǎng)絡(luò)、部分感知文本接地和整體-部分融合模塊提升性能。

二、即插即用模塊原理解讀

圖. 自-交叉注意力（改進到2D，適用于圖像處理和計算機視覺任務(wù)）

1. 實現(xiàn)過程：

對輸入的多分支拼接特征執(zhí)行自注意力，建模特征內(nèi)部依賴并通過殘差連接增強；

再經(jīng) Split 操作，將特征分為共享查詢 Q' 與綠、紅兩個獨立分支，各分支生成鍵 Kp、值 Vp；

隨后兩個并行交叉注意力分支以 Q' 為查詢，分別與兩個分支的 Kp、Vp 計算注意力，建?？绶种Ы换?，各分支輸出再做殘差連接；

最后融合兩個交叉注意力分支的輸出，得到兼顧自身依賴與跨分支交互的增強特征。

2. 作用與適用領(lǐng)域

兼顧特征內(nèi)部依賴建模與跨分支信息交互，能高效融合多模態(tài)、多尺度或多源特征，適用于圖像分割、圖像翻譯、多模態(tài)圖像生成、圖像修復(fù)等計算機視覺任務(wù)，尤其適合多源信息協(xié)同場景，提升特征判別性與魯棒性。

三、全文內(nèi)容概覽

圖3. ParTY系統(tǒng)概述。文本嵌入首先經(jīng)過基于部分感知的文本定位處理，隨后各部分Transformer為整體Transformer生成部分引導(dǎo)信息，用于生成運動令牌；在生成過程中會應(yīng)用整體-部分融合技術(shù)。符號{Part}表示該處理過程同時應(yīng)用于手臂和腿部。

1. 研究內(nèi)容：

提出ParTY框架，旨在解決文本到運動合成中“部分運動表達”與“全身連貫性”的權(quán)衡問題，通過三模塊協(xié)同提升運動生成質(zhì)量：Part-Guided Network（部分引導(dǎo)網(wǎng)絡(luò)）、Part-aware Text Grounding（部分感知文本接地）、Holistic-Part Fusion（整體-部分融合）。

2. 針對問題：

現(xiàn)有方法存在兩大局限：（1）整體生成方法缺乏部分語義對齊，無法準(zhǔn)確反映特定身體部位動作；（2）部分生成方法獨立生成各部位運動，導(dǎo)致全身連貫性差（如頸部扭曲、肢體運動錯位）。

3. 關(guān)鍵技術(shù)：

1. Temporal-aware VQ-VAE：通過局部時間增強（LTE）和全局時間增強（GTE）保留運動序列的時間信息，減少量化損失；

2. Part-aware Text Grounding：將文本嵌入通過多個MLP生成多樣化表示，結(jié)合LLM生成的部位描述作為輔助監(jiān)督，動態(tài)選擇與各部位匹配的嵌入；

3. Part-Guided Network：先生成部位運動 tokens 作為“部分引導(dǎo)”，再通過整體-部分融合（HPF）模塊將部位信息融入整體運動生成，確保連貫性。

圖2。時間感知型 VQ - VAE 的架構(gòu)。 VQVAE 部分采用相同的架構(gòu)，唯一區(qū)別在于處理的是局部運動數(shù)據(jù)而非全身運動數(shù)據(jù)。

4. 實驗效果：

在HumanML3D和KIT-ML數(shù)據(jù)集上，ParTY在傳統(tǒng)指標(biāo)（R-Precision、FID、MM-Dist）上達到SOTA；新提出的部分級指標(biāo)（部位R-Precision、FID）和連貫級指標(biāo)（ temporal coherence, spatial coherence）顯示：相比ParCo（部分方法）和MoMask（整體方法），ParTY在部位語義對齊（如左腿弓步動作）和全身連貫性（如避免頸部扭曲）上均顯著提升。