日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

本文作者: 陳淑瑜   2026-05-29 16:28 專題:CVPR 計算機視覺與模式識別會議
導(dǎo)語:ParTY:富有表現(xiàn)力的文本到動作合成的部分指南

來源:公眾號“AI縫合術(shù)”

原文鏈接:https://mp.weixin.qq.com/s/dvUEI6c9RijskB-Xe1mX_g?scene=1&click_id=52

 

【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!
【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

一、論文信息 



【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!


論文題目:ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文題目:ParTY:富有表現(xiàn)力的文本到動作合成的部分指南論文鏈https://arxiv.org/pdf/2603.09611

所屬單位:慶熙大學(xué)

核心速覽:

提出ParTY框架以解決文本到動作合成中特定身體部位動作表達不足和全身動作連貫性差的問題,通過部分引導(dǎo)網(wǎng)絡(luò)、部分感知文本接地和整體-部分融合模塊提升性能。

      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

      二、即插即用模塊原理解讀 



      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!


      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!
      圖. 自-交叉注意力(改進到2D,適用于圖像處理和計算機視覺任務(wù))

      1. 實現(xiàn)過程:

      對輸入的多分支拼接特征執(zhí)行自注意力,建模特征內(nèi)部依賴并通過殘差連接增強;

      再經(jīng) Split 操作,將特征分為共享查詢 Q' 與綠、紅兩個獨立分支,各分支生成鍵 Kp、值 Vp;

      隨后兩個并行交叉注意力分支以 Q' 為查詢,分別與兩個分支的 Kp、Vp 計算注意力,建??绶种Ы换?,各分支輸出再做殘差連接;

      最后融合兩個交叉注意力分支的輸出,得到兼顧自身依賴與跨分支交互的增強特征。

      2. 作用與適用領(lǐng)域

      兼顧特征內(nèi)部依賴建模跨分支信息交互,能高效融合多模態(tài)、多尺度或多源特征,適用于圖像分割、圖像翻譯、多模態(tài)圖像生成、圖像修復(fù)等計算機視覺任務(wù),尤其適合多源信息協(xié)同場景,提升特征判別性與魯棒性。

      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

      三、全文內(nèi)容概覽 



      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!


      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!
      圖3. ParTY系統(tǒng)概述。文本嵌入首先經(jīng)過基于部分感知的文本定位處理,隨后各部分Transformer為整體Transformer生成部分引導(dǎo)信息,用于生成運動令牌;在生成過程中會應(yīng)用整體-部分融合技術(shù)。符號{Part}表示該處理過程同時應(yīng)用于手臂和腿部。

      1. 研究內(nèi)容:

      提出ParTY框架,旨在解決文本到運動合成中“部分運動表達”與“全身連貫性”的權(quán)衡問題,通過三模塊協(xié)同提升運動生成質(zhì)量:Part-Guided Network(部分引導(dǎo)網(wǎng)絡(luò))、Part-aware Text Grounding(部分感知文本接地)、Holistic-Part Fusion(整體-部分融合)。

      2. 針對問題:

      現(xiàn)有方法存在兩大局限:(1)整體生成方法缺乏部分語義對齊,無法準(zhǔn)確反映特定身體部位動作;(2)部分生成方法獨立生成各部位運動,導(dǎo)致全身連貫性差(如頸部扭曲、肢體運動錯位)。

      3. 關(guān)鍵技術(shù):

      1. Temporal-aware VQ-VAE:通過局部時間增強(LTE)和全局時間增強(GTE)保留運動序列的時間信息,減少量化損失;

      2. Part-aware Text Grounding:將文本嵌入通過多個MLP生成多樣化表示,結(jié)合LLM生成的部位描述作為輔助監(jiān)督,動態(tài)選擇與各部位匹配的嵌入;

      3. Part-Guided Network:先生成部位運動 tokens 作為“部分引導(dǎo)”,再通過整體-部分融合(HPF)模塊將部位信息融入整體運動生成,確保連貫性。

      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!
      圖2。時間感知型 VQ - VAE 的架構(gòu)。 VQVAE 部分采用相同的架構(gòu),唯一區(qū)別在于處理的是局部運動數(shù)據(jù)而非全身運動數(shù)據(jù)。

      4. 實驗效果:

      在HumanML3D和KIT-ML數(shù)據(jù)集上,ParTY在傳統(tǒng)指標(biāo)(R-Precision、FID、MM-Dist)上達到SOTA;新提出的部分級指標(biāo)(部位R-Precision、FID)和連貫級指標(biāo)( temporal coherence, spatial coherence)顯示:相比ParCo(部分方法)和MoMask(整體方法),ParTY在部位語義對齊(如左腿弓步動作)和全身連貫性(如避免頸部扭曲)上均顯著提升。

      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!
      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

      5. 結(jié)論:

      ParTY通過顯式部位語義對齊和動態(tài)融合機制,成功平衡了部分運動表達與全身連貫性,提出的評估指標(biāo)為文本到運動合成提供了更全面的評價體系,推動該領(lǐng)域從“整體生成”向“精細(xì)化部位控制”發(fā)展

      【CVPR 2026】自-交叉注意力SCA,兼顧自身依賴與跨分支交互的增強特征,即插即用!

      分享:
      相關(guān)文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說