日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

<ruby id="4aoqp"><strong id="4aoqp"><wbr id="4aoqp"></wbr></strong></ruby>

<li id="4aoqp"><strong id="4aoqp"></strong></li><li id="4aoqp"></li>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發(fā)私信給陳淑瑜

發(fā)送

0

UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

本文作者：陳淑瑜

2026-04-30 16:14

專題：CVPR 計算機視覺與模式識別會議

導語：能否構建一個通用的"大腦"，既能理解多模態(tài)融合信息，又能針對不同任務動態(tài)調用"專家知識"？

【封面圖片來源：網(wǎng)站名微信公眾號，所有者：極市平臺】

一、背景

工業(yè)質檢和醫(yī)療影像分析中，傳統(tǒng)方法采用"一個任務一個模型"的碎片化模式，檢測不同模態(tài)（如RGB、紅外、3D深度）需要部署多個專用模型，導致運維成本高、泛化能力差?，F(xiàn)有方法存在域干擾問題——直接融合多域特征會引入噪聲，導致大量誤報。

能否構建一個通用的"大腦"，既能理解多模態(tài)融合信息，又能針對不同任務動態(tài)調用"專家知識"？這一問題的解決對于工業(yè)質檢和醫(yī)療影像的智能化升級具有重大意義。

來自大連理工大學、工源三仟、南洋理工大學的科研團隊共同提出了一種名為 UniMMAD 的統(tǒng)一框架。該模型被命名為 UniMMAD，意為“Unified Multi-Modal and Multi-Class Anomaly Detection”，即統(tǒng)一的多模態(tài)、多類別異常檢測，采用"通用-特定"范式，通過壓縮-解壓架構實現(xiàn)統(tǒng)一的多模態(tài)、多類別異常檢測，大幅提升模型泛化能力和部署效率。它最令人驚艷的地方在于，僅用一套參數(shù)，就能同時處理涵蓋工業(yè)、醫(yī)療、合成數(shù)據(jù)等 3 個領域、12 種模態(tài)和 66 個類別的異常檢測任務。

UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

二、核心方法

UniMMAD 采用通用-特定范式，通過三大核心模塊實現(xiàn)多模態(tài)異常檢測的統(tǒng)一。

通用多模態(tài)編碼器（特征壓縮模塊FCM）：

通過多尺度BottleNeck結構，將任意組合的輸入（如RGB+Depth）壓縮成緊湊的通用特征。內部多尺度瓶頸利用不同尺度的并行卷積捕捉正常模式，外部語義瓶頸在更高語義層級進行精細壓縮，剔除異常激活，輸出純凈的通用特征表示。

跨條件混合專家（C-MoE）：

引入"領域先驗"作為導航，動態(tài)選擇專家路徑。采用MoE-in-MoE結構，將參數(shù)量減少約75%，同時保持專家組合的靈活性。條件路由器根據(jù)輸入的模態(tài)和類別信息，動態(tài)選擇最合適的專家路徑，實現(xiàn)精準的任務適配。

分組動態(tài)濾波（GDF）：

將多個專家計算合并為單組卷積，提升并行效率。配合解壓一致性損失保證解壓過程與壓縮過程的一致性，確保恢復的圖像與原始輸入在語義上保持對齊。

UniMMAD——大工&南洋理工提出統(tǒng)一多模態(tài)異常檢測，59 FPS刷新推理效率150倍 | CVPR 2026

三、亮點總結

創(chuàng)新點一：MVTec-3D 圖像級AUC 92.527

在MVTec-3D數(shù)據(jù)集上，UniMMAD圖像級AUC達到92.527，像素級AUC達到99.089，在BraTs醫(yī)療數(shù)據(jù)集上同樣超越專用醫(yī)療模型，全面驗證了統(tǒng)一框架在多模態(tài)、多類別異常檢測任務上的領先性能。

創(chuàng)新點二：59.09 FPS，推理速度提升150倍

相比多模態(tài)方法M3DM的0.39 FPS，UniMMAD達到59.09 FPS，實現(xiàn)約150倍的速度提升。參數(shù)減少75%的同時保持高精度，滿足工業(yè)實時部署的嚴苛需求。

創(chuàng)新點三：持續(xù)學習能力

UniMMAD展現(xiàn)出優(yōu)秀的持續(xù)學習能力——學習新任務后，舊任務性能下降不到8%，有效解決了"災難性遺忘"問題。域干擾問題也得到有效解決：不同領域（紅外、3D等）激活不同專家路徑，避免了噪聲干擾，提升了異常檢測的準確性。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

──────────────────────────────────────────

上述內容包含AI輔助生成，更詳細信息參見兩個鏈接

論文鏈接：https://arxiv.org/abs/2509.25934

解讀來源：https://mp.weixin.qq.com/s/rIRlMmhkgqHj0wq6ob0NCw

雷峰網(wǎng)版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

more

陳淑瑜

編輯

發(fā)私信

當月熱門文章

最新文章

熱門搜索

無人機京東金融科技專利螞蟻金服社交網(wǎng)絡語音識別 CCF-GAIR 叫獸發(fā)言紅米邊緣計算

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現(xiàn)在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

<menu id="bg2wu"><dd id="bg2wu"></dd></menu>

<p id="bg2wu"><dl id="bg2wu"></dl></p>

<ruby id="bg2wu"><strong id="bg2wu"><wbr id="bg2wu"></wbr></strong></ruby>

<li id="bg2wu"></li>