0
| 本文作者: 陳淑瑜 | 2026-04-30 16:14 | 專題:CVPR 計算機視覺與模式識別會議 |
【封面圖片來源:網(wǎng)站名微信公眾號,所有者:極市平臺】
一、背景
工業(yè)質檢和醫(yī)療影像分析中,傳統(tǒng)方法采用"一個任務一個模型"的碎片化模式,檢測不同模態(tài)(如RGB、紅外、3D深度)需要部署多個專用模型,導致運維成本高、泛化能力差?,F(xiàn)有方法存在域干擾問題——直接融合多域特征會引入噪聲,導致大量誤報。
能否構建一個通用的"大腦",既能理解多模態(tài)融合信息,又能針對不同任務動態(tài)調用"專家知識"?這一問題的解決對于工業(yè)質檢和醫(yī)療影像的智能化升級具有重大意義。
來自大連理工大學、工源三仟、南洋理工大學的科研團隊共同提出了一種名為 UniMMAD 的統(tǒng)一框架。該模型被命名為 UniMMAD,意為“Unified Multi-Modal and Multi-Class Anomaly Detection”,即統(tǒng)一的多模態(tài)、多類別異常檢測,采用"通用-特定"范式,通過壓縮-解壓架構實現(xiàn)統(tǒng)一的多模態(tài)、多類別異常檢測,大幅提升模型泛化能力和部署效率。它最令人驚艷的地方在于,僅用一套參數(shù),就能同時處理涵蓋工業(yè)、醫(yī)療、合成數(shù)據(jù)等 3 個領域、12 種模態(tài)和 66 個類別的異常檢測任務。

UniMMAD 采用通用-特定范式,通過三大核心模塊實現(xiàn)多模態(tài)異常檢測的統(tǒng)一。
通過多尺度BottleNeck結構,將任意組合的輸入(如RGB+Depth)壓縮成緊湊的通用特征。內部多尺度瓶頸利用不同尺度的并行卷積捕捉正常模式,外部語義瓶頸在更高語義層級進行精細壓縮,剔除異常激活,輸出純凈的通用特征表示。
引入"領域先驗"作為導航,動態(tài)選擇專家路徑。采用MoE-in-MoE結構,將參數(shù)量減少約75%,同時保持專家組合的靈活性。條件路由器根據(jù)輸入的模態(tài)和類別信息,動態(tài)選擇最合適的專家路徑,實現(xiàn)精準的任務適配。
將多個專家計算合并為單組卷積,提升并行效率。配合解壓一致性損失保證解壓過程與壓縮過程的一致性,確保恢復的圖像與原始輸入在語義上保持對齊。

在MVTec-3D數(shù)據(jù)集上,UniMMAD圖像級AUC達到92.527,像素級AUC達到99.089,在BraTs醫(yī)療數(shù)據(jù)集上同樣超越專用醫(yī)療模型,全面驗證了統(tǒng)一框架在多模態(tài)、多類別異常檢測任務上的領先性能。
相比多模態(tài)方法M3DM的0.39 FPS,UniMMAD達到59.09 FPS,實現(xiàn)約150倍的速度提升。參數(shù)減少75%的同時保持高精度,滿足工業(yè)實時部署的嚴苛需求。
UniMMAD展現(xiàn)出優(yōu)秀的持續(xù)學習能力——學習新任務后,舊任務性能下降不到8%,有效解決了"災難性遺忘"問題。域干擾問題也得到有效解決:不同領域(紅外、3D等)激活不同專家路徑,避免了噪聲干擾,提升了異常檢測的準確性。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
──────────────────────────────────────────
上述內容包含AI輔助生成,更詳細信息參見兩個鏈接
論文鏈接:https://arxiv.org/abs/2509.25934
解讀來源:https://mp.weixin.qq.com/s/rIRlMmhkgqHj0wq6ob0NCw
雷峰網(wǎng)版權文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章