CVPR2026 | 極少數(shù)據訓練的通用目標檢測模型, 無需提示跨域泛化, 遙感數(shù)據表現(xiàn)優(yōu)異！

本文作者：陳淑瑜

2026-05-28 10:46

導語：無需任何文本或視覺提示的通用區(qū)域候選網絡PF-RPN，通過可學習視覺嵌入替代文本嵌入實現(xiàn)開放世界目標定位

來源：公眾號“遙感與深度學習“

原文鏈接：https://mp.weixin.qq.com/s/ojm6yRWRURFIL1UlD9ZwPw?scene=1&click_id=138

題目：Prompt-Free Universal Region Proposal Network
會議：The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文： https://arxiv.org/abs/2603.17554
數(shù)據： CD-FSOD benchmark、ODinW13 benchmark，共19個數(shù)據集
代碼： https://github.com/tangqh03/PF-RPN
年份： 2026
單位： 南京大學、中國科學技術大學

CVPR2026 遙感AI方向合集：CVPR2026

創(chuàng)新點

提出無需任何文本或視覺提示的通用區(qū)域候選網絡PF-RPN，通過可學習視覺嵌入替代文本嵌入實現(xiàn)開放世界目標定位
設計稀疏圖像感知適配器（SIA），利用混合專家機制自適應融合多層次視覺特征以初始化和更新可學習嵌入
提出級聯(lián)自提示模塊（CSP），通過深到淺的迭代精化機制逐步擴展目標區(qū)域激活、抑制背景噪聲
設計中心性引導查詢選擇模塊（CG-QS），利用中心性評分優(yōu)先選取靠近目標中心的查詢以提升候選框質量

背景

現(xiàn)有目標檢測中的區(qū)域候選網絡（RPN）在面對未見域時泛化能力不足，難以識別未知類別目標。開放詞匯目標檢測（OVD）方法雖具備一定泛化能力，但通常依賴類別名稱或樣例圖像作為提示輸入，在工業(yè)缺陷檢測、水下目標檢測等實際場景中提示信息往往不可獲取，限制了其靈活性。

部分無提示OVD方法嘗試借助生成式視覺語言大模型（VLM）自動生成描述以消除手動提示的依賴，但此類方法引入了顯著的內存和推理延遲開銷。因此，亟需一種高效的區(qū)域候選網絡，能夠在無任何外部提示的條件下跨域泛化，直接應用于多種下游檢測任務。

數(shù)據

CD-FSOD Benchmark

包含六個具有顯著域偏移的跨域數(shù)據集

ArTaxOr：昆蟲圖像數(shù)據集
Clipart1k：手繪卡通圖像數(shù)據集
DIOR：遙感圖像數(shù)據集
DeepFish：水下魚類圖像數(shù)據集
NEU-DET：工業(yè)缺陷圖像數(shù)據集
UODD：海洋生物圖像數(shù)據集

ODinW13 Benchmark

包含13個來自多樣化場景的數(shù)據集

涵蓋野生動物攝影、家用物品、航拍圖像等多種應用領域
用于評估模型在多樣真實場景下的跨域泛化能力

訓練數(shù)據

使用MS COCO數(shù)據集的5%（80類）進行檢測數(shù)據訓練
使用ImageNet數(shù)據集的5%（1000類）補充分類數(shù)據，以緩解圖像編碼器的域偏移偏差

方法

PF-RPN總體框架

PF-RPN基于Grounding DINO構建，以可學習嵌入替代文本嵌入，通過純視覺特征生成目標候選框，無需任何文本或圖像提示。圖像編碼器提取多層次特征圖后，依次經過SIA模塊、CSP模塊和CG-QS模塊，最終輸出高質量目標候選框。

CVPR2026 | 極少數(shù)據訓練的通用目標檢測模型, 無需提示跨域泛化, 遙感數(shù)據表現(xiàn)優(yōu)異！

稀疏圖像感知適配器（SIA）

使用混合專家（MoE）路由機制

對各層特征圖進行全局平均池化后，通過輕量MLP路由器預測各層重要性權重
自適應選取Top-k（默認k=2）最具信息量的特征層，抑制冗余噪聲

利用交叉注意力機制將選中層的全局與局部特征融合至可學習嵌入中，使其獲得粗粒度與細粒度的視覺語義表示

級聯(lián)自提示模塊（CSP）

從深層到淺層迭代精化可學習嵌入

在每一層計算當前嵌入與視覺特征圖的余弦相似度，生成目標區(qū)域掩碼
通過掩碼平均池化將目標內部特征累積更新至嵌入中

默認迭代3次，在精度與效率之間取得最優(yōu)平衡，引入的推理延遲極小

中心性引導查詢選擇（CG-QS）

使用輕量MLP作為中心性評分網絡，為每個查詢預測其靠近目標中心的概率

訓練時以查詢點到真實框四條邊距離的幾何均值作為監(jiān)督信號
推理時將中心性評分與分類評分結合，優(yōu)先選取靠近目標中心的高質量查詢

目標損失函數(shù)

聯(lián)合優(yōu)化回歸損失（L1+GIoU）、對比分類損失、路由負載均衡損失和中心性損失
通過超參數(shù)λ控制中心性損失權重（默認λ=5），避免其主導優(yōu)化過程影響回歸性能

結果與分析

PF-RPN在CD-FSOD和ODinW13共19個跨域數(shù)據集上均顯著超越現(xiàn)有OVD模型、傳統(tǒng)RPN及多模態(tài)大語言模型，展現(xiàn)出強大的零樣本跨域泛化能力。此外，與同類無提示方法相比，PF-RPN在大幅提升檢測性能的同時，推理速度和顯存占用均具有明顯優(yōu)勢，具備更高的實際部署價值。在遙感場景下，PF-RPN在DIOR數(shù)據集上同樣取得了最優(yōu)性能，顯著領先于GLIP、YOLOE、YOLOWorld等對比方法，驗證了其在遙感圖像目標定位任務中的有效性。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當月熱門文章