CVPR2026 | F2Net: 悉尼大學(xué)等提出自適應(yīng)頻率分解用于高分辨率遙感影像語義分割

本文作者：陳淑瑜

2026-06-03 18:48

導(dǎo)語：基于自適應(yīng)頻率分解的多分支網(wǎng)絡(luò) F2Net，將超高分辨率遙感圖像分解為高頻與低頻分量分別處理，兼顧細(xì)節(jié)保留與語義建模

來源：公眾號(hào)“遙感與深度學(xué)習(xí)“
原文鏈接：https://mp.weixin.qq.com/s/2bONrB7za70sCN9b43H-ig?scene=1&click_id=34

題目：F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation
會(huì)議： The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文： https://arxiv.org/abs/2506.07847
數(shù)據(jù)： DeepGlobe、Inria Aerial
年份： 2026 (本篇基于2025年6月arxiv版)
單位： 悉尼大學(xué)、阿德萊德大學(xué)、清華大學(xué)、埃迪斯科文大學(xué)

CVPR2026 遙感AI方向合集：CVPR2026

CVPR2026 | F2Net: 悉尼大學(xué)等提出自適應(yīng)頻率分解用于高分辨率遙感影像語義分割

創(chuàng)新點(diǎn)

提出基于自適應(yīng)頻率分解的多分支網(wǎng)絡(luò) F2Net，將超高分辨率遙感圖像分解為高頻與低頻分量分別處理，兼顧細(xì)節(jié)保留與語義建模
設(shè)計(jì)混合頻率融合模塊（HFF），通過跨分支通道注意力實(shí)現(xiàn)高、低頻特征的層次化自適應(yīng)聚合
提出跨頻率對(duì)齊損失（CFAL），利用對(duì)稱 KL 散度約束高低頻分支在語義層面保持一致性
提出跨頻率平衡損失（CFBL），顯式正則化各分支梯度范數(shù)，解決多分支聯(lián)合訓(xùn)練中的梯度失衡問題

背景

超高分辨率（UHR）遙感圖像語義分割在城市規(guī)劃、環(huán)境監(jiān)測等領(lǐng)域具有重要應(yīng)用價(jià)值，但其極大的圖像尺寸給現(xiàn)有分割網(wǎng)絡(luò)帶來嚴(yán)峻的計(jì)算挑戰(zhàn)。傳統(tǒng)方法通常采用下采樣或裁塊兩種策略適配網(wǎng)絡(luò)輸入，前者丟失細(xì)粒度邊界細(xì)節(jié)，后者破壞全局上下文一致性。

為此，學(xué)界提出多分支架構(gòu)（如 GLNet、ISDNet）以同時(shí)保留局部細(xì)節(jié)與全局語義，但這類方法存在兩個(gè)核心問題：一是分支內(nèi)部計(jì)算效率低（如反復(fù)裁塊推理），二是多分支并行訓(xùn)練引發(fā)梯度競爭，導(dǎo)致收斂不穩(wěn)定與特征對(duì)齊困難。本文從頻率域視角出發(fā)，通過將圖像分解為高低頻分量并為各分量設(shè)計(jì)專屬分支，同時(shí)引入專用損失函數(shù)，系統(tǒng)性地解決上述問題。

數(shù)據(jù)

DeepGlobe

共 803 張超高分辨率衛(wèi)星圖像，分辨率為 2448×2448 像素
按 455/207/142 劃分訓(xùn)練、驗(yàn)證和測試集
包含七類地表語義標(biāo)注：城市、農(nóng)業(yè)、牧草地、森林、水體、裸地及未知類（未知類不參與評(píng)估）

Inria Aerial

共 180 張高分辨率航空影像，分辨率為 5000×5000 像素，覆蓋多樣城市場景
按 126/27/27 劃分訓(xùn)練、驗(yàn)證和測試集
提供二值語義掩碼，僅區(qū)分建筑與非建筑兩類

方法

自適應(yīng)頻率分解（AFD）

對(duì)輸入圖像先通過逐點(diǎn)卷積進(jìn)行跨通道映射，再沿通道維度分組
為每組特征動(dòng)態(tài)生成空間自適應(yīng)低通濾波器（Softmax 歸一化），并通過單位核相減得到對(duì)應(yīng)高通濾波器
輸出高頻分量（保留原始分辨率）與低頻分量（可安全下采樣），供后續(xù)分支分別處理

高頻分支

輸入為全分辨率高頻特征，采用基于狀態(tài)空間模型（VMamba）的多階段編碼器提取層次化表示
每個(gè)階段由多個(gè) Visual State Space（VSS）塊構(gòu)成，通過 SS2D 模塊捕獲空間長程依賴
相鄰階段間施加下采樣以逐步擴(kuò)大感受野，最終輸出高頻語義特征圖

低頻分支

短程子分支

基于 CNN 骨干網(wǎng)絡(luò)（DeepLabv3+ResNet-18）對(duì)下采樣低頻分量建模局部語義特征
處理分辨率為原圖的 1/4，兼顧局部細(xì)節(jié)與計(jì)算效率

長程子分支

基于輕量級(jí)視覺 Transformer（TinyViT）建模長程全局依賴
同樣在 1/4 分辨率下運(yùn)行，捕獲宏觀語義上下文

混合頻率融合模塊（HFF）

對(duì)兩個(gè)低頻子分支分別施加通道注意力，再通過跨分支注意力矩陣建模兩者間的特征交互關(guān)系
融合后的低頻聯(lián)合特征再與高頻分支輸出經(jīng)第二個(gè) HFF 模塊進(jìn)行最終聚合
聚合后特征送入分割頭生成預(yù)測結(jié)果

跨頻率損失函數(shù)

CFAL
：采用對(duì)稱 KL 散度約束高、低頻分支輸出在語義層面的一致性，防止融合時(shí)的語義錯(cuò)位
CFBL
：計(jì)算各分支相對(duì)于交叉熵?fù)p失的梯度范數(shù)，并懲罰其與均值的偏差，抑制某一分支主導(dǎo)優(yōu)化過程
最終損失為三項(xiàng)加權(quán)之和，各權(quán)重為可調(diào)超參數(shù)

結(jié)果與分析

F2Net 在 DeepGlobe 和 Inria Aerial 兩個(gè)基準(zhǔn)上均達(dá)到當(dāng)前最優(yōu)性能，相比已有最佳 UHR 分割方法在 mIoU 上取得了顯著提升。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各分支、融合模塊及損失函數(shù)的獨(dú)立貢獻(xiàn)，以及三者協(xié)同帶來的性能增益。