0
| 本文作者: 陳淑瑜 | 2026-05-29 11:16 | 專題:CVPR 計算機(jī)視覺與模式識別會議 |
來源:公眾號“ICGS實驗室”
原文鏈接:https://mp.weixin.qq.com/s/kDssjQmcJYnAJnG1THufKQ?scene=1&click_id=40
基本信息

題目:SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains
會議:IEEE Conference on Computer Vision and Pattern Recognition (CCF-A,計算機(jī)視覺頂會)
年份:2026年
主要單位:清華大學(xué)深圳國際研究生院、中山大學(xué)、國家超級計算深圳中心
主要作者:李慶美(清華大學(xué)深圳國際研究生院博士后)、張洋(中山大學(xué)22級本科生)、張配灃(中山大學(xué)23級本科生)
通訊作者:付昊桓、鄭玨鵬
Part.1
研究背景


語義分割是計算機(jī)視覺中的基礎(chǔ)任務(wù),廣泛應(yīng)用于自動駕駛、智慧城市和醫(yī)學(xué)影像等場景,但真實部署中的圖像往往來自不同城市、天氣、光照或成像設(shè)備,源域和目標(biāo)域之間存在明顯分布差異,導(dǎo)致模型在未知場景中性能下降?,F(xiàn)有領(lǐng)域泛化語義分割方法通常依賴模型微調(diào)或內(nèi)部特征調(diào)整,而在許多實際應(yīng)用中,模型會因為隱私保護(hù)、知識產(chǎn)權(quán)或部署安全而被凍結(jié),外部用戶無法訪問模型參數(shù)和結(jié)構(gòu)。因此,本文關(guān)注一個更貼近真實部署的問題:當(dāng)模型內(nèi)部不可訪問時,如何提升凍結(jié)語義分割模型的跨域泛化能力。
Part.2
核心貢獻(xiàn)點


為了解決隱私約束下模型參數(shù)不可訪問、未知目標(biāo)域風(fēng)格高度多樣的問題,本文提出了 SAGE 框架,這是一種面向凍結(jié)語義分割模型的風(fēng)格自適應(yīng)泛化方法。SAGE 不修改模型內(nèi)部參數(shù),而是從輸入層生成視覺提示,引導(dǎo)模型適應(yīng)不同目標(biāo)域風(fēng)格,包含兩大核心創(chuàng)新:
風(fēng)格提示生成 (Style-Prompt Generation): SAGE 摒棄了單一固定提示的設(shè)計,首先通過風(fēng)格遷移構(gòu)造多種源域風(fēng)格變體,并為每一種風(fēng)格訓(xùn)練一個專門的 style-prompt generator。該生成器由可學(xué)習(xí)邊界提示模板和輕量調(diào)制網(wǎng)絡(luò)組成,能夠根據(jù)輸入圖像內(nèi)容動態(tài)生成視覺提示。邊界式設(shè)計既能注入風(fēng)格先驗,又盡量避免干擾圖像主體區(qū)域,從而在不訪問模型內(nèi)部參數(shù)的情況下提升凍結(jié)模型的泛化能力。
自適應(yīng)提示融合 (Adaptive Prompt Fusion): 擁有了多種風(fēng)格提示后,如何為未知目標(biāo)圖像選擇合適提示是關(guān)鍵。SAGE 將多個 style-prompt generator 產(chǎn)生的提示送入輕量級注意力融合模塊,以輸入圖像特征作為查詢,自適應(yīng)計算不同風(fēng)格提示的重要性,并生成最終融合提示。這樣,每張目標(biāo)圖像都能獲得與自身視覺風(fēng)格更匹配的 prompt,避免固定提示在復(fù)雜目標(biāo)域中失效,實現(xiàn)隱私約束下更穩(wěn)健的跨域語義分割。
Part.3
實驗結(jié)果


本文在 GTAV、SYNTHIA、Cityscapes、BDD-100K 和 Mapillary 五個語義分割基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評估,覆蓋 GTAV、Cityscapes 和 SYNTHIA 作為源域的三組跨域設(shè)置。實驗采用 ADE20K 預(yù)訓(xùn)練的 SegFormer-B5 作為隱私語義分割模型,并保持模型主體凍結(jié)。結(jié)果表明,SAGE 在隱私約束方法中取得穩(wěn)定領(lǐng)先的性能:在 GTAV 作為源域時,平均 mIoU 達(dá)到 42.09%;在 Cityscapes 作為源域時,平均 mIoU 達(dá)到 43.90%;在 SYNTHIA 作為源域時,平均 mIoU 達(dá)到 37.58%。相比直接使用凍結(jié)模型的 baseline,SAGE 帶來約 3.4 到 6.3 個百分點的平均精度提升;相比已有隱私兼容方法 A2XP,平均提升約 10.2 到 12.9 個百分點。


消融實驗和可視化結(jié)果進(jìn)一步表明,SAGE 能夠減少目標(biāo)域分割噪聲,保留更完整的目標(biāo)邊界,并更好地識別交通標(biāo)志等細(xì)粒度目標(biāo)。
SAGE 為隱私約束下的跨域語義分割提供了一種輕量、高效且易部署的解決方案。該方法無需訪問模型內(nèi)部參數(shù),也不需要修改凍結(jié)骨干網(wǎng)絡(luò),僅通過輸入級風(fēng)格提示和自適應(yīng)融合機(jī)制,就能顯著提升凍結(jié)模型在未知域上的泛化能力,為視覺模型在隱私保護(hù)和安全部署場景中的應(yīng)用提供了新的思路。
本專題其他文章