CVPR 2026 | 只給一個標注樣本，擴散模型也能做醫(yī)學圖像分割？深圳大學提出 SD-FSMIS

本文作者：陳淑瑜

2026-05-26 11:25

專題：CVPR 計算機視覺與模式識別會議

導語： FSMIS希望模型只依賴極少量標注樣本，就能完成新器官、新類別或新域醫(yī)學圖像的分割。

來源：知乎“智能CV”

原文鏈接：https://zhuanlan.zhihu.com/p/2040370312253071756

CVPR 2026 | 只給一個標注樣本，擴散模型也能做醫(yī)學圖像分割？深圳大學提出 SD-FSMIS

論文：https://arxiv.org/pdf/2604.03134

代碼：https://github.com/Galaxy-Knight-Lee/SD-FSMIS

一、研究方向及背景

這篇論文聚焦于少樣本醫(yī)學圖像分割，即 Few-Shot Medical Image Segmentation，簡稱 FSMIS。該任務希望模型只依賴極少量標注樣本，就能完成新器官、新類別或新域醫(yī)學圖像的分割。

醫(yī)學圖像分割在疾病診斷、放療計劃、個性化治療等臨床場景中非常重要，但其核心難點在于：高質(zhì)量像素級標注成本高、不同醫(yī)院和設備帶來的域偏移明顯、目標器官形態(tài)差異大。傳統(tǒng) FSMIS 方法多采用原型匹配、注意力交互或雙分支結(jié)構(gòu)，但這些方法通常需要從有限醫(yī)學數(shù)據(jù)中學習任務特定表示，面對跨模態(tài)、跨域場景時容易性能下降。

CVPR 2026 | 只給一個標注樣本，擴散模型也能做醫(yī)學圖像分割？深圳大學提出 SD-FSMIS

論文在圖1中對比了傳統(tǒng)方法和本文方法。傳統(tǒng)方法通?；?CNN 或?qū)ｉT設計的 few-shot 網(wǎng)絡，通過 support 圖像和 mask 提取原型，再與 query 圖像進行特征匹配；而本文不再從零構(gòu)建任務網(wǎng)絡，而是嘗試直接適配一個強大的預訓練基礎模型——Stable Diffusion。作者認為，大規(guī)模擴散模型已經(jīng)從海量圖文數(shù)據(jù)中學習到了關于形狀、紋理和上下文的通用視覺先驗，這些先驗可以為醫(yī)學少樣本分割提供更強的魯棒性和跨域泛化能力。

二、研究方法或創(chuàng)新點

本文提出的方法名為 SD-FSMIS，核心思想是：把 Stable Diffusion 從文本到圖像生成模型，改造成一個能夠根據(jù)少量 support 樣本完成醫(yī)學圖像分割的 few-shot 分割框架。

1. 用 Stable Diffusion 的視覺先驗替代從零訓練的任務網(wǎng)絡

傳統(tǒng) FSMIS 方法往往依賴任務特定網(wǎng)絡設計，而本文將 Stable Diffusion v1.5 作為主干模型，保留其 VAE 和 U-Net 結(jié)構(gòu)，并通過輕量化改造使其適配醫(yī)學圖像分割任務。

在圖2中，作者展示了 SD-FSMIS 的整體訓練流程。Support 圖像、support mask 和 query 圖像首先經(jīng)過 Stable Diffusion 的 VAE 編碼器進入 latent space。隨后，support 信息與 query 信息在 U-Net 中交互，最終生成 query mask 的 latent 表示，再通過 VAE 解碼器得到最終分割結(jié)果。

這種設計的關鍵優(yōu)勢在于：模型不是從有限醫(yī)學訓練集里重新學習視覺規(guī)律，而是復用 Stable Diffusion 中已經(jīng)存在的通用視覺知識。

2. Support-Query Interaction：在擴散模型內(nèi)部引入支持集與查詢圖像交互

Few-shot 分割的關鍵是讓模型理解 support 圖像中“要分割什么”，再把這種類別信息遷移到 query 圖像上。為此，作者提出了 Support-Query Interaction，簡稱 SQI。

SQI 包含兩個部分：

第一是 Support Information Injection，SII。如圖3所示，作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之間，額外加入一個 cross-attention 層，讓 query 特征去關注 support 特征。這樣，support 圖像和 support mask 中的目標類別信息可以直接注入 query 特征。

第二是 Query Enhancement，QE。作者借鑒 prototype-based few-shot segmentation 的思想，從 support latent 中提取 foreground prototype，再用它與 query latent 計算相似度，篩選出 query 中可能屬于目標區(qū)域的特征，形成 query prototype，并與原 query latent 拼接。這個模塊在圖2的黃色區(qū)域中展示，作用是進一步增強 query 表示，使其更貼近 support 中指定的器官類別。

3. Visual-to-Textual Condition Translator：把視覺提示翻譯成 Stable Diffusion 能理解的“文本條件”

Stable Diffusion 原本依賴文本 embedding 來控制生成過程。但在醫(yī)學圖像分割中，輸入條件并不是自然語言，而是 support 圖像和 support mask。為了解決這個不匹配問題，作者提出 Visual-to-Textual Condition Translator，簡稱 VTCT。

VTCT 的作用是把 support 圖像中的視覺類別信息轉(zhuǎn)換成類似文本 embedding 的條件向量。具體來說，作者使用凍結(jié)的 DINOv2-small 圖像編碼器提取 support 圖像特征，再通過 support mask 做 Masked Average Pooling，得到目標器官的視覺原型，最后用一個可學習 MLP 將其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空間。

這一模塊在圖2紅色區(qū)域中展示。它的意義在于：不是簡單使用空文本提示，而是讓模型通過 support 圖像自動生成“隱式文本條件”，從而更精準地引導 Stable Diffusion 關注目標器官。

4. 單步擴散預測，提高分割效率

在推理階段，SD-FSMIS 并不進行復雜的多步擴散采樣，而是采用 single-step x0 prediction。如圖4所示，support 與 query 被編碼到 latent space 后，U-Net 在 VTCT 生成的條件引導下，直接一步預測 query mask latent，再由 VAE decoder 解碼得到最終 mask。

這種設計降低了擴散模型用于分割時的推理成本，使其更適合醫(yī)學圖像分割任務。

三、實驗結(jié)果

1. 標準 FSMIS 設置下取得競爭性結(jié)果

論文在 Abd-MRI 和 Abd-CT 兩個腹部醫(yī)學圖像數(shù)據(jù)集上進行實驗，分割目標包括 spleen、liver、left kidney 和 right kidney。評價指標主要為 Dice Similarity Coefficient。

在表1中，作者比較了 SD-FSMIS 與 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 數(shù)據(jù)集上，SD-FSMIS 的平均 Dice 與當前強方法 DIFD 接近；在 Abd-CT 數(shù)據(jù)集上，本文方法優(yōu)勢更明顯。

例如，在 Setting 1 下，SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice，超過此前最優(yōu)的 DIFD 的 80.19%。在 Setting 2 下，SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice，同樣明顯優(yōu)于 DIFD 的 79.85%。

這說明，在標準少樣本醫(yī)學圖像分割場景下，SD-FSMIS 已經(jīng)具備很強競爭力。

2. 跨域場景下優(yōu)勢更突出

本文最重要的實驗亮點是跨域少樣本醫(yī)學圖像分割，即從 CT 遷移到 MRI，或從 MRI 遷移到 CT。該場景比普通 few-shot 更接近真實臨床，因為不同模態(tài)之間存在顯著域差異。

在表2中，作者展示了 Setting 1 下的跨域?qū)嶒灲Y(jié)果。SD-FSMIS 在 Abd-CT → MRI 任務上達到 81.42% 平均 Dice，在 Abd-MRI → CT 任務上達到 75.90% 平均 Dice，均超過此前方法。其中，DiffewS 已經(jīng)利用擴散模型先驗并表現(xiàn)較強，但 SD-FSMIS 仍進一步提升，說明 SQI 與 VTCT 對擴散模型適配是有效的。

補充材料中的表6進一步展示了更嚴格 Setting 2 下的跨域結(jié)果。SD-FSMIS 在 Abd-CT → MRI 上達到 80.54%，相比 DIFD 的 69.13% 提升 11.41%；在 Abd-MRI → CT 上達到 74.82%，相比 DIFD 的 57.93% 提升 16.89%。這充分體現(xiàn)了本文方法在跨模態(tài)泛化上的優(yōu)勢。

3. 可視化結(jié)果顯示分割更穩(wěn)定、邊界更準確

圖5給出了 SD-FSMIS 與 DiffewS 的可視化對比。可以看到，在 Abd-MRI、Abd-CT 以及跨域場景中，SD-FSMIS 對不同形態(tài)、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS，本文方法在器官邊界、局部結(jié)構(gòu)和復雜背景下更穩(wěn)定。

補充材料中的圖6比較了 SD-FSMIS 與 UniverSeg、MultiverSeg 等通用醫(yī)學分割模型。結(jié)果顯示，在 1-shot 設置下，通用模型容易出現(xiàn)目標定位不準、邊界混淆或背景組織誤分割，而 SD-FSMIS 能更準確地區(qū)分目標器官與相似組織。

4. 消融實驗驗證每個模塊都有效

在表3中，作者對 SII、QE 和 VTCT 三個關鍵模塊做了消融實驗。僅使用 SII 時，模型在 Abd-CT Setting 1 上的平均 Dice 為 80.11%。加入 QE 后提升到 83.17%；加入 VTCT 后提升到 82.27%；三者全部使用時達到最高的 83.66%。

這說明：

SII 是基礎，它實現(xiàn) support 信息向 query 的注入；
QE 能增強 query latent 中目標區(qū)域的表示；
VTCT 能把 support 視覺信息轉(zhuǎn)化為更有效的條件引導；
三者組合后具有互補效果。

5. Stable Diffusion 版本對性能有影響

表4比較了 Stable Diffusion 1.5 和 2.1 作為骨干時的性能。SD 1.5 的平均 Dice 為 83.66%，高于 SD 2.1 的 82.84%。作者認為，SD 1.5 的預訓練數(shù)據(jù)更寬泛，保留了更通用的視覺先驗，因此更適合遷移到醫(yī)學圖像結(jié)構(gòu)和紋理理解任務中。

6. 失敗案例揭示未來改進方向

補充材料中的圖7展示了失敗案例。SD-FSMIS 在部分 Abd-MRI 圖像上仍會出現(xiàn)肝臟分割不完整、左腎受高顯著區(qū)域干擾、脾臟和左腎距離較近時發(fā)生誤合并等問題。作者認為，這主要來自醫(yī)學圖像低對比度邊界和復雜器官空間關系。未來可以通過更強的邊界建?；蜃⒁饬C制進一步改進。

圖8展示訓練過程可視化，模型在訓練早期就能較好分割簡單類別，在約 5000 次迭代時對肝臟等復雜類別也能形成較好的分割結(jié)果。這從側(cè)面說明擴散模型先驗確實為少樣本分割提供了較強初始化能力。

四、總結(jié)

這篇論文的核心貢獻在于：它沒有繼續(xù)沿著傳統(tǒng) FSMIS 方法“設計更復雜專用網(wǎng)絡”的路線前進，而是提出了一種更具基礎模型思維的新范式——將預訓練 Stable Diffusion 適配到少樣本醫(yī)學圖像分割中。

SD-FSMIS 通過 SQI 實現(xiàn) support-query 交互，通過 VTCT 把 support 視覺信息轉(zhuǎn)化為 text-like condition，再通過 QE 增強 query latent 表示，從而讓 Stable Diffusion 的通用視覺先驗服務于醫(yī)學圖像分割任務。實驗結(jié)果表明，該方法不僅在標準 FSMIS 設置下表現(xiàn)優(yōu)異，更在跨 CT/MRI 的跨域場景中展現(xiàn)出明顯優(yōu)勢。

從研究意義上看，這篇論文說明：大規(guī)模生成模型不僅可以用于圖像生成，也可以被有效改造為醫(yī)學圖像理解和分割工具。對于標注稀缺、域偏移嚴重的醫(yī)學場景而言，這種“適配基礎模型”的路線可能比從零訓練專用模型更具潛力。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。