日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

本文作者: 陳淑瑜   2026-05-26 11:25 專題:CVPR 計算機視覺與模式識別會議
導語: FSMIS希望模型只依賴極少量標注樣本,就能完成新器官、新類別或新域醫(yī)學圖像的分割。

來源:知乎“智能CV”

原文鏈接:https://zhuanlan.zhihu.com/p/2040370312253071756


CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

論文:https://arxiv.org/pdf/2604.03134

代碼:https://github.com/Galaxy-Knight-Lee/SD-FSMIS

一、研究方向及背景

這篇論文聚焦于少樣本醫(yī)學圖像分割,即 Few-Shot Medical Image Segmentation,簡稱 FSMIS。該任務希望模型只依賴極少量標注樣本,就能完成新器官、新類別或新域醫(yī)學圖像的分割。

醫(yī)學圖像分割在疾病診斷、放療計劃、個性化治療等臨床場景中非常重要,但其核心難點在于:高質(zhì)量像素級標注成本高、不同醫(yī)院和設備帶來的域偏移明顯、目標器官形態(tài)差異大。傳統(tǒng) FSMIS 方法多采用原型匹配、注意力交互或雙分支結(jié)構(gòu),但這些方法通常需要從有限醫(yī)學數(shù)據(jù)中學習任務特定表示,面對跨模態(tài)、跨域場景時容易性能下降。

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

論文在圖1中對比了傳統(tǒng)方法和本文方法。傳統(tǒng)方法通?;?CNN 或?qū)iT設計的 few-shot 網(wǎng)絡,通過 support 圖像和 mask 提取原型,再與 query 圖像進行特征匹配;而本文不再從零構(gòu)建任務網(wǎng)絡,而是嘗試直接適配一個強大的預訓練基礎模型——Stable Diffusion。作者認為,大規(guī)模擴散模型已經(jīng)從海量圖文數(shù)據(jù)中學習到了關于形狀、紋理和上下文的通用視覺先驗,這些先驗可以為醫(yī)學少樣本分割提供更強的魯棒性和跨域泛化能力。


二、研究方法或創(chuàng)新點

本文提出的方法名為 SD-FSMIS,核心思想是:把 Stable Diffusion 從文本到圖像生成模型,改造成一個能夠根據(jù)少量 support 樣本完成醫(yī)學圖像分割的 few-shot 分割框架。

1. 用 Stable Diffusion 的視覺先驗替代從零訓練的任務網(wǎng)絡

傳統(tǒng) FSMIS 方法往往依賴任務特定網(wǎng)絡設計,而本文將 Stable Diffusion v1.5 作為主干模型,保留其 VAE 和 U-Net 結(jié)構(gòu),并通過輕量化改造使其適配醫(yī)學圖像分割任務。

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

圖2中,作者展示了 SD-FSMIS 的整體訓練流程。Support 圖像、support mask 和 query 圖像首先經(jīng)過 Stable Diffusion 的 VAE 編碼器進入 latent space。隨后,support 信息與 query 信息在 U-Net 中交互,最終生成 query mask 的 latent 表示,再通過 VAE 解碼器得到最終分割結(jié)果。

這種設計的關鍵優(yōu)勢在于:模型不是從有限醫(yī)學訓練集里重新學習視覺規(guī)律,而是復用 Stable Diffusion 中已經(jīng)存在的通用視覺知識。


2. Support-Query Interaction:在擴散模型內(nèi)部引入支持集與查詢圖像交互

Few-shot 分割的關鍵是讓模型理解 support 圖像中“要分割什么”,再把這種類別信息遷移到 query 圖像上。為此,作者提出了 Support-Query Interaction,簡稱 SQI。

SQI 包含兩個部分:

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

第一是 Support Information Injection,SII。如圖3所示,作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之間,額外加入一個 cross-attention 層,讓 query 特征去關注 support 特征。這樣,support 圖像和 support mask 中的目標類別信息可以直接注入 query 特征。

第二是 Query Enhancement,QE。作者借鑒 prototype-based few-shot segmentation 的思想,從 support latent 中提取 foreground prototype,再用它與 query latent 計算相似度,篩選出 query 中可能屬于目標區(qū)域的特征,形成 query prototype,并與原 query latent 拼接。這個模塊在圖2的黃色區(qū)域中展示,作用是進一步增強 query 表示,使其更貼近 support 中指定的器官類別。


3. Visual-to-Textual Condition Translator:把視覺提示翻譯成 Stable Diffusion 能理解的“文本條件”

Stable Diffusion 原本依賴文本 embedding 來控制生成過程。但在醫(yī)學圖像分割中,輸入條件并不是自然語言,而是 support 圖像和 support mask。為了解決這個不匹配問題,作者提出 Visual-to-Textual Condition Translator,簡稱 VTCT。

VTCT 的作用是把 support 圖像中的視覺類別信息轉(zhuǎn)換成類似文本 embedding 的條件向量。具體來說,作者使用凍結(jié)的 DINOv2-small 圖像編碼器提取 support 圖像特征,再通過 support mask 做 Masked Average Pooling,得到目標器官的視覺原型,最后用一個可學習 MLP 將其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空間。

這一模塊在圖2紅色區(qū)域中展示。它的意義在于:不是簡單使用空文本提示,而是讓模型通過 support 圖像自動生成“隱式文本條件”,從而更精準地引導 Stable Diffusion 關注目標器官。


4. 單步擴散預測,提高分割效率

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

在推理階段,SD-FSMIS 并不進行復雜的多步擴散采樣,而是采用 single-step x0 prediction。如圖4所示,support 與 query 被編碼到 latent space 后,U-Net 在 VTCT 生成的條件引導下,直接一步預測 query mask latent,再由 VAE decoder 解碼得到最終 mask。

這種設計降低了擴散模型用于分割時的推理成本,使其更適合醫(yī)學圖像分割任務。


三、實驗結(jié)果

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

1. 標準 FSMIS 設置下取得競爭性結(jié)果

論文在 Abd-MRI 和 Abd-CT 兩個腹部醫(yī)學圖像數(shù)據(jù)集上進行實驗,分割目標包括 spleen、liver、left kidney 和 right kidney。評價指標主要為 Dice Similarity Coefficient。

表1中,作者比較了 SD-FSMIS 與 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 數(shù)據(jù)集上,SD-FSMIS 的平均 Dice 與當前強方法 DIFD 接近;在 Abd-CT 數(shù)據(jù)集上,本文方法優(yōu)勢更明顯。

例如,在 Setting 1 下,SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice,超過此前最優(yōu)的 DIFD 的 80.19%。在 Setting 2 下,SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice,同樣明顯優(yōu)于 DIFD 的 79.85%

這說明,在標準少樣本醫(yī)學圖像分割場景下,SD-FSMIS 已經(jīng)具備很強競爭力。


2. 跨域場景下優(yōu)勢更突出

本文最重要的實驗亮點是跨域少樣本醫(yī)學圖像分割,即從 CT 遷移到 MRI,或從 MRI 遷移到 CT。該場景比普通 few-shot 更接近真實臨床,因為不同模態(tài)之間存在顯著域差異。

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

表2中,作者展示了 Setting 1 下的跨域?qū)嶒灲Y(jié)果。SD-FSMIS 在 Abd-CT → MRI 任務上達到 81.42% 平均 Dice,在 Abd-MRI → CT 任務上達到 75.90% 平均 Dice,均超過此前方法。其中,DiffewS 已經(jīng)利用擴散模型先驗并表現(xiàn)較強,但 SD-FSMIS 仍進一步提升,說明 SQI 與 VTCT 對擴散模型適配是有效的。

補充材料中的表6進一步展示了更嚴格 Setting 2 下的跨域結(jié)果。SD-FSMIS 在 Abd-CT → MRI 上達到 80.54%,相比 DIFD 的 69.13% 提升 11.41%;在 Abd-MRI → CT 上達到 74.82%,相比 DIFD 的 57.93% 提升 16.89%。這充分體現(xiàn)了本文方法在跨模態(tài)泛化上的優(yōu)勢。


3. 可視化結(jié)果顯示分割更穩(wěn)定、邊界更準確

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

圖5給出了 SD-FSMIS 與 DiffewS 的可視化對比。可以看到,在 Abd-MRI、Abd-CT 以及跨域場景中,SD-FSMIS 對不同形態(tài)、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS,本文方法在器官邊界、局部結(jié)構(gòu)和復雜背景下更穩(wěn)定。

補充材料中的圖6比較了 SD-FSMIS 與 UniverSeg、MultiverSeg 等通用醫(yī)學分割模型。結(jié)果顯示,在 1-shot 設置下,通用模型容易出現(xiàn)目標定位不準、邊界混淆或背景組織誤分割,而 SD-FSMIS 能更準確地區(qū)分目標器官與相似組織。


4. 消融實驗驗證每個模塊都有效

表3中,作者對 SII、QE 和 VTCT 三個關鍵模塊做了消融實驗。僅使用 SII 時,模型在 Abd-CT Setting 1 上的平均 Dice 為 80.11%。加入 QE 后提升到 83.17%;加入 VTCT 后提升到 82.27%;三者全部使用時達到最高的 83.66%。

這說明:

SII 是基礎,它實現(xiàn) support 信息向 query 的注入;
QE 能增強 query latent 中目標區(qū)域的表示;
VTCT 能把 support 視覺信息轉(zhuǎn)化為更有效的條件引導;
三者組合后具有互補效果。


5. Stable Diffusion 版本對性能有影響

表4比較了 Stable Diffusion 1.5 和 2.1 作為骨干時的性能。SD 1.5 的平均 Dice 為 83.66%,高于 SD 2.1 的 82.84%。作者認為,SD 1.5 的預訓練數(shù)據(jù)更寬泛,保留了更通用的視覺先驗,因此更適合遷移到醫(yī)學圖像結(jié)構(gòu)和紋理理解任務中。


6. 失敗案例揭示未來改進方向

補充材料中的圖7展示了失敗案例。SD-FSMIS 在部分 Abd-MRI 圖像上仍會出現(xiàn)肝臟分割不完整、左腎受高顯著區(qū)域干擾、脾臟和左腎距離較近時發(fā)生誤合并等問題。作者認為,這主要來自醫(yī)學圖像低對比度邊界和復雜器官空間關系。未來可以通過更強的邊界建?;蜃⒁饬C制進一步改進。

圖8展示訓練過程可視化,模型在訓練早期就能較好分割簡單類別,在約 5000 次迭代時對肝臟等復雜類別也能形成較好的分割結(jié)果。這從側(cè)面說明擴散模型先驗確實為少樣本分割提供了較強初始化能力。


四、總結(jié)

這篇論文的核心貢獻在于:它沒有繼續(xù)沿著傳統(tǒng) FSMIS 方法“設計更復雜專用網(wǎng)絡”的路線前進,而是提出了一種更具基礎模型思維的新范式——將預訓練 Stable Diffusion 適配到少樣本醫(yī)學圖像分割中。

SD-FSMIS 通過 SQI 實現(xiàn) support-query 交互,通過 VTCT 把 support 視覺信息轉(zhuǎn)化為 text-like condition,再通過 QE 增強 query latent 表示,從而讓 Stable Diffusion 的通用視覺先驗服務于醫(yī)學圖像分割任務。實驗結(jié)果表明,該方法不僅在標準 FSMIS 設置下表現(xiàn)優(yōu)異,更在跨 CT/MRI 的跨域場景中展現(xiàn)出明顯優(yōu)勢。

從研究意義上看,這篇論文說明:大規(guī)模生成模型不僅可以用于圖像生成,也可以被有效改造為醫(yī)學圖像理解和分割工具。對于標注稀缺、域偏移嚴重的醫(yī)學場景而言,這種“適配基礎模型”的路線可能比從零訓練專用模型更具潛力。


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2026 | 只給一個標注樣本,擴散模型也能做醫(yī)學圖像分割?深圳大學提出 SD-FSMIS

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說