日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

導(dǎo)語:對(duì)于超聲這類高度依賴專業(yè)知識(shí)和細(xì)粒度屬性判斷的醫(yī)學(xué)影像任務(wù),將領(lǐng)域知識(shí)、診斷結(jié)構(gòu)和語義關(guān)系顯式融入預(yù)訓(xùn)練過程,是提升模型臨床理解能力的重要方向。

來源:公眾號(hào)“GEM Group”

原文鏈接https://mp.weixin.qq.com/s/F8NXE_UPXfEsz_lCY4qNAQ?scene=1&click_id=184


IMCL實(shí)驗(yàn)室文獻(xiàn)分享會(huì)

在本期 Journal Club 中,黃強(qiáng)同學(xué)分享了 CVPR 2026 論文 Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding。該工作面向超聲圖像-文本理解任務(wù),提出了一種語義感知的對(duì)比預(yù)訓(xùn)練框架,嘗試將超聲診斷知識(shí)和結(jié)構(gòu)化醫(yī)學(xué)語義引入視覺-語言模型訓(xùn)練中。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告
文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

Part.1

研究背景

近年來,CLIP 及其醫(yī)學(xué)版本已經(jīng)在圖像-文本理解任務(wù)中取得了較好的效果。然而,直接將通用 CLIP 或泛醫(yī)學(xué) CLIP 應(yīng)用于超聲圖像理解,仍然面臨明顯挑戰(zhàn)。

首先是 數(shù)據(jù)缺口?,F(xiàn)有醫(yī)學(xué)跨模態(tài)數(shù)據(jù)集大多集中在 CT、MRI、病理圖像或通用放射影像,超聲圖像在其中占比很低。雖然超聲在臨床中使用非常廣泛,但在醫(yī)學(xué)視覺-語言預(yù)訓(xùn)練中,超聲圖文數(shù)據(jù)仍然相對(duì)不足。

其次是 語義歧義。自然圖像中的文本描述通常較為直觀,例如 “a dog” 或 “a car”。但超聲報(bào)告往往包含大量專業(yè)醫(yī)學(xué)屬性,例如“低回聲結(jié)節(jié)”“邊界清楚”“后方回聲增強(qiáng)”“少量周邊血流”等。同一個(gè)病灶可能存在多種表達(dá)方式,不同樣本之間也可能共享部分醫(yī)學(xué)語義。

傳統(tǒng) CLIP 通常將一對(duì)圖文視為正樣本,將 batch 中其他樣本全部視為負(fù)樣本。但在超聲場(chǎng)景下,這種二值化正負(fù)樣本劃分過于粗糙。兩個(gè)樣本雖然不是同一個(gè)病例,卻可能在器官、病灶形態(tài)或回聲特征上高度相似。

第三是 結(jié)構(gòu)先驗(yàn)缺失。醫(yī)生進(jìn)行超聲診斷時(shí),并不是孤立地看某個(gè)關(guān)鍵詞,而是綜合器官位置、病灶形態(tài)、邊界、回聲、血流等多個(gè)屬性進(jìn)行判斷。標(biāo)準(zhǔn) CLIP 只是把文本編碼成一個(gè)整體向量,并沒有顯式建模“診斷—屬性”之間的臨床關(guān)系。

因此,論文認(rèn)為:要讓模型真正理解超聲圖文關(guān)系,僅僅進(jìn)行圖像和文本的表層匹配是不夠的,還需要引入超聲領(lǐng)域知識(shí)和結(jié)構(gòu)化診斷語義


Part.2

研究方法

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

論文首先提出了一個(gè)超聲診斷知識(shí)框架 UDT(Ultrasonographic Diagnostic Taxonomy)。UDT 可以理解為一個(gè)面向超聲診斷的結(jié)構(gòu)化知識(shí)框架,由兩個(gè)部分組成:UHAT 和 UDAF。

UHAT(Ultrasonographic Hierarchical Anatomical Taxonomy) 用于統(tǒng)一超聲解剖結(jié)構(gòu)層級(jí)。論文將超聲數(shù)據(jù)組織到 9 大身體系統(tǒng)和 52 個(gè)器官中,形成從身體系統(tǒng)到器官的層級(jí)結(jié)構(gòu),從而減少不同數(shù)據(jù)源之間解剖標(biāo)簽不一致的問題。

UDAF(Ultrasonographic Diagnostic Attribute Framework) 則用于拆解超聲報(bào)告中的診斷屬性。作者將超聲報(bào)告整理為 9 個(gè)診斷維度,包括身體系統(tǒng)、器官、診斷、形狀、邊界、回聲、內(nèi)部特征、后方聲學(xué)現(xiàn)象和血流信號(hào)。

例如,一個(gè)病灶可以被描述為:某個(gè)器官上的低回聲病灶,邊界清楚,后方回聲增強(qiáng),并伴有少量周邊血流。這些屬性并不是孤立信息,而是共同構(gòu)成臨床診斷依據(jù)。

因此,UDT 的核心作用是:將原本自由文本形式的超聲報(bào)告,轉(zhuǎn)化為結(jié)構(gòu)化、可學(xué)習(xí)的醫(yī)學(xué)語義標(biāo)簽。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

例如,樣本 A 和 B 可能都屬于低回聲結(jié)節(jié),但來自不同器官;樣本 A 和 C 可能來自同一器官,但病灶不同;樣本 A 和 D 可能完全不同。傳統(tǒng) CLIP 會(huì)把 B、C、D 都視為 A 的負(fù)樣本,但 Ultrasound-CLIP 會(huì)根據(jù)它們?cè)谠\斷屬性上的相似程度,給予不同的語義相似度。

這樣,模型不再簡(jiǎn)單地認(rèn)為非配對(duì)樣本都是完全負(fù)樣本,而是能夠?qū)W習(xí)“部分相似”和“完全不相似”之間的差別。

第二個(gè)設(shè)計(jì)是 異質(zhì)圖編碼器。作者將每個(gè)樣本的 UDAF 標(biāo)簽組織成一個(gè) lesion-attribute graph。圖中包括診斷節(jié)點(diǎn)和屬性節(jié)點(diǎn),并在診斷節(jié)點(diǎn)與屬性節(jié)點(diǎn)之間建立連接。

例如,一個(gè)樣本可能包含 diagnosis、organ、shape、margin、echogenicity、posterior acoustic phenomenon 和 vascularity 等標(biāo)簽。普通文本編碼器會(huì)將這些標(biāo)簽當(dāng)作一段文本處理,而 Ultrasound-CLIP 將這些標(biāo)簽組織成圖結(jié)構(gòu),再通過異質(zhì)圖神經(jīng)網(wǎng)絡(luò)建模診斷屬性之間的關(guān)系。

隨后,圖表示通過 cross-attention 融入文本 embedding 中,使文本編碼器不只是理解一句話,而是理解一個(gè)帶有醫(yī)學(xué)結(jié)構(gòu)關(guān)系的診斷圖譜。

在訓(xùn)練目標(biāo)上,Ultrasound-CLIP 同時(shí)使用標(biāo)準(zhǔn) CLIP 損失和語義損失。標(biāo)準(zhǔn) CLIP 損失負(fù)責(zé)基礎(chǔ)的圖像-文本對(duì)齊;語義損失則讓模型預(yù)測(cè)的圖文相似度矩陣接近 UDAF 構(gòu)建的語義先驗(yàn)矩陣。

也就是說,模型不僅要學(xué)會(huì)哪張圖對(duì)應(yīng)哪段文本,還要學(xué)會(huì)哪些樣本在超聲診斷語義上更加相似。

Part.3

實(shí)驗(yàn)結(jié)果

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

實(shí)驗(yàn)部分主要驗(yàn)證三個(gè)問題:第一,Ultrasound-CLIP 是否優(yōu)于現(xiàn)有 CLIP 和醫(yī)學(xué) CLIP 模型;第二,語義軟標(biāo)簽和異質(zhì)圖編碼器是否有效;第三,預(yù)訓(xùn)練得到的表示是否能夠遷移到下游超聲任務(wù)。

在 US-365K 上,作者首先進(jìn)行了多任務(wù)分類實(shí)驗(yàn)。分類任務(wù)對(duì)應(yīng) UDAF 的 9 個(gè)診斷維度,包括身體系統(tǒng)、器官、診斷、形狀、邊界、回聲、內(nèi)部特征、后方聲學(xué)現(xiàn)象和血流信號(hào)。

結(jié)果顯示,Ultrasound-CLIP 的平均分類準(zhǔn)確率達(dá)到 59.61%。在關(guān)鍵臨床屬性上,例如病灶邊界和診斷類別,準(zhǔn)確率分別達(dá)到 84.44% 和 64.05%。這說明模型不只是學(xué)習(xí)到了粗粒度類別,而是在細(xì)粒度超聲診斷屬性上也具有較好的識(shí)別能力。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

在圖文檢索任務(wù)中,Ultrasound-CLIP 在 Image-to-Text 和 Text-to-Image 兩個(gè)方向上均優(yōu)于通用 CLIP 和醫(yī)學(xué) CLIP 基線,說明模型學(xué)習(xí)到了更有效的超聲圖文共享表示空間。

消融實(shí)驗(yàn)進(jìn)一步證明了兩個(gè)核心模塊的作用。去掉語義損失或去掉圖編碼器后,模型性能都會(huì)下降;完整模型效果最好。這說明語義軟標(biāo)簽和異質(zhì)圖編碼器是互補(bǔ)的:前者緩解了傳統(tǒng) CLIP 的硬負(fù)樣本問題,后者增強(qiáng)了模型對(duì)診斷屬性關(guān)系的建模能力。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

此外,作者還在多個(gè)公開下游超聲數(shù)據(jù)集上進(jìn)行了 zero-shot、linear probe 和 full fine-tuning 測(cè)試。結(jié)果表明,Ultrasound-CLIP 在不同設(shè)置下均具有較好的遷移能力,說明在 US-365K 上學(xué)到的表示可以泛化到其他超聲臨床場(chǎng)景。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告


論文還通過可視化分析展示了異質(zhì)圖編碼器的作用。在沒有 graph encoder 時(shí),不同診斷類別的文本 embedding 混雜在一起;加入 UDAF-guided graph encoder 后,不同類別的聚類更加清晰。這說明圖編碼器可以幫助模型減少細(xì)粒度臨床概念之間的歧義,使表示空間更具判別性。

文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

在 case study 中,模型不僅能夠預(yù)測(cè)診斷類別,還可以圍繞器官、形狀、邊界、內(nèi)部特征、血流信號(hào)等多個(gè)維度給出判斷。這種多屬性聯(lián)合判斷方式更接近真實(shí)臨床診斷邏輯,因?yàn)獒t(yī)生并不是只判斷“是什么病”,而是綜合病灶位置、形態(tài)、邊界、回聲和血流等信息進(jìn)行分析。

總結(jié)

總體來看,Ultrasound-CLIP 的貢獻(xiàn)主要體現(xiàn)在三個(gè)方面。首先,作者構(gòu)建了面向超聲領(lǐng)域的大規(guī)模圖文數(shù)據(jù)集 US-365K,彌補(bǔ)了超聲數(shù)據(jù)在醫(yī)學(xué)視覺-語言預(yù)訓(xùn)練中的不足。其次,論文提出 UDT 超聲診斷知識(shí)框架,將超聲報(bào)告拆解為身體系統(tǒng)、器官、診斷、形狀、邊界、回聲、內(nèi)部特征、后方聲學(xué)現(xiàn)象和血流信號(hào)等結(jié)構(gòu)化屬性。最后,作者在 CLIP 框架中引入語義軟標(biāo)簽和異質(zhì)圖編碼器,使模型不僅學(xué)習(xí)圖像與文本的匹配關(guān)系,也能建模樣本之間的醫(yī)學(xué)語義相似性和診斷屬性之間的結(jié)構(gòu)關(guān)系。

這項(xiàng)工作說明,在醫(yī)學(xué)多模態(tài)建模中,僅依賴通用圖文匹配并不足夠。對(duì)于超聲這類高度依賴專業(yè)知識(shí)和細(xì)粒度屬性判斷的醫(yī)學(xué)影像任務(wù),將領(lǐng)域知識(shí)、診斷結(jié)構(gòu)和語義關(guān)系顯式融入預(yù)訓(xùn)練過程,是提升模型臨床理解能力的重要方向。當(dāng)然,該方法仍需在更多真實(shí)臨床場(chǎng)景、多中心數(shù)據(jù)和不同設(shè)備條件下進(jìn)一步驗(yàn)證其泛化能力與可靠性。



文獻(xiàn)分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報(bào)告

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說