Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代碼開源]

【論文概述】
本文思路借鑒于自然圖像分割領(lǐng)域的SAM,介紹了一種名為SegVol的先進醫(yī)學圖像分割模型,旨在構(gòu)建一種圖像分割基礎(chǔ)模型,這是一個面向體積醫(yī)學圖像分割的通用和交互式模型。SegVol的設(shè)計目的是通過處理各種解剖類別來提高醫(yī)學圖像分割的準確性和效率。該模型通過在9萬個未標記的計算機斷層掃描(CT)體積和6千個標記的CT體積上進行訓練,能夠支持超過200個解剖類別的分割,模型利用語義和空間prompts來實現(xiàn)。SegVol通過使用輕量級架構(gòu)實現(xiàn)高效率,采用**“縮小-放大”機制減少計算成本**,同時能保持精確的分割。通過一系列實驗,SegVol在多個分割基準測試中展現(xiàn)出卓越性能,尤其在復雜病變數(shù)據(jù)集上的表現(xiàn)顯著超過現(xiàn)有先進模型如nnU-Net。
【一.Introduction總結(jié)】
這篇論文的Introduction寫得很好,提供了對SegVol模型背景、動機、特點和性能的全面概覽,這里特別總結(jié)如下:
- 體積醫(yī)學圖像分割的重要性:論文首先強調(diào)體積圖像分割在醫(yī)學圖像分析中的重要作用,特別是在提取感興趣區(qū)域(如器官、病變和組織)方面。體積分割對于多種臨床應用至關(guān)重要,包括腫瘤監(jiān)測、手術(shù)規(guī)劃、疾病診斷和治療優(yōu)化等。
- 現(xiàn)有研究的局限性:盡管在醫(yī)學圖像分割方面取得了顯著進展,但現(xiàn)有的解決方案仍存在關(guān)鍵限制,特別是在處理復雜任務(如肝臟腫瘤或結(jié)腸癌分割)和實際任務(如交互式分割)方面?,F(xiàn)有模型通常受到可用數(shù)據(jù)集大小和類別差異性的限制,難以泛化到不同的數(shù)據(jù)集。此外,傳統(tǒng)模型在分割復雜結(jié)構(gòu)(如腫瘤和囊腫)時性能不佳,主要是因為數(shù)據(jù)不足和無法通過用戶交互利用空間信息。最后,現(xiàn)有解決方案在推理過程中計算成本高,通常采用滑動窗口方法進行推理,這不僅耗時,而且由于僅包含局部信息而視野狹窄。
- SegVol模型的介紹:為了克服上述限制,論文引出了SegVol——一種通用且交互式的體積醫(yī)學圖像分割模型。SegVol旨在分割200多種解剖類別,準確分割器官、組織和病變。該模型基于輕量級架構(gòu)構(gòu)建,確保其在實際醫(yī)學圖像分析中的高效性。
-
SegVol的關(guān)鍵特性:論文概述了SegVol的幾個關(guān)鍵特點:
- 預訓練:在96k CT體積上進行預訓練,并利用偽標簽減少數(shù)據(jù)集和分割類別之間的虛假相關(guān)性。
- 文本提示分割:集成語言模型,通過在25個數(shù)據(jù)集的200多個解剖類別上的訓練,實現(xiàn)文本提示分割。
- 語義和空間提示的協(xié)同策略:通過協(xié)調(diào)語義提示和空間提示,實現(xiàn)高精度分割。
- 縮小-放大機制:顯著降低計算成本,同時保留精確分割。
- 性能評估:SegVol在多個分割數(shù)據(jù)集上進行了廣泛評估,主要涉及重要解剖類別的實驗,展示了其通用分割能力,并與四種最先進方法進行了比較,顯示出其顯著優(yōu)勢,特別是在難分割的類別中。
【二.數(shù)據(jù)處理】
數(shù)據(jù)預處理
本文收集了25個開源數(shù)據(jù)集,首先基于每個Voxels的平均體素值計算一個閾值。高于此閾值的體素被視為前景。計算前景體素的99.95百分位和0.05百分位,并將其作為剪切原始體素的上下界,進一步使用均值和標準偏差對前景體素進行歸一化。
偽掩模生成和去噪
大多數(shù)數(shù)據(jù)集僅具有少數(shù)分割目標的注釋,例如幾個器官。因此,深度模型可能會學習數(shù)據(jù)集和分割目標之間的虛假相關(guān)性,并在推理階段產(chǎn)生較差的結(jié)果。論文使用經(jīng)典FH算法先產(chǎn)生偽mask,但由于FH產(chǎn)生的偽mask可能含有噪聲或者錯誤,本文采取以下策略進一步處理:1)在應用時,偽掩碼被替換為ground-truth掩碼。2)過濾掉小于整個體積的1‰的微小結(jié)構(gòu)。3)對每個mask進行膨脹和腐蝕操作。
論文中用于預處理的FH分割算法,這里補充概述一下:“FH algorithm”指的是Felzenszwalb和Huttenlocher提出的圖像分割算法。這種算法是一種用于分割數(shù)字圖像的高效且有效的方法。其核心思想是將圖像視為一個圖(graph),其中像素代表節(jié)點,而節(jié)點之間的邊代表像素之間的相似度。算法的目的是將圖像分割成多個區(qū)域,這些區(qū)域內(nèi)部的像素在某種意義上是相似的,而不同區(qū)域的像素則具有較大差異。
FH算法的主要特點包括:
1.基于圖的表示:算法將圖像表示為圖,其中圖中的每個節(jié)點對應一個像素,節(jié)點之間的邊表示像素間的相似性。
2.分段準則:算法使用特定的準則來決定是否將圖中的兩個相鄰節(jié)點(即兩個像素)劃分到同一個分割區(qū)域。這通常涉及比較節(jié)點間的相似性(如顏色、亮度或紋理)和預設(shè)的閾值。
3.效率:該算法以其計算效率而聞名,能夠快速處理大型圖像,使其適合于各種應用。
4.靈活性和廣泛適用性:盡管該算法最初是為一般圖像分割設(shè)計的,但它可以通過調(diào)整參數(shù)適應不同類型的圖像和特定的分割需求。
在醫(yī)學圖像處理領(lǐng)域,這種類型的算法可能被用于生成偽標簽或輔助標記,從而幫助訓練更復雜的模型(如SegVol),尤其是在標記數(shù)據(jù)稀缺的情況下。通過使用這些偽標簽,可以增強模型對未標記數(shù)據(jù)的理解,從而提高其在實際醫(yī)學應用中的性能和準確性。
【三.模型結(jié)構(gòu)】
模型結(jié)構(gòu)圖:
a. SegVol的主要結(jié)構(gòu)包括圖像編碼器、文本編碼器、提示編碼器和mask解碼器。除了文本編碼器外,所有網(wǎng)絡都是可學習的。圖像編碼器提取體積輸入的圖像嵌入。圖像嵌入與提示嵌入一起輸入到解碼器中,以預測分割mask
具體組成的各部分概述如下:
- Image encoder
使用VIT,以MAE方式先在96k CTs上自監(jiān)督訓練,然后在6k CT,帶有150k標記mask的數(shù)據(jù)上監(jiān)督訓練。(p.s 這一步就耗費很大了)
-
Text prompt encoder
直接使用CLIP模型對輸入的prompts編碼,給定一個單詞或短語作為提示,使用模板s ='A computerized tomography of a [text prompt]'撰寫prompts。然后將 s s s標記化為 t t t。文本編碼器接受 t t t作為輸入并輸出文本嵌入。(p.s直接上多模態(tài)模型)
-
Spatial prompt encoder
借鑒SAM,使用了point prompts,box prompts,分別編碼為embedding,然后和上一步的文本prompts embeddings 拼接: z prompt? = F P E ( p , b , s , θ P E ) = [ z point? , z box? , z text? ] . \boldsymbol{z}_{\text {prompt }}=\mathcal{F}_{\mathrm{PE}}\left(\boldsymbol{p}, \boldsymbol, \boldsymbol{s}, \boldsymbol{\theta}_{\mathrm{PE}}\right)=\left[\boldsymbol{z}_{\text {point }}, \boldsymbol{z}_{\text {box }}, \boldsymbol{z}_{\text {text }}\right] . zprompt??=FPE?(p,b,s,θPE?)=[zpoint??,zbox??,ztext??].
-
Mask decoder
解碼器設(shè)計稍微比常規(guī)的多了一些:使用自注意力和交叉注意力在兩個方向上融合圖像嵌入和提示嵌入,然后采用轉(zhuǎn)置卷積和插值操作來生成mask。由于文本嵌入是實現(xiàn)通用分割的關(guān)鍵,并且學習文本與體積區(qū)域之間的關(guān)聯(lián)也更為困難,通過在聯(lián)合提示嵌入 z prompt? \boldsymbol{z}_{\text {prompt }} zprompt??旁引入一個平行的文本輸入 z text? \boldsymbol{z}_{\text {text }} ztext??來增強文本信息。進一步在mask解碼器中計算轉(zhuǎn)置卷積輸出的上采樣嵌入與文本嵌入之間的相似度矩陣。在插值之前,將相似度矩陣與mask預測的逐元素乘法應用于模型,之后模型輸出mask。
【四.訓練方法】
-
Prompt generation
模型支持point、box、text prompts及他們的混合prompts。
b. 輸入圖像轉(zhuǎn)換和提示生成的示意圖。 -
點提示(Point Prompt):
- 點提示由三種類型的點構(gòu)成:正點(positive point)、負點(negative point)和忽略點(ignore point)。
- 正點位于目標遮罩區(qū)域內(nèi),表明這些點屬于感興趣的解剖結(jié)構(gòu)。
- 負點位于目標遮罩區(qū)域外,表明這些點不屬于感興趣的結(jié)構(gòu)。
- 忽略點用于輸入的完整性,這些點會被模型忽略,確保點提示的長度一致。
- 點提示是基于真實或偽標注的遮罩(由專業(yè)標注或如FH算法產(chǎn)生的偽標注)構(gòu)建的。
-
框提示(Box Prompt):
- 框提示也是基于真實或偽遮罩生成的,但結(jié)合隨機抖動,以提高模型的魯棒性。
- 在為某個偽遮罩生成框提示時,由于不規(guī)則的3D形狀,框可能會覆蓋其他遮罩。
- 為解決這個問題,計算生成的框與包含的偽遮罩之間的交集比(Intersection over Union, IOU)。
- 如果任何遮罩的IOU大于0.9,它也會被集成并視為該框提示對應的目標遮罩的一部分。
-
小結(jié):
- 點提示和框提示可以通過基于真實分割遮罩的點采樣來生成。
- 文本提示是基于它們的類別名稱構(gòu)建的。
- 由于非監(jiān)督的FH算法產(chǎn)生的偽遮罩沒有語義信息,因此在使用偽遮罩進行訓練時,只使用點提示和框提示。
-
點提示(Point Prompt):
-
損失函數(shù)
binary cross-entropy (BCE) loss 和 Dice loss
【五.Zoom-out-zoom-in Mechanism】
這是本文的主要創(chuàng)新點之一,這里稍微詳細一點記錄一下
-
設(shè)計動機
zoom-out-zoom-in機制的設(shè)計動機源于處理體積醫(yī)學圖像分割時面臨的幾個關(guān)鍵挑戰(zhàn):
- 高計算成本:體積醫(yī)學圖像(如CT或MRI掃描)通常包含大量的體素(三維像素),這導致分割這些圖像在計算上非常昂貴。傳統(tǒng)的分割方法,如滑動窗口技術(shù),雖然可以降低計算負荷,但仍然耗時且效率不高。
- 保持細節(jié)信息:在降低圖像分辨率以減少計算負擔的同時,有必要保持足夠的細節(jié)信息,以確保分割的準確性。特別是對于較小的或邊緣不清的結(jié)構(gòu),如小腫瘤或細小的解剖結(jié)構(gòu),保持細節(jié)尤為重要。
- 全局和局部信息的平衡:有效的醫(yī)學圖像分割需要同時考慮全局結(jié)構(gòu)(整個器官或身體部位)和局部細節(jié)(特定病變或特定解剖特征)。傳統(tǒng)方法在處理這兩方面信息時往往存在權(quán)衡。
基于這些挑戰(zhàn),Zoom-out-zoom-in機制被設(shè)計出來,其目標是:
- 提高效率:通過首先在較低分辨率(縮小視圖)處理整個圖像,快速確定感興趣區(qū)域(ROI),從而減少在高分辨率(放大視圖)下需要處理的數(shù)據(jù)量。
- 保持精確性:在確定了ROI之后,只對這些區(qū)域進行高分辨率處理,確保關(guān)鍵細節(jié)的準確性和完整性。
- 全局與局部的協(xié)調(diào):通過結(jié)合全局視圖(提供上下文信息和整體結(jié)構(gòu))和局部視圖(提供細節(jié)信息),Zoom-out-zoom-in機制在提高效率的同時保持了分割的準確性和細節(jié)豐富度。
因此,Zoom-out-zoom-in機制是對現(xiàn)有體積醫(yī)學圖像分割方法的一種重要改進,它使得處理大規(guī)模醫(yī)學圖像數(shù)據(jù)集變得既高效又準確。
-
Multi-view training
為了適應不同大小的體數(shù)據(jù),并使放大縮小推理,構(gòu)造了兩種訓練數(shù)據(jù)。一種是對大尺寸CT進行縮放以適應模型的輸入尺寸,并獲得縮小視圖的訓練數(shù)據(jù);另一種方法是將原始的大尺寸CT裁剪成模型輸入尺寸的立方體。通過這種方式,獲得了放大視圖的訓練數(shù)據(jù)。該過程如圖C所示。

-
Zoom-out-zoom-in Inference
d. 縮小-放大推理:SegVol首先進行全局推理,然后對提取的感興趣區(qū)域(ROI)進行局部推理,以優(yōu)化結(jié)果。
步驟總結(jié)如下:
-
Zoom-out和全局推理:
- 首先,對大型體積圖像進行縮小處理,即降低其分辨率以便于處理。
- 縮小后的圖像被輸入到SegVol模型中進行全局推理。
- 在全局推理階段,模型基于用戶提供的提示(如文本提示、點提示或框提示)生成全局預測的分割遮罩。
-
定位感興趣區(qū)域(ROI)并Zoom-in:
- 根據(jù)全局預測結(jié)果,確定感興趣的區(qū)域(ROI)。
- 對這些區(qū)域進行放大處理,即從原始尺寸的圖像中裁剪出這些區(qū)域。
-
應用滑動窗口進行局部推理:
- 在放大的ROI上應用滑動窗口技術(shù),以執(zhí)行更精確的局部推理。
- 為了適應局部推理,對輸入的提示進行調(diào)整。當放大時,原始的點提示和框提示可能不再適用于局部區(qū)域,因此會忽略位于局部區(qū)域外的正點或負點。
-
生成局部框提示:
- 類似于訓練中的框提示生成,局部框提示是基于全局預測遮罩在局部區(qū)域內(nèi)視為偽遮罩來生成的。
-
填充并輸出最終結(jié)果:
- 最后,將局部推理得到的分割遮罩填充到全局分割遮罩的相應ROI區(qū)域中。
- 這樣,Zoom-out-zoom-in機制同時實現(xiàn)了高效和精確的推理。
總體來說,這一機制通過首先進行快速的全局分析,然后對關(guān)鍵區(qū)域進行更詳細的局部分析,有效地平衡了處理速度和分割精度。
-
【六.數(shù)據(jù)集】
這里就貼圖了,不做太多解釋。從醫(yī)學開源數(shù)據(jù)集中收集了25個CT圖像分割數(shù)據(jù)集,形成了一個綜合數(shù)據(jù)集,涵蓋了CT圖像分割中的各種熱點問題。收集的綜合數(shù)據(jù)集包括四個主要人體區(qū)域:頭頸部、胸部、腹部和骨盆,包含47個重要區(qū)域中的200多個器官、組織和病變類型。共有5772個CT參與了該綜合數(shù)據(jù)集的訓練和測試,總共有149199個帶有語義的體積mask標簽。第二個圖展示了來自四個主要人體區(qū)域的綜合數(shù)據(jù)集樣本,以2D切片形式呈現(xiàn)。為了增強SegVol的空間分割能力,執(zhí)行了FH算法以生成510k個偽體積mask標簽,用于填補這些實例中未標注的區(qū)域。此外,為了構(gòu)建通用的體積醫(yī)學圖像特征提取器,收集了90k個未標注的開源CT進行預訓練。這些數(shù)據(jù)和標注構(gòu)成了SegVol的基礎(chǔ)。
聯(lián)合數(shù)據(jù)集的概述和示例。A.聯(lián)合數(shù)據(jù)集概述。聯(lián)合數(shù)據(jù)集包括47個重要區(qū)域,每個區(qū)域包含該空間區(qū)域內(nèi)的一個或多個重要解剖結(jié)構(gòu)。B.關(guān)節(jié)數(shù)據(jù)集的主要類別:其掩碼標簽數(shù)量排名前30位,以及人體四個主要部位的掩碼標簽計數(shù)在關(guān)節(jié)數(shù)據(jù)集中所占的比例。C.從關(guān)節(jié)數(shù)據(jù)集中采樣的15個不同類別的器官、組織和病變的示例,以切片視圖呈現(xiàn)。
【七.性能】




box prompts比point更加有效,組合的比單一的有效,增加Zoom操作漲點文章來源:http://www.zghlxwxcb.cn/news/detail-794258.html

多模態(tài)大模型的共性,數(shù)據(jù)量增長,性能也在持續(xù)增長文章來源地址http://www.zghlxwxcb.cn/news/detail-794258.html
到了這里,關(guān)于【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!