国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[CVPR2022] 用于 3D 醫(yī)學圖像分析的 Swin Transformers 的自監(jiān)督預訓練

這篇具有很好參考價值的文章主要介紹了[CVPR2022] 用于 3D 醫(yī)學圖像分析的 Swin Transformers 的自監(jiān)督預訓練。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

摘要

  1. Vision Transformer(ViT)在全局和局部表示的自監(jiān)督學習方面表現(xiàn)出了出色的性能,這些表示它可以轉(zhuǎn)移到下游任務的應用中。

  2. 提出模型:提出一種新的自監(jiān)督學習框架Swin UNETR,它具有定制的代理任務,用于醫(yī)學圖像分析。

  3. 模型介紹:

    (1)一種新的基于3D變壓器的模型,稱為Swin UNEt Transformer (Swin UNETR),具有用于自我監(jiān)督前訓練的分層編碼器;

    (2)為學習人體解剖學的基本模式定制代理任務。

  4. 取得成績:

    (1)在來自各種身體器官的5050個公開的計算機斷層掃描(CT)圖像上成功地演示了所提出的模型的預訓練。

    (2)通過使用13個腹部器官和來自醫(yī)學分割十項athlon (MSD)數(shù)據(jù)集的分割任務對預訓練的模型進行微調(diào),驗證了方法的有效性。

    (3)模型目前在MSD1和BTCV 2數(shù)據(jù)集的公共測試排行榜上是最先進的。

引言

背景:
  1. Vision Transformer(ViT)的在計算機視覺和醫(yī)學圖像分析中開創(chuàng)了一種革命性的趨勢。Transformer在學習文本前任務方面表現(xiàn)出非凡的能力,在跨層學習全局和局部信息方面非常有效,并提供大規(guī)模訓練的可擴展性。與接受域有限的卷積神經(jīng)網(wǎng)絡(CNN)不同,ViT對來自一系列補丁的視覺表示進行編碼,并利用自注意塊來建模遠程全局信息。

  2. 最近,移位窗口(Swin)變壓器提出了一個層次化的ViT,允許本地計算自注意與重疊的窗口。相對于ViT中自注意層的二次復雜度,該體系結(jié)構(gòu)實現(xiàn)了線性復雜度,從而提高了ViT的效率。此外,由于Swin transformer的層次性,它們非常適合于需要多尺度建模的任務。

  3. 與基于CNN的模型相比,基于Transformer的模型在預訓練期間學習更強的特征表示,因此在下游任務的微調(diào)上表現(xiàn)良好。最近在ViT方面的一些努力通過在ImageNet等大規(guī)模數(shù)據(jù)集上進行自監(jiān)督的預訓練,取得了最新的結(jié)果。

  4. 醫(yī)學圖像分析還沒有從通用計算機視覺的這些進步中受益,這是因為:

    (1)自然圖像和醫(yī)學成像模式之間的巨大領域差距,如計算機斷層掃描(CT)和磁共振成像(MRI);

    (2)應用于體積(3D)圖像(如CT或MRI)時,缺乏跨平面上下文信息。后者是二維Transformer模型的一個限制,用于各種醫(yī)學成像任務,如分割。

    之前的研究已經(jīng)證明了醫(yī)學成像中有監(jiān)督的預培訓對不同應用的有效性。但是大規(guī)模創(chuàng)建專家注釋的3D醫(yī)療數(shù)據(jù)集是一項重要且耗時的工作。

提出模型:

提出了一種新的自監(jiān)督學習框架用于三維醫(yī)學圖像分析。

  1. 首先,提出了一種名為Swin UNEt Transformer (Swin UNETR)的新架構(gòu),該架構(gòu)帶有Swin Transformer編碼器,直接利用3D輸入補丁。

  2. 隨后,利用各種代理任務,如圖像嵌入、3D旋轉(zhuǎn)預測和對比學習(如下圖是培訓前框架概述,輸入CT圖像被隨機裁剪成子卷,并通過隨機的內(nèi)部切割和旋轉(zhuǎn)增強,然后輸入到Swin UNETR編碼器中作為輸入。我們使用掩蔽體積嵌入、對比學習和旋轉(zhuǎn)預測作為代理任務來學習輸入圖像的上下文表示),使用定制的自監(jiān)督任務對Transformer編碼器進行預訓練。

  3. msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

    具體來說,由于人體所描繪的解剖結(jié)構(gòu),人體在CT等放射圖像中呈現(xiàn)自然一致的上下文信息。因此,代理任務被用來學習人體解剖學的基本模式。為此,本文從不同的身體組成(如頭、頸、肺、腹和骨盆)提取了大量的補丁查詢,以從各種解剖環(huán)境、器官、組織和形狀中學習健壯的特征表示。

  4. 本文的框架使用對比學習,掩蔽體積嵌入和3D旋轉(zhuǎn)預測作為訓練前代理任務。對比學習用于區(qū)分不同身體組成的各種ROIs,而嵌入學習允許學習紋理、結(jié)構(gòu)和掩蔽區(qū)域與周圍環(huán)境的對應關系。旋轉(zhuǎn)任務作為學習圖像結(jié)構(gòu)內(nèi)容的機制,生成各種子卷,可用于對比學習。本文利用這些代理任務對從各種公開數(shù)據(jù)集獲得的5050個CT圖像集合進行預訓練。

  5. 為了驗證預訓練的有效性,使用三維醫(yī)學圖像分割作為下游任務,并將其重新定義為一維序列到序列的預測任務。為此,我們利用Swin UNETR編碼器與分層特征編碼和移位窗口,以四種不同分辨率提取特征表示。然后將提取的表示連接到一個基于CNN的解碼器。在解碼器的末端附加分割頭,用于計算最終的分割輸出。使用預先訓練的權(quán)重對Swin UNETR進行微調(diào),這兩個公共基準分別是醫(yī)療分割十項全能(MSD)和顱外Vault (BTCV)。本文模型目前在各自的公開測試排行榜上是最先進的。

本文創(chuàng)新點:
  1. 設計了一種新的自監(jiān)督學習框架,該框架具有定制的代理任務,用于CT圖像數(shù)據(jù)集的預訓練。為此,本文提出了一種新的基于3DTransformer的架構(gòu),稱為Swin UNETR,由一個編碼器組成,該編碼器可以在多個分辨率下提取特征表示,并用于預訓練。
  2. 本文使用提出的編碼器和代理任務,對來自各種任務的5050個公開可用CT圖像進行了成功的預訓練。這產(chǎn)生了一個強大的預訓練模型,具有魯棒的特征表示,可用于各種醫(yī)學圖像分析下游任務。
  3. 通過對預先訓練的Swin UNETR在MSD和BTCV兩個公共基準上進行微調(diào),本文驗證了擬議框架的有效性,并在兩個數(shù)據(jù)集的測試排行榜上取得了最先進的成績。

相關工作

利用Transformer進行醫(yī)學圖像分割
  1. Vision Transformer首次用于分類任務是在自然語言處理中用于序列到序列的建模。從整個輸入序列中聚合信息的自注意機制首先獲得了相當?shù)男阅?,然后比先前的卷積體系結(jié)構(gòu)技術(shù)(如ResNet或U-Net)的性能更好。
  2. 最近,基于Transformer的網(wǎng)絡被提出用于醫(yī)學圖像分割。在這些開創(chuàng)性的工作中,Transformer塊要么被用作瓶頸特征編碼器,要么被用作卷積層之后的附加模塊,從而限制了Transformer的空間上下文優(yōu)勢的開發(fā)。與以往的工作使用Transformer作為輔助編碼器相比,本文提出利用Transformer來嵌入高維體積醫(yī)學圖像,這允許更直接的3D補丁編碼和位置嵌入。
  3. 大多數(shù)醫(yī)學圖像分析任務,如分割,都需要從多尺度特征進行密集推斷?;谔S式連接的體系結(jié)構(gòu),如UNet和金字塔網(wǎng)絡被廣泛采用,以利用層次結(jié)構(gòu)的特性。然而,單一補丁大小的Vision Transformer,雖然在自然圖像應用中成功,但在高分辨率和高維體積圖像中是難以處理的。為了避免計算自注意在尺度上的二次溢出,Swin Transformer被提出通過移動窗口機制構(gòu)造分層編碼。
  4. 最近的工作如Swin UNet和DS-TransUNet利用Swin Transformer的優(yōu)點進行二維分割,取得了良好的性能。在上述方法的基礎上,我們在更廣泛的醫(yī)學圖像分割場景中借鑒了三維解剖學,并結(jié)合了層次和體積的上下文。
醫(yī)學圖像分析的預訓練
  1. 在醫(yī)學圖像分析中,先前對標記數(shù)據(jù)進行預訓練的研究表明遷移學習可以提高性能。然而,為醫(yī)學圖像生成注釋是昂貴和耗時的。自監(jiān)督學習的最新進展提供了利用無標記數(shù)據(jù)的希望。
  2. 自監(jiān)督表示學習通過設計文本前任務來構(gòu)建特征嵌入空間,例如解決拼圖游戲。另一個常用的前文本任務是記憶醫(yī)學圖像的空間上下文,其動機是圖像恢復。這一思想被推廣到嵌入任務中,通過預測原始圖像補丁來學習視覺表示。類似的重構(gòu)空間上下文的努力被表述為解決魔方問題、隨機旋轉(zhuǎn)預測和對比編碼。
  3. 與這些努力不同的是,本文預訓練框架是通過組合的預文本任務進行模擬訓練的,為3D醫(yī)學成像數(shù)據(jù)量身定制,并利用基于Transformer的編碼器作為強大的特征提取器。

Swin UNETR

Swin UNETR包括一個Swin Transformer編碼器,該編碼器直接利用3D補丁,并通過不同分辨率的跳躍式連接連接到基于CNN的解碼器。

網(wǎng)絡架構(gòu)模型:

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

當給定一個輸入,首先將數(shù)據(jù)切割為多個小的體素塊,將每個體素塊進行兩次不同的數(shù)據(jù)增強后分別輸入到網(wǎng)絡編碼器中,計算自監(jiān)督損失。

三維分割網(wǎng)絡是 U-Net 結(jié)構(gòu),網(wǎng)絡的編碼器為 Swin Transformer,解碼器為卷積網(wǎng)絡。

編碼器部分首先是一個Patch Partition層來創(chuàng)建一個3D的token序列,通過線性嵌入層投影到C維空間中,為了對token交互進行有效建模,輸入卷劃分到不重疊的窗口中,并在每個區(qū)域內(nèi)計算局部自注意。編碼器使用patch大小為2x2x2,特征維度2x2x2x1=8(即單輸入通道CT圖像)和C=48維嵌入空間,編碼器的整體架構(gòu)由4級構(gòu)成,每一級包括兩個Transformer塊(L=8),在每個階段之間,使用一個Patch Merge層來降低兩倍的分辨率。

Swin UNETR的編碼器通過跳躍連接在每個分辨率上連接到基于CNN的解碼器,為下游任務(如分段)創(chuàng)建一個“U型”網(wǎng)絡。將每個階段提取的表示形式輸入到一個殘塊中,該殘塊由兩個后歸一化的3x3x3卷積層組成,實例歸一化。然后使用反卷積層對每個階段處理過的特征進行上采樣,并與前一階段處理過的特征進行連接。將連接的特征輸入到具有上述描述的殘塊中。

對于分割,將編碼器的輸出(即Swin Transformer)與經(jīng)過處理的輸入體積特征連接起來,并將它們輸入到一個殘塊中,然后是最后一個具有適當激活函數(shù)(即softmax)的1x1x1卷積層,以計算分割概率。

預訓練時在編碼器的輸出端鏈接了三個任務頭,微調(diào)時去掉三個任務頭,添加分割頭,微調(diào)全部網(wǎng)絡參數(shù)。

Inpainting 預測頭為一個卷積層;旋轉(zhuǎn)頭和對抗頭為 MLP 。

Inpainting 損失為 L1 損失;旋轉(zhuǎn)損失為交叉熵,對抗損失是InfoNce。

Inpainting 從二維擴展到了三維; 旋轉(zhuǎn)是沿 Z 軸旋轉(zhuǎn)。

三個損失組合成了混合損失來指導訓練,三個損失之間的權(quán)重均為 1。

編碼器

假設編碼器的輸入的子卷X屬于RHxWxDxS,一個patch的分辨率為()的數(shù)據(jù)維度為:H’x

W’xD’xS。

  1. Patch Partition層:創(chuàng)建一個3D令牌序列,大小為H/H’xW/W’xD/D’,通過線性嵌入層投影到C維空間中,為了對令牌交互進行有效建模,將輸入卷劃分到不重疊的窗口中,并在每個區(qū)域內(nèi)計算局部自注意。
  2. 具體來說,在第一層使用一個MxMxM大小的窗口,最終將一個3D令牌序列劃分成H’/MxW’/MxD’/M大小的窗口,在隨后的層中使用我們用(M/2,M/2,M/2)體素來移動分區(qū)的窗口。移位的開窗機構(gòu)如下圖所示:
    msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能
  3. l和l+1層的計算輸出公式如下:msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能
    其中W-MSA和SW-MSA分別表示規(guī)則分區(qū)和窗口分區(qū)的多頭自注意模塊,z^l是W-MSA和SW-MSA的輸出,LN和MLP分別表示層歸一化和多層感知器(見圖2)。采用了3D循環(huán)移位來進行移位窗口的高效批量計算:msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

? 其中Q、K、V分別表示查詢、鍵和值,d為查詢和鍵的大小。

  1. 編碼器使用patch大小為2x2x2,特征維度2x2x2x1=8(即單輸入通道CT圖像)和C=48維嵌入空間,此外,編碼器的整體架構(gòu)由4級構(gòu)成,每一級包括兩個Transformer塊(L=8),在每個階段之間,使用一個Patch Merge層來降低兩倍的分辨率,階段1是一個線性嵌入層和Transformer塊組成,維持令牌的數(shù)量為H/2xW/2xD/2,一個Patch Merge將分辨率為2x2x2的補丁分組,并將它們連接起來,形成一個4C維的特征嵌入。然后使用線性層通過將尺寸降低到2C來降低分辨率。相同的過程仍在第二階段,第三階段和第四階段中:H/4xW/4xD/4,H/8xW/8xD/8,H/16xW/16xD/16,編碼器在不同階段的層次表示用于下游任務,如多尺度特征提取的分割。
解碼器

Swin UNETR的編碼器通過跳躍式連接在每個分辨率上連接到基于CNN的解碼器,為下游任務(如分段)創(chuàng)建一個“U型”網(wǎng)絡。

具體來說,提取編碼器中每個階段i (i屬于0,1,2,3,4)以及瓶頸(i=5)的輸出序列表示形式,并將其重塑為大小為H /2ix W /2ix D/ 2i的特征。然后將每個階段提取的表示形式輸入到一個殘塊中,該殘塊由兩個后歸一化的3x3x3卷積層組成,實例歸一化。然后使用反卷積層對每個階段處理過的特征進行上采樣,并與前一階段處理過的特征進行連接。將連接的特征輸入到具有上述描述的殘塊中。對于分割,將編碼器的輸出(即Swin Transformer)與經(jīng)過處理的輸入體積特征連接起來,并將它們輸入到一個殘塊中,然后是最后一個具有適當激活函數(shù)(即softmax)的1x1x1卷積層,以計算分割概率(參見圖2所示的體系結(jié)構(gòu)細節(jié))。

預訓練

用多個代理任務對Swin UNETR編碼器進行了預訓練,并用多目標損耗函數(shù)對其進行了描述,自監(jiān)督表示學習的目標是對人體感興趣區(qū)域(ROI)感知信息進行編碼。受之前關于上下文重建和對比編碼的工作的啟發(fā),本文開發(fā)了三個代理任務用于醫(yī)學圖像表示學習。

在預訓練期間,另外三個投影頭附加到編碼器上。此外,下游任務,例如分割,微調(diào)完整的Swin UNETR模型,去掉投影頭。在訓練中,子體積是裁剪的隨機區(qū)域的體積數(shù)據(jù)。然后,隨機數(shù)據(jù)增強與隨機旋轉(zhuǎn)和切割應用于一個小批內(nèi)的每個子體積兩次,得到每個數(shù)據(jù)的兩個視圖。

Masked Volume Inpainting

Masked Volume Inpainting是由先前專注于2D圖像的工作所激發(fā)的。我們將其擴展到三維領域,以展示其在體醫(yī)學圖像表示學習中的有效性。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

圖像旋轉(zhuǎn)

為了簡單起見,采用沿z軸的0、90、180、270旋轉(zhuǎn)的R級。采用MLP分類頭來預測旋轉(zhuǎn)類別的最大概率。

旋轉(zhuǎn)預測任務使用交叉熵損失:

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

對比編碼

自監(jiān)督對比編碼在轉(zhuǎn)移到下游任務時,在視覺表征學習方面表現(xiàn)出很好的性能。在給定一批增強子卷的情況下,對比編碼通過最大化正對(來自同一子卷的增強樣本)之間的互信息,同時最小化負對(來自不同子卷的視圖)之間的互信息,允許更好的表示學習。對比編碼是通過在Swin UNETR編碼器上附加一個線性層來獲得的,該層將每個增強子體積映射到一個潛在表示v,使用余弦相似度作為定義的編碼表示的距離測量。形式上,對vi和vj之間的三維對比編碼損失定義為:

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

損失函數(shù)

通過使用掩蔽體嵌入、3D圖像旋轉(zhuǎn)和對比編碼的多個預訓練目標訓練Swin UNETR的編碼器來最小化總損耗函數(shù),如下所示:

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

通過網(wǎng)格搜索超參數(shù)優(yōu)化,得到了λ1=λ2=λ3=1的最優(yōu)值。

實驗

數(shù)據(jù)集
  1. 預訓練數(shù)據(jù)集:共有5個公共CT數(shù)據(jù)集,包含5050個受試者,用于構(gòu)建訓練前數(shù)據(jù)集。胸部、腹部和頭頸的3D體積分別為2018、1520和1223。收集資料和來源詳情載于補充材料。在預訓練階段,不會從這些數(shù)據(jù)集中利用現(xiàn)有的注釋或標簽。
  2. BTCV: BTCV (Beyond The Cranial V ault)腹部挑戰(zhàn)數(shù)據(jù)集包含30名患者CT掃描,13個器官在V anderbilt大學醫(yī)學中心放射科醫(yī)生的監(jiān)督下由翻譯人員注釋。每次門靜脈增強期CT掃描共80 ~ 225片,512 ~ 512像素,片厚1 ~ 6mm。多器官分割問題被表述為13類分割任務:Spl:脾,RKid:右腎,LKid:左腎,Gall:膽囊,Eso:食管,Liv:肝臟,Sto:胃,Aor:主動脈,IVC:下腔靜脈,V eins:門靜脈和脾靜脈,Pan:胰腺,AG:左、右腎上腺。
  3. MSD:醫(yī)療分割十項全能(MSD)數(shù)據(jù)集由來自不同器官和圖像模式的10個分割任務組成。這些任務設計的特點是跨越醫(yī)學圖像的困難,如小訓練集、不平衡類、多模態(tài)數(shù)據(jù)和小對象。因此,MSD挑戰(zhàn)可以作為評價醫(yī)學圖像分割方法可泛化性的綜合基準。
實現(xiàn)細節(jié)

對于訓練前的任務,(1)掩模體積嵌入:ROI下降率設置為30%;丟棄的區(qū)域是隨機生成的,它們的總和達到體素的總數(shù)量;(2)三維對比編碼:采用512特征尺寸作為嵌入尺寸;(3)旋轉(zhuǎn)預測:旋轉(zhuǎn)度可配置為0、90、180、270。使用AdamW優(yōu)化器和500次迭代的熱身余弦調(diào)度程序來訓練模型。

預訓練實驗使用每個GPU的批處理大小為4(使用96x96x96的補丁),初始學習率為4e-4,動量為0.9,衰減為1e-5。本文模型在PyTorch和MONAI中實現(xiàn)。五倍交叉驗證策略用于訓練所有BTCV和MSD實驗的模型。在每個折疊中選擇最好的模型,并集成它們的輸出進行最終的分割預測。

詳細的訓練超參數(shù)微調(diào)BTCV和MSD任務可以在補充材料中找到。所有模型都在NVIDIA DGX-1服務器上訓練。

評價指標

Dice系數(shù)和豪斯多夫距離95%

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

實驗結(jié)果

BTCV多器官分割挑戰(zhàn)

廣泛地比較了模型的基準和基線。公布的排行榜評價如表1所示。與其他提交的最佳作品相比,Swin UNETR的表現(xiàn)最好。得到了最先進的Dice為0.908,在13個器官上分別比排名第二、第三和第四的基線平均高出1.6%、2.0%和2.4%。對于較小的器官,可以特別觀察到明顯的改善,如脾和門靜脈的3.6%,比之前的先進方法,胰腺1.6%,腎上腺3.8%。其他器官也有中度改善。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

圖4中的代表性樣本表明Swin UNETR成功地識別了器官細節(jié)。本文方法檢測到胰腺尾部(第1行)和圖4門靜脈中的分支(第2行),其中其他方法在每個組織的分割部分。此外,我們的方法在腎上腺分割方面有明顯的改善(第3行)。
msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

MSD分割結(jié)果

每項任務的整體MSD結(jié)果和挑戰(zhàn)排行榜的排名如表2所示。該Swin UNETR在Task01腦瘤、Task06肺、Task07胰腺和Task10結(jié)腸中達到了最先進的性能。Task02心臟,Task03肝臟,Task04海馬,Task05前列腺,Task08肝血管和Task09脾臟的結(jié)果是相似的??偟膩碚f,Swin UNETR在所有10個任務中呈現(xiàn)了最佳的平均Dice(78.68%),并在MSD排行榜中排名第一。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

多個任務的詳細數(shù)量如表3所示。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

定性可視化可以在圖5中觀察到。Swin UNETR與自監(jiān)督預訓練在CT任務中顯示了更好的視覺分割結(jié)果。預先訓練的權(quán)重僅用于微調(diào)CT任務,包括肝臟、肺、胰腺、肝血管、脾臟和結(jié)腸。對于MRI任務:腦瘤,心臟,海馬,前列腺,由于CT和MRI圖像之間的領域差距,實驗從零開始訓練。由于篇幅所限,在補充材料中給出了剩余三個MRI任務的MSD測試基準。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

消融實驗

預訓練效果

所有使用預訓練模型的MSD CT任務與從零開始訓練的對比如圖6所示。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

Task03肝臟、骰子的改善明顯,分別為77.77%和75.27%。Task08肝V血管達到68.52%對64.63%。Task10 Colon的改進最大,從34.83%提高到43.38%。

Task07胰腺和Task09脾臟的改善率分別為67.12% ~ 67.82%和96.05% ~ 97.32%。

減少手工標記的工作量

圖7展示了使用BTCV數(shù)據(jù)集子集進行微調(diào)的比較結(jié)果。用了10%的有標記的數(shù)據(jù),訓練前權(quán)重的實驗與從零開始的訓練相比,獲得了大約10%的改進。在使用所有標記數(shù)據(jù)時,自監(jiān)督預訓練的平均Dice提高了1.3%。使用預訓練的Swin UNETR在60%的數(shù)據(jù)下可以實現(xiàn)整個數(shù)據(jù)集從頭學習的骰子數(shù)83.13。圖7表明,本文方法可以為BTCV任務減少至少40%的注釋工作量。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

預訓練數(shù)據(jù)集大小

對BTCV數(shù)據(jù)集進行器官方面的研究,使用預先訓練的較小的未標記數(shù)據(jù)的權(quán)重。在圖8中,預訓練100、3000和5000次掃描的微調(diào)結(jié)果。觀察到Swin UNETR相對于訓練的CT掃描總數(shù)是穩(wěn)健的。如圖8所示,提出的模型可以從更大的預訓練數(shù)據(jù)集中受益,且未標記數(shù)據(jù)的大小不斷增加。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

自監(jiān)督目標的效能

對不同自監(jiān)督目標組合的預培訓進行了實證研究。如表4所示,在BTCV測試集上,通過inpainting使用預訓練的權(quán)值在單個任務建模中取得了最高的改進。

在配對任務中,inpainting和contrast learning的Dice為84.45%,Hausdorff Distance (HD)為24.37。總的來說,使用所有的代理任務可以獲得84.72%的最佳Dice。

msd數(shù)據(jù)集,醫(yī)學圖像論文閱讀筆記,深度學習,計算機視覺,神經(jīng)網(wǎng)絡,人工智能

討論與局限性

在MSD和BTCV數(shù)據(jù)集的測試排行榜上的最新結(jié)果驗證了所提出的自監(jiān)督學習框架在利用大量可用醫(yī)學圖像而不需要注釋工作方面的有效性。隨后,對預訓練的Swin UNETR模型進行微調(diào),與從頭隨機初始化權(quán)重訓練相比,可以獲得更高的精度,提高收斂速度,并減少注釋工作量。本文框架是可伸縮的,可以通過更多的代理任務和擴展轉(zhuǎn)換輕松地進行擴展。同時,經(jīng)過預訓練的編碼器可以用于各種醫(yī)學圖像分析任務的遷移學習,如分類和檢測。

在MSD胰腺分割任務中,經(jīng)過預訓練權(quán)重的Swin UNETR算法的性能優(yōu)于AutoML算法,如DiNTS和C2FNAS,這兩種算法專為在同一分割任務中搜索最優(yōu)網(wǎng)絡架構(gòu)而設計。目前,Swin UNETR僅使用CT圖像進行預訓練,實驗在直接應用于其他醫(yī)學成像模式(如MRI)時還沒有證明足夠的可移植性。這主要是由于明顯的領域差距和不同數(shù)量的輸入通道特定于每種模式。因此,這是未來工作中應該研究的一個潛在方向。

結(jié)論

在這項工作中,提出了一個新的框架的自我監(jiān)督預訓練三維醫(yī)學圖像。受到按比例合并特征圖的啟發(fā),通過將Transformer編碼的空間表示形式利用到基于卷積的解碼器中,構(gòu)建了Swin UNETR。通過提出第一個基于Transformer的3D醫(yī)學圖像預訓練,利用Swin Transformer編碼器的能力進行微調(diào)分割任務。Swin UNETR具有自監(jiān)督的預訓練,在BTCV多器官分割挑戰(zhàn)和MSD挑戰(zhàn)中實現(xiàn)了最先進的性能。特別是,通過結(jié)合多個公開數(shù)據(jù)集和解剖roi的多樣性,展示了5050卷的大規(guī)模CT預訓練。文章來源地址http://www.zghlxwxcb.cn/news/detail-607339.html

到了這里,關于[CVPR2022] 用于 3D 醫(yī)學圖像分析的 Swin Transformers 的自監(jiān)督預訓練的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • CVPR 2023 醫(yī)學圖像分割論文大盤點

    CVPR 2023 醫(yī)學圖像分割論文大盤點

    點擊下方 卡片 ,關注“ CVer ”公眾號 AI/CV重磅干貨,第一時間送達 點擊進入— 【醫(yī)學圖像分割】微信交流群 被催了很久,CVer 正式開啟 CVPR 2023 論文大盤點系列 ! Amusi?一共搜集了13篇醫(yī)學圖像分割論文 ,這應該是目前各平臺上 最新最全面的CVPR 2023?醫(yī)學圖像分割盤點資料

    2024年02月14日
    瀏覽(45)
  • 【半監(jiān)督醫(yī)學圖像分割 2023 CVPR】PatchCL

    【半監(jiān)督醫(yī)學圖像分割 2023 CVPR】PatchCL

    論文題目:Pseudo-label Guided Contrastive Learning for Semi-supervised Medical Image Segmentation 中文題目:偽標記引導的對比學習用于半監(jiān)督醫(yī)學圖像分割 論文鏈接:CVPR 2023 Open Access Repository (thecvf.com) 論文代碼:https://github.com/hritam-98/PatchCL-MedSeg 論文團隊: 發(fā)表時間: DOI: 引用: 引用數(shù):

    2024年02月16日
    瀏覽(36)
  • 【半監(jiān)督醫(yī)學圖像分割 2023 CVPR】BCP

    【半監(jiān)督醫(yī)學圖像分割 2023 CVPR】BCP

    論文題目:Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation 中文題目:雙向復制粘貼半監(jiān)督醫(yī)學圖像分割 論文鏈接:https://arxiv.org/abs/2305.00673 論文代碼:https://github.com/DeepMed-Lab-ECNU/BCP 論文團隊:華東師范大學上海交通大學 發(fā)表時間:2023年5月 DOI: 引用: 引用數(shù): 在半

    2024年02月08日
    瀏覽(27)
  • 【論文閱讀】Swin Transformer Embedding UNet用于遙感圖像語義分割

    【論文閱讀】Swin Transformer Embedding UNet用于遙感圖像語義分割

    Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation 全局上下文信息是遙感圖像語義分割的關鍵 具有強大全局建模能力的Swin transformer 提出了一種新的RS圖像語義分割框架ST-UNet型網(wǎng)絡(UNet) 解決方案:將Swin transformer嵌入到經(jīng)典的基于cnn的UNet中 ST-UNet由Swin變壓器和CNN并聯(lián)

    2024年02月08日
    瀏覽(59)
  • 醫(yī)學圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    醫(yī)學圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在醫(yī)學圖像分割領域,U形結(jié)構(gòu)的網(wǎng)絡,尤其是Unet,已經(jīng)取得了很優(yōu)秀的效果。但是,CNN結(jié)構(gòu)并不擅長建立遠程信息連接,也就是CNN結(jié)構(gòu)的感受野有限。盡管可以通過堆疊CNN結(jié)構(gòu)、使用空洞卷積等方式增加感受野,但也

    2024年02月05日
    瀏覽(25)
  • CVPR 2022: 圖像分割論文大盤點

    CVPR 2022: 圖像分割論文大盤點

    本文盤點了CVPR 2022 目前為止的2D圖像分割相關論文,包含語義分割和實例分割,總計22篇論文,值得學習。 (1) ReSTR: Convolution-free Referring Image Segmentation Using Transformers 論文:https://arxiv.org/pdf/2203.16768.pdf 代碼:暫無 (2) Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Sema

    2024年02月12日
    瀏覽(93)
  • 3D目標識別|SFD|多模態(tài)|CVPR2022

    3D目標識別|SFD|多模態(tài)|CVPR2022

    論文標題:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion 論文鏈接 Code: 還未開源 **動機:**室外點云+圖像的方法沒有純點云的方法效果好,主要有兩個原因(1)多模態(tài)的數(shù)據(jù)增廣不好做(2)因為現(xiàn)在方法大多是從點云找對應的圖像融合特征,但是點云能對應上的

    2023年04月14日
    瀏覽(99)
  • CVPR2022 3D目標檢測(GLENet )增強型3D目標檢測網(wǎng)絡

    CVPR2022 3D目標檢測(GLENet )增強型3D目標檢測網(wǎng)絡

    圖 1:(a) 給定一個不完整 LiDAR 觀測的對象,可能存在多個具有不同大小和形狀的潛在合理的真實邊界框。 (b) 當注釋來自 2D 圖像和部分點時,標簽過程中的模糊和不準確是不可避免的。在給定的情況下,只有后部的汽車類別的類似點云可以用不同長度的不同真實值框進行注釋

    2023年04月08日
    瀏覽(18)
  • (CVPR) PointNet:用于3D分類和分割的點集深度學習 - 詳細解讀

    (CVPR) PointNet:用于3D分類和分割的點集深度學習 - 詳細解讀

    目錄 知識補充 網(wǎng)絡解讀 概括 局部和全局特征的融合(分割任務) 聯(lián)合對準網(wǎng)絡(T網(wǎng)絡) 總結(jié) 點云存在的問題: 詳細理解: 參考內(nèi)容: 點云轉(zhuǎn)換為體素的問題:數(shù)據(jù)龐大 本文設計了一種直接消耗點云的神經(jīng)網(wǎng)絡(保持了輸入中心點的排列不變性) 剛性變換: 指保持物

    2024年03月21日
    瀏覽(24)
  • 三維數(shù)字散斑3D-DIC(圖像相關法)技術(shù)用于分析載荷對風力機葉片應變特性影響

    三維數(shù)字散斑3D-DIC(圖像相關法)技術(shù)用于分析載荷對風力機葉片應變特性影響

    背景 葉片作為風力發(fā)電機中重要組成部件,造價約占整個風力機的1/3。葉片在制造、運輸、安裝、維護等各環(huán)節(jié)都是非常困難的,并且葉片在使用壽命期內(nèi)常會發(fā)生折斷、脫落、疲勞損傷等事故,因此研究葉片的應變特性具有十分重要的意義。 利用新拓三維XTDIC三維全場應變

    2024年04月09日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包