Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis
摘要
-
Vision Transformer(ViT)在全局和局部表示的自監(jiān)督學習方面表現(xiàn)出了出色的性能,這些表示它可以轉(zhuǎn)移到下游任務的應用中。
-
提出模型:提出一種新的自監(jiān)督學習框架Swin UNETR,它具有定制的代理任務,用于醫(yī)學圖像分析。
-
模型介紹:
(1)一種新的基于3D變壓器的模型,稱為Swin UNEt Transformer (Swin UNETR),具有用于自我監(jiān)督前訓練的分層編碼器;
(2)為學習人體解剖學的基本模式定制代理任務。
-
取得成績:
(1)在來自各種身體器官的5050個公開的計算機斷層掃描(CT)圖像上成功地演示了所提出的模型的預訓練。
(2)通過使用13個腹部器官和來自醫(yī)學分割十項athlon (MSD)數(shù)據(jù)集的分割任務對預訓練的模型進行微調(diào),驗證了方法的有效性。
(3)模型目前在MSD1和BTCV 2數(shù)據(jù)集的公共測試排行榜上是最先進的。
引言
背景:
-
Vision Transformer(ViT)的在計算機視覺和醫(yī)學圖像分析中開創(chuàng)了一種革命性的趨勢。Transformer在學習文本前任務方面表現(xiàn)出非凡的能力,在跨層學習全局和局部信息方面非常有效,并提供大規(guī)模訓練的可擴展性。與接受域有限的卷積神經(jīng)網(wǎng)絡(CNN)不同,ViT對來自一系列補丁的視覺表示進行編碼,并利用自注意塊來建模遠程全局信息。
-
最近,移位窗口(Swin)變壓器提出了一個層次化的ViT,允許本地計算自注意與重疊的窗口。相對于ViT中自注意層的二次復雜度,該體系結(jié)構(gòu)實現(xiàn)了線性復雜度,從而提高了ViT的效率。此外,由于Swin transformer的層次性,它們非常適合于需要多尺度建模的任務。
-
與基于CNN的模型相比,基于Transformer的模型在預訓練期間學習更強的特征表示,因此在下游任務的微調(diào)上表現(xiàn)良好。最近在ViT方面的一些努力通過在ImageNet等大規(guī)模數(shù)據(jù)集上進行自監(jiān)督的預訓練,取得了最新的結(jié)果。
-
醫(yī)學圖像分析還沒有從通用計算機視覺的這些進步中受益,這是因為:
(1)自然圖像和醫(yī)學成像模式之間的巨大領域差距,如計算機斷層掃描(CT)和磁共振成像(MRI);
(2)應用于體積(3D)圖像(如CT或MRI)時,缺乏跨平面上下文信息。后者是二維Transformer模型的一個限制,用于各種醫(yī)學成像任務,如分割。
之前的研究已經(jīng)證明了醫(yī)學成像中有監(jiān)督的預培訓對不同應用的有效性。但是大規(guī)模創(chuàng)建專家注釋的3D醫(yī)療數(shù)據(jù)集是一項重要且耗時的工作。
提出模型:
提出了一種新的自監(jiān)督學習框架用于三維醫(yī)學圖像分析。
-
首先,提出了一種名為Swin UNEt Transformer (Swin UNETR)的新架構(gòu),該架構(gòu)帶有Swin Transformer編碼器,直接利用3D輸入補丁。
-
隨后,利用各種代理任務,如圖像嵌入、3D旋轉(zhuǎn)預測和對比學習(如下圖是培訓前框架概述,輸入CT圖像被隨機裁剪成子卷,并通過隨機的內(nèi)部切割和旋轉(zhuǎn)增強,然后輸入到Swin UNETR編碼器中作為輸入。我們使用掩蔽體積嵌入、對比學習和旋轉(zhuǎn)預測作為代理任務來學習輸入圖像的上下文表示),使用定制的自監(jiān)督任務對Transformer編碼器進行預訓練。
-
具體來說,由于人體所描繪的解剖結(jié)構(gòu),人體在CT等放射圖像中呈現(xiàn)自然一致的上下文信息。因此,代理任務被用來學習人體解剖學的基本模式。為此,本文從不同的身體組成(如頭、頸、肺、腹和骨盆)提取了大量的補丁查詢,以從各種解剖環(huán)境、器官、組織和形狀中學習健壯的特征表示。
-
本文的框架使用對比學習,掩蔽體積嵌入和3D旋轉(zhuǎn)預測作為訓練前代理任務。對比學習用于區(qū)分不同身體組成的各種ROIs,而嵌入學習允許學習紋理、結(jié)構(gòu)和掩蔽區(qū)域與周圍環(huán)境的對應關系。旋轉(zhuǎn)任務作為學習圖像結(jié)構(gòu)內(nèi)容的機制,生成各種子卷,可用于對比學習。本文利用這些代理任務對從各種公開數(shù)據(jù)集獲得的5050個CT圖像集合進行預訓練。
-
為了驗證預訓練的有效性,使用三維醫(yī)學圖像分割作為下游任務,并將其重新定義為一維序列到序列的預測任務。為此,我們利用Swin UNETR編碼器與分層特征編碼和移位窗口,以四種不同分辨率提取特征表示。然后將提取的表示連接到一個基于CNN的解碼器。在解碼器的末端附加分割頭,用于計算最終的分割輸出。使用預先訓練的權(quán)重對Swin UNETR進行微調(diào),這兩個公共基準分別是醫(yī)療分割十項全能(MSD)和顱外Vault (BTCV)。本文模型目前在各自的公開測試排行榜上是最先進的。
本文創(chuàng)新點:
- 設計了一種新的自監(jiān)督學習框架,該框架具有定制的代理任務,用于CT圖像數(shù)據(jù)集的預訓練。為此,本文提出了一種新的基于3DTransformer的架構(gòu),稱為Swin UNETR,由一個編碼器組成,該編碼器可以在多個分辨率下提取特征表示,并用于預訓練。
- 本文使用提出的編碼器和代理任務,對來自各種任務的5050個公開可用CT圖像進行了成功的預訓練。這產(chǎn)生了一個強大的預訓練模型,具有魯棒的特征表示,可用于各種醫(yī)學圖像分析下游任務。
- 通過對預先訓練的Swin UNETR在MSD和BTCV兩個公共基準上進行微調(diào),本文驗證了擬議框架的有效性,并在兩個數(shù)據(jù)集的測試排行榜上取得了最先進的成績。
相關工作
利用Transformer進行醫(yī)學圖像分割
- Vision Transformer首次用于分類任務是在自然語言處理中用于序列到序列的建模。從整個輸入序列中聚合信息的自注意機制首先獲得了相當?shù)男阅?,然后比先前的卷積體系結(jié)構(gòu)技術(shù)(如ResNet或U-Net)的性能更好。
- 最近,基于Transformer的網(wǎng)絡被提出用于醫(yī)學圖像分割。在這些開創(chuàng)性的工作中,Transformer塊要么被用作瓶頸特征編碼器,要么被用作卷積層之后的附加模塊,從而限制了Transformer的空間上下文優(yōu)勢的開發(fā)。與以往的工作使用Transformer作為輔助編碼器相比,本文提出利用Transformer來嵌入高維體積醫(yī)學圖像,這允許更直接的3D補丁編碼和位置嵌入。
- 大多數(shù)醫(yī)學圖像分析任務,如分割,都需要從多尺度特征進行密集推斷?;谔S式連接的體系結(jié)構(gòu),如UNet和金字塔網(wǎng)絡被廣泛采用,以利用層次結(jié)構(gòu)的特性。然而,單一補丁大小的Vision Transformer,雖然在自然圖像應用中成功,但在高分辨率和高維體積圖像中是難以處理的。為了避免計算自注意在尺度上的二次溢出,Swin Transformer被提出通過移動窗口機制構(gòu)造分層編碼。
- 最近的工作如Swin UNet和DS-TransUNet利用Swin Transformer的優(yōu)點進行二維分割,取得了良好的性能。在上述方法的基礎上,我們在更廣泛的醫(yī)學圖像分割場景中借鑒了三維解剖學,并結(jié)合了層次和體積的上下文。
醫(yī)學圖像分析的預訓練
- 在醫(yī)學圖像分析中,先前對標記數(shù)據(jù)進行預訓練的研究表明遷移學習可以提高性能。然而,為醫(yī)學圖像生成注釋是昂貴和耗時的。自監(jiān)督學習的最新進展提供了利用無標記數(shù)據(jù)的希望。
- 自監(jiān)督表示學習通過設計文本前任務來構(gòu)建特征嵌入空間,例如解決拼圖游戲。另一個常用的前文本任務是記憶醫(yī)學圖像的空間上下文,其動機是圖像恢復。這一思想被推廣到嵌入任務中,通過預測原始圖像補丁來學習視覺表示。類似的重構(gòu)空間上下文的努力被表述為解決魔方問題、隨機旋轉(zhuǎn)預測和對比編碼。
- 與這些努力不同的是,本文預訓練框架是通過組合的預文本任務進行模擬訓練的,為3D醫(yī)學成像數(shù)據(jù)量身定制,并利用基于Transformer的編碼器作為強大的特征提取器。
Swin UNETR
Swin UNETR包括一個Swin Transformer編碼器,該編碼器直接利用3D補丁,并通過不同分辨率的跳躍式連接連接到基于CNN的解碼器。
網(wǎng)絡架構(gòu)模型:
當給定一個輸入,首先將數(shù)據(jù)切割為多個小的體素塊,將每個體素塊進行兩次不同的數(shù)據(jù)增強后分別輸入到網(wǎng)絡編碼器中,計算自監(jiān)督損失。
三維分割網(wǎng)絡是 U-Net 結(jié)構(gòu),網(wǎng)絡的編碼器為 Swin Transformer,解碼器為卷積網(wǎng)絡。
編碼器部分首先是一個Patch Partition層來創(chuàng)建一個3D的token序列,通過線性嵌入層投影到C維空間中,為了對token交互進行有效建模,輸入卷劃分到不重疊的窗口中,并在每個區(qū)域內(nèi)計算局部自注意。編碼器使用patch大小為2x2x2,特征維度2x2x2x1=8(即單輸入通道CT圖像)和C=48維嵌入空間,編碼器的整體架構(gòu)由4級構(gòu)成,每一級包括兩個Transformer塊(L=8),在每個階段之間,使用一個Patch Merge層來降低兩倍的分辨率。
Swin UNETR的編碼器通過跳躍連接在每個分辨率上連接到基于CNN的解碼器,為下游任務(如分段)創(chuàng)建一個“U型”網(wǎng)絡。將每個階段提取的表示形式輸入到一個殘塊中,該殘塊由兩個后歸一化的3x3x3卷積層組成,實例歸一化。然后使用反卷積層對每個階段處理過的特征進行上采樣,并與前一階段處理過的特征進行連接。將連接的特征輸入到具有上述描述的殘塊中。
對于分割,將編碼器的輸出(即Swin Transformer)與經(jīng)過處理的輸入體積特征連接起來,并將它們輸入到一個殘塊中,然后是最后一個具有適當激活函數(shù)(即softmax)的1x1x1卷積層,以計算分割概率。
預訓練時在編碼器的輸出端鏈接了三個任務頭,微調(diào)時去掉三個任務頭,添加分割頭,微調(diào)全部網(wǎng)絡參數(shù)。
Inpainting 預測頭為一個卷積層;旋轉(zhuǎn)頭和對抗頭為 MLP 。
Inpainting 損失為 L1 損失;旋轉(zhuǎn)損失為交叉熵,對抗損失是InfoNce。
Inpainting 從二維擴展到了三維; 旋轉(zhuǎn)是沿 Z 軸旋轉(zhuǎn)。
三個損失組合成了混合損失來指導訓練,三個損失之間的權(quán)重均為 1。
編碼器
假設編碼器的輸入的子卷X屬于RHxWxDxS,一個patch的分辨率為()的數(shù)據(jù)維度為:H’x
W’xD’xS。
- Patch Partition層:創(chuàng)建一個3D令牌序列,大小為H/H’xW/W’xD/D’,通過線性嵌入層投影到C維空間中,為了對令牌交互進行有效建模,將輸入卷劃分到不重疊的窗口中,并在每個區(qū)域內(nèi)計算局部自注意。
- 具體來說,在第一層使用一個MxMxM大小的窗口,最終將一個3D令牌序列劃分成H’/MxW’/MxD’/M大小的窗口,在隨后的層中使用我們用(M/2,M/2,M/2)體素來移動分區(qū)的窗口。移位的開窗機構(gòu)如下圖所示:
- l和l+1層的計算輸出公式如下:
其中W-MSA和SW-MSA分別表示規(guī)則分區(qū)和窗口分區(qū)的多頭自注意模塊,z^l是W-MSA和SW-MSA的輸出,LN和MLP分別表示層歸一化和多層感知器(見圖2)。采用了3D循環(huán)移位來進行移位窗口的高效批量計算:
? 其中Q、K、V分別表示查詢、鍵和值,d為查詢和鍵的大小。
- 編碼器使用patch大小為2x2x2,特征維度2x2x2x1=8(即單輸入通道CT圖像)和C=48維嵌入空間,此外,編碼器的整體架構(gòu)由4級構(gòu)成,每一級包括兩個Transformer塊(L=8),在每個階段之間,使用一個Patch Merge層來降低兩倍的分辨率,階段1是一個線性嵌入層和Transformer塊組成,維持令牌的數(shù)量為H/2xW/2xD/2,一個Patch Merge將分辨率為2x2x2的補丁分組,并將它們連接起來,形成一個4C維的特征嵌入。然后使用線性層通過將尺寸降低到2C來降低分辨率。相同的過程仍在第二階段,第三階段和第四階段中:H/4xW/4xD/4,H/8xW/8xD/8,H/16xW/16xD/16,編碼器在不同階段的層次表示用于下游任務,如多尺度特征提取的分割。
解碼器
Swin UNETR的編碼器通過跳躍式連接在每個分辨率上連接到基于CNN的解碼器,為下游任務(如分段)創(chuàng)建一個“U型”網(wǎng)絡。
具體來說,提取編碼器中每個階段i (i屬于0,1,2,3,4)以及瓶頸(i=5)的輸出序列表示形式,并將其重塑為大小為H /2ix W /2ix D/ 2i的特征。然后將每個階段提取的表示形式輸入到一個殘塊中,該殘塊由兩個后歸一化的3x3x3卷積層組成,實例歸一化。然后使用反卷積層對每個階段處理過的特征進行上采樣,并與前一階段處理過的特征進行連接。將連接的特征輸入到具有上述描述的殘塊中。對于分割,將編碼器的輸出(即Swin Transformer)與經(jīng)過處理的輸入體積特征連接起來,并將它們輸入到一個殘塊中,然后是最后一個具有適當激活函數(shù)(即softmax)的1x1x1卷積層,以計算分割概率(參見圖2所示的體系結(jié)構(gòu)細節(jié))。
預訓練
用多個代理任務對Swin UNETR編碼器進行了預訓練,并用多目標損耗函數(shù)對其進行了描述,自監(jiān)督表示學習的目標是對人體感興趣區(qū)域(ROI)感知信息進行編碼。受之前關于上下文重建和對比編碼的工作的啟發(fā),本文開發(fā)了三個代理任務用于醫(yī)學圖像表示學習。
在預訓練期間,另外三個投影頭附加到編碼器上。此外,下游任務,例如分割,微調(diào)完整的Swin UNETR模型,去掉投影頭。在訓練中,子體積是裁剪的隨機區(qū)域的體積數(shù)據(jù)。然后,隨機數(shù)據(jù)增強與隨機旋轉(zhuǎn)和切割應用于一個小批內(nèi)的每個子體積兩次,得到每個數(shù)據(jù)的兩個視圖。
Masked Volume Inpainting
Masked Volume Inpainting是由先前專注于2D圖像的工作所激發(fā)的。我們將其擴展到三維領域,以展示其在體醫(yī)學圖像表示學習中的有效性。
圖像旋轉(zhuǎn)
為了簡單起見,采用沿z軸的0、90、180、270旋轉(zhuǎn)的R級。采用MLP分類頭來預測旋轉(zhuǎn)類別的最大概率。
旋轉(zhuǎn)預測任務使用交叉熵損失:
對比編碼
自監(jiān)督對比編碼在轉(zhuǎn)移到下游任務時,在視覺表征學習方面表現(xiàn)出很好的性能。在給定一批增強子卷的情況下,對比編碼通過最大化正對(來自同一子卷的增強樣本)之間的互信息,同時最小化負對(來自不同子卷的視圖)之間的互信息,允許更好的表示學習。對比編碼是通過在Swin UNETR編碼器上附加一個線性層來獲得的,該層將每個增強子體積映射到一個潛在表示v,使用余弦相似度作為定義的編碼表示的距離測量。形式上,對vi和vj之間的三維對比編碼損失定義為:
損失函數(shù)
通過使用掩蔽體嵌入、3D圖像旋轉(zhuǎn)和對比編碼的多個預訓練目標訓練Swin UNETR的編碼器來最小化總損耗函數(shù),如下所示:
通過網(wǎng)格搜索超參數(shù)優(yōu)化,得到了λ1=λ2=λ3=1的最優(yōu)值。
實驗
數(shù)據(jù)集
- 預訓練數(shù)據(jù)集:共有5個公共CT數(shù)據(jù)集,包含5050個受試者,用于構(gòu)建訓練前數(shù)據(jù)集。胸部、腹部和頭頸的3D體積分別為2018、1520和1223。收集資料和來源詳情載于補充材料。在預訓練階段,不會從這些數(shù)據(jù)集中利用現(xiàn)有的注釋或標簽。
- BTCV: BTCV (Beyond The Cranial V ault)腹部挑戰(zhàn)數(shù)據(jù)集包含30名患者CT掃描,13個器官在V anderbilt大學醫(yī)學中心放射科醫(yī)生的監(jiān)督下由翻譯人員注釋。每次門靜脈增強期CT掃描共80 ~ 225片,512 ~ 512像素,片厚1 ~ 6mm。多器官分割問題被表述為13類分割任務:Spl:脾,RKid:右腎,LKid:左腎,Gall:膽囊,Eso:食管,Liv:肝臟,Sto:胃,Aor:主動脈,IVC:下腔靜脈,V eins:門靜脈和脾靜脈,Pan:胰腺,AG:左、右腎上腺。
- MSD:醫(yī)療分割十項全能(MSD)數(shù)據(jù)集由來自不同器官和圖像模式的10個分割任務組成。這些任務設計的特點是跨越醫(yī)學圖像的困難,如小訓練集、不平衡類、多模態(tài)數(shù)據(jù)和小對象。因此,MSD挑戰(zhàn)可以作為評價醫(yī)學圖像分割方法可泛化性的綜合基準。
實現(xiàn)細節(jié)
對于訓練前的任務,(1)掩模體積嵌入:ROI下降率設置為30%;丟棄的區(qū)域是隨機生成的,它們的總和達到體素的總數(shù)量;(2)三維對比編碼:采用512特征尺寸作為嵌入尺寸;(3)旋轉(zhuǎn)預測:旋轉(zhuǎn)度可配置為0、90、180、270。使用AdamW優(yōu)化器和500次迭代的熱身余弦調(diào)度程序來訓練模型。
預訓練實驗使用每個GPU的批處理大小為4(使用96x96x96的補丁),初始學習率為4e-4,動量為0.9,衰減為1e-5。本文模型在PyTorch和MONAI中實現(xiàn)。五倍交叉驗證策略用于訓練所有BTCV和MSD實驗的模型。在每個折疊中選擇最好的模型,并集成它們的輸出進行最終的分割預測。
詳細的訓練超參數(shù)微調(diào)BTCV和MSD任務可以在補充材料中找到。所有模型都在NVIDIA DGX-1服務器上訓練。
評價指標
Dice系數(shù)和豪斯多夫距離95%
實驗結(jié)果
BTCV多器官分割挑戰(zhàn)
廣泛地比較了模型的基準和基線。公布的排行榜評價如表1所示。與其他提交的最佳作品相比,Swin UNETR的表現(xiàn)最好。得到了最先進的Dice為0.908,在13個器官上分別比排名第二、第三和第四的基線平均高出1.6%、2.0%和2.4%。對于較小的器官,可以特別觀察到明顯的改善,如脾和門靜脈的3.6%,比之前的先進方法,胰腺1.6%,腎上腺3.8%。其他器官也有中度改善。
圖4中的代表性樣本表明Swin UNETR成功地識別了器官細節(jié)。本文方法檢測到胰腺尾部(第1行)和圖4門靜脈中的分支(第2行),其中其他方法在每個組織的分割部分。此外,我們的方法在腎上腺分割方面有明顯的改善(第3行)。
MSD分割結(jié)果
每項任務的整體MSD結(jié)果和挑戰(zhàn)排行榜的排名如表2所示。該Swin UNETR在Task01腦瘤、Task06肺、Task07胰腺和Task10結(jié)腸中達到了最先進的性能。Task02心臟,Task03肝臟,Task04海馬,Task05前列腺,Task08肝血管和Task09脾臟的結(jié)果是相似的??偟膩碚f,Swin UNETR在所有10個任務中呈現(xiàn)了最佳的平均Dice(78.68%),并在MSD排行榜中排名第一。
多個任務的詳細數(shù)量如表3所示。
定性可視化可以在圖5中觀察到。Swin UNETR與自監(jiān)督預訓練在CT任務中顯示了更好的視覺分割結(jié)果。預先訓練的權(quán)重僅用于微調(diào)CT任務,包括肝臟、肺、胰腺、肝血管、脾臟和結(jié)腸。對于MRI任務:腦瘤,心臟,海馬,前列腺,由于CT和MRI圖像之間的領域差距,實驗從零開始訓練。由于篇幅所限,在補充材料中給出了剩余三個MRI任務的MSD測試基準。
消融實驗
預訓練效果
所有使用預訓練模型的MSD CT任務與從零開始訓練的對比如圖6所示。
Task03肝臟、骰子的改善明顯,分別為77.77%和75.27%。Task08肝V血管達到68.52%對64.63%。Task10 Colon的改進最大,從34.83%提高到43.38%。
Task07胰腺和Task09脾臟的改善率分別為67.12% ~ 67.82%和96.05% ~ 97.32%。
減少手工標記的工作量
圖7展示了使用BTCV數(shù)據(jù)集子集進行微調(diào)的比較結(jié)果。用了10%的有標記的數(shù)據(jù),訓練前權(quán)重的實驗與從零開始的訓練相比,獲得了大約10%的改進。在使用所有標記數(shù)據(jù)時,自監(jiān)督預訓練的平均Dice提高了1.3%。使用預訓練的Swin UNETR在60%的數(shù)據(jù)下可以實現(xiàn)整個數(shù)據(jù)集從頭學習的骰子數(shù)83.13。圖7表明,本文方法可以為BTCV任務減少至少40%的注釋工作量。
預訓練數(shù)據(jù)集大小
對BTCV數(shù)據(jù)集進行器官方面的研究,使用預先訓練的較小的未標記數(shù)據(jù)的權(quán)重。在圖8中,預訓練100、3000和5000次掃描的微調(diào)結(jié)果。觀察到Swin UNETR相對于訓練的CT掃描總數(shù)是穩(wěn)健的。如圖8所示,提出的模型可以從更大的預訓練數(shù)據(jù)集中受益,且未標記數(shù)據(jù)的大小不斷增加。
自監(jiān)督目標的效能
對不同自監(jiān)督目標組合的預培訓進行了實證研究。如表4所示,在BTCV測試集上,通過inpainting使用預訓練的權(quán)值在單個任務建模中取得了最高的改進。
在配對任務中,inpainting和contrast learning的Dice為84.45%,Hausdorff Distance (HD)為24.37。總的來說,使用所有的代理任務可以獲得84.72%的最佳Dice。
討論與局限性
在MSD和BTCV數(shù)據(jù)集的測試排行榜上的最新結(jié)果驗證了所提出的自監(jiān)督學習框架在利用大量可用醫(yī)學圖像而不需要注釋工作方面的有效性。隨后,對預訓練的Swin UNETR模型進行微調(diào),與從頭隨機初始化權(quán)重訓練相比,可以獲得更高的精度,提高收斂速度,并減少注釋工作量。本文框架是可伸縮的,可以通過更多的代理任務和擴展轉(zhuǎn)換輕松地進行擴展。同時,經(jīng)過預訓練的編碼器可以用于各種醫(yī)學圖像分析任務的遷移學習,如分類和檢測。
在MSD胰腺分割任務中,經(jīng)過預訓練權(quán)重的Swin UNETR算法的性能優(yōu)于AutoML算法,如DiNTS和C2FNAS,這兩種算法專為在同一分割任務中搜索最優(yōu)網(wǎng)絡架構(gòu)而設計。目前,Swin UNETR僅使用CT圖像進行預訓練,實驗在直接應用于其他醫(yī)學成像模式(如MRI)時還沒有證明足夠的可移植性。這主要是由于明顯的領域差距和不同數(shù)量的輸入通道特定于每種模式。因此,這是未來工作中應該研究的一個潛在方向。文章來源:http://www.zghlxwxcb.cn/news/detail-607339.html
結(jié)論
在這項工作中,提出了一個新的框架的自我監(jiān)督預訓練三維醫(yī)學圖像。受到按比例合并特征圖的啟發(fā),通過將Transformer編碼的空間表示形式利用到基于卷積的解碼器中,構(gòu)建了Swin UNETR。通過提出第一個基于Transformer的3D醫(yī)學圖像預訓練,利用Swin Transformer編碼器的能力進行微調(diào)分割任務。Swin UNETR具有自監(jiān)督的預訓練,在BTCV多器官分割挑戰(zhàn)和MSD挑戰(zhàn)中實現(xiàn)了最先進的性能。特別是,通過結(jié)合多個公開數(shù)據(jù)集和解剖roi的多樣性,展示了5050卷的大規(guī)模CT預訓練。文章來源地址http://www.zghlxwxcb.cn/news/detail-607339.html
到了這里,關于[CVPR2022] 用于 3D 醫(yī)學圖像分析的 Swin Transformers 的自監(jiān)督預訓練的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!