Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023.
【論文概述】
本文是關(guān)于醫(yī)學(xué)圖像分割中視覺變換器(Vision Transformers,ViTs)的最新綜述。文中詳細(xì)回顧了ViTs及其與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)結(jié)合形成的混合視覺Transformers(Hybrid Vision Transformers,HVTs)在醫(yī)學(xué)圖像分割方面的最新進(jìn)展。文中討論了這些技術(shù)如何通過模擬圖像中的長(zhǎng)距離關(guān)系來提高診斷、治療計(jì)劃和疾病監(jiān)測(cè)的準(zhǔn)確性。同時(shí),還探討了這些方法在不同醫(yī)學(xué)圖像模態(tài)(如CT、MRI、X射線等)中的實(shí)際應(yīng)用,以及它們面臨的挑戰(zhàn)和未來的發(fā)展方向。
本文中規(guī)中矩,對(duì)涉及到的方法只是簡(jiǎn)單陳列,并沒有細(xì)致的優(yōu)缺點(diǎn)探討,可以作為尋找對(duì)應(yīng)方向論文的一個(gè)參考,筆記中對(duì)涉及到的方法根據(jù)之前讀文經(jīng)歷進(jìn)行簡(jiǎn)單的優(yōu)缺點(diǎn)歸納。
【本文模型的分類方法】
- 本文首先對(duì)基于ViT的醫(yī)學(xué)圖像分割方法進(jìn)行了全面綜述,將其分為兩大類:基于ViT的方法(ViT-based methods)和混合視覺Transformers的方法(HVT-based methods)。
- 對(duì)于基于ViT的方法,進(jìn)一步將其細(xì)分為以下四類:
-
ViT在編碼器(encoder)中的應(yīng)用。
-
ViT在解碼器(decoder)中的應(yīng)用。
-
ViT在編碼器-解碼器之間(in between encoder-decoder)的應(yīng)用。
-
編碼器和解碼器都采用基于ViT的架構(gòu)(both the encoder and decoder are ViT-based architectures)。
3.對(duì)于混合視覺Transformers(HVT)的方法,提出了一個(gè)分類法:
-
基于編碼器的集成(encoder-based integration)。
-
基于解碼器的集成(decoder-based integration)。
【醫(yī)學(xué)圖像分割存在的一些挑戰(zhàn)】
1.在醫(yī)學(xué)圖像中的對(duì)象內(nèi)發(fā)現(xiàn)的尺寸范圍很廣
2.結(jié)構(gòu)輪廓的模糊性,加上它們的不同紋理變化和復(fù)雜形狀,這很容易產(chǎn)生不準(zhǔn)確的結(jié)果
3.當(dāng)將感興趣的對(duì)象與背景隔離時(shí),低強(qiáng)度對(duì)比度帶來的挑戰(zhàn)
4.沒有足夠的訓(xùn)練數(shù)據(jù)集
【4.1 ViT-based Medical Image Segmentation Approaches】
這一部分從四個(gè)方面探討了ViTs在醫(yī)學(xué)圖像分割中的應(yīng)用,包括ViT在編碼器(Encoder)、解碼器(Decoder)、編碼器-解碼器中的應(yīng)用,以及ViT在編碼器和解碼器之間的應(yīng)用。以下是對(duì)這些部分的總結(jié):
-
ViT in Encoder:
- 優(yōu)點(diǎn):通過在編碼器中使用ViT,模型能有效捕獲全局信息和多尺度特征,從而增強(qiáng)特征提取能力。
- 代表模型:例如UNETR(UNet Transformer),利用ViT作為編碼器來有效捕獲輸入體積的多尺度全球信息。
- 缺點(diǎn):可能會(huì)增加模型的計(jì)算復(fù)雜性和訓(xùn)練難度。
-
ViT in Decoder:
- 優(yōu)點(diǎn):將ViT應(yīng)用于解碼器可以提高預(yù)測(cè)邊界精度,并區(qū)分背景和興趣對(duì)象。
- 代表模型:如ConvTransSeg,采用CNN編碼器和基于ViT的解碼器。
- 缺點(diǎn):解碼階段的全局信息處理可能不如編碼階段有效。
-
ViT in both Encoder-Decoder:
- 優(yōu)點(diǎn):在編碼器和解碼器都使用ViT的架構(gòu)能全面利用ViT的長(zhǎng)距離關(guān)注機(jī)制。
- 代表模型:例如Swin-Unet和、nnFormer、MISSFormer、TransDeepLab,這些模型在編碼器和解碼器中都使用ViT結(jié)構(gòu),以捕獲圖像的全局和局部特征。
- 缺點(diǎn):這種方法可能導(dǎo)致更高的計(jì)算成本和更復(fù)雜的模型結(jié)構(gòu)。
-
ViT in between Encoder-Decoder:
- 優(yōu)點(diǎn):此方法通過在編碼器和解碼器之間引入ViT,可以在局部和全局特征之間建立更有效的連接。
- 代表模型:例如ATTransUNet和DCA(Dual Cross-Attention)、ViT-V-Net,它們?cè)诰幋a器和解碼器之間使用ViT,以改善特征融合和上下文建模。
- 缺點(diǎn):可能需要更復(fù)雜的訓(xùn)練策略來優(yōu)化特征融合。
【4.2. Hybrid ViT-Based Medical Image Segmentation Approaches】
探討了混合視覺Transformers(Hybrid Vision Transformers, HVTs)在醫(yī)學(xué)圖像分割中的應(yīng)用。這些方法結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和視覺變換器(ViTs)的優(yōu)勢(shì),以提高分割性能。以下是對(duì)這一部分內(nèi)容的總結(jié),包括三個(gè)主要方面:
-
Hybrid ViT in Encoder:
- 優(yōu)點(diǎn):通過在編碼器中結(jié)合HVT,模型能夠同時(shí)捕獲全局和局部特征,提高特征表示的豐富性。
- 代表模型:例如TransUNet,結(jié)合了ViT的全局感知能力和U-Net的局部特征提取能力;TransBTS,結(jié)合了ViT和3D CNN,用于處理3D醫(yī)學(xué)體積數(shù)據(jù)。
- 缺點(diǎn):混合模型可能會(huì)增加模型復(fù)雜度,需要更多的計(jì)算資源。
-
Hybrid ViT in Decoder:
- 優(yōu)點(diǎn):在解碼器中應(yīng)用HVT可以提高分割邊界的準(zhǔn)確性,特別是在處理復(fù)雜的醫(yī)學(xué)圖像時(shí)。
- 代表模型:例如UNetFormer,結(jié)合了3D Swin Transformer和CNN,以及基于變換器的解碼器。
- 缺點(diǎn):這種方法可能導(dǎo)致解碼階段的計(jì)算負(fù)擔(dān)加重。
-
Hybrid ViT in both Encoder-Decoder:
- 優(yōu)點(diǎn):在編碼器和解碼器中都使用HVT可以充分利用ViT和CNN的優(yōu)勢(shì),實(shí)現(xiàn)全面的特征提取和細(xì)節(jié)捕獲。
- 代表模型:例如MaxViT-UNet、SwinBTS,利用3D Swin Transformer和卷積操作來學(xué)習(xí)局部和全局級(jí)別的特征。
- 缺點(diǎn):這種結(jié)構(gòu)可能導(dǎo)致模型過于復(fù)雜,難以訓(xùn)練和優(yōu)化。
【5. ViT-based Medical Image Segmentation Applications】文章來源:http://www.zghlxwxcb.cn/news/detail-786772.html
作者詳細(xì)討論了基于視覺Transformers(Vision Transformers, ViTs)的醫(yī)學(xué)圖像分割應(yīng)用,覆蓋了從CT圖像到X射線圖像的多種醫(yī)學(xué)成像方式。以下是對(duì)這一部分內(nèi)容的概括總結(jié):文章來源地址http://www.zghlxwxcb.cn/news/detail-786772.html
-
CT圖像(CT Images):
- 應(yīng)用了ViT的方法能有效地處理CT圖像,提高了病灶檢測(cè)的準(zhǔn)確性。
- 代表模型:如TransBTS,利用ViT與3D CNN相結(jié)合,以處理3D CT數(shù)據(jù)。
-
病理學(xué)圖像(Histopathological Images):
- 在病理學(xué)圖像分析中,ViT有助于細(xì)胞結(jié)構(gòu)的精準(zhǔn)分割和識(shí)別。
- 代表模型:如TransPath,它將ViT與傳統(tǒng)的CNN技術(shù)結(jié)合,以提高細(xì)胞和組織的分割效果。
-
顯微鏡圖像(Microscopy Images):
- ViT在處理顯微鏡圖像時(shí)展現(xiàn)了提高分割準(zhǔn)確性的潛力,特別是在復(fù)雜的細(xì)胞結(jié)構(gòu)分割方面。
- 代表模型:例如使用ViT的各種混合方法,它們結(jié)合CNN的局部特征識(shí)別能力和ViT的全局信息處理能力。
-
MRI圖像(MRI Images):
- ViT在MRI圖像分割中特別有效,能夠處理復(fù)雜的腦部結(jié)構(gòu)。
- 代表模型:如Swin UNETR和TransBTS,它們?cè)谔幚砟X腫瘤分割等高復(fù)雜度任務(wù)中表現(xiàn)出色。
-
超聲圖像(Ultrasound Images):
- ViT在超聲圖像分割中有助于提高邊界檢測(cè)的準(zhǔn)確性,特別是在不規(guī)則形狀的腫瘤識(shí)別方面。
- 代表模型:例如結(jié)合ViT和CNN技術(shù)的混合模型,用于提高超聲圖像中特定組織或病變的識(shí)別能力。
-
X射線圖像(X-Ray Images):
- ViT在X射線圖像分割中表現(xiàn)出對(duì)細(xì)節(jié)的高敏感性,特別是在骨骼和其他硬組織的分割方面。
- 代表模型:如結(jié)合CNN和ViT的模型,用于提高諸如肺部疾病識(shí)別和骨折檢測(cè)的準(zhǔn)確性。
到了這里,關(guān)于【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!