国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

這篇具有很好參考價(jià)值的文章主要介紹了FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

The Fully Convolutional Transformer for Medical Image Segmentation

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

論文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com)

代碼:Thanos-DB/FullyConvolutionalTransformer (github.com)

期刊/會議:WACV 2023

摘要

我們提出了一種新的transformer,能夠分割不同形態(tài)的醫(yī)學(xué)圖像。醫(yī)學(xué)圖像分析的細(xì)粒度特性所帶來的挑戰(zhàn)意味著transformer對其分析的適應(yīng)仍處于初級階段。UNet壓倒性的成功在于它能夠欣賞分割任務(wù)的細(xì)粒度性質(zhì),這是現(xiàn)有的基于transformer的模型目前不具備的能力。為了解決這個(gè)缺點(diǎn),我們提出了全卷積transformer(FCT),它建立在卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)有效圖像表示的能力的基礎(chǔ)上,并將它們與transformer的能力相結(jié)合,有效地捕獲其輸入中的長期依賴關(guān)系。FCT是醫(yī)學(xué)影像文獻(xiàn)中第一個(gè)全卷積Transformer模型。它分兩個(gè)階段處理輸入,首先,它學(xué)習(xí)從輸入圖像中提取長期語義依賴關(guān)系,然后學(xué)習(xí)從特征中捕獲分層的全局屬性。FCT結(jié)構(gòu)緊湊、準(zhǔn)確、健壯。我們的結(jié)果表明,它在不需要任何預(yù)訓(xùn)練的情況下,在不同數(shù)據(jù)形態(tài)的多個(gè)醫(yī)學(xué)圖像分割數(shù)據(jù)集上,大大優(yōu)于所有現(xiàn)有的transformer架構(gòu)。FCT在ACDC數(shù)據(jù)集上比其直接模型高出1.3%,在Synapse數(shù)據(jù)集上高出4.4%,在Spleen數(shù)據(jù)集上高出1.2%,在ISIC 2017數(shù)據(jù)集上高出1.1%,在dice metric上的參數(shù)少了多達(dá)5倍。在ACDC Post-2017MICCAI-Challenge在線測試集上,我們的模型在未見過的MRI測試用例上設(shè)置了新的最先進(jìn)的技術(shù),優(yōu)于大型集成模型以及參數(shù)更少的nnUNet。

1、簡介

醫(yī)學(xué)圖像分割是計(jì)算機(jī)輔助診斷的關(guān)鍵工具。它有助于檢測和定位圖像中病變的邊界,有助于快速識別腫瘤和癌變區(qū)域的潛在存在。這有可能加快診斷,提高檢測腫瘤的可能性,并使臨床醫(yī)生更有效地利用他們的時(shí)間,對患者的結(jié)果有利[15]。傳統(tǒng)上,現(xiàn)代醫(yī)學(xué)圖像分割算法構(gòu)建為對稱的自頂向下編碼器-解碼器結(jié)構(gòu),首先將輸入圖像壓縮(編碼)到潛在空間,然后學(xué)習(xí)解碼圖像中感興趣區(qū)域的位置。將中間信號的水平傳播(跳越連接)添加到這個(gè)垂直信息流中,我們就得到了UNet架構(gòu),這可以說是最近分割算法中最具影響力的飛躍。今天大多數(shù)現(xiàn)代分割系統(tǒng)都包括UNet或其變體。UNet成功的關(guān)鍵在于其全卷積的性質(zhì)。UNet在其結(jié)構(gòu)中不估計(jì)任何非卷積可訓(xùn)練參數(shù)。

基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的UNet模型在醫(yī)學(xué)圖像分割任務(wù)中的準(zhǔn)確性和性能方面取得了巨大的成功。然而,為了真正幫助臨床醫(yī)生進(jìn)行早期疾病診斷,它們?nèi)匀恍枰~外的改進(jìn)。卷積算子固有的局部特性是CNN的一個(gè)關(guān)鍵問題,因?yàn)樗柚沽怂鼈兝脕碜暂斎雸D像的長范圍語義依賴。人們提出了各種方法來為CNN添加全局上下文,最引人注目的是引入注意力機(jī)制,以及擴(kuò)大卷積核以增加核的感受野。然而,這些方法都有自己的缺點(diǎn)。Transformer在語言學(xué)習(xí)任務(wù)中取得了巨大的成功,因?yàn)樗鼈兡軌蛴行У靥幚矸浅iL范圍的序列依賴。這導(dǎo)致它們最近適應(yīng)了各種視覺任務(wù)[7,18,21,22]。最近提出的架構(gòu),如ViT[7],已經(jīng)超過了cnn在基準(zhǔn)成像任務(wù)上的性能,而最近對ViT的許多改進(jìn),如CvT [36], CCT[10]和Swin Transformer[25],已經(jīng)表明transformer不需要龐大的數(shù)據(jù)消耗模型,甚至可以處理少量數(shù)據(jù),從而超過CNN的性能。通常,ViT風(fēng)格的模型首先從圖像中提取離散的非重疊patch(在NLP中稱為token)。然后,他們通過位置編碼將空間定位注入到這些patch中,并將此表示通過標(biāo)準(zhǔn)transformer層來建模數(shù)據(jù)中的長期語義依賴關(guān)系。

考慮到CNN和Transformer的明顯優(yōu)點(diǎn),我們認(rèn)為醫(yī)學(xué)圖像分割的下一步是一個(gè)完全卷積編碼器-解碼器深度學(xué)習(xí)模型,能夠有效地利用醫(yī)學(xué)圖像中的長期語義依賴。為了實(shí)現(xiàn)這一目標(biāo),我們提出了第一個(gè)用于醫(yī)學(xué)圖像分割的全卷積Transformer。我們新穎的全卷積Transformer層構(gòu)成了我們模型的主要構(gòu)建塊。它包含兩個(gè)關(guān)鍵組件,一個(gè)卷積注意力模塊和一個(gè)全卷積Wide-Focus模塊(見第3節(jié))。我們將我們的貢獻(xiàn)形式化如下:

  1. 我們提出了第一個(gè)用于醫(yī)學(xué)圖像分割的全卷積Transformer,它超越了所有現(xiàn)有的基于卷積和transformer的醫(yī)學(xué)圖像分割架構(gòu)的性能,用于多個(gè)二分類和語義分割數(shù)據(jù)集。
  2. 我們提出了一種新型的全卷積transformer層,它使用卷積注意力模塊來學(xué)習(xí)長范圍的語義上下文,然后通過寬焦點(diǎn)模塊使用多分辨率空洞卷積創(chuàng)建分層的局部到全局上下文。
  3. 通過廣泛的消融研究,我們展示了我們模型的各種構(gòu)建塊在其對模型性能影響的背景下的影響。

2、相關(guān)工作

早期的CNN和Attention模型:UNet[29]是第一個(gè)用于醫(yī)學(xué)圖像分割的CNN模型。最早將注意力模型引入醫(yī)學(xué)圖像分割的工作之一,是通過將門控函數(shù)應(yīng)用于UNet[26]的編碼器到解碼器的特征傳播。FocusNet[17]等方法采用雙編碼器-解碼器結(jié)構(gòu),其中注意力門選學(xué)習(xí)將相關(guān)特征從一個(gè)UNet的解碼器傳播到下一個(gè)UNet的編碼器。FocesNet++[19]是在分組卷積的各種過濾器組中集成注意力機(jī)制的第一個(gè)作品之一。還有許多UNet的變體,它們使用不同的殘差塊來增強(qiáng)特征提取[32,28,33,20,16]。UNet++[43]在編碼器和解碼器之間創(chuàng)建了嵌套的分層密集跳過連接路徑,以減少它們之間學(xué)習(xí)特征的語義差距。作為最近最具影響力的UNet變體,nnUNet[14]自動調(diào)整自身來預(yù)處理數(shù)據(jù),并選擇最適合任務(wù)的最佳網(wǎng)絡(luò)架構(gòu),而不需要人工干預(yù)。

Transformer模型:最初的Transformer架構(gòu)[31]徹底改變了自然語言處理任務(wù),并迅速成為視覺理解任務(wù)的模型[7]。Transformer在視覺方面工作得很好,因?yàn)樗鼈兡軌騽?chuàng)建長范圍的視覺環(huán)境,但存在固有的缺點(diǎn),不能利用CNN等圖像中的空間環(huán)境。最近的工作轉(zhuǎn)向了克服這一缺陷的可能解決方案。CvT [36], CCT[10]和Swin Transformer[25]都是在transformer中集成足夠的空間環(huán)境的嘗試。在醫(yī)學(xué)圖像分割中,大多數(shù)現(xiàn)有研究著眼于創(chuàng)建用于特征處理的Transformer-CNN混合模型。與Attention UNet[26]類似,UNet Transformer[27]增強(qiáng)了CNN,在跳過連接內(nèi)增加了多頭注意。TransUNet[5]是最早提出的用于醫(yī)學(xué)圖像分割的Transformer-CNN混合模型之一,它使用Transformer編碼器饋送到級聯(lián)卷積解碼器。與TransUNet類似,UNETR[12]和Swin UNETR[11]在編碼器上使用Transformer和卷積解碼器來構(gòu)造分割地圖。Transfuse[40]運(yùn)行雙分支編碼器,一個(gè)帶有卷積層,另一個(gè)帶有transformer層,并將其特征與新穎的BiFusion模塊結(jié)合起來。然而,這個(gè)模型的解碼器是卷積的。

當(dāng)前的工作:最近有一個(gè)轉(zhuǎn)變,從創(chuàng)建混合Transformer-CNN模型,到改進(jìn)transformer塊本身,以處理醫(yī)學(xué)圖像的細(xì)微差別。Swin UNet[3]是第一個(gè)提出用于處理醫(yī)學(xué)圖像的純transformer的架構(gòu)。這里的純指的是僅由transformer層提取和處理的圖像特征,而不需要預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)架構(gòu)。DS-TransUNet[24]引入Transformer Interactive Fusion模塊,以獲得更好的表示全局依賴。這兩個(gè)模型的計(jì)算核心都是Swin Transformer塊。同時(shí)進(jìn)行的工作,如nnFormer[42]和DFormer[37],試圖利用醫(yī)學(xué)圖像中的本地和全局上下文,通過特別制作的多頭自我關(guān)注塊來滿足這一任務(wù)。這些模型的主要缺點(diǎn)是它們固有的注意力投射和特征處理的線性性質(zhì),F(xiàn)CT旨在緩解這一點(diǎn)。

現(xiàn)有的醫(yī)學(xué)影像分割模型目前至少存在以下三個(gè)局限性之一。它們要么基于CNN主干網(wǎng)絡(luò),要么使用卷積層創(chuàng)建,因此限制了它們超越感受野以獲得圖像語義上下文的能力(早期CNN方法)。他們試圖將Transformer集成到他們的特征處理管道中,以利用它們創(chuàng)建長期語義上下文的能力,但反過來,使模型龐大且計(jì)算復(fù)雜(混合Transformer-CNN)。他們試圖通過創(chuàng)建用于分割的純Transformer模型來減少這種計(jì)算負(fù)擔(dān),而不試圖在低級特征提取階段(并發(fā)工作)對局部空間上下文建模。與現(xiàn)有方法不同,我們的全卷積Transformer沒有這些缺點(diǎn),同時(shí)仍然是一個(gè)純基于Transformer的醫(yī)療圖像分割架構(gòu)。補(bǔ)充資料中的表4額外總結(jié)了FCT與現(xiàn)有模型相比的主要差異。

3、全卷積Transformer

給定一個(gè)數(shù)據(jù)集 { X , Y } \{\mathbf{X}, \mathbf{Y}\} {X,Y},其中, X \mathbf{X} X是我們模型的輸入圖像, Y \mathbf{Y} Y是相應(yīng)的語義或二分類分割映射。對于每個(gè)圖像 x i ∈ R H × W × C \mathbf{x}_i∈\mathbb{R}^{H×W ×C} xi?RH×W×C,其中 H H H W W W為圖像的空間分辨率, C = { 3 , … , N } C =\{3,\ldots, N\} C={3,,N}為輸入通道數(shù),我們的模型產(chǎn)生一個(gè)輸出分割映射 y i ∈ R H × W × K \mathbf{y}_i∈\mathbb{R}^{H×W ×K} yi?RH×W×K,其中, K ∈ { 1 , … , D } K∈\{1,\ldots,D\} K{1,,D}。FCT的輸入是從輸入3D圖像的每個(gè)切片中采樣的2D patch。我們的模型遵循熟悉的UNet形狀,F(xiàn)CT層作為其基本構(gòu)建塊。與現(xiàn)有的方法不同,我們的模型既不是CNN-Transformer的混合,也不是Transformer-UNet的結(jié)構(gòu),它使用現(xiàn)成的transformer層來編碼或細(xì)化輸入特征。它首先從圖像中提取重疊的patch,然后創(chuàng)建基于patch的掃描嵌入,然后在這些patch上應(yīng)用多頭自注意,從而構(gòu)建特征表示。然后通過我們的Wide-Focus模塊處理給定圖像的輸出投影,以從投影中提取細(xì)粒度信息。圖1顯示了我們的網(wǎng)絡(luò)體系結(jié)構(gòu)的概述。

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

3.1 FCT層

每個(gè)FCT層都從LayerNormalization-Conv-Conv-Maxpool操作開始。我們從經(jīng)驗(yàn)上注意到,與直接先創(chuàng)建圖像的patch-wise投影相比,在3×3內(nèi)核大小較小的patch上按順序應(yīng)用這些連續(xù)卷積有助于更好地編碼圖像信息。每個(gè)卷積層后面都有一個(gè)Gelu激活函數(shù)。我們的FCT塊與其他模型塊不同的第一個(gè)實(shí)例是通過它對醫(yī)學(xué)成像的卷積注意力應(yīng)用。

MaxPool的輸出被輸入到轉(zhuǎn)換函數(shù) T ( ? ) \mathbf{T}(·) T(?)中,轉(zhuǎn)換函數(shù) T ( ? ) \mathbf{T}(·) T(?)將其轉(zhuǎn)換為新的token映射。我們選擇的 T ( ? ) \mathbf{T}(·) T(?)Depthwise-Convolution operator。我們選擇一個(gè)較小的內(nèi)核大小3×3, 步長為s×s和一個(gè)有效的填充,以確保:(1)與大多數(shù)現(xiàn)有工作不同,提取的patch是重疊的,并且(2)卷積操作不會始終改變輸出大小。接下來是LayerNormalization操作。得到的token映射 p i + 1 ∈ R W t × H t × C t p_{i+1}∈\mathbb{R}^{W_t×H_t×C_t} pi+1?RWt?×Ht?×Ct?被平化為 W t H t × C t W_tH_t ×C_t Wt?Ht?×Ct?,創(chuàng)建了我們的patch嵌入式輸入。下一個(gè)例子是,我們的FCT層不同于現(xiàn)有的基于transformer的醫(yī)學(xué)成像應(yīng)用方法,是通過它的注意力投影。所有現(xiàn)有模型都采用線性逐點(diǎn)線性映射來進(jìn)行多頭自我注意(MHSA)計(jì)算。這導(dǎo)致Transformer模型失去空間信息,這對成像應(yīng)用非常重要。現(xiàn)有的方法試圖通過卷積增強(qiáng)來緩解這個(gè)問題,使其適應(yīng)成像任務(wù)。然而,這為所提出的模型增加了額外的計(jì)算成本。受[36]中提出的方法的啟發(fā),我們將MHSA塊中的逐點(diǎn)線性映射替換為Depthwise-Convolution,以降低計(jì)算成本,并從圖像中利用更好的空間上下文信息。patch嵌入和卷積注意力投影構(gòu)成了我們的卷積注意力的組成部分。與[36]不同的是,我們注意到用LayerNormalization替換BatchNormalization有助于提高性能。此外,刪除Point-wise Convolution會導(dǎo)致一個(gè)更簡單的模型,而不會損失任何性能。Depthwise-Convolution提供的空間上下文進(jìn)一步消除了對位置編碼的需求,位置編碼用于在輸入中插入空間信息,并順序跟蹤每個(gè)patch的位置,從而進(jìn)一步簡化了架構(gòu)設(shè)計(jì)。

一般的Transformer層遵循線性層MHSA塊,因此丟失了圖像中的所有空間上下文。直接用卷積替換這些線性層是一種相對簡單的方法,可以緩解這個(gè)問題并提高性能。然而,醫(yī)學(xué)圖像需要細(xì)粒度的信息處理。記住這一點(diǎn),我們采用了一個(gè)多分支卷積層,其中一層對MHSA輸出應(yīng)用空間卷積,而其他層應(yīng)用空洞卷積,增加感受野,以獲得更好的空間上下文。然后,我們通過求和來融合這些特征,并將它們傳遞到特征聚合層。這種特征聚合是通過另一個(gè)空間卷積算子完成的。我們稱這個(gè)模塊為Wide-Focus。殘差連接用于增強(qiáng)整個(gè)層的特征傳播。最后的特征被重新塑造,并進(jìn)一步傳播到下一個(gè)FCT層。圖1(上)顯示了FCT層。

3.2 編碼器

我們的模型的編碼器包含四個(gè)FCT層,負(fù)責(zé)特征提取和傳播。對于第 l l l個(gè)transformer層,卷積注意力模塊的輸出為, z l ′ = M H S A ( z l ? 1 ) + z l ? 1 q / k / v \mathbf{z}_l' = \mathbf{MHSA}(z_{l?1})+ \mathbf{z}^{q/k/v}_{l?1} zl?=MHSA(zl?1?)+zl?1q/k/v?,其中, z l ? 1 q / k / v = F l a t t e n ( D e p t h C o n v ( R e s h a p e ( z l ? 1 ) ) ) \mathbf{z}^{q/k/v}_{l?1} = \mathbf{Flatten}(\mathbf{DepthConv}(\mathbf{Reshape}(z_{l?1}))) zl?1q/k/v?=Flatten(DepthConv(Reshape(zl?1?)))。 M H S A ( z l ? 1 ) = s o f t m a x ( Q K T / d ) V \mathbf{MHSA}(\mathbf{z}_{l?1})= softmax(QK^T/\sqrtn5n3t3z)V MHSA(zl?1?)=softmax(QKT/d ?)V。然后由Wide-Focus (WF)模塊處理 z l ′ z_l' zl?, z l = W F ( z l ) + z l ′ \mathbf{z}_l = \mathbf{WF}(\mathbf{z}_l) +\mathbf{z}_l' zl?=WF(zl?)+zl?。我們進(jìn)一步為編碼器注入金字塔風(fēng)格的圖像輸入,目的是在不同尺度上突出顯示不同類別和更小的ROI特征。值得注意的是,即使沒有這種多尺度圖像金字塔輸入,我們的模型也能夠獲得最先進(jìn)的結(jié)果。數(shù)據(jù)的(瓶頸)潛在編碼是使用另一個(gè)FCT層創(chuàng)建的。

3.3 解碼器

解碼器將瓶頸表示作為其輸入,并學(xué)習(xí)從該信息中重新采樣二分類或語義分割映射。為了在解碼器層中創(chuàng)建更好的上下文相關(guān)性,還使用從編碼器到解碼器的跳過連接,其中來自編碼器層的具有相同分辨率的特征映射與解碼器層連接。解碼器的形狀與編碼器對稱。解碼器中的層對應(yīng)于編碼器中的圖像金字塔層,輸出中間分割映射,提供額外的監(jiān)督并提高模型的預(yù)測能力。上下文相關(guān)性是通過首先對特征量進(jìn)行上采樣,然后將其傳遞到FCT層以了解其最佳可能表示來創(chuàng)建的。我們沒有在FCT的最低規(guī)模上采用深度監(jiān)管,因此我們的模型不是“完全深度監(jiān)管”。這是因?yàn)槲覀冇^察到,輸入圖像掃描中的感興趣區(qū)域(roi)有時(shí)太小,無法在最低尺度(28 × 28)進(jìn)行分割,這導(dǎo)致模型性能較差。這種低規(guī)模的輸出在模型中增加了強(qiáng)烈的偏差,以預(yù)測一些輸出roi作為背景類。

4、實(shí)驗(yàn)

數(shù)據(jù)集:(MRI) Automatic Cardiac Diagnosis Challenge (ACDC) [2], (CT) Synapse Multi-organ Segmentation Challenge1, (CT) Spleen Segmentation Dataset [1] and (Dermoscopy) ISIC 2017 [6] Skin Cancer Segmentation Challenge。

實(shí)驗(yàn)細(xì)節(jié):模型輸入有兩種尺寸224 x 224384 x 384。Adam優(yōu)化器,學(xué)習(xí)率1e-3。

5、結(jié)果

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀,計(jì)算機(jī)視覺,transformer,深度學(xué)習(xí),人工智能,計(jì)算機(jī)視覺

6、總結(jié)

我們提出了全卷積transformer,它能夠準(zhǔn)確地執(zhí)行二分類和語義分割任務(wù),參數(shù)比現(xiàn)有模型更少。FCT在參數(shù)數(shù)量上比nnFormer小5倍以上,比TransUNet和LeViT-UNet小3倍以上。FCT層由兩個(gè)關(guān)鍵組件組成——卷積注意力和Wide-Focus。卷積注意力通過使用深度可分離卷積為模型創(chuàng)建重疊的patch,消除了在patch創(chuàng)建階段對位置編碼的需求。我們基于深度可分離卷積的MHSA塊集成了空間信息,首次在醫(yī)學(xué)成像背景下估計(jì)長距離語義依賴關(guān)系。從我們的消融實(shí)驗(yàn)中可以看出,Wide-Focus有助于利用醫(yī)學(xué)圖像中存在的細(xì)粒度特征信息,并且是提高transformer塊性能的重要因素。我們通過在多個(gè)高度競爭的不同模式和維度的細(xì)分?jǐn)?shù)據(jù)集上的最先進(jìn)的結(jié)果證明了我們模型的能力。我們的FCT塊是第一個(gè)為醫(yī)學(xué)成像應(yīng)用而提出的全卷積transformer塊,并且可以輕松擴(kuò)展到醫(yī)學(xué)成像的其他領(lǐng)域和應(yīng)用。我們相信我們的模型可以作為未來分割任務(wù)的有效骨干網(wǎng)絡(luò),并為基于transformer的醫(yī)學(xué)圖像處理的創(chuàng)新鋪平道路。文章來源地址http://www.zghlxwxcb.cn/news/detail-691782.html

到了這里,關(guān)于FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    論文學(xué)習(xí)——U-Net: Convolutional Networks for Biomedical Image Segmentation

    采用端到端的結(jié)構(gòu),通過FCN(最后一層仍然是通過卷積完成),最后輸出圖像。 通過編碼(下采樣)-解碼(上采樣)形成一個(gè)“U”型結(jié)構(gòu)。每次下采樣時(shí),先進(jìn)行兩次卷積(通道數(shù)不變),然后通過一次池化層(也可以通過卷積)處理(長寬減半,通道數(shù)加倍);在每次上

    2024年02月13日
    瀏覽(21)
  • 醫(yī)學(xué)圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    醫(yī)學(xué)圖像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在醫(yī)學(xué)圖像分割領(lǐng)域,U形結(jié)構(gòu)的網(wǎng)絡(luò),尤其是Unet,已經(jīng)取得了很優(yōu)秀的效果。但是,CNN結(jié)構(gòu)并不擅長建立遠(yuǎn)程信息連接,也就是CNN結(jié)構(gòu)的感受野有限。盡管可以通過堆疊CNN結(jié)構(gòu)、使用空洞卷積等方式增加感受野,但也

    2024年02月05日
    瀏覽(26)
  • 【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    【論文閱讀筆記】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【論文概述】 本文是關(guān)于醫(yī)學(xué)圖像分割中視覺變換器(Vision Transformers,ViTs)的最新綜述。文中詳細(xì)回顧了ViTs及其與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)結(jié)合形成的混合視覺Trans

    2024年02月02日
    瀏覽(47)
  • HiFormer Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

    HiFormer Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

    [WACV2023] HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation 摘要 由于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算的特性,它們在建模長程相關(guān)性和空間相關(guān)性時(shí)受到限制。雖然Transformer最初是為了解決這個(gè)問題而開發(fā)的,但它們 無法捕獲低級別的特征 。相比之下,

    2024年01月21日
    瀏覽(25)
  • 《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》論文閱讀及代碼復(fù)現(xiàn)

    《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》論文閱讀及代碼復(fù)現(xiàn)

    論文地址:[2402.02491] VM-UNet: Vision Mamba UNet for Medical Image Segmentation (arxiv.org) 代碼地址:JCruan519/VM-UNet: (ARXIV24) This is the official code repository for \\\"VM-UNet: Vision Mamba UNet for Medical Image Segmentation\\\". (github.com) 摘要 : 在醫(yī)學(xué)圖像分割領(lǐng)域,基于細(xì)胞神經(jīng)網(wǎng)絡(luò)和基于變換器的模型都得到了廣

    2024年03月24日
    瀏覽(24)
  • SA-Net:用于醫(yī)學(xué)圖像分割的尺度注意網(wǎng)絡(luò) A scale-attention network for medical image segmentation

    ????????醫(yī)學(xué)圖像的語義分割為后續(xù)的圖像分析和理解任務(wù)提供了重要的基石。隨著深度學(xué)習(xí)方法的快速發(fā)展,傳統(tǒng)的 U-Net 分割網(wǎng)絡(luò)已在許多領(lǐng)域得到應(yīng)用?;谔剿餍詫?shí)驗(yàn),已發(fā)現(xiàn)多尺度特征對于醫(yī)學(xué)圖像的分割非常重要。在本文中,我們提出了一種尺度注意力深度學(xué)

    2024年02月16日
    瀏覽(27)
  • MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model

    MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model

    MedSegDiff:基于擴(kuò)散概率模型的醫(yī)學(xué)圖像分割 摘要: 擴(kuò)散概率模型(Diffusion probabilistic model, DPM) 是近年來計(jì)算機(jī)視覺研究的熱點(diǎn)之一。它在Imagen、Latent Diffusion Models和Stable Diffusion等圖像生成應(yīng)用中表現(xiàn)出了令人印象深刻的生成能力,引起了社區(qū)的廣泛討論。最近的許多研究還發(fā)

    2024年02月02日
    瀏覽(17)
  • 論文閱讀——Loss odyssey in medical image segmentation

    論文閱讀——Loss odyssey in medical image segmentation

    Loss odyssey in medical image segmentation github:https://github.com/JunMa11/SegLossOdyssey 這篇文章回顧了醫(yī)學(xué)圖像分割中的20種不同的損失函數(shù),旨在回答:對于醫(yī)學(xué)圖像分割任務(wù),我們應(yīng)該選擇哪種損失函數(shù)? 首先是一張各類分割函數(shù)的圖譜: 介紹函數(shù)之前先定義字母符號的含義: , 分別

    2024年02月04日
    瀏覽(25)
  • Medical Imaging AI – Image Segmentation using Deep Lear

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) Image segmentation is one of the key tasks in medical image analysis and computer vision that involves dividing an entire image into multiple parts or regions based on some criteria such as color, texture, shape, etc., so that each region represents a different object or structure present in the image. It helps to e

    2024年02月06日
    瀏覽(34)
  • 【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代碼開源] 【論文概述】 本文思路借鑒于自然圖像分割領(lǐng)域的 SAM ,介紹了一種名為SegVol的先進(jìn)醫(yī)學(xué)圖像分割模型,旨在構(gòu)建一種 圖像分割基礎(chǔ)模型 ,這是一個(gè)面向體

    2024年01月16日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包