国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tfoot id="aunvv"></tfoot>

DeepLabv3+

2年前作者：yy2050645分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了DeepLabv3+。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一.摘要

本文在進(jìn)行語義分割任務(wù)時(shí)將空間金字塔池化（SPP）模塊或encoder-decoder結(jié)構(gòu)引入到深度神經(jīng)網(wǎng)絡(luò)中。以前的網(wǎng)絡(luò)通過對輸入的feature map使用多種尺度的卷積核或者池化操作以及多種感受野能夠編碼出多尺度的環(huán)境信息。而之后的一些工作中提出的網(wǎng)絡(luò)通過逐漸恢復(fù)空間信息能夠捕獲更加精細(xì)的物體邊界。在本文中，將以上兩種優(yōu)勢（多尺度特征+恢復(fù)空間信息）進(jìn)行結(jié)合。特別地，本文提出的deeplabv3+在deeplabv3的基礎(chǔ)上加入了簡單卻有效的decoder模塊去細(xì)化分割結(jié)果，特別是物體的邊界。本文進(jìn)一步探索了Xception模型并且將深度可分離卷積應(yīng)用在空洞空間金字塔池化（ASPP）以及decoder模塊中，從而構(gòu)造出了更快和更強(qiáng)的encoder-decoder網(wǎng)絡(luò)。

二.方法

這部分簡單介紹空洞卷積以及深度可分離卷積。然后在探討本文提出的附加在encoder模塊之后的decoder模塊之前先來回顧DeepLabv3，Deeplabv3用來當(dāng)作本文提出模型的encoder模塊。

2.1包含空洞卷積的encoder-decoder

DeepLabv3+

?上圖為本文提出的deeplabv3+整體模型結(jié)構(gòu)，可以看出整體是基于encoder-decoder架構(gòu)的，其中用到了空洞卷積和金字塔模塊，下面具體介紹各個(gè)模塊。

空洞卷積：

空洞卷積是一個(gè)能夠有效控制深度神經(jīng)網(wǎng)絡(luò)輸出的feature map的分辨率的工具以及能夠調(diào)整卷積核的感受野從而捕獲多尺度信息，空洞卷積是標(biāo)準(zhǔn)卷積的一個(gè)擴(kuò)展。在一個(gè)二維卷積中，對于卷積輸出的特征上的每個(gè)位置以及對應(yīng)的卷積核，對于輸入，空洞卷積的計(jì)算如下所示：

$DeepLabv3+$

上式中為空洞率，表示卷積核在卷積操作的輸入上的取樣步長；表示卷積核參數(shù)的位置，例如卷積核尺寸為3，則；表示卷積核尺寸（論文中公式上沒有，在這里為了表示清晰加入）。更直觀的空洞卷積如下圖所示：

DeepLabv3+

?不難看出，標(biāo)準(zhǔn)卷積就是空洞率為1的空洞卷積。卷積核的感受野隨著空洞率的改變隨之也會(huì)發(fā)生改變。

深度可分離卷積：

深度可分離卷積將一個(gè)標(biāo)準(zhǔn)卷積拆分為深度卷積+1*1卷積，極大的減少了計(jì)算復(fù)雜度。特別地，深度卷積獨(dú)立的為輸入feature的每個(gè)channel做卷積操作，然后使用1*1的卷積對深度卷積的輸出進(jìn)行channel間進(jìn)行融合操作，這樣就替代了一個(gè)標(biāo)準(zhǔn)卷積操作，即融合了空間信息，也融合了不同通道間的信息。在之前的一些工作中，已經(jīng)能夠?qū)⒖斩淳矸e融入到深度可分離卷積中，如下圖所示：

DeepLabv3+

?上圖中（a）就是之前提到的深度卷積，單獨(dú)的為每個(gè)channel進(jìn)行卷積操作；（b）就是之前提到的1*1卷積用來融合channel間的信息。（a）和（b）就組成了深度可分離卷積。那如果將（a）中的標(biāo)準(zhǔn)卷積操作替換為空洞卷積，如圖（c）所示就實(shí)現(xiàn)了帶有空洞卷積的深度可分離卷積，本文稱之為空洞可分離卷積（atrous seperable convolution）。本文應(yīng)用空洞可分離卷積極大的減少所提出模型的計(jì)算復(fù)雜度與此同時(shí)維持了與原模型相似或者更好的模型效果。

DeepLabv3作為encoder:

Deeplabv3使用了空洞卷積去對深度神經(jīng)網(wǎng)絡(luò)輸出的任意分辨率的feature進(jìn)行特征提取。這里使用輸出步長（output stride）表示模型輸入圖像和輸出的feature map（在全局池化或全連接層之前）的空間分辨率的比值。對于分類任務(wù)，最終feature map的空間分辨率往往是模型輸入圖像的1/32，因此輸出步長為32。對于語義分割任務(wù)來說，通過移除網(wǎng)絡(luò)最后1到2個(gè)模塊的步長以及相應(yīng)地使用空洞卷積（例如對最后兩個(gè)網(wǎng)絡(luò)模塊采用空洞率為2和4的空洞卷積從而實(shí)現(xiàn)輸出步長為8）從而減小整個(gè)模型的輸出步長從而達(dá)到輸出步長為8或16，這樣就能夠提取到更稠密的特征。此外，deeplabv3增加了帶有圖像級別特征的空洞空間金字塔模塊（ASPP），空間金字塔模塊（ASPP）能夠通過不同的空洞率獲取多尺度卷積特征。本文使用原始deeplabv3的logits模塊之前最后輸出的feature map作為本文encoder-decoder中encoder部分的輸出。需要注意的是，encoder輸出的feature map包含256個(gè)通道以及豐富的語義信息。除此之外，根據(jù)計(jì)算能力可以采用空洞卷積在任意分辨率的輸入上提取特征。

提出的decoder:

deeplabv3作為encoder輸出的features通常輸出步長為16，在之前的研究工作中，feature map通過雙線性插值上采樣16倍來將輸出feature map恢復(fù)為模型輸入尺寸，可以將其看作是一個(gè)簡單的decoder模塊。然而，這種簡單的decoder模塊可能并不能夠很好的恢復(fù)物體分割細(xì)節(jié)。因此本文提出了一個(gè)簡單但是有效的decoder模塊，2.1中deeplabv3+整體結(jié)構(gòu)圖中所示，encoder輸出的特征首先進(jìn)行4倍的雙線性插值上采樣，然后和encoder中backbone中擁有相同尺寸的低級別（淺層）特征（例如Resnet-101的Conv2模塊的輸出）進(jìn)行通道維度的拼接，在拼接之前首先對低級別特征進(jìn)行1*1卷積，目的是為了減小低級別特征的通道數(shù)目，因?yàn)榈图墑e特征通常含有大量的通道數(shù)目（例如256或512），這樣底級別特征的重要性可能會(huì)超過encoder輸出的富有語義信息的特征（在本文模型中只有256個(gè)通道）并且使得訓(xùn)練更加困難。在將encoder輸出特征和低級別特征拼接之后，對拼接結(jié)果進(jìn)行了幾個(gè)3*3卷積操作去細(xì)化特征，并隨后又接了一個(gè)4倍的雙線性插值上采樣。在之后的實(shí)驗(yàn)中證明了，當(dāng)encoder的輸出步長為16時(shí)可以達(dá)到速度和精度的最好的權(quán)衡。當(dāng)encoder的輸出步長為8時(shí)模型效果略有提升，但也相應(yīng)增加了額外的計(jì)算復(fù)雜度代價(jià)。

2.2改進(jìn)Aligned Xception

Xception模型在ImageNet上已經(jīng)展示了不錯(cuò)的圖像分類結(jié)果并有著較快的計(jì)算速度。最近，MSRA團(tuán)隊(duì)對Xception模型做了一些改動(dòng)（稱為Aligned Xception）以及進(jìn)一步的推動(dòng)了在目標(biāo)檢測任務(wù)上的表現(xiàn)。受這些發(fā)現(xiàn)的啟發(fā)，本文沿著相同的方向去采用Xception模型來進(jìn)行語義分割任務(wù)。特別地，我們在MSRA的修改上做了一些變動(dòng)，分別為（1）更深的Xception，這個(gè)變動(dòng)借鑒了以前的一些研究工作，但是不同的是，為了更快的計(jì)算以及高效的內(nèi)存運(yùn)用本文沒有修改Xception的輸入流網(wǎng)絡(luò)結(jié)構(gòu)（entry flow network structure）；（2）最大池化操作通過使用帶有一定步長的深度可分離卷積進(jìn)行替代，也可以將深度可分離卷積替換為前文所說的空洞可分離卷積去在任意分辨率的輸入上提取特征（或者另一種選擇就是使用帶有空洞率的最大池化操作替換原始的池化操作）。（3）在每一個(gè)3*3的深度卷積之后添加額外的batch normalization以及ReLU操作，這與MobileNet的設(shè)計(jì)類似。修改后的Xception整體結(jié)構(gòu)如下圖所示：

DeepLabv3+

三.實(shí)驗(yàn)驗(yàn)證

本文利用ImageNet-1k預(yù)訓(xùn)練的Resnet-101或上文中修改后的aligned Xception去使用空洞卷積提取稠密特征。

訓(xùn)練時(shí)采用了“poly”學(xué)習(xí)率策略以及初始學(xué)習(xí)率設(shè)置為0.007，圖像尺寸為513*513。模型訓(xùn)練時(shí)端到端的。

3.1decoder設(shè)計(jì)選擇

定義“DeepLabv3 feature map”作為Deeplabv3最后輸出的feature map（例如，features包含ASPP特征以及圖像級別的特征），[k*k,f]作為卷積操作，表示卷積核尺寸為k*k，共有f個(gè)卷積核（即卷積輸出feature map的通道數(shù)為f）。

當(dāng)采用輸出步長為16時(shí)，基于Resnet-101的DeepLabv3在訓(xùn)練和測試中對logits均采用16倍的雙線性插值。這種簡單的雙線性插值方式可以認(rèn)為時(shí)一種簡單的decoder設(shè)計(jì)，在PASCAL VOC2012驗(yàn)證集上得到了77.21%的精度，比不用這種簡單的decoder方式（例如直接將groud truth降采樣來保證和網(wǎng)絡(luò)輸出尺寸相同）提升了1.2個(gè)百分點(diǎn)。為了提升這種簡單的baseline，本文剔提出的“Deeplabv3+”在encoder輸出后添加了decoder模塊，如前文中DeepLabv3+整體結(jié)構(gòu)圖中所示。在decoder模塊中，本文想了3個(gè)不同的設(shè)計(jì)方式，（1）1*1卷積減少encoder的低級別特征通道數(shù)；（2）3*3卷積被運(yùn)用去獲取更加精準(zhǔn)的分割結(jié)果；（3）什么encoder的低級別特征應(yīng)當(dāng)被應(yīng)用。

為了驗(yàn)證decoder中的1*1卷積的效果，本文采用Resnet-101網(wǎng)絡(luò)的Conv2特征作為低級別特征。采用1*1卷積對低級別特征減少通道數(shù)，減少為不同通道數(shù)目的模型效果如下表所示：

DeepLabv3+

?可以看到，當(dāng)通道數(shù)目降低為32或48時(shí)模型效果較好，因此對低級別特征采用[1*1,48]的卷積操作來減少低級別特征通道數(shù)目。

之后設(shè)計(jì)了decoder的3*3卷積結(jié)構(gòu)，不同的設(shè)計(jì)效果如下表所示：

DeepLabv3+

?本文發(fā)現(xiàn)，在拼接Conv2特征和“Deeplabv3 feature map”后，采用2個(gè)3*3，卷積核個(gè)數(shù)為256的卷積操作效果要優(yōu)于簡單的使用1個(gè)或3個(gè)卷積操作。并發(fā)現(xiàn)，將卷積核數(shù)目從256變至128或卷積核從3*3變?yōu)?*1均會(huì)降低模型表現(xiàn)。隨后還做測試了同時(shí)使用Conv2以及Conv3特征，但發(fā)現(xiàn)效果并不明顯，因此最終采用了簡單而有效的decoder：利用減少通道數(shù)的低級別特征（Conv2特征）和“Deeplabv3 feature map”進(jìn)行拼接，然后進(jìn)行2個(gè)[3*3,256]的卷積操作。

3.2Resnet-101作為backbone網(wǎng)絡(luò)

當(dāng)使用Resnet-101作為DeepLabv3+的backbone時(shí)，為了比較精度和速度的變化，觀察了mIOU以及Multiply-Adds。得益于空洞卷積，模型在訓(xùn)練時(shí)能夠在不同分辨率下獲取特征以及在模型驗(yàn)證時(shí)使用單一模型。

Baseline：

DeepLabv3+

?上表中train OS表示訓(xùn)練時(shí)的輸出步長，eval OS表示驗(yàn)證時(shí)的輸出步長。Decoder表示是否使用本文提出的decoder模塊，MS表示驗(yàn)證時(shí)模型使用多尺度輸入，F(xiàn)lip表示模型輸入時(shí)添加左右反轉(zhuǎn)輸入。

上表中第一大行（前4小行）展示了采用更小的輸出步長（輸出步長為8時(shí)）獲取更稠密特征或者采用多尺度輸入以及采用decoder模塊、輸入圖像反轉(zhuǎn)等操作時(shí)的模型效果。其中采用圖像反轉(zhuǎn)輸入模型將模型計(jì)算復(fù)雜度變?yōu)樵瓉淼膬杀叮切Ч嵘苄　?/p>

添加decoder:

上表中第二大行采用了本文提出的decoder結(jié)構(gòu)，呈現(xiàn)了驗(yàn)證時(shí)不同的輸出步長（8或16）或采用多尺度輸入或圖像反轉(zhuǎn)時(shí)模型效果。

粗粒度feature maps：

進(jìn)行了實(shí)驗(yàn)?zāi)Ｐ陀?xùn)練時(shí)采用輸出步長為32（例如在訓(xùn)練時(shí)沒有采用空洞卷積）來達(dá)到更快的計(jì)算速度。在上表中第三大行展示了在訓(xùn)練時(shí)采用輸出步長為32以及在驗(yàn)證時(shí)采用輸出步長為8~32，以采用decoder和不采用decoder時(shí)的模型效果。

3.3Xception作為backbone網(wǎng)絡(luò)

DeepLabv3+

?如上表所示為Xception作為backbone時(shí)的一些實(shí)驗(yàn)效果，與Resnet-101的類似，這里就不細(xì)講了，需要說明的是，可以發(fā)現(xiàn)表中多了一些操作，其中SC表示是否采用深度可分離卷積在ASPP以及decoder模塊中；COCO表示模型是否在MS-COCO上預(yù)訓(xùn)練；JFT表示模型是否在JFT上預(yù)訓(xùn)練。

四.實(shí)驗(yàn)效果

DeepLabv3+ 文章來源地址http://www.zghlxwxcb.cn/news/detail-458687.html

到了這里，關(guān)于DeepLabv3+的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

圖像分割實(shí)戰(zhàn)-系列教程15：deeplabV3+ VOC分割實(shí)戰(zhàn)3-------網(wǎng)絡(luò)結(jié)構(gòu)1
有任何問題歡迎在下面留言本篇文章的代碼運(yùn)行界面均在Pycharm中進(jìn)行本篇文章配套的代碼資源已經(jīng)上傳 deeplab系列算法概述 deeplabV3+ VOC分割實(shí)戰(zhàn)1 deeplabV3+ VOC分割實(shí)戰(zhàn)2 deeplabV3+ VOC分割實(shí)戰(zhàn)3 deeplabV3+ VOC分割實(shí)戰(zhàn)4 deeplabV3+ VOC分割實(shí)戰(zhàn)5 本項(xiàng)目的網(wǎng)絡(luò)結(jié)構(gòu)在network文件夾中，主要在
2024年01月19日
瀏覽(23)
MaskFormer：將語義分割和實(shí)例分割作為同一任務(wù)進(jìn)行訓(xùn)練
目標(biāo)檢測和實(shí)例分割是計(jì)算機(jī)視覺的基本任務(wù)，在從自動(dòng)駕駛到醫(yī)學(xué)成像的無數(shù)應(yīng)用中發(fā)揮著關(guān)鍵作用。目標(biāo)檢測的傳統(tǒng)方法中通常利用邊界框技術(shù)進(jìn)行對象定位，然后利用逐像素分類為這些本地化實(shí)例分配類。但是當(dāng)處理同一類的重疊對象時(shí)，或者在每個(gè)圖像的對象數(shù)量不
2024年02月10日
瀏覽(22)
DeepLabv3+
本文在進(jìn)行語義分割任務(wù)時(shí)將空間金字塔池化（SPP）模塊或encoder-decoder結(jié)構(gòu)引入到深度神經(jīng)網(wǎng)絡(luò)中。以前的網(wǎng)絡(luò)通過對輸入的feature map使用多種尺度的卷積核或者池化操作以及多種感受野能夠編碼出多尺度的環(huán)境信息。而之后的一些工作中提出的網(wǎng)絡(luò)通過逐漸恢復(fù)空間信息能
2024年02月06日
瀏覽(23)
改進(jìn) DeepLabV3+
CFF結(jié)構(gòu)圖? ? 10.28更新（解碼復(fù)習(xí)）
2024年02月13日
瀏覽(20)
Docker 部署深度學(xué)習(xí) 運(yùn)行deeplabV3
本文主要介紹docker發(fā)展歷史，常用的鏡像，容器命令。以及部署深度學(xué)習(xí)環(huán)境，運(yùn)行deeplabV3 項(xiàng)目。 2010年，美國一家公司dotcloud做一些pass的云計(jì)算服務(wù)，lxc有關(guān)的容器技術(shù)，他們講自己的技術(shù)（容器化技術(shù)）命名為Docker。剛誕生的時(shí)候，沒有引起關(guān)注，然后2013年，他們講D
2024年01月21日
瀏覽(19)
DeepLabV3+：ASPP加強(qiáng)特征提取網(wǎng)絡(luò)的搭建
目錄 ASPP結(jié)構(gòu)介紹 ASPP在代碼中的構(gòu)建參考資料 ASPP：Atrous Spatial Pyramid Pooling，空洞空間卷積池化金字塔。簡單理解就是個(gè)至尊版池化層，其目的與普通的池化層一致，盡可能地去提取特征。利用主干特征提取網(wǎng)絡(luò)，會(huì)得到一個(gè)淺層特征和一個(gè)深層特征，這一篇主要以如何對
2024年02月16日
瀏覽(66)
DeepLabV3+：Mobilenetv2的改進(jìn)以及淺層特征和深層特征的融合
目錄 Mobilenetv2的改進(jìn) 淺層特征和深層特征的融合完整代碼參考資料在DeeplabV3當(dāng)中，一般不會(huì)5次下采樣，可選的有3次下采樣和4次下采樣。因?yàn)橐M(jìn)行五次下采樣的話會(huì)損失較多的信息。在這里mobilenetv2會(huì)從之前寫好的模塊中得到，但注意的是，我們在這里獲得的特征是[-
2024年01月19日
瀏覽(39)
語義分割任務(wù)中的Transformer
Transformer 在語義分割中的使用主要有兩種方式： patch-based Transoformer query-based Transformer Transformer最初應(yīng)用于NLP領(lǐng)域，在NLP中稱每個(gè)單詞為token，而在CV中就是將圖像切割成不重疊的Patch序列（其實(shí)就是token）。Patch-basedTransformer實(shí)際上是模仿NLP任務(wù)，將語義分割任務(wù)視為了一個(gè) S
2024年02月12日
瀏覽(21)
計(jì)算機(jī)視覺與深度學(xué)習(xí)-圖像分割-視覺識別任務(wù)01-語義分割-【北郵魯鵬】
給每個(gè)像素分配類別標(biāo)簽。不區(qū)分實(shí)例，只考慮像素類別。滑動(dòng)窗口缺點(diǎn) 重疊區(qū)域的特征反復(fù)被計(jì)算，效率很低。所以針對該問題提出了新的解決方案–全卷積。讓整個(gè)網(wǎng)絡(luò)只包含卷積層，一次性輸出所有像素的類別預(yù)測。全卷積優(yōu)點(diǎn) 不用將圖片分為一個(gè)個(gè)小區(qū)域然后再
2024年02月07日
瀏覽(20)
計(jì)算機(jī)視覺三大基本任務(wù)：分類、檢測（定位）、分割（語義和實(shí)例）
剛剛接觸計(jì)算機(jī)視覺時(shí)可能會(huì)對不同的任務(wù)的區(qū)分以及網(wǎng)絡(luò)架構(gòu)的選擇產(chǎn)生迷惑，因此，在此總結(jié)了相關(guān)的基礎(chǔ)知識。在本文中，我們試圖回答兩個(gè)問題：不同任務(wù)要做的事情是什么，研究范疇是什么？不同的任務(wù)需要選擇什么類型的網(wǎng)絡(luò)？計(jì)算機(jī)視覺任務(wù)可以分為4大
2024年02月05日
瀏覽(40)

<strong id="ew4it"><strong id="ew4it"></strong></strong>

<object id="ew4it"></object>

<dd id="ew4it"></dd>

<strong id="ew4it"></strong>

<strong id="ew4it"><ul id="ew4it"></ul></strong>

<code id="ew4it"><input id="ew4it"></input></code>