一、U-Net
U-Net 是一種語義分割架構(gòu)。 它由收縮路徑和擴(kuò)張路徑組成。 收縮路徑遵循卷積網(wǎng)絡(luò)的典型架構(gòu)。 它由兩個 3x3 卷積(未填充卷積)的重復(fù)應(yīng)用組成,每個卷積后跟一個修正線性單元 (ReLU) 和一個步長為 2 的 2x2 最大池化操作,用于下采樣。 在每個下采樣步驟中,我們將特征通道的數(shù)量加倍。 擴(kuò)展路徑中的每一步都包含對特征圖進(jìn)行上采樣,然后進(jìn)行 2x2 卷積(“上卷積”),將特征通道數(shù)量減半,與收縮路徑中相應(yīng)裁剪的特征圖進(jìn)行串聯(lián),以及兩個 3x3 卷積,每個卷積后跟一個 ReLU。 由于每次卷積都會丟失邊界像素,因此需要進(jìn)行裁剪。 在最后一層,使用 1x1 卷積將每個 64 分量特征向量映射到所需數(shù)量的類。 該網(wǎng)絡(luò)總共有 23 個卷積層。
二、Fully Convolutional Network
全卷積網(wǎng)絡(luò)(FCN)是一種主要用于語義分割的架構(gòu)。 它們僅采用局部連接層,例如卷積、池化和上采樣。 避免使用密集層意味著更少的參數(shù)(使網(wǎng)絡(luò)訓(xùn)練速度更快)。 這也意味著 FCN 可以處理可變的圖像尺寸,因?yàn)樗羞B接都是本地的。
該網(wǎng)絡(luò)由用于提取和解釋上下文的下采樣路徑和允許本地化的上采樣路徑組成。
FCN 還采用跳躍連接來恢復(fù)在下采樣路徑中丟失的細(xì)粒度空間信息。
三、SegNet
SegNet 是一種語義分割模型。 該核心可訓(xùn)練分割架構(gòu)由編碼器網(wǎng)絡(luò)、相應(yīng)的解碼器網(wǎng)絡(luò)和像素級分類層組成。 編碼器網(wǎng)絡(luò)的架構(gòu)在拓?fù)渖吓c VGG16 網(wǎng)絡(luò)中的 13 個卷積層相同。 解碼器網(wǎng)絡(luò)的作用是將低分辨率編碼器特征圖映射到全輸入分辨率特征圖以進(jìn)行像素級分類。 SegNet 的新穎之處在于解碼器對其較低分辨率輸入特征圖進(jìn)行上采樣的方式。 具體來說,解碼器使用在相應(yīng)編碼器的最大池步驟中計(jì)算的池索引來執(zhí)行非線性上采樣。
四、DeepLab
DeepLab 是一種語義分割架構(gòu)。 首先,輸入圖像使用擴(kuò)張卷積通過網(wǎng)絡(luò)。 然后對網(wǎng)絡(luò)的輸出進(jìn)行雙線性插值,并通過全連接的CRF對結(jié)果進(jìn)行微調(diào),得到最終的預(yù)測。
五、DeepLabv3
DeepLabv3 是一種語義分割架構(gòu),它在 DeepLabv2 的基礎(chǔ)上進(jìn)行了一些修改。 為了處理多尺度的對象分割問題,設(shè)計(jì)了采用級聯(lián)或并行的空洞卷積的模塊,通過采用多種空洞率來捕獲多尺度上下文。 此外,DeepLabv2 的 Atrous Spatial Pyramid Pooling 模塊增強(qiáng)了編碼全局上下文的圖像級特征,并進(jìn)一步提高了性能。
ASSP 模塊的變化是,作者在模型的最后一個特征圖上應(yīng)用全局平均池化,將生成的圖像級特征輸入到具有 256 個濾波器(和批量歸一化)的 1 × 1 卷積,然后對 特征到所需的空間維度。 最后,改進(jìn)的 ASPP 由 (a) 一個 1×1 卷積和三個 3 × 3 卷積組成,當(dāng)輸出步長 = 16 時,速率 = (6, 12, 18)(全部具有 256 個濾波器和批量歸一化),以及 ( b) 圖像級特征。
另一個有趣的區(qū)別是不再需要 DeepLabv2 的 DenseCRF 后處理。
六、UNet++
UNet++是一種基于U-Net的語義分割架構(gòu)。 通過使用密集連接的嵌套解碼器子網(wǎng)絡(luò),它增強(qiáng)了提取的特征處理,據(jù)作者報(bào)道,它在電子顯微鏡 (EM)、細(xì)胞、細(xì)胞核、腦腫瘤、肝臟和肺結(jié)節(jié)醫(yī)學(xué)圖像分割方面優(yōu)于 U-Net 任務(wù)。
七、PSPNet
PSPNet(即金字塔場景解析網(wǎng)絡(luò))是一種語義分割模型,它利用金字塔解析模塊,通過基于不同區(qū)域的上下文聚合來利用全局上下文信息。 局部和全局線索共同使最終的預(yù)測更加可靠。 我們還提出了一個優(yōu)化方案
給定輸入圖像,PSPNet 使用預(yù)訓(xùn)練的 CNN 和擴(kuò)張網(wǎng)絡(luò)策略來提取特征圖。 最終的特征圖大小為
1/8 輸入圖像的。 在地圖頂部,我們使用金字塔池模塊來收集上下文信息。 使用我們的 4 級金字塔,池化內(nèi)核覆蓋圖像的整個、一半和一小部分。 它們被融合為全局先驗(yàn)。 然后我們在最后部分將先驗(yàn)與原始特征圖連接起來。 接下來是卷積層以生成最終的預(yù)測圖。
八、EfficientDet
EfficientDet 是一種對象檢測模型,它利用多種優(yōu)化和主干調(diào)整,例如使用 BiFPN,以及統(tǒng)一縮放所有主干、特征網(wǎng)絡(luò)和框/類預(yù)測的分辨率、深度和寬度的復(fù)合縮放方法 同時網(wǎng)絡(luò)。
九、SegFormer
SegFormer 是一個基于 Transformer 的語義分割框架,它將 Transformer 與輕量級多層感知器 (MLP) 解碼器結(jié)合在一起。 SegFormer 有兩個吸引人的功能:1)SegFormer 包含一個新穎的分層結(jié)構(gòu) Transformer 編碼器,可輸出多尺度特征。 它不需要位置編碼,從而避免了位置代碼的插值,當(dāng)測試分辨率與訓(xùn)練分辨率不同時,位置代碼的插值會導(dǎo)致性能下降。 2)SegFormer避免了復(fù)雜的解碼器。 所提出的 MLP 解碼器聚合來自不同層的信息,從而結(jié)合局部注意力和全局注意力來呈現(xiàn)強(qiáng)大的表示。
十、ENet
ENet 是一種語義分割架構(gòu),采用緊湊的編碼器-解碼器架構(gòu)。 一些設(shè)計(jì)選擇包括:
使用 SegNet 方法對 y 進(jìn)行下采樣,保存最大池化層中選擇的元素索引,并使用它們在解碼器中生成稀疏上采樣映射。
早期下采樣可優(yōu)化網(wǎng)絡(luò)的早期階段并降低處理大型輸入幀的成本。 ENet 的前兩個塊大大減少了輸入大小,并且僅使用一小組特征圖。
使用 PReLU 作為激活函數(shù)
使用擴(kuò)張卷積
使用空間丟失文章來源:http://www.zghlxwxcb.cn/news/detail-855396.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-855396.html
到了這里,關(guān)于【計(jì)算機(jī)視覺 | 語義分割】干貨:語義分割常見算法介紹合集(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!