地址:https://arxiv.org/pdf/2207.02255.pdf
1. 摘要
????OSFormer為基于transformer的偽裝實(shí)例分割(CIS)框架,有兩個(gè)關(guān)鍵設(shè)計(jì),首先是位置敏感transformer(LST),通過(guò)【位置引導(dǎo)查詢(xún)】和【混合卷積前向傳播網(wǎng)絡(luò)】獲得定位標(biāo)簽和實(shí)例級(jí)參數(shù);第二,開(kāi)發(fā)粗糙到精細(xì)融合模塊(CFF)合并來(lái)自LST和CNN骨干的上下文信息。這兩個(gè)組件的耦合使OSFormer能有效混合局部特征和遠(yuǎn)程上下文依賴(lài),以預(yù)測(cè)偽裝的實(shí)例。與兩階段框架比,OSFormer達(dá)到41%的AP,無(wú)需大量訓(xùn)練數(shù)據(jù)就能得到好的收斂效果(3040個(gè)樣本,60個(gè)epoch)
代碼:https://github.com/PJLallen/OSFormer
2.?OSFormer
結(jié)構(gòu)
4個(gè)基本組件:
(1)?CNN骨干提取目標(biāo)特征
(2)?局部敏感transformer(LST)產(chǎn)生實(shí)例級(jí)embedding
(3)?粗糙到精細(xì)融(CFF)合集成多尺度低級(jí)到高級(jí)特征,產(chǎn)生高分辨率mask特征
(4)?動(dòng)態(tài)偽裝實(shí)例歸一化(DCIN)用于預(yù)測(cè)最后的實(shí)例掩碼,如圖2.
2.1?CNN骨干
????采用多尺度特征C2-C5,為減少計(jì)算代價(jià),直接flatten和concate最后的3個(gè)特征圖(C3、C4、C5)到一個(gè)256個(gè)channel的序列Xm,輸入到LST編碼器。對(duì)于C2特征,將其輸入CFF模塊中,作為高分辨率、低級(jí)特征去捕捉更多偽裝實(shí)例線索。
2.2?位置敏感transformer
????transformer需要大量訓(xùn)練樣本和高計(jì)算代價(jià)支持,由于CIS的數(shù)據(jù)有限,我們目的是設(shè)計(jì)一個(gè)收斂更快,精度相匹配的有效結(jié)構(gòu),圖3展示了位置敏感trasnformer(LST)
LST編碼器:
????接收多尺度特征Xm取得豐富信息,將卷積運(yùn)算引入到前饋網(wǎng)絡(luò)中,稱(chēng)為混合卷積前饋網(wǎng)絡(luò)(BC-FFN)。首先,根據(jù)Ci的形狀將特征向量恢復(fù)到空間維度;然后,進(jìn)行核大小為3×3的卷積層來(lái)學(xué)習(xí)歸納偏差;最后,添加GN和GELU形成前饋網(wǎng)絡(luò)。在3×3卷積層之后,將特征flatten回一個(gè)序列。給定輸入特征Xb,BC-FFN可表示為:
?整體生LST編碼器可描述為:
Pm表示為位置編碼,MDAttn和LN分別表示多頭可變形自注意和層歸一化。
位置引導(dǎo)查詢(xún):
????對(duì)象查詢(xún)?cè)趖ransformer中扮演著關(guān)鍵角色,它被用作解碼器的初始輸入,并通過(guò)解碼器層獲得輸出嵌入;然而,普通DETR收斂速度較慢的原因之一是對(duì)象查詢(xún)是零初始化的,為此,我們提出位置敏感查詢(xún),充分利用LST編碼器的多尺度特征圖Ti,i=3,4,5.受【SOLO】的啟發(fā),我們首先將恢復(fù)后的特征圖T3-T5調(diào)整為Si×Si×D,i = 1,2,3的形狀;然后,將resize后的特征劃分為Si×Si的特征網(wǎng)格,并將其flatten,以生成位置引導(dǎo)查詢(xún)Q。在這種情況下,所提出的位置引導(dǎo)查詢(xún)可以利用不同位置的可學(xué)習(xí)的局部特征來(lái)優(yōu)化初始化,并有效地聚合偽裝區(qū)域的特征。與零初始化或隨機(jī)初始化相比,該查詢(xún)生成策略提高了transformer解碼器中查詢(xún)迭代的效率,加快了訓(xùn)練的收斂速度。
LST解碼器
????LST解碼器對(duì)于與(LST編碼器產(chǎn)生的)全局特性和位置引導(dǎo)查詢(xún)進(jìn)行交互是必要的,以產(chǎn)生具有實(shí)例感知的嵌入??臻g位置編碼也被添加到我們的位置引導(dǎo)查詢(xún)QL和編碼器存儲(chǔ)Xe中。之后,它們被可變形的交叉注意層融合。BC-FFN也用于可變形的注意操作后,類(lèi)似于LST編碼器。給定位置引導(dǎo)的查詢(xún)QL,我們的LST解碼器的pipeline被總結(jié)為:
其中,Ps表示基于特征網(wǎng)格的位置編碼,MDCAttn表示為多頭可變形的交叉注意操作。Xd是實(shí)例感知表示的輸出嵌入。最后,Xd被恢復(fù)后,輸入到DCIN模塊用于預(yù)測(cè)mask
2.3 粗糙的精細(xì)的融合
????OSFormer致力于利用LST編碼器輸出的多級(jí)全局特性來(lái)產(chǎn)生共享mask特征,為了合并不同的上下文信息,我們還融合了來(lái)自CNN主干的低級(jí)特征C2作為補(bǔ)充,得到了一個(gè)統(tǒng)一的高分辨率特征圖F,詳細(xì)結(jié)構(gòu)如圖4.我們以多級(jí)特征C2、T3、T4和T5作為級(jí)聯(lián)融合的輸入。
????考慮到偽裝的邊緣特征的捕獲更具有挑戰(zhàn)性,設(shè)計(jì)了一個(gè)嵌入在CFF中的反向邊緣注意(REA)模塊來(lái)監(jiān)督迭代過(guò)程中的邊緣特征。REA操作于邊緣特征,而不是預(yù)測(cè)的二進(jìn)制mask。此外,用于監(jiān)督的邊緣標(biāo)簽是通過(guò)侵蝕實(shí)例mask標(biāo)簽獲得的,沒(méi)有任何手動(dòng)標(biāo)簽。輸入特征同時(shí)由AvgPool和MaxPool操作。然后,將它們連接并轉(zhuǎn)發(fā)到一個(gè)7×7卷積和一個(gè)sigmoid函數(shù)中。之后,將注意力權(quán)重反轉(zhuǎn),并通過(guò)元素乘法將其應(yīng)用到融合特征Ff中。最后,我們使用3×3卷積來(lái)預(yù)測(cè)邊緣特征。假設(shè)輸入特征為T(mén)i,每個(gè)REA模塊的整個(gè)過(guò)程可以表述如下:
[;]表示channel上的連接??傊岢龅腃FF提供了一個(gè)共享的mask特征F來(lái)輸入DCIN,以預(yù)測(cè)每個(gè)實(shí)例的最終偽裝mask.
2.4 動(dòng)態(tài)偽裝實(shí)例歸一化
????引入動(dòng)態(tài)偽裝實(shí)例規(guī)范化(DCIN)來(lái)預(yù)測(cè)最終mask。當(dāng)DCIN從LST解碼器接收到輸出嵌入Xd時(shí),使用全連接層(FC)來(lái)獲得位置標(biāo)簽。同時(shí),多層感知機(jī)(MLP)來(lái)獲得大小為D(即256)的實(shí)例參數(shù)。在訓(xùn)練階段,根據(jù)GT指定正例、負(fù)例位置。利用正例位置的實(shí)例感知參數(shù)來(lái)生成分割掩碼。在測(cè)試階段,利用位置標(biāo)簽的置信度來(lái)過(guò)濾(見(jiàn)圖5)無(wú)效的參數(shù)(例如閾值> 0.5)
????隨后,對(duì)過(guò)濾后的位置感知參數(shù)進(jìn)行兩層線性操作,獲得仿射權(quán)值ω和偏置β。最后,它們與共享mask特征F一起使用來(lái)預(yù)測(cè)偽裝實(shí)例,可以描述為:
P為預(yù)測(cè)mask(HxWxN),N為預(yù)測(cè)實(shí)例的數(shù)量,Ux4為上采樣4倍。最后,使用Matrix NMS【參考SOLOV2】去獲得最終的實(shí)例。
2.5 損失函數(shù)
????整體損失函數(shù)可寫(xiě)為:
其中Ledge是監(jiān)督我們的CFF中不同級(jí)別的邊緣的邊緣損失.
邊緣損失可定義為:
J表示用于監(jiān)督的邊緣特征級(jí)別的總數(shù),λedge是邊緣損失的權(quán)重,默認(rèn)設(shè)置為1。由于CIS任務(wù)是類(lèi)別不可知的,我們使用每個(gè)位置的偽裝存在(Lloc)的置信度,而不是一般實(shí)例分割中的分類(lèi)置信度。Lloc由Focal loss實(shí)現(xiàn),Lmask為Dice loss,λloc和λmask分別設(shè)置為1和3,以平衡總損失。
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-519088.html
3. 實(shí)驗(yàn)
文章同步自公眾號(hào)【衛(wèi)超cv】
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-519088.html
?
?
到了這里,關(guān)于OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!