DQnet: Cross-Model Detail Querying for Camouflaged Object Detection
DQnet:偽裝目標(biāo)檢測(cè)中的跨模型細(xì)節(jié)查詢
論文地址:https://arxiv.org/abs/2212.08296
這篇文章提出了一個(gè)交叉模型框架(CNN-Transformer并行)來(lái)檢測(cè)偽裝目標(biāo)
出發(fā)點(diǎn)還是:CNN局部感知,感受野受限 ,Transformer全局信息豐富但細(xì)節(jié)信息不足。希望結(jié)合二者優(yōu)勢(shì)
這個(gè)思路目前做的挺多的,不算是很新穎,很多圖像分割方向的都有這樣做的
最主要的創(chuàng)新還是作者提出了一個(gè) Relation-Based Querying (RBQ) module
下面詳細(xì)解釋下:
整體框架如圖所示,這個(gè)圖畫的不是很清楚
整體框架分為兩個(gè)分支左邊是ViT,也就是Transformer分支,右邊的ResNet,也就是CNN分支
關(guān)于Transformer和CNN的優(yōu)缺點(diǎn),作者給出的說(shuō)法是:
Transformer將圖像塊投影到向量中,導(dǎo)致局部細(xì)節(jié)的丟失。同時(shí)Transformer編碼器能夠獲得準(zhǔn)確的全局感知信息。
CNN中卷積核在具有重疊的特征圖上滑動(dòng),這保留了細(xì)粒度的局部細(xì)節(jié),但缺乏獲得連續(xù)語(yǔ)義的能力。
將這兩者結(jié)合在一起,使得特征提取器不僅可以繼承全局信息,還可以彌補(bǔ)ViT的缺陷(缺乏空間歸納偏置)
所以關(guān)鍵問(wèn)題就是如何結(jié)合CNN和Transformer的特征
作者說(shuō)他們?cè)O(shè)計(jì)了一種多尺度細(xì)節(jié)查詢機(jī)制(multi-scale detail querying mechanism),以交互的方式消除這兩種特征之間的不一致。
具體做法就是,首先講ResNet提取的特征與Transformer做對(duì)齊,就是圖中右側(cè)的Alignment
具體地說(shuō),特征圖首先需要通過(guò)最大池化下采樣來(lái)將空間尺度與ViT patch embeddings對(duì)齊。然后使用1x1卷積來(lái)完成通道維度對(duì)齊,然后使用LayerNorm層來(lái)正則化特征。
對(duì)齊之后的特征送入RBQ模塊,從RBQ出來(lái)的特征,再用同樣的方法去與ResNet對(duì)齊, 再送入ResNet下一層繼續(xù)運(yùn)算
這里注意一個(gè)問(wèn)題
ViT的大小是不變的,ResNet則是金字塔結(jié)構(gòu)的(也就是每一層尺寸不一),所以確定在哪個(gè)位置進(jìn)行對(duì)齊是一個(gè)重要的問(wèn)題。
本文所提出的對(duì)齊機(jī)制是在ResNet四個(gè)階段每個(gè)階段的開始。
下面說(shuō)下RBQ Relation-Based Querying.
作者說(shuō),傳統(tǒng)方法,直接使用逐元素相加來(lái)融合對(duì)齊的特征。然而他們認(rèn)為,在COD場(chǎng)景中,低級(jí)細(xì)節(jié)和高級(jí)語(yǔ)義的直接融合可能會(huì)導(dǎo)致細(xì)粒度的細(xì)節(jié)很容易被周圍的上下文信息淹沒的現(xiàn)象。
所以他們采用的方法是:通過(guò)計(jì)算兩種特征的逐像素關(guān)系并將基于關(guān)系的結(jié)果添加到原始融合中,來(lái)彌合跨模型的語(yǔ)義差距。
如何計(jì)算關(guān)系呢,作者說(shuō)他們使用基window-based cross attention來(lái)推理空間相鄰元素之間的逐像素關(guān)系。
具體來(lái)說(shuō)就是ResNet的特征記作Y
,ViT的特征記作Z
。然后Q由Z
產(chǎn)生,K和V由Y
產(chǎn)生
下面這個(gè)圖畫的很清楚,得到的QKV就做正常的多頭自注意力就好了,然后每一層的輸出是由這一層的ViT特征+ResNet特征+RBQ的結(jié)果得到的。做法還是蠻簡(jiǎn)單的。
最后說(shuō)下loss
主要還是用的wBCE Loss和wIoU
作者加了個(gè)SAL Significance Aware Loss文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-599826.html
感覺說(shuō)的不是很清楚,貼個(gè)圖看下吧。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-599826.html
到了這里,關(guān)于【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!