国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

這篇具有很好參考價(jià)值的文章主要介紹了OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

地址:https://arxiv.org/pdf/2207.02255.pdf

1. 摘要

????OSFormer為基于transformer的偽裝實(shí)例分割(CIS)框架,有兩個(gè)關(guān)鍵設(shè)計(jì),首先是位置敏感transformer(LST),通過(guò)【位置引導(dǎo)查詢(xún)】和【混合卷積前向傳播網(wǎng)絡(luò)】獲得定位標(biāo)簽和實(shí)例級(jí)參數(shù);第二,開(kāi)發(fā)粗糙到精細(xì)融合模塊(CFF)合并來(lái)自LST和CNN骨干的上下文信息。這兩個(gè)組件的耦合使OSFormer能有效混合局部特征和遠(yuǎn)程上下文依賴(lài),以預(yù)測(cè)偽裝的實(shí)例。與兩階段框架比,OSFormer達(dá)到41%的AP,無(wú)需大量訓(xùn)練數(shù)據(jù)就能得到好的收斂效果(3040個(gè)樣本,60個(gè)epoch)

代碼:https://github.com/PJLallen/OSFormer

2.?OSFormer

結(jié)構(gòu)

4個(gè)基本組件:

(1)?CNN骨干提取目標(biāo)特征

(2)?局部敏感transformer(LST)產(chǎn)生實(shí)例級(jí)embedding

(3)?粗糙到精細(xì)融(CFF)合集成多尺度低級(jí)到高級(jí)特征,產(chǎn)生高分辨率mask特征

(4)?動(dòng)態(tài)偽裝實(shí)例歸一化(DCIN)用于預(yù)測(cè)最后的實(shí)例掩碼,如圖2.

2.1?CNN骨干

????采用多尺度特征C2-C5,為減少計(jì)算代價(jià),直接flatten和concate最后的3個(gè)特征圖(C3、C4、C5)到一個(gè)256個(gè)channel的序列Xm,輸入到LST編碼器。對(duì)于C2特征,將其輸入CFF模塊中,作為高分辨率、低級(jí)特征去捕捉更多偽裝實(shí)例線索。

2.2?位置敏感transformer

????transformer需要大量訓(xùn)練樣本和高計(jì)算代價(jià)支持,由于CIS的數(shù)據(jù)有限,我們目的是設(shè)計(jì)一個(gè)收斂更快,精度相匹配的有效結(jié)構(gòu),圖3展示了位置敏感trasnformer(LST)

LST編碼器

????接收多尺度特征Xm取得豐富信息,將卷積運(yùn)算引入到前饋網(wǎng)絡(luò)中,稱(chēng)為混合卷積前饋網(wǎng)絡(luò)(BC-FFN)。首先,根據(jù)Ci的形狀將特征向量恢復(fù)到空間維度;然后,進(jìn)行核大小為3×3的卷積層來(lái)學(xué)習(xí)歸納偏差;最后,添加GN和GELU形成前饋網(wǎng)絡(luò)。在3×3卷積層之后,將特征flatten回一個(gè)序列。給定輸入特征Xb,BC-FFN可表示為:

?整體生LST編碼器可描述為:

Pm表示為位置編碼,MDAttn和LN分別表示多頭可變形自注意和層歸一化。

位置引導(dǎo)查詢(xún)

????對(duì)象查詢(xún)?cè)趖ransformer中扮演著關(guān)鍵角色,它被用作解碼器的初始輸入,并通過(guò)解碼器層獲得輸出嵌入;然而,普通DETR收斂速度較慢的原因之一是對(duì)象查詢(xún)是零初始化的,為此,我們提出位置敏感查詢(xún),充分利用LST編碼器的多尺度特征圖Ti,i=3,4,5.受【SOLO】的啟發(fā),我們首先將恢復(fù)后的特征圖T3-T5調(diào)整為Si×Si×D,i = 1,2,3的形狀;然后,將resize后的特征劃分為Si×Si的特征網(wǎng)格,并將其flatten,以生成位置引導(dǎo)查詢(xún)Q。在這種情況下,所提出的位置引導(dǎo)查詢(xún)可以利用不同位置的可學(xué)習(xí)的局部特征來(lái)優(yōu)化初始化,并有效地聚合偽裝區(qū)域的特征。與零初始化或隨機(jī)初始化相比,該查詢(xún)生成策略提高了transformer解碼器中查詢(xún)迭代的效率,加快了訓(xùn)練的收斂速度。

LST解碼器

????LST解碼器對(duì)于與(LST編碼器產(chǎn)生的)全局特性和位置引導(dǎo)查詢(xún)進(jìn)行交互是必要的,以產(chǎn)生具有實(shí)例感知的嵌入??臻g位置編碼也被添加到我們的位置引導(dǎo)查詢(xún)QL和編碼器存儲(chǔ)Xe中。之后,它們被可變形的交叉注意層融合。BC-FFN也用于可變形的注意操作后,類(lèi)似于LST編碼器。給定位置引導(dǎo)的查詢(xún)QL,我們的LST解碼器的pipeline被總結(jié)為:

其中,Ps表示基于特征網(wǎng)格的位置編碼,MDCAttn表示為多頭可變形的交叉注意操作。Xd是實(shí)例感知表示的輸出嵌入。最后,Xd被恢復(fù)后,輸入到DCIN模塊用于預(yù)測(cè)mask

2.3 粗糙的精細(xì)的融合

????OSFormer致力于利用LST編碼器輸出的多級(jí)全局特性來(lái)產(chǎn)生共享mask特征,為了合并不同的上下文信息,我們還融合了來(lái)自CNN主干的低級(jí)特征C2作為補(bǔ)充,得到了一個(gè)統(tǒng)一的高分辨率特征圖F,詳細(xì)結(jié)構(gòu)如圖4.我們以多級(jí)特征C2、T3、T4和T5作為級(jí)聯(lián)融合的輸入。

????考慮到偽裝的邊緣特征的捕獲更具有挑戰(zhàn)性,設(shè)計(jì)了一個(gè)嵌入在CFF中的反向邊緣注意(REA)模塊來(lái)監(jiān)督迭代過(guò)程中的邊緣特征。REA操作于邊緣特征,而不是預(yù)測(cè)的二進(jìn)制mask。此外,用于監(jiān)督的邊緣標(biāo)簽是通過(guò)侵蝕實(shí)例mask標(biāo)簽獲得的,沒(méi)有任何手動(dòng)標(biāo)簽。輸入特征同時(shí)由AvgPool和MaxPool操作。然后,將它們連接并轉(zhuǎn)發(fā)到一個(gè)7×7卷積和一個(gè)sigmoid函數(shù)中。之后,將注意力權(quán)重反轉(zhuǎn),并通過(guò)元素乘法將其應(yīng)用到融合特征Ff中。最后,我們使用3×3卷積來(lái)預(yù)測(cè)邊緣特征。假設(shè)輸入特征為T(mén)i,每個(gè)REA模塊的整個(gè)過(guò)程可以表述如下:

[;]表示channel上的連接??傊岢龅腃FF提供了一個(gè)共享的mask特征F來(lái)輸入DCIN,以預(yù)測(cè)每個(gè)實(shí)例的最終偽裝mask.

2.4 動(dòng)態(tài)偽裝實(shí)例歸一化

????引入動(dòng)態(tài)偽裝實(shí)例規(guī)范化(DCIN)來(lái)預(yù)測(cè)最終mask。當(dāng)DCIN從LST解碼器接收到輸出嵌入Xd時(shí),使用全連接層(FC)來(lái)獲得位置標(biāo)簽。同時(shí),多層感知機(jī)(MLP)來(lái)獲得大小為D(即256)的實(shí)例參數(shù)。在訓(xùn)練階段,根據(jù)GT指定正例、負(fù)例位置。利用正例位置的實(shí)例感知參數(shù)來(lái)生成分割掩碼。在測(cè)試階段,利用位置標(biāo)簽的置信度來(lái)過(guò)濾(見(jiàn)圖5)無(wú)效的參數(shù)(例如閾值> 0.5)

????隨后,對(duì)過(guò)濾后的位置感知參數(shù)進(jìn)行兩層線性操作,獲得仿射權(quán)值ω和偏置β。最后,它們與共享mask特征F一起使用來(lái)預(yù)測(cè)偽裝實(shí)例,可以描述為:

P為預(yù)測(cè)mask(HxWxN),N為預(yù)測(cè)實(shí)例的數(shù)量,Ux4為上采樣4倍。最后,使用Matrix NMS【參考SOLOV2】去獲得最終的實(shí)例。

2.5 損失函數(shù)

????整體損失函數(shù)可寫(xiě)為:

其中Ledge是監(jiān)督我們的CFF中不同級(jí)別的邊緣的邊緣損失.

邊緣損失可定義為:

J表示用于監(jiān)督的邊緣特征級(jí)別的總數(shù),λedge是邊緣損失的權(quán)重,默認(rèn)設(shè)置為1。由于CIS任務(wù)是類(lèi)別不可知的,我們使用每個(gè)位置的偽裝存在(Lloc)的置信度,而不是一般實(shí)例分割中的分類(lèi)置信度。Lloc由Focal loss實(shí)現(xiàn),Lmask為Dice loss,λloc和λmask分別設(shè)置為1和3,以平衡總損失。

?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-519088.html

3. 實(shí)驗(yàn)

文章同步自公眾號(hào)【衛(wèi)超cv】

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

?

?

?

到了這里,關(guān)于OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

    FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

    Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Reading Note URL: https://arxiv.org/pdf/2104.10956.pdf 基于 Fcos 改進(jìn)的 3d 檢測(cè)方案,在 NeurIPS 2020 的 nuScenes 3d 檢測(cè)比賽上取得了第一名成績(jī) Fcos3d 方案 將 7-DoF 3D 目標(biāo)解耦為 2D 和 3D 的屬性 考慮對(duì)象的二維比例,將對(duì)象分布到

    2023年04月08日
    瀏覽(48)
  • 論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

    論文精讀:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

    單目三維目標(biāo)檢測(cè)具有成本低的優(yōu)點(diǎn),是自動(dòng)駕駛的一項(xiàng)重要任務(wù)。 由于其固有的不適定特性,其主要表現(xiàn)為缺乏深度信息,因而比傳統(tǒng)的二維情形更具挑 戰(zhàn)性。 二維檢測(cè)的最新進(jìn)展為更好地解決這一問(wèn)題提供了機(jī)會(huì)。 然而,使一個(gè)通用的自適應(yīng)二維探測(cè)器在這種三維任務(wù)

    2024年02月06日
    瀏覽(14)
  • 【半監(jiān)督學(xué)習(xí)】5、Efficient Teacher | 專(zhuān)為 one-stage anchor-based 方法設(shè)計(jì)的半監(jiān)督目標(biāo)檢測(cè)方法

    【半監(jiān)督學(xué)習(xí)】5、Efficient Teacher | 專(zhuān)為 one-stage anchor-based 方法設(shè)計(jì)的半監(jiān)督目標(biāo)檢測(cè)方法

    論文:Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 出處:阿里 時(shí)間:2023.03 目標(biāo)檢測(cè)近年來(lái)的進(jìn)展離不開(kāi)大量的標(biāo)注數(shù)據(jù),但數(shù)據(jù)標(biāo)識(shí)昂貴且耗時(shí)。 故此,半監(jiān)督方法被提出,通過(guò)自動(dòng)生成偽標(biāo)簽來(lái)利用大量的未標(biāo)注數(shù)據(jù)。 目前的半監(jiān)督學(xué)習(xí)有如下三個(gè)最重要的挑戰(zhàn):

    2024年02月05日
    瀏覽(35)
  • 論文閱讀——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    論文閱讀——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》

    本文試圖從原理和代碼簡(jiǎn)單介紹低照度增強(qiáng)領(lǐng)域中比較新的一篇論文——Retinexformer,其效果不錯(cuò),刷新了十三大暗光增強(qiáng)效果榜單。 ? 論文名稱(chēng) :Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ?? 論文信息 :由清華大學(xué)聯(lián)合維爾茲堡大學(xué)和蘇黎世聯(lián)邦理工

    2024年01月18日
    瀏覽(29)
  • 論文閱讀《Hierarchical Aggregation for 3D Instance Segmentation》

    論文閱讀《Hierarchical Aggregation for 3D Instance Segmentation》

    Hierarchical Aggregation for 3D Instance Segmentation是一個(gè)用于實(shí)例分割的方法,他主要利用了點(diǎn)以及點(diǎn)集之間的空間關(guān)系,以此進(jìn)行實(shí)例分割。大概步驟如下: 首先進(jìn)行低帶寬點(diǎn)匯集得到初步的實(shí)例以避免過(guò)度分割 之后進(jìn)行動(dòng)態(tài)帶寬集合匯集以得到完整的實(shí)例 引入實(shí)例內(nèi)網(wǎng)絡(luò)進(jìn)行去

    2024年02月04日
    瀏覽(30)
  • 目標(biāo)檢測(cè)-One Stage-YOLOx

    目標(biāo)檢測(cè)-One Stage-YOLOx

    根據(jù)前文CenterNet、YOLOv4等可以看出學(xué)界和工業(yè)界都在積極探索使用各種tricks(anchor-free、各種組件、數(shù)據(jù)增強(qiáng)技術(shù)等等)來(lái)改進(jìn)One Stage網(wǎng)絡(luò)的表現(xiàn),2021年曠視科技結(jié)合先進(jìn)的改進(jìn)技巧,產(chǎn)出了多種改進(jìn)模型,在多種情況下達(dá)到速度和精度的SOTA。 值得一提的是,YOLOx使得YOLO系

    2024年01月23日
    瀏覽(27)
  • 目標(biāo)檢測(cè)-One Stage-YOLOv7

    目標(biāo)檢測(cè)-One Stage-YOLOv7

    自YOLOv4之后,其作者提出一些新的trciks,YOLOv7誕生主要貢獻(xiàn)分為以下3個(gè)方面 設(shè)計(jì)了幾種訓(xùn)練tricks(bag-of-freebies),使得實(shí)時(shí)目標(biāo)檢測(cè)可以在不增加推理成本的情況下大大提高檢測(cè)精度 針對(duì)目標(biāo)檢測(cè)領(lǐng)域現(xiàn)有的兩個(gè)問(wèn)題提出解決方案:一是模塊重參化如何高效合并,二是動(dòng)態(tài)

    2024年01月25日
    瀏覽(48)
  • 目標(biāo)檢測(cè)-One Stage-YOLOv8

    目標(biāo)檢測(cè)-One Stage-YOLOv8

    終于到了YOLO系列最新最火爆的網(wǎng)絡(luò)–YOLOv8,前面YOLOv5中已經(jīng)提到ultralytics團(tuán)隊(duì)集成了先進(jìn)的YOLO系列目標(biāo)檢測(cè)最佳實(shí)踐,YOLOv8則是他們的最新力作。 YOLOv8本身的創(chuàng)新點(diǎn)不多,偏向工程實(shí)踐。 提示:以下是本篇文章正文內(nèi)容,下面內(nèi)容可供參考 YOLOv8同樣根據(jù)縮放給出了以下版本

    2024年01月19日
    瀏覽(24)
  • 目標(biāo)檢測(cè)-One Stage-YOLOv5

    目標(biāo)檢測(cè)-One Stage-YOLOv5

    前文目標(biāo)檢測(cè)-One Stage-YOLOv4提到Y(jié)OLOv4主要是基于技巧的集成,對(duì)于算法落地具有重大意義,YOLOv5則在工程應(yīng)用方面更近一步,將算法深度集成,使得使用者不用再過(guò)多關(guān)注算法實(shí)現(xiàn),且提供了多種預(yù)訓(xùn)練模型,到目前為止,由ultralytics團(tuán)隊(duì)開(kāi)發(fā)的 ultralytics 包,已經(jīng)支持 YOLOv3

    2024年01月23日
    瀏覽(19)
  • 目標(biāo)檢測(cè)-One Stage-YOLOv6

    目標(biāo)檢測(cè)-One Stage-YOLOv6

    YOLOv6 是美團(tuán)視覺(jué)智能部研發(fā)的一款目標(biāo)檢測(cè)框架,致力于工業(yè)應(yīng)用。論文題目是《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》。 和YOLOv4、YOLOv5等不同的是,YOLOv6對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改動(dòng)較大。 除了模型的結(jié)構(gòu)之外,YOLOv6的數(shù)據(jù)增強(qiáng)和YOLOv5的保持一致;而標(biāo)簽分配

    2024年01月23日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包