国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<del id="b3wf2"></del>

<acronym id="b3wf2"></acronym>

<del id="b3wf2"><form id="b3wf2"></form></del>

<th id="b3wf2"><progress id="b3wf2"><ul id="b3wf2"></ul></progress></th>

<del id="b3wf2"><form id="b3wf2"></form></del>

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

1年前作者：一點(diǎn)飛鴻分類(lèi)：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

地址：https://arxiv.org/pdf/2207.02255.pdf

1. 摘要

????OSFormer為基于transformer的偽裝實(shí)例分割(CIS)框架，有兩個(gè)關(guān)鍵設(shè)計(jì)，首先是位置敏感transformer（LST），通過(guò)【位置引導(dǎo)查詢(xún)】和【混合卷積前向傳播網(wǎng)絡(luò)】獲得定位標(biāo)簽和實(shí)例級(jí)參數(shù)；第二，開(kāi)發(fā)粗糙到精細(xì)融合模塊（CFF）合并來(lái)自LST和CNN骨干的上下文信息。這兩個(gè)組件的耦合使OSFormer能有效混合局部特征和遠(yuǎn)程上下文依賴(lài)，以預(yù)測(cè)偽裝的實(shí)例。與兩階段框架比，OSFormer達(dá)到41%的AP，無(wú)需大量訓(xùn)練數(shù)據(jù)就能得到好的收斂效果（3040個(gè)樣本，60個(gè)epoch)

代碼：https://github.com/PJLallen/OSFormer

2.?OSFormer

結(jié)構(gòu)

4個(gè)基本組件：

(1)?CNN骨干提取目標(biāo)特征

(2)?局部敏感transformer（LST）產(chǎn)生實(shí)例級(jí)embedding

(3)?粗糙到精細(xì)融(CFF)合集成多尺度低級(jí)到高級(jí)特征，產(chǎn)生高分辨率mask特征

(4)?動(dòng)態(tài)偽裝實(shí)例歸一化（DCIN）用于預(yù)測(cè)最后的實(shí)例掩碼，如圖2.

2.1?CNN骨干

????采用多尺度特征C2-C5，為減少計(jì)算代價(jià)，直接flatten和concate最后的3個(gè)特征圖（C3、C4、C5）到一個(gè)256個(gè)channel的序列Xm，輸入到LST編碼器。對(duì)于C2特征，將其輸入CFF模塊中，作為高分辨率、低級(jí)特征去捕捉更多偽裝實(shí)例線索。

2.2?位置敏感transformer

????transformer需要大量訓(xùn)練樣本和高計(jì)算代價(jià)支持，由于CIS的數(shù)據(jù)有限，我們目的是設(shè)計(jì)一個(gè)收斂更快，精度相匹配的有效結(jié)構(gòu)，圖3展示了位置敏感trasnformer(LST)

LST編碼器：

????接收多尺度特征Xm取得豐富信息，將卷積運(yùn)算引入到前饋網(wǎng)絡(luò)中，稱(chēng)為混合卷積前饋網(wǎng)絡(luò)（BC-FFN）。首先，根據(jù)Ci的形狀將特征向量恢復(fù)到空間維度；然后，進(jìn)行核大小為3×3的卷積層來(lái)學(xué)習(xí)歸納偏差；最后，添加GN和GELU形成前饋網(wǎng)絡(luò)。在3×3卷積層之后，將特征flatten回一個(gè)序列。給定輸入特征Xb,BC-FFN可表示為：

?整體生LST編碼器可描述為：

Pm表示為位置編碼，MDAttn和LN分別表示多頭可變形自注意和層歸一化。

位置引導(dǎo)查詢(xún)：

????對(duì)象查詢(xún)?cè)趖ransformer中扮演著關(guān)鍵角色，它被用作解碼器的初始輸入，并通過(guò)解碼器層獲得輸出嵌入；然而，普通DETR收斂速度較慢的原因之一是對(duì)象查詢(xún)是零初始化的，為此，我們提出位置敏感查詢(xún)，充分利用LST編碼器的多尺度特征圖Ti,i=3,4,5.受【SOLO】的啟發(fā)，我們首先將恢復(fù)后的特征圖T3-T5調(diào)整為S_i×S_i×D，i = 1,2,3的形狀；然后，將resize后的特征劃分為S_i×S_i的特征網(wǎng)格，并將其flatten，以生成位置引導(dǎo)查詢(xún)Q。在這種情況下，所提出的位置引導(dǎo)查詢(xún)可以利用不同位置的可學(xué)習(xí)的局部特征來(lái)優(yōu)化初始化，并有效地聚合偽裝區(qū)域的特征。與零初始化或隨機(jī)初始化相比，該查詢(xún)生成策略提高了transformer解碼器中查詢(xún)迭代的效率，加快了訓(xùn)練的收斂速度。

LST解碼器

????LST解碼器對(duì)于與（LST編碼器產(chǎn)生的）全局特性和位置引導(dǎo)查詢(xún)進(jìn)行交互是必要的，以產(chǎn)生具有實(shí)例感知的嵌入?？臻g位置編碼也被添加到我們的位置引導(dǎo)查詢(xún)QL和編碼器存儲(chǔ)Xe中。之后，它們被可變形的交叉注意層融合。BC-FFN也用于可變形的注意操作后，類(lèi)似于LST編碼器。給定位置引導(dǎo)的查詢(xún)QL，我們的LST解碼器的pipeline被總結(jié)為:

其中，Ps表示基于特征網(wǎng)格的位置編碼,MDCAttn表示為多頭可變形的交叉注意操作。Xd是實(shí)例感知表示的輸出嵌入。最后，Xd被恢復(fù)后，輸入到DCIN模塊用于預(yù)測(cè)mask

2.3 粗糙的精細(xì)的融合

????OSFormer致力于利用LST編碼器輸出的多級(jí)全局特性來(lái)產(chǎn)生共享mask特征，為了合并不同的上下文信息，我們還融合了來(lái)自CNN主干的低級(jí)特征C2作為補(bǔ)充，得到了一個(gè)統(tǒng)一的高分辨率特征圖F，詳細(xì)結(jié)構(gòu)如圖4.我們以多級(jí)特征C2、T3、T4和T5作為級(jí)聯(lián)融合的輸入。

????考慮到偽裝的邊緣特征的捕獲更具有挑戰(zhàn)性，設(shè)計(jì)了一個(gè)嵌入在CFF中的反向邊緣注意（REA）模塊來(lái)監(jiān)督迭代過(guò)程中的邊緣特征。REA操作于邊緣特征，而不是預(yù)測(cè)的二進(jìn)制mask。此外，用于監(jiān)督的邊緣標(biāo)簽是通過(guò)侵蝕實(shí)例mask標(biāo)簽獲得的，沒(méi)有任何手動(dòng)標(biāo)簽。輸入特征同時(shí)由AvgPool和MaxPool操作。然后，將它們連接并轉(zhuǎn)發(fā)到一個(gè)7×7卷積和一個(gè)sigmoid函數(shù)中。之后，將注意力權(quán)重反轉(zhuǎn)，并通過(guò)元素乘法將其應(yīng)用到融合特征F_f中。最后，我們使用3×3卷積來(lái)預(yù)測(cè)邊緣特征。假設(shè)輸入特征為T(mén)i，每個(gè)REA模塊的整個(gè)過(guò)程可以表述如下:

[;]表示channel上的連接?？傊岢龅腃FF提供了一個(gè)共享的mask特征F來(lái)輸入DCIN，以預(yù)測(cè)每個(gè)實(shí)例的最終偽裝mask.

2.4 動(dòng)態(tài)偽裝實(shí)例歸一化

????引入動(dòng)態(tài)偽裝實(shí)例規(guī)范化（DCIN）來(lái)預(yù)測(cè)最終mask。當(dāng)DCIN從LST解碼器接收到輸出嵌入Xd時(shí)，使用全連接層（FC）來(lái)獲得位置標(biāo)簽。同時(shí)，多層感知機(jī)（MLP）來(lái)獲得大小為D（即256）的實(shí)例參數(shù)。在訓(xùn)練階段，根據(jù)GT指定正例、負(fù)例位置。利用正例位置的實(shí)例感知參數(shù)來(lái)生成分割掩碼。在測(cè)試階段，利用位置標(biāo)簽的置信度來(lái)過(guò)濾（見(jiàn)圖5）無(wú)效的參數(shù)（例如閾值> 0.5）

????隨后，對(duì)過(guò)濾后的位置感知參數(shù)進(jìn)行兩層線性操作，獲得仿射權(quán)值ω和偏置β。最后，它們與共享mask特征F一起使用來(lái)預(yù)測(cè)偽裝實(shí)例，可以描述為:

P為預(yù)測(cè)mask(HxWxN),N為預(yù)測(cè)實(shí)例的數(shù)量，Ux4為上采樣4倍。最后，使用Matrix NMS【參考SOLOV2】去獲得最終的實(shí)例。

2.5 損失函數(shù)

????整體損失函數(shù)可寫(xiě)為：

其中Ledge是監(jiān)督我們的CFF中不同級(jí)別的邊緣的邊緣損失.

邊緣損失可定義為：

J表示用于監(jiān)督的邊緣特征級(jí)別的總數(shù)，λ_edge是邊緣損失的權(quán)重，默認(rèn)設(shè)置為1。由于CIS任務(wù)是類(lèi)別不可知的，我們使用每個(gè)位置的偽裝存在（Lloc）的置信度，而不是一般實(shí)例分割中的分類(lèi)置信度。Lloc由Focal loss實(shí)現(xiàn)，Lmask為Dice loss,λloc和λmask分別設(shè)置為1和3，以平衡總損失。

?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-519088.html

3. 實(shí)驗(yàn)

文章同步自公眾號(hào)【衛(wèi)超cv】

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

?

?

?

到了這里，關(guān)于OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Reading Note URL: https://arxiv.org/pdf/2104.10956.pdf 基于 Fcos 改進(jìn)的 3d 檢測(cè)方案，在 NeurIPS 2020 的 nuScenes 3d 檢測(cè)比賽上取得了第一名成績(jī) Fcos3d 方案將 7-DoF 3D 目標(biāo)解耦為 2D 和 3D 的屬性考慮對(duì)象的二維比例，將對(duì)象分布到
2023年04月08日
瀏覽(48)
論文精讀：《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》
單目三維目標(biāo)檢測(cè)具有成本低的優(yōu)點(diǎn)，是自動(dòng)駕駛的一項(xiàng)重要任務(wù)。由于其固有的不適定特性，其主要表現(xiàn)為缺乏深度信息，因而比傳統(tǒng)的二維情形更具挑戰(zhàn)性。二維檢測(cè)的最新進(jìn)展為更好地解決這一問(wèn)題提供了機(jī)會(huì)。然而，使一個(gè)通用的自適應(yīng)二維探測(cè)器在這種三維任務(wù)
2024年02月06日
瀏覽(14)
【半監(jiān)督學(xué)習(xí)】5、Efficient Teacher | 專(zhuān)為 one-stage anchor-based 方法設(shè)計(jì)的半監(jiān)督目標(biāo)檢測(cè)方法
論文：Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 出處：阿里時(shí)間：2023.03 目標(biāo)檢測(cè)近年來(lái)的進(jìn)展離不開(kāi)大量的標(biāo)注數(shù)據(jù)，但數(shù)據(jù)標(biāo)識(shí)昂貴且耗時(shí)。故此，半監(jiān)督方法被提出，通過(guò)自動(dòng)生成偽標(biāo)簽來(lái)利用大量的未標(biāo)注數(shù)據(jù)。目前的半監(jiān)督學(xué)習(xí)有如下三個(gè)最重要的挑戰(zhàn)：
2024年02月05日
瀏覽(35)
論文閱讀——《Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement》
本文試圖從原理和代碼簡(jiǎn)單介紹低照度增強(qiáng)領(lǐng)域中比較新的一篇論文——Retinexformer，其效果不錯(cuò)，刷新了十三大暗光增強(qiáng)效果榜單。 ? 論文名稱(chēng) ：Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ?? 論文信息：由清華大學(xué)聯(lián)合維爾茲堡大學(xué)和蘇黎世聯(lián)邦理工
2024年01月18日
瀏覽(29)
論文閱讀《Hierarchical Aggregation for 3D Instance Segmentation》
Hierarchical Aggregation for 3D Instance Segmentation是一個(gè)用于實(shí)例分割的方法，他主要利用了點(diǎn)以及點(diǎn)集之間的空間關(guān)系，以此進(jìn)行實(shí)例分割。大概步驟如下：首先進(jìn)行低帶寬點(diǎn)匯集得到初步的實(shí)例以避免過(guò)度分割之后進(jìn)行動(dòng)態(tài)帶寬集合匯集以得到完整的實(shí)例引入實(shí)例內(nèi)網(wǎng)絡(luò)進(jìn)行去
2024年02月04日
瀏覽(30)
目標(biāo)檢測(cè)-One Stage-YOLOx
根據(jù)前文CenterNet、YOLOv4等可以看出學(xué)界和工業(yè)界都在積極探索使用各種tricks（anchor-free、各種組件、數(shù)據(jù)增強(qiáng)技術(shù)等等）來(lái)改進(jìn)One Stage網(wǎng)絡(luò)的表現(xiàn)，2021年曠視科技結(jié)合先進(jìn)的改進(jìn)技巧，產(chǎn)出了多種改進(jìn)模型，在多種情況下達(dá)到速度和精度的SOTA。值得一提的是，YOLOx使得YOLO系
2024年01月23日
瀏覽(27)
目標(biāo)檢測(cè)-One Stage-YOLOv7
自YOLOv4之后，其作者提出一些新的trciks，YOLOv7誕生主要貢獻(xiàn)分為以下3個(gè)方面設(shè)計(jì)了幾種訓(xùn)練tricks（bag-of-freebies），使得實(shí)時(shí)目標(biāo)檢測(cè)可以在不增加推理成本的情況下大大提高檢測(cè)精度針對(duì)目標(biāo)檢測(cè)領(lǐng)域現(xiàn)有的兩個(gè)問(wèn)題提出解決方案：一是模塊重參化如何高效合并，二是動(dòng)態(tài)
2024年01月25日
瀏覽(48)
目標(biāo)檢測(cè)-One Stage-YOLOv8
終于到了YOLO系列最新最火爆的網(wǎng)絡(luò)–YOLOv8，前面YOLOv5中已經(jīng)提到ultralytics團(tuán)隊(duì)集成了先進(jìn)的YOLO系列目標(biāo)檢測(cè)最佳實(shí)踐，YOLOv8則是他們的最新力作。 YOLOv8本身的創(chuàng)新點(diǎn)不多，偏向工程實(shí)踐。提示：以下是本篇文章正文內(nèi)容，下面內(nèi)容可供參考 YOLOv8同樣根據(jù)縮放給出了以下版本
2024年01月19日
瀏覽(24)
目標(biāo)檢測(cè)-One Stage-YOLOv5
前文目標(biāo)檢測(cè)-One Stage-YOLOv4提到Y(jié)OLOv4主要是基于技巧的集成，對(duì)于算法落地具有重大意義，YOLOv5則在工程應(yīng)用方面更近一步，將算法深度集成，使得使用者不用再過(guò)多關(guān)注算法實(shí)現(xiàn)，且提供了多種預(yù)訓(xùn)練模型，到目前為止，由ultralytics團(tuán)隊(duì)開(kāi)發(fā)的 ultralytics 包，已經(jīng)支持 YOLOv3
2024年01月23日
瀏覽(19)
目標(biāo)檢測(cè)-One Stage-YOLOv6
YOLOv6 是美團(tuán)視覺(jué)智能部研發(fā)的一款目標(biāo)檢測(cè)框架，致力于工業(yè)應(yīng)用。論文題目是《YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications》。和YOLOv4、YOLOv5等不同的是，YOLOv6對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改動(dòng)較大。除了模型的結(jié)構(gòu)之外，YOLOv6的數(shù)據(jù)增強(qiáng)和YOLOv5的保持一致；而標(biāo)簽分配
2024年01月23日
瀏覽(24)