国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

DQnet:偽裝目標(biāo)檢測(cè)中的跨模型細(xì)節(jié)查詢

論文地址:https://arxiv.org/abs/2212.08296

這篇文章提出了一個(gè)交叉模型框架(CNN-Transformer并行)來(lái)檢測(cè)偽裝目標(biāo)

出發(fā)點(diǎn)還是:CNN局部感知,感受野受限 ,Transformer全局信息豐富但細(xì)節(jié)信息不足。希望結(jié)合二者優(yōu)勢(shì)

這個(gè)思路目前做的挺多的,不算是很新穎,很多圖像分割方向的都有這樣做的

最主要的創(chuàng)新還是作者提出了一個(gè) Relation-Based Querying (RBQ) module

下面詳細(xì)解釋下:

整體框架如圖所示,這個(gè)圖畫的不是很清楚

整體框架分為兩個(gè)分支左邊是ViT,也就是Transformer分支,右邊的ResNet,也就是CNN分支

關(guān)于Transformer和CNN的優(yōu)缺點(diǎn),作者給出的說(shuō)法是:

Transformer將圖像塊投影到向量中,導(dǎo)致局部細(xì)節(jié)的丟失。同時(shí)Transformer編碼器能夠獲得準(zhǔn)確的全局感知信息。

CNN中卷積核在具有重疊的特征圖上滑動(dòng),這保留了細(xì)粒度的局部細(xì)節(jié),但缺乏獲得連續(xù)語(yǔ)義的能力。

將這兩者結(jié)合在一起,使得特征提取器不僅可以繼承全局信息,還可以彌補(bǔ)ViT的缺陷(缺乏空間歸納偏置)

所以關(guān)鍵問(wèn)題就是如何結(jié)合CNN和Transformer的特征

作者說(shuō)他們?cè)O(shè)計(jì)了一種多尺度細(xì)節(jié)查詢機(jī)制(multi-scale detail querying mechanism),以交互的方式消除這兩種特征之間的不一致。

【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 論文閱讀,論文閱讀,目標(biāo)檢測(cè),人工智能

具體做法就是,首先講ResNet提取的特征與Transformer做對(duì)齊,就是圖中右側(cè)的Alignment

具體地說(shuō),特征圖首先需要通過(guò)最大池化下采樣來(lái)將空間尺度與ViT patch embeddings對(duì)齊。然后使用1x1卷積來(lái)完成通道維度對(duì)齊,然后使用LayerNorm層來(lái)正則化特征。

對(duì)齊之后的特征送入RBQ模塊,從RBQ出來(lái)的特征,再用同樣的方法去與ResNet對(duì)齊, 再送入ResNet下一層繼續(xù)運(yùn)算

這里注意一個(gè)問(wèn)題

ViT的大小是不變的,ResNet則是金字塔結(jié)構(gòu)的(也就是每一層尺寸不一),所以確定在哪個(gè)位置進(jìn)行對(duì)齊是一個(gè)重要的問(wèn)題。

本文所提出的對(duì)齊機(jī)制是在ResNet四個(gè)階段每個(gè)階段的開始。

下面說(shuō)下RBQ Relation-Based Querying.

作者說(shuō),傳統(tǒng)方法,直接使用逐元素相加來(lái)融合對(duì)齊的特征。然而他們認(rèn)為,在COD場(chǎng)景中,低級(jí)細(xì)節(jié)和高級(jí)語(yǔ)義的直接融合可能會(huì)導(dǎo)致細(xì)粒度的細(xì)節(jié)很容易被周圍的上下文信息淹沒的現(xiàn)象。

所以他們采用的方法是:通過(guò)計(jì)算兩種特征的逐像素關(guān)系并將基于關(guān)系的結(jié)果添加到原始融合中,來(lái)彌合跨模型的語(yǔ)義差距。

如何計(jì)算關(guān)系呢,作者說(shuō)他們使用基window-based cross attention來(lái)推理空間相鄰元素之間的逐像素關(guān)系。

具體來(lái)說(shuō)就是ResNet的特征記作Y,ViT的特征記作Z。然后Q由Z產(chǎn)生,K和V由Y產(chǎn)生

下面這個(gè)圖畫的很清楚,得到的QKV就做正常的多頭自注意力就好了,然后每一層的輸出是由這一層的ViT特征+ResNet特征+RBQ的結(jié)果得到的。做法還是蠻簡(jiǎn)單的。

【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 論文閱讀,論文閱讀,目標(biāo)檢測(cè),人工智能

最后說(shuō)下loss

主要還是用的wBCE Loss和wIoU

作者加了個(gè)SAL Significance Aware Loss

感覺說(shuō)的不是很清楚,貼個(gè)圖看下吧。
【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection,# 論文閱讀,論文閱讀,目標(biāo)檢測(cè),人工智能文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-599826.html

到了這里,關(guān)于【論文閱讀】DQnet: Cross-Model Detail Querying for Camouflaged Object Detection的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning論文閱讀

    原文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 該論文設(shè)計(jì)了一種 新的零樣本學(xué)習(xí)范式,通過(guò)遷移語(yǔ)言模型中的先驗(yàn)語(yǔ)義知識(shí),與視覺模型的特征感知能力進(jìn)行對(duì)齊,以增強(qiáng)后者對(duì)于未見過(guò)圖像的識(shí)別能力。 零樣本學(xué)習(xí)(ZSL)旨在預(yù)測(cè)在訓(xùn)練期間從未出現(xiàn)樣本的未

    2024年01月17日
    瀏覽(33)
  • 論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

    論文閱讀之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

    Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment 這篇文章的主要內(nèi)容是關(guān)于多模態(tài)語(yǔ)義理解的研究,特別是通過(guò)對(duì)比學(xué)習(xí)進(jìn)行跨模態(tài)特征對(duì)齊的方法。文章提出了一種新的CLIP(Contrastive Language-Image Pre-training)引導(dǎo)的對(duì)比學(xué)習(xí)方法,用于多模態(tài)特征對(duì)齊(CLFA,

    2024年04月11日
    瀏覽(24)
  • 論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文鏈接:https://arxiv.org/pdf/2102.11165.pdf ? 目錄 摘要: 引言 問(wèn)題定義 方法 Graph Deviation Networks Cross-network Meta-learning ????????網(wǎng)絡(luò)異常檢測(cè)旨在找到與絕大多數(shù)行為顯著不同的網(wǎng)絡(luò)元素(例如節(jié)點(diǎn)、邊、子圖)。它對(duì)從金融、醫(yī)療保健到社交網(wǎng)絡(luò)分析等各種應(yīng)用產(chǎn)生了深遠(yuǎn)

    2024年02月14日
    瀏覽(23)
  • ChatGLM基座:GLM(General Language Model)論文閱讀筆記

    ChatGLM基座:GLM(General Language Model)論文閱讀筆記

    現(xiàn)在有很多Pretrain model 的架構(gòu), 如Bert、GPT、T5等,但是當(dāng)時(shí)沒有一種模型能在NLU、有條件文本生成、無(wú)條件文本生成都有很好的表現(xiàn)。 一般預(yù)訓(xùn)練模型架構(gòu)分為三種:自回歸(GPT系列)、自編碼(Bert系列)、編碼器-解碼器(T5)。 作者概述了它們目前存在的問(wèn)題·: GPT:?jiǎn)?/p>

    2024年02月02日
    瀏覽(30)
  • 【論文閱讀】 Model Sparsity Can Simplify Machine Unlearning

    【論文閱讀】 Model Sparsity Can Simplify Machine Unlearning

    Machine Unlearning(MU)是指出于對(duì)數(shù)據(jù)隱私保護(hù)的目的以及對(duì)\\\"RTBF\\\"(right to be forgotten)等數(shù)據(jù)保護(hù)方案的響應(yīng),而提出的一種數(shù)據(jù)遺忘的方法。在現(xiàn)實(shí)中,用戶有權(quán)請(qǐng)求數(shù)據(jù)收集者刪除其個(gè)人數(shù)據(jù),但是僅將用戶數(shù)據(jù)從數(shù)據(jù)集中刪除是不夠的。 原因:對(duì)model的攻擊,比如成員推

    2024年02月12日
    瀏覽(39)
  • 零知識(shí)證明論文閱讀---Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart

    零知識(shí)證明論文閱讀---Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart

    系統(tǒng)由五類實(shí)體組成: Identity committee members (ICMs) , Identity issuers (IIs) , Identity holders (IHs) , Identity verifiers (IVs) , Identity auditor (IA) 。詳細(xì)的介紹可以閱讀這篇論文 Blockchain-Assisted Transparent Cross-Domain Authorization and Authentication for Smart City Service Entity Registration Identity Issuers Registration 在

    2024年01月16日
    瀏覽(69)
  • 論文閱讀 - Learning Human Interactions with the Influence Model

    論文閱讀 - Learning Human Interactions with the Influence Model

    NIPS\\\'01 早期模型 要求知識(shí)背景: 似然函數(shù),極大似然估計(jì)、HMM、期望最大化 目錄 1 Introduction 2 The Facilitator Room 3 T h e I n f l u e n c e M o d e l 3 . 1 ( R e ) i n t r o d u c i n g t h e I n f l u e n c e M o d e l 3 . 2 L e a r n i n g f o r t h e I n f l u e n c e M o d e l 3. 2. 1 期望——影響力最大化模型 3

    2024年02月07日
    瀏覽(20)
  • 論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文標(biāo)題: TinySAM: 極致高效的分割一切模型 論文地址:https://arxiv.org/pdf/2312.13789.pdf 代碼地址(pytorch):https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀:TinySAM:極致高效壓縮,手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄 文章內(nèi)容解析 ?概括 文章的觀點(diǎn) 技術(shù)創(chuàng)新解

    2024年01月17日
    瀏覽(24)
  • 論文閱讀:Diffusion Model-Based Image Editing: A Survey

    論文閱讀:Diffusion Model-Based Image Editing: A Survey

    論文鏈接 GitHub倉(cāng)庫(kù) 這篇文章是一篇基于擴(kuò)散模型(Diffusion Model)的圖片編輯(image editing)方法綜述。作者從多個(gè)方面對(duì)當(dāng)前的方法進(jìn)行分類和分析,包括學(xué)習(xí)策略、用戶輸入、和適用的任務(wù)等。為了進(jìn)一步評(píng)估文本引導(dǎo)的圖片編輯算法,作者提出了一個(gè)新的基準(zhǔn),EditEval,

    2024年04月10日
    瀏覽(26)
  • 論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何寫論文、讀(分享匯報(bào))論文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》進(jìn)行實(shí)踐。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的論文,主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型縮

    2024年02月03日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包