国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【ICCV2023】Scale-Aware Modulation Meet Transformer

這篇具有很好參考價值的文章主要介紹了【ICCV2023】Scale-Aware Modulation Meet Transformer。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Scale-Aware Modulation Meet Transformer, ICCV2023

論文:https://arxiv.org/abs/2307.08579

代碼:https://github.com/AFeng-x/SMT

解讀:ICCV2023 | 當尺度感知調(diào)制遇上Transformer,會碰撞出怎樣的火花? - 知乎 (zhihu.com)

摘要

本文提出了一種新的視覺變換器——尺度感知調(diào)制變換器(Scale-Aware Modulation Transformer, SMT),通過將CNN和ViT相結(jié)合,可以有效地處理各種下游任務(wù)。SMT中提出的尺度感知調(diào)制(SAM)包括兩個主要的新穎設(shè)計:

  • 多頭混合卷積(MHMC)模塊,該模塊可以捕捉多尺度特征并擴展感受野。
  • 規(guī)模感知聚合(SAA)模塊,該模塊重量輕但有效,能夠?qū)崿F(xiàn)不同頭部的信息融合。通過利用這兩個模塊,卷積調(diào)制得到了進一步增強。

此外,本文提出一種進化混合網(wǎng)絡(luò)(Evolutionary Hybrid Network,EHN),它可以有效地模擬隨著網(wǎng)絡(luò)變得更深而從捕獲局部依賴性到全局依賴性的轉(zhuǎn)變,從而獲得更優(yōu)的性能。在ImagNet、COCO以及ADE20k等任務(wù)上都驗證了該模型的有效性。SMT在ImageNet-22k上預(yù)訓(xùn)練后以僅僅80.5M的參數(shù)量在ImageNet-1k上達到了88.1%的精度。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

簡介

對于多層級的網(wǎng)絡(luò)架構(gòu)來說,由于淺層特征圖分辨率大的原因,使用ViT的自注意力的二次復(fù)雜性會帶來嚴重的計算負擔。因此,如何為淺層stage設(shè)計高效的attention計算機制是十分重要的。

  • 以往的大部分Hierarchical(Multi-scale)的模型,以Swin為代表,以及CvT,PvT,Shunted Transformer等等,其貢獻點都是設(shè)計一種更高效的attention計算單元。
  • 另外一些方法并不直接改善attention,而是將CNN與Transformer結(jié)構(gòu)混合,降低計算成本,并融合兩種結(jié)構(gòu)的優(yōu)勢。

ViT論文中提出,Transformer模型的注意力捕捉依賴關(guān)系為,淺層捕捉local信息,深層捕捉global信息,而這種特性在多層級網(wǎng)絡(luò)架構(gòu)上也會出現(xiàn)。在淺層使用CNN替代Transformer可以有效地降低attention計算成本,還能更好地建模局部信息。

但,簡單地把卷積直接作用于特征圖并不能有效獲取所需信息。卷積調(diào)制網(wǎng)絡(luò),利用卷積調(diào)制可以聚合周圍的上下文并自適應(yīng)地調(diào)制,使得其建模能力更強。

因此,本文提出一種新的卷積調(diào)制,尺度感知調(diào)制(Scale-Aware Modulation,SAM),包括兩個模塊:多頭混合卷積(Multi-Head Mixed Convolution,MHMC) 和 尺度感知聚合(Scale-Aware Aggregation,SAA)。

  • MHMC模塊旨在增強感受野并同時捕捉多尺度特征。
  • SAA模塊旨在有效地聚合不同頭部的功能,同時保持輕量級架構(gòu)。

盡管有這些改進,但SAM在捕捉長期依賴方面沒有達到自我關(guān)注機制。為此,提出了一種新的混合調(diào)制變壓器架構(gòu),稱為進化混合網(wǎng)絡(luò)(Evolutionary Hybrid Network,EHN)。

  • 具體而言,在前兩個階段引入SAM區(qū)塊,在后兩個階段納入Transformer區(qū)塊,同時在倒數(shù)第二階段引入新的堆疊策略。該體系結(jié)構(gòu)不僅模擬了從淺層到深層的長程依賴關(guān)系的變化,而且使每個階段的每個塊都能匹配其計算特性,從而提高了各種下游任務(wù)的性能。

總體而言,提出的架構(gòu)稱為尺度感知調(diào)制轉(zhuǎn)換器(SMT)。

SMT方法

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

SMT網(wǎng)絡(luò)包括四個階段,每個階段的下采樣率為{4, 8, 16, 32}。

  • 首先在前兩個階段采用尺度感知調(diào)制(SAM),
  • 然后在倒數(shù)第二個階段中依次堆疊一個SAM Block和一個多頭自注意力(MSA) Block,以建模從捕捉局部到全局依賴關(guān)系的轉(zhuǎn)變。
  • 對于最后一個階段,僅使用MSA塊來有效地捕捉長距離依賴關(guān)系。

Scale-Aware Modulation

SAM模塊包括兩個關(guān)鍵部分:MHMC 和 SAA 。?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?Multi-Head Mixed Convolution(MHMC)

引入了具有不同卷積核大小的多個卷積層,使其能夠捕捉多個尺度上的空間特征。當N head設(shè)置得較大時,能夠引入大卷積核來擴大感受野,增強其建模長距離依賴關(guān)系的能力。如圖2(b)所示,MHMC將輸入通道分為N個頭,對每個頭應(yīng)用獨立的深度可分離卷積。將卷積核大小初始化為3x3,并逐頭遞增。通過調(diào)整頭的數(shù)量來調(diào)節(jié)感受野的范圍和多粒度信息。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

????【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

如圖4(a)所示,每個不同的卷積特征圖都學(xué)習(xí)以自適應(yīng)的方式關(guān)注不同的粒度特征,正如預(yù)期的那樣。值得注意的是,當通過可視化圖中的調(diào)制圖來比較單頭和多頭時。4(b),發(fā)現(xiàn)多頭下的可視化在第一階段準確地描繪了前景和目標對象,同時有效地過濾了背景信息。此外,隨著網(wǎng)絡(luò)的深入,它仍然可以呈現(xiàn)目標對象的整體形狀,而與細節(jié)相關(guān)的信息在單頭卷積下丟失。這表明,MHMC在淺層階段比單個頭部更好地捕捉局部細節(jié),同時隨著網(wǎng)絡(luò)的深入,保持目標對象的詳細和語義信息。

Scale-Aware Aggregation

為了增強MHMC中多個頭之間的信息交互,引入了一種新的輕量化聚合模塊,稱為多尺度感知聚合(SAA),如圖2(c)所示。SAA首先對MHMC生成的不同粒度的特征進行重組和分組。具體而言,從每個頭中選擇一個通道來構(gòu)建一個組,然后在每個組內(nèi)進行up-down的特征融合,從而增強多尺度特征的多樣性。Num_group = C / N_head,C為輸入通道數(shù),這意味著組的數(shù)量與MHMC中頭的數(shù)量成反比,每個組里只包含N個特征通道。隨后,使用1x1卷積進行組內(nèi)-組間模式的跨組信息融合,從而實現(xiàn)輕量且高效的聚合效果。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

圖5顯示,SAA模塊明確地增強了語義相關(guān)的低頻信號,并精確地關(guān)注了目標對象的最重要部分。例如,在第2階段,眼睛、頭部和身體被清楚地突出顯示為目標對象的基本特征,從而顯著提高了分類性能。與卷積映射預(yù)聚合相比,SAA模塊展示了更好的能力來捕捉和表示視覺識別任務(wù)的基本特征。

Scale-Aware Modulation Transformer

在使用MHMC捕捉多尺度空間特征并通過SAA進行聚合后,獲得一個輸出特征圖,稱為調(diào)制器Modulator。然后,使用標量乘積采用這個調(diào)制器來調(diào)制?V。

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

Evolutionary Hybrid Network?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

提出根據(jù)網(wǎng)絡(luò)的捕捉范圍依賴關(guān)系的變化模式重新分配適當?shù)挠嬎隳K,以實現(xiàn)更好的計算性能。提出兩種混合堆疊策略用于倒數(shù)第二個階段,(i) 依次堆疊一個SAM塊和一個MSA塊。(ii) 在stage的前半部分使用SAM塊,在后半部分使用MSA塊。(i)混合堆疊策略更加有效。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

計算了倒數(shù)第二個階段中MSA塊的相對感受野。淺層layer的相對感受野開始階段有一個輕微的下降趨勢。這種下降可以歸因于SAM對早期MSA Block的影響,將這種現(xiàn)象稱為計算單元磨合適應(yīng)期。而隨著網(wǎng)絡(luò)的加深,可以看到感受野呈平穩(wěn)上升的趨勢,這表明提出的進化混合網(wǎng)絡(luò)有效地模擬了從局部到全局依賴捕捉的過渡。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

實驗

對比實驗

分類任務(wù):?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

目標檢測任務(wù):?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

分割任務(wù):?

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?消融實驗

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)文章來源地址http://www.zghlxwxcb.cn/news/detail-608177.html

到了這里,關(guān)于【ICCV2023】Scale-Aware Modulation Meet Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文鏈接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting? [pdf] ? [code] 本文創(chuàng)新點: 開發(fā)了一種新穎的修復(fù)框架 MAT,是第一個能夠直接處理高分辨率圖像的基于 transformer 的修復(fù)系統(tǒng)。 提出了一種新的多頭自注意力 (MSA) 變體,稱為多頭上下文注意力 (MCA),只使用

    2024年02月08日
    瀏覽(23)
  • Relation-Aware Graph Transformer for SQL-to-Text Generation

    Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一項將 SQL 查詢映射到相應(yīng)的自然語言問題的任務(wù)。之前的工作將 SQL 表示為稀疏圖,并利用 graph-to-sequence 模型來生成問題,其中每個節(jié)點只能與 k 跳節(jié)點通信。由于無法捕獲長期且缺乏特定于 SQL 的關(guān)系,這樣的模型在適應(yīng)更復(fù)雜的 SQL 查詢時將會退化。為了解決這

    2024年01月17日
    瀏覽(19)
  • 【深度學(xué)習(xí)】MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    【深度學(xué)習(xí)】MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    論文:https://arxiv.org/abs/2203.15270 代碼:https://github.com/fenglinglwb/MAT Generator 參數(shù)統(tǒng)計: Discriminator參數(shù)統(tǒng)計,用了VGG16. 最近的研究表明,在修復(fù)圖像中存在長距離相互作用的建模非常重要。為了實現(xiàn)這個目標,現(xiàn)有的方法利用獨立的注意力技術(shù)或transformers,但通常考慮到計算成

    2024年02月14日
    瀏覽(17)
  • 【論文閱讀】Relation-Aware Graph Transformer for SQL-to-Text Generation

    【論文閱讀】Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一項將 SQL 查詢映射到相應(yīng)的自然語言問題的任務(wù)。之前的工作將 SQL 表示為稀疏圖,并利用 graph-to-sequence 模型來生成問題,其中每個節(jié)點只能與 k 跳節(jié)點通信。由于無法捕獲長期且缺乏特定于 SQL 的關(guān)系,這樣的模型在適應(yīng)更復(fù)雜的 SQL 查詢時將會退化。為了解決這

    2024年02月20日
    瀏覽(14)
  • CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 個人學(xué)習(xí)筆記

    CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 個人學(xué)習(xí)筆記

    源碼下載: CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代碼-深度學(xué)習(xí)文檔類資源-CSDN下載 Abstract 盡管卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的單圖像去模糊已經(jīng)取得了良好的進展,但卷積固有的 等方差 和 局部性 仍然是去霧性能的 瓶頸 。雖然 Transformer 占據(jù)了各種計算機視覺任務(wù),但直接利

    2023年04月08日
    瀏覽(21)
  • [論文閱讀]Ghost-free High Dynamic Range Imaging with Context-aware Transformer

    [論文閱讀]Ghost-free High Dynamic Range Imaging with Context-aware Transformer

    高動態(tài)范圍成像(HDR)是一種圖像技術(shù),它能夠捕捉到比傳統(tǒng)圖像更廣泛的亮度范圍。1997年,Paul Debevec在他的論文《Recovering High Dynamic Range Radiance Maps from Photographs》中提出了HDR的概念。論文里提出可以通過對同一個場景進行不同曝光時間的拍攝,然后用這些低動態(tài)范圍 (L

    2024年02月07日
    瀏覽(20)
  • 『論文精讀』FastViT(ICCV 2023,Apple開源)論文解讀

    『論文精讀』FastViT(ICCV 2023,Apple開源)論文解讀

    『論文精讀』FastViT(ICCV 2023,Apple開源)論文解讀 論文下載鏈接:https://arxiv.org/pdf/2303.14189.pdf 論文代碼鏈接:https://github.com/apple/ml-fastvit 關(guān)于VIT論文的解讀可以關(guān)注我之前的文章:『論文精讀』Vision Transformer(VIT)論文解讀 關(guān)于Deit論文的解讀可以關(guān)注我之前的文章:『論文精讀

    2024年02月12日
    瀏覽(20)
  • 【Call for papers】ICCV-2023(CCF-A/人工智能/2023年3月8日截稿)

    【Call for papers】ICCV-2023(CCF-A/人工智能/2023年3月8日截稿)

    ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials. We expect ICCV 2023 to happen in person at the Paris Convention Center in downtown Paris. Jana Kosecka, Jean Ponce, Cordelia Schmid, Andrew Zisserman 會議介紹: ICCV是主要的國際計算機視覺活動,包括主要會

    2023年04月08日
    瀏覽(19)
  • 【計算機視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    【計算機視覺】ICCV2023放榜!一起看看CV最新熱門研究方向!

    最近吃過晚飯看到新聞的時候,屬實有點驚訝: ICCV 2023 近日也開獎了!看了一下,總共收錄了2160篇論文,創(chuàng)了歷史新高。作為計算機視覺三大頂級會議之一,ICCV 收錄的論文自然也都具有非常高的研究價值,建議有需求的同學(xué)多關(guān)注多關(guān)注,說不定下一篇中稿的論文ideal就在

    2024年02月07日
    瀏覽(32)
  • Yolov8魔術(shù)師:卷積變體大作戰(zhàn),漲點創(chuàng)新對比實驗,提供CVPR2023、ICCV2023等改進方案

    Yolov8魔術(shù)師:卷積變體大作戰(zhàn),漲點創(chuàng)新對比實驗,提供CVPR2023、ICCV2023等改進方案

    ??????? 本文獨家改進: 提供各種卷積變體 DCNV3、DCNV2、ODConv、SCConv、PConv、DynamicSnakeConvolution、DAT ,引入 CVPR2023、ICCV2023 等改進方案,為Yolov8創(chuàng)新保駕護航,提供各種科研對比實驗 ??????Yolov8魔術(shù)師,獨家首發(fā)創(chuàng)新(原創(chuàng)),適用于Yolov5、Yolov7、Yolov8等各個Yolo系列,專

    2024年02月09日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包