国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【ICCV2023】Scale-Aware Modulation Meet Transformer

2年前作者：m0_61899108分類：Toy博客閱讀(45)違法舉報

這篇具有很好參考價值的文章主要介紹了【ICCV2023】Scale-Aware Modulation Meet Transformer。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Scale-Aware Modulation Meet Transformer, ICCV2023

論文：https://arxiv.org/abs/2307.08579

代碼：https://github.com/AFeng-x/SMT

解讀：ICCV2023 ｜當尺度感知調(diào)制遇上Transformer，會碰撞出怎樣的火花？ - 知乎 (zhihu.com)

摘要

本文提出了一種新的視覺變換器——尺度感知調(diào)制變換器（Scale-Aware Modulation Transformer, SMT），通過將CNN和ViT相結(jié)合，可以有效地處理各種下游任務(wù)。SMT中提出的尺度感知調(diào)制（SAM）包括兩個主要的新穎設(shè)計：

多頭混合卷積（MHMC）模塊，該模塊可以捕捉多尺度特征并擴展感受野。
規(guī)模感知聚合（SAA）模塊，該模塊重量輕但有效，能夠?qū)崿F(xiàn)不同頭部的信息融合。通過利用這兩個模塊，卷積調(diào)制得到了進一步增強。

此外，本文提出一種進化混合網(wǎng)絡(luò)（Evolutionary Hybrid Network，EHN），它可以有效地模擬隨著網(wǎng)絡(luò)變得更深而從捕獲局部依賴性到全局依賴性的轉(zhuǎn)變，從而獲得更優(yōu)的性能。在ImagNet、COCO以及ADE20k等任務(wù)上都驗證了該模型的有效性。SMT在ImageNet-22k上預(yù)訓(xùn)練后以僅僅80.5M的參數(shù)量在ImageNet-1k上達到了88.1%的精度。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

簡介

對于多層級的網(wǎng)絡(luò)架構(gòu)來說，由于淺層特征圖分辨率大的原因，使用ViT的自注意力的二次復(fù)雜性會帶來嚴重的計算負擔。因此，如何為淺層stage設(shè)計高效的attention計算機制是十分重要的。

以往的大部分Hierarchical（Multi-scale）的模型，以Swin為代表，以及CvT，PvT，Shunted Transformer等等，其貢獻點都是設(shè)計一種更高效的attention計算單元。
另外一些方法并不直接改善attention，而是將CNN與Transformer結(jié)構(gòu)混合，降低計算成本，并融合兩種結(jié)構(gòu)的優(yōu)勢。

ViT論文中提出，Transformer模型的注意力捕捉依賴關(guān)系為，淺層捕捉local信息，深層捕捉global信息，而這種特性在多層級網(wǎng)絡(luò)架構(gòu)上也會出現(xiàn)。在淺層使用CNN替代Transformer可以有效地降低attention計算成本，還能更好地建模局部信息。

但，簡單地把卷積直接作用于特征圖并不能有效獲取所需信息。卷積調(diào)制網(wǎng)絡(luò)，利用卷積調(diào)制可以聚合周圍的上下文并自適應(yīng)地調(diào)制，使得其建模能力更強。

因此，本文提出一種新的卷積調(diào)制，尺度感知調(diào)制（Scale-Aware Modulation，SAM），包括兩個模塊：多頭混合卷積（Multi-Head Mixed Convolution，MHMC）和尺度感知聚合（Scale-Aware Aggregation，SAA）。

MHMC模塊旨在增強感受野并同時捕捉多尺度特征。
SAA模塊旨在有效地聚合不同頭部的功能，同時保持輕量級架構(gòu)。

盡管有這些改進，但SAM在捕捉長期依賴方面沒有達到自我關(guān)注機制。為此，提出了一種新的混合調(diào)制變壓器架構(gòu)，稱為進化混合網(wǎng)絡(luò)（Evolutionary Hybrid Network，EHN）。

具體而言，在前兩個階段引入SAM區(qū)塊，在后兩個階段納入Transformer區(qū)塊，同時在倒數(shù)第二階段引入新的堆疊策略。該體系結(jié)構(gòu)不僅模擬了從淺層到深層的長程依賴關(guān)系的變化，而且使每個階段的每個塊都能匹配其計算特性，從而提高了各種下游任務(wù)的性能。

總體而言，提出的架構(gòu)稱為尺度感知調(diào)制轉(zhuǎn)換器（SMT）。

SMT方法

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

SMT網(wǎng)絡(luò)包括四個階段，每個階段的下采樣率為{4, 8, 16, 32}。

首先在前兩個階段采用尺度感知調(diào)制（SAM），
然后在倒數(shù)第二個階段中依次堆疊一個SAM Block和一個多頭自注意力（MSA） Block，以建模從捕捉局部到全局依賴關(guān)系的轉(zhuǎn)變。
對于最后一個階段，僅使用MSA塊來有效地捕捉長距離依賴關(guān)系。

Scale-Aware Modulation

SAM模塊包括兩個關(guān)鍵部分：MHMC 和 SAA 。?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?Multi-Head Mixed Convolution（MHMC）

引入了具有不同卷積核大小的多個卷積層，使其能夠捕捉多個尺度上的空間特征。當N head設(shè)置得較大時，能夠引入大卷積核來擴大感受野，增強其建模長距離依賴關(guān)系的能力。如圖2(b)所示，MHMC將輸入通道分為N個頭，對每個頭應(yīng)用獨立的深度可分離卷積。將卷積核大小初始化為3x3，并逐頭遞增。通過調(diào)整頭的數(shù)量來調(diào)節(jié)感受野的范圍和多粒度信息。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

???? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

如圖4（a）所示，每個不同的卷積特征圖都學(xué)習(xí)以自適應(yīng)的方式關(guān)注不同的粒度特征，正如預(yù)期的那樣。值得注意的是，當通過可視化圖中的調(diào)制圖來比較單頭和多頭時。4（b），發(fā)現(xiàn)多頭下的可視化在第一階段準確地描繪了前景和目標對象，同時有效地過濾了背景信息。此外，隨著網(wǎng)絡(luò)的深入，它仍然可以呈現(xiàn)目標對象的整體形狀，而與細節(jié)相關(guān)的信息在單頭卷積下丟失。這表明，MHMC在淺層階段比單個頭部更好地捕捉局部細節(jié)，同時隨著網(wǎng)絡(luò)的深入，保持目標對象的詳細和語義信息。

Scale-Aware Aggregation

為了增強MHMC中多個頭之間的信息交互，引入了一種新的輕量化聚合模塊，稱為多尺度感知聚合（SAA），如圖2(c)所示。SAA首先對MHMC生成的不同粒度的特征進行重組和分組。具體而言，從每個頭中選擇一個通道來構(gòu)建一個組，然后在每個組內(nèi)進行up-down的特征融合，從而增強多尺度特征的多樣性。Num_group = C / N_head，C為輸入通道數(shù)，這意味著組的數(shù)量與MHMC中頭的數(shù)量成反比，每個組里只包含N個特征通道。隨后，使用1x1卷積進行組內(nèi)-組間模式的跨組信息融合，從而實現(xiàn)輕量且高效的聚合效果。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

圖5顯示，SAA模塊明確地增強了語義相關(guān)的低頻信號，并精確地關(guān)注了目標對象的最重要部分。例如，在第2階段，眼睛、頭部和身體被清楚地突出顯示為目標對象的基本特征，從而顯著提高了分類性能。與卷積映射預(yù)聚合相比，SAA模塊展示了更好的能力來捕捉和表示視覺識別任務(wù)的基本特征。

Scale-Aware Modulation Transformer

在使用MHMC捕捉多尺度空間特征并通過SAA進行聚合后，獲得一個輸出特征圖，稱為調(diào)制器Modulator。然后，使用標量乘積采用這個調(diào)制器來調(diào)制?V。

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

Evolutionary Hybrid Network?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

提出根據(jù)網(wǎng)絡(luò)的捕捉范圍依賴關(guān)系的變化模式重新分配適當?shù)挠嬎隳K，以實現(xiàn)更好的計算性能。提出兩種混合堆疊策略用于倒數(shù)第二個階段，(i) 依次堆疊一個SAM塊和一個MSA塊。(ii) 在stage的前半部分使用SAM塊，在后半部分使用MSA塊。(i)混合堆疊策略更加有效。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

計算了倒數(shù)第二個階段中MSA塊的相對感受野。淺層layer的相對感受野開始階段有一個輕微的下降趨勢。這種下降可以歸因于SAM對早期MSA Block的影響，將這種現(xiàn)象稱為計算單元磨合適應(yīng)期。而隨著網(wǎng)絡(luò)的加深，可以看到感受野呈平穩(wěn)上升的趨勢，這表明提出的進化混合網(wǎng)絡(luò)有效地模擬了從局部到全局依賴捕捉的過渡。

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

實驗

對比實驗

分類任務(wù)：?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

目標檢測任務(wù)：?

【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

分割任務(wù)：?

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

?消融實驗

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí)

? 【ICCV2023】Scale-Aware Modulation Meet Transformer,Transformer系列,論文筆記,transformer,計算機視覺,深度學(xué)習(xí) 文章來源地址http://www.zghlxwxcb.cn/news/detail-608177.html

到了這里，關(guān)于【ICCV2023】Scale-Aware Modulation Meet Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting
原文鏈接： 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting? [pdf] ? [code] 本文創(chuàng)新點：開發(fā)了一種新穎的修復(fù)框架 MAT，是第一個能夠直接處理高分辨率圖像的基于 transformer 的修復(fù)系統(tǒng)。提出了一種新的多頭自注意力 (MSA) 變體，稱為多頭上下文注意力 (MCA)，只使用
2024年02月08日
瀏覽(23)
Relation-Aware Graph Transformer for SQL-to-Text Generation
SQL2Text 是一項將 SQL 查詢映射到相應(yīng)的自然語言問題的任務(wù)。之前的工作將 SQL 表示為稀疏圖，并利用 graph-to-sequence 模型來生成問題，其中每個節(jié)點只能與 k 跳節(jié)點通信。由于無法捕獲長期且缺乏特定于 SQL 的關(guān)系，這樣的模型在適應(yīng)更復(fù)雜的 SQL 查詢時將會退化。為了解決這
2024年01月17日
瀏覽(19)
【深度學(xué)習(xí)】MAT: Mask-Aware Transformer for Large Hole Image Inpainting
論文：https://arxiv.org/abs/2203.15270 代碼：https://github.com/fenglinglwb/MAT Generator 參數(shù)統(tǒng)計： Discriminator參數(shù)統(tǒng)計，用了VGG16. 最近的研究表明，在修復(fù)圖像中存在長距離相互作用的建模非常重要。為了實現(xiàn)這個目標，現(xiàn)有的方法利用獨立的注意力技術(shù)或transformers，但通常考慮到計算成
2024年02月14日
瀏覽(17)
【論文閱讀】Relation-Aware Graph Transformer for SQL-to-Text Generation
SQL2Text 是一項將 SQL 查詢映射到相應(yīng)的自然語言問題的任務(wù)。之前的工作將 SQL 表示為稀疏圖，并利用 graph-to-sequence 模型來生成問題，其中每個節(jié)點只能與 k 跳節(jié)點通信。由于無法捕獲長期且缺乏特定于 SQL 的關(guān)系，這樣的模型在適應(yīng)更復(fù)雜的 SQL 查詢時將會退化。為了解決這
2024年02月20日
瀏覽(14)
CVPR 2022 Image Dehazing Transformer with Transmission-Aware 3D Position Embedding 個人學(xué)習(xí)筆記
源碼下載： CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代碼-深度學(xué)習(xí)文檔類資源-CSDN下載 Abstract 盡管卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的單圖像去模糊已經(jīng)取得了良好的進展，但卷積固有的等方差和局部性仍然是去霧性能的瓶頸。雖然 Transformer 占據(jù)了各種計算機視覺任務(wù)，但直接利
2023年04月08日
瀏覽(21)
[論文閱讀]Ghost-free High Dynamic Range Imaging with Context-aware Transformer
高動態(tài)范圍成像（HDR）是一種圖像技術(shù)，它能夠捕捉到比傳統(tǒng)圖像更廣泛的亮度范圍。1997年，Paul Debevec在他的論文《Recovering High Dynamic Range Radiance Maps from Photographs》中提出了HDR的概念。論文里提出可以通過對同一個場景進行不同曝光時間的拍攝，然后用這些低動態(tài)范圍（L
2024年02月07日
瀏覽(20)
『論文精讀』FastViT(ICCV 2023，Apple開源)論文解讀
『論文精讀』FastViT(ICCV 2023，Apple開源)論文解讀論文下載鏈接：https://arxiv.org/pdf/2303.14189.pdf 論文代碼鏈接：https://github.com/apple/ml-fastvit 關(guān)于VIT論文的解讀可以關(guān)注我之前的文章：『論文精讀』Vision Transformer(VIT)論文解讀關(guān)于Deit論文的解讀可以關(guān)注我之前的文章：『論文精讀
2024年02月12日
瀏覽(20)
【Call for papers】ICCV-2023（CCF-A/人工智能/2023年3月8日截稿）
ICCV is the premier international computer vision event comprising the main conference and several co-located workshops and tutorials. We expect ICCV 2023 to happen in person at the Paris Convention Center in downtown Paris. Jana Kosecka, Jean Ponce, Cordelia Schmid, Andrew Zisserman 會議介紹： ICCV是主要的國際計算機視覺活動，包括主要會
2023年04月08日
瀏覽(19)
【計算機視覺】ICCV2023放榜！一起看看CV最新熱門研究方向！
最近吃過晚飯看到新聞的時候，屬實有點驚訝： ICCV 2023 近日也開獎了！看了一下，總共收錄了2160篇論文，創(chuàng)了歷史新高。作為計算機視覺三大頂級會議之一，ICCV 收錄的論文自然也都具有非常高的研究價值，建議有需求的同學(xué)多關(guān)注多關(guān)注，說不定下一篇中稿的論文ideal就在
2024年02月07日
瀏覽(32)
Yolov8魔術(shù)師：卷積變體大作戰(zhàn)，漲點創(chuàng)新對比實驗，提供CVPR2023、ICCV2023等改進方案
??????? 本文獨家改進：提供各種卷積變體 DCNV3、DCNV2、ODConv、SCConv、PConv、DynamicSnakeConvolution、DAT ，引入 CVPR2023、ICCV2023 等改進方案，為Yolov8創(chuàng)新保駕護航，提供各種科研對比實驗 ??????Yolov8魔術(shù)師，獨家首發(fā)創(chuàng)新（原創(chuàng)），適用于Yolov5、Yolov7、Yolov8等各個Yolo系列，專
2024年02月09日
瀏覽(20)