国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記:ViT Adapter——Transformer與CNN特征融合,屠榜語義分割!

這篇具有很好參考價值的文章主要介紹了論文筆記:ViT Adapter——Transformer與CNN特征融合,屠榜語義分割!。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文筆記:ViT Adapter——VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS

綜述

論文題目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》

會議時間:ICLR 2023

論文地址:https://openreview.net/pdf?id=plKu2GByCNW

源碼地址:https://github.com/czczup/ViT-Adapter

主要思想

??Transformer在計算機視覺領(lǐng)域取得了顯著的成功,主要得益于transformer的動態(tài)建模能力(dynamic modeling capability)注意力機制中長距離依賴(long-range dependence)的建模能力,同時普通的ViT可以使用大量多模態(tài)數(shù)據(jù)進行預(yù)訓(xùn)練(包括圖像、文本和視頻等等),通過利用大量并且多維度的數(shù)據(jù)進行預(yù)訓(xùn)練,可以顯著提升模型學(xué)習(xí)豐富語義表示的能力。然而,普通的ViT在密集預(yù)測任務(wù)方面效果往往不是很理想,由于缺少圖像相關(guān)的先驗知識,因此會導(dǎo)致模型收斂慢,實際應(yīng)用性能比較低。在后面的研究中,推出了一些特定于視覺的transformer網(wǎng)絡(luò)(vision-specific,例如:Swin transformer、PVTv2),利用局部的空間操作來引入視覺特定的歸納偏置(vision-specific inductive biases),從而緩解transformer模型在視覺任務(wù)應(yīng)用中缺少圖像先驗知識的問題,但是這些模型由于是視覺特定的模型,因此只能在圖像數(shù)據(jù)上做預(yù)訓(xùn)練,無法在其他數(shù)據(jù)上做預(yù)訓(xùn)練,限制了數(shù)據(jù)源的格式。為了解決這一問題,本文受到NLP領(lǐng)域中adapters的啟發(fā),提出了一種視覺adapter結(jié)構(gòu),用于縮小密集預(yù)測任務(wù)中,普通ViT和視覺特定backbone之間的性能差異。

??對于視覺ViT adapter,他是一種可以附加在普通ViT的模塊,可以在不修改原始結(jié)構(gòu)的情況下有效地將普通的ViT適用于下游的密集型預(yù)測任務(wù),具體地來說,為了將視覺特定的歸納偏差引入到普通的ViT中,作者設(shè)計了三個模塊,包括:①Spatial Prior Module:用于從圖像中捕獲局部的空間語義特征;②Spatial Feature Injector:用于將空間先驗特征融入ViT特征中;③Multi-scale Feature Extractor:用于得到密集預(yù)測任務(wù)所需要的多尺度特征(將ViT特征融入空間先驗特征中)。

??如下圖所示,與之前的范式相比(在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練,然后在其他任務(wù)上做微調(diào)),作者提出的范式更加靈活。之前的框架由于backbone是視覺特定的網(wǎng)絡(luò),因此只能用圖像數(shù)據(jù)來做預(yù)訓(xùn)練;而在作者提出的框架中,backbone是一個通用的模型(例如普通的ViT),它不僅可以用圖像來做預(yù)訓(xùn)練,還可以利用多模態(tài)數(shù)據(jù)進行預(yù)訓(xùn)練,而對于密集預(yù)測任務(wù)的遷移學(xué)習(xí),只使用隨機初始化的adapter來將圖像相關(guān)的先驗知識(歸納偏差)引入預(yù)訓(xùn)練的主干網(wǎng)絡(luò)中,使模型可以適用于這些任務(wù),通過這種方式,在密集預(yù)測任務(wù)中,僅使用ViT作為骨干網(wǎng)絡(luò),利用作者的框架可以實現(xiàn)與Swin等視覺特定的ViT算法相當?shù)男阅堋?/p>

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

方法

??模型主要分為兩個部分,分別為普通的ViT網(wǎng)絡(luò)和所提的ViT-Adapter模塊,具體如下圖所示:

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

??對于ViT,首先將圖像輸入到patch embedding中,將圖像分割成 16 × 16 16\times16 16×16大小的不重疊patch,之后將這些特征投影成 d d d維的token,之后將這些token加上位置編碼。

??對于ViT-adapter,首先將輸入圖像傳入由CNN組成的空間先驗?zāi)K中,得到三種分辨率的 d d d維空間特征( 1 8 、 1 16 、 1 32 \frac18、\frac1{16}、\frac1{32} 81?、161?、321?),之后將這些特征沿空間方向拉直,并連接起來,作為特征交互的輸入。具體地來說,給定交互次數(shù) N N N(通常為4),我們將ViT的transformer編碼器平均分成N個block,每個block包括 L / N L/N L/N個transformer模塊,對于第 i i i個塊,首先通過空間注入器向其中注入空間先驗特征,之后通過多尺度特征提取器從塊的輸出中提取多尺度層次特征。經(jīng)過N次交互之后,得到高質(zhì)量的多尺度特征,之后對特征進行拆分和重構(gòu),得到目標分辨率為 1 8 、 1 16 、 1 32 \frac18、\frac1{16}、\frac1{32} 81?161?、321?的特征。最后,利用 2 × 2 2\times2 2×2的轉(zhuǎn)置卷積對 1 8 \frac18 81?尺度的特征圖進行上采樣,構(gòu)建 1 4 \frac14 41?尺度的特征圖。通過這種方式,會獲得與ResNet相似分辨率的特征金字塔,可用于各種密集預(yù)測任務(wù)。

注:一共四種尺度特征,分別為 1 4 、 1 8 、 1 16 、 1 32 \frac14、\frac18、\frac1{16}、\frac1{32} 41?、81?161?、321?

空間先驗?zāi)K

??相比于transformer結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)具有更強的局部建模能力,可以幫助transformer更好地捕獲局部的空間信息,受此啟發(fā),作者引入了由CNN構(gòu)成的空間先驗?zāi)K(SPM),和原ViT分支并行嵌入,可以對圖像的局部空間上下文進行建模。

??具體結(jié)構(gòu)下圖所示,參考resnet的標準卷積系統(tǒng),Stem由三個卷積層和一個最大池化組成(第一個卷積層步幅為2,其他為1),之后依次使用步幅為2的 3 × 3 3\times3 3×3卷積做下采樣操作(通道數(shù)增加,并且減小特征圖分辨率尺寸),將所得的特征傳入 1 × 1 1\times1 1×1的卷積,將特征圖的通道數(shù)均轉(zhuǎn)為 D D D(跟FPN里的目的一樣,得到同特征維數(shù)下的多尺度特征),最終會得到三種尺度的特征 F 1 , F 2 , F 3 F_1,F_2,F_3 F1?,F2?,F3?,分辨率均為原圖的 1 8 , 1 16 , 1 32 \frac18,\frac1{16},\frac1{32} 81?,161?,321?,之后將特征圖沿空間拉直,得到空間特征 F s p 1 ∈ R ( H W 8 2 + H W 1 6 2 + H W 3 2 2 ) × D F_{sp}^1\in R^{(\frac{HW}{8^2}+\frac{HW}{16^2}+\frac{HW}{32^2})\times D} Fsp1?R(82HW?+162HW?+322HW?)×D

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

特征交互模塊

??特征交互模塊由兩個模塊構(gòu)成,主要用于ViT特征和空間特征之間的特征交互。

空間特征注入器

??該模塊用于將空間先驗特征注入到ViT特征中,將ViT特征 F v i t F_{vit} Fvit?作為查詢query,空間特征 F s p F_{sp} Fsp?作為鍵值對key-value:
F ^ v i t i = F v i t i + γ i A t t e n t i o n ( n o r m ( F v i t i ) , n o r m ( F s p i ) ) \hat{F}^i_{vit}=F^i_{vit}+\gamma^iAttention(norm(F^i_{vit}),norm(F^i_{sp})) F^viti?=Fviti?+γiAttention(norm(Fviti?),norm(Fspi?))
其中 n o r m norm norm表示LayerNorm層,注意力運算最好使用線性復(fù)雜度的稀疏注意力(例如deformable attention),同時,這里應(yīng)用一個可學(xué)習(xí)的向量 γ \gamma γ??來平衡注意力層的輸出和輸入特征,并且初始化為0,這種初始化策略保證了vit的特征分布不會因為空間先驗的注入而發(fā)生劇烈的改變,從而可以更好地利用vit的預(yù)訓(xùn)練權(quán)重。

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

??這一操作本質(zhì)上是用ViT特征查詢空間特征中對自身有用的特征,相當于將具有局部空間信息的特征融入ViT特征中,做不同領(lǐng)域特征之間的融合。

多尺度特征提取器

??在向ViT注入空間特征之后,將所得的 F ^ v i t i \hat{F}^i_{vit} F^viti?傳入第 i i i個transformer編碼block,得到 F v i t i + 1 F^{i+1}_{vit} Fviti+1?,之后使用交叉注意力和前饋神經(jīng)網(wǎng)絡(luò)提取多尺度特征,將空間特征 F s p i F^i_{sp} Fspi?作為查詢query,ViT特征 F v i t i + 1 F^{i+1}_{vit} Fviti+1?作為鍵值對key-value
F ^ s p i = F s p i + A t t e n t i o n ( n o r m ( F s p i ) , n o r m ( F v i t i + 1 ) ) F s p i + 1 = F ^ s p i + F F N ( n o r m ( F ^ s p i ) ) \hat{F}^i_{sp}=F^i_{sp}+Attention(norm(F^i_{sp}),norm(F_{vit}^{i+1}))\\ F^{i+1}_{sp}=\hat{F}^i_{sp}+FFN(norm(\hat{F}^i_{sp})) F^spi?=Fspi?+Attention(norm(Fspi?),norm(Fviti+1?))Fspi+1?=F^spi?+FFN(norm(F^spi?))
這里同樣最好使用線性復(fù)雜度的稀疏注意力,將所得的空間特征 F s p i + 1 F^{i+1}_{sp} Fspi+1??作為下一個空間特征注入器SFI的輸入。

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

??這一操作本質(zhì)上是用多尺度的空間特征查詢ViT特征中對自身有用的特征,相當于將語義豐富的ViT特征融入多尺度空間特征中,讓每個空間特征都具有豐富的語義信息,最終所得的特征既有多尺度表征的能力也有初始ViT豐富語義特征的優(yōu)勢。

模型規(guī)格

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

實驗部分

同一框架下(Mask R-CNN)不同Backbone的比較

任務(wù):目標檢測和實例分割

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

不同框架下的比較

任務(wù):目標檢測

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

語義分割

vision transformer adapter for dense predictions,論文筆記,論文閱讀,transformer,深度學(xué)習(xí),ViT,計算機視覺,Attention,神經(jīng)網(wǎng)絡(luò)

總結(jié)

??本工作主要針對普通ViT缺少視覺特定的歸納偏置問題做改進,設(shè)計了ViT-Adapter模塊,利用交叉注意力,充分將CNN中局部空間建模的能力融入到ViT模型中,在保持原有ViT架構(gòu)不變,即ViT語義特征不減弱的情況下,靈活地將圖像相關(guān)的歸納偏置注入到ViT模型中,重構(gòu)密集預(yù)測任務(wù)所需要的細粒度多尺度特征,最終實現(xiàn)下游任務(wù)良好的應(yīng)用。

以上僅是筆者個人見解,若有問題,歡迎指正文章來源地址http://www.zghlxwxcb.cn/news/detail-852439.html

到了這里,關(guān)于論文筆記:ViT Adapter——Transformer與CNN特征融合,屠榜語義分割!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Vision Transformer(ViT)論文解讀與代碼實踐(Pytorch)

    Vision Transformer(ViT)論文解讀與代碼實踐(Pytorch)

    Vision Transformer(ViT)是一種基于Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,用于處理計算機視覺任務(wù)。傳統(tǒng)的計算機視覺模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理圖像任務(wù)時取得了很大的成功,但CNN存在一些局限,例如對于長距離依賴的建模能力較弱。ViT通過引入Transformer的注意力機制來解決這

    2024年02月07日
    瀏覽(18)
  • 視覺Transformer經(jīng)典論文——ViT、DeiT的與原理解讀與實現(xiàn)

    最近ChatGPT、文心一言等大模型爆火,追究其原理還是繞不開2017年提出的Transformer結(jié)構(gòu)。Transformer算法自從提出后,在各個領(lǐng)域的相關(guān)工作還是非常多的,這里分享之前在其他平臺的一篇筆記給大家,詳細解讀CV領(lǐng)域的兩個經(jīng)典Transformer系列工作——ViT和DeiT。 論文地址:An Ima

    2024年02月14日
    瀏覽(32)
  • VIT 論文精讀 | transformer架構(gòu)引入CV的開創(chuàng)性工作

    VIT 論文精讀 | transformer架構(gòu)引入CV的開創(chuàng)性工作

    目錄 目錄 1. 背景 2. 方法 2.1 怎么把2D圖像變成1D序列輸入到transformer中 像素? 先提取特征圖? 打成多個patch 2.2 transformer和卷積網(wǎng)絡(luò)比較 2.3 結(jié)構(gòu) 2.4 cls Vs 全局平均池化 2.5 位置編碼 3 實驗 VIT是基于transformer的在圖像分類大放異彩的變體,transformer是VIT的親爹,可以和resnet相媲

    2024年02月11日
    瀏覽(24)
  • 深度學(xué)習(xí)論文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch實現(xiàn)

    深度學(xué)習(xí)論文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch實現(xiàn)

    深度學(xué)習(xí)論文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch實現(xiàn) RepViT: Revisiting Mobile CNN From ViT Perspective PDF: https://arxiv.org/pdf/2307.09283.pdf PyTorch代碼: https://github.com/shanglianlm0525/CvPytorch PyTorch代碼: https://github.com/shanglianlm0525/PyTorch-Networks 本文通過引入輕量級 ViT 的架構(gòu)選擇,重

    2024年02月14日
    瀏覽(18)
  • 【Transformer論文】CMKD:用于音頻分類的基于 CNN/Transformer 的跨模型知識蒸餾

    文獻題目:CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification 文獻時間:2022 音頻分類是一個活躍的研究領(lǐng)域,具有廣泛的應(yīng)用。 在過去十年中,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已成為端到端音頻分類模型的事實上的標準構(gòu)建塊。 最近,僅基于自注意力機制(如音頻頻譜

    2023年04月17日
    瀏覽(25)
  • [論文筆記]Adapter turning

    [論文筆記]Adapter turning

    今天帶來第一篇大語言模型高效微調(diào)的論文Adapter Tuning筆記。 預(yù)訓(xùn)練+微調(diào)的范式是一種高效的遷移學(xué)習(xí)機制。然而,當有很多下游任務(wù)時,微調(diào)參數(shù)并不高效:對于每個任務(wù)都要有一個全新的模型。 作者提出了基于adapter模塊的遷移學(xué)習(xí)方法,可以產(chǎn)生一個緊湊和可擴展的模

    2024年02月07日
    瀏覽(28)
  • 【論文筆記】 VIT論文筆記,重構(gòu)Patch Embedding和Attention部分

    【論文筆記】 VIT論文筆記,重構(gòu)Patch Embedding和Attention部分

    相關(guān)鏈接: VIT論文:https://arxiv.org/abs/2010.11929 VIT視頻講解:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.999.0.0vd_source=fff489d443210a81a8f273d768e44c30 VIT源碼:https://github.com/vitejs/vite VIT源碼(Pytorch版本,非官方,挺多stars,應(yīng)該問題不大):https://github.com/lucidrains/vit-pytorch 重點掌握:

    2024年02月11日
    瀏覽(24)
  • 圖像融合論文閱讀:(MFEIF)學(xué)習(xí)深度多尺度特征集成和邊緣注意引導(dǎo)的圖像融合

    圖像融合論文閱讀:(MFEIF)學(xué)習(xí)深度多尺度特征集成和邊緣注意引導(dǎo)的圖像融合

    @article{liu2021learning, title={Learning a deep multi-scale feature ensemble and an edge-attention guidance for image fusion}, author={Liu, Jinyuan and Fan, Xin and Jiang, Ji and Liu, Risheng and Luo, Zhongxuan}, journal={IEEE Transactions on Circuits and Systems for Video Technology}, volume={32}, number={1}, pages={105–119}, year={2021}, publisher={IEEE

    2024年02月04日
    瀏覽(22)
  • 《論文閱讀》用于情感分析的融合預(yù)訓(xùn)練表情符號特征增強

    《論文閱讀》用于情感分析的融合預(yù)訓(xùn)練表情符號特征增強

    前言 你是否也對于理解論文存在困惑? 你是否也像我之前搜索論文解讀,得到只是中文翻譯的解讀后感到失望? 小白如何從零讀懂論文?和我一起來探索吧! 今天為大家?guī)淼氖恰禙usion Pre-trained Emoji Feature Enhancement for Sentiment Analysis》 出版:2023 Association for Computing Machiner

    2024年02月09日
    瀏覽(25)
  • 圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    圖像融合論文閱讀:CoCoNet: 基于多層特征集成的耦合對比學(xué)習(xí)網(wǎng)絡(luò)多模態(tài)圖像融合

    @article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 論文級

    2024年02月04日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包