国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】Uformer:A General U-Shaped Transformer for Image Restoration

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】Uformer:A General U-Shaped Transformer for Image Restoration。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

??前言

  • ??博客主頁:??睡晚不猿序程??
  • ?首發(fā)時(shí)間:2023.6.8
  • ?最近更新時(shí)間:2023.6.8
  • ??本文由 睡晚不猿序程 原創(chuàng)
  • ??作者是蒻蒟本蒟,如果文章里有任何錯(cuò)誤或者表述不清,請 tt 我,萬分感謝!orz

目錄
  • ??前言
  • 1. 內(nèi)容簡介
  • 2. 論文瀏覽
  • 3. 圖片、表格瀏覽
  • 4. 引言瀏覽
  • 5. 方法
    • 5.1 模型結(jié)構(gòu)
  • 6. 實(shí)驗(yàn)
    • 6.1 實(shí)驗(yàn)設(shè)置
    • 6.2 實(shí)驗(yàn)結(jié)果
    • 6.3 消融實(shí)驗(yàn)
      • 4. Effect of the multi-scale restoration modulator
  • 6. 總結(jié)、預(yù)告
    • 6.1 總結(jié)
    • 6.2 預(yù)告

1. 內(nèi)容簡介

論文標(biāo)題:Uformer: A General U-Shaped Transformer for Image Restoration

發(fā)布于:CVPR 2021

自己認(rèn)為的關(guān)鍵詞:Transformer、Unet

是否開源?:https://github.com/ZhendongWang6/Uformer


2. 論文瀏覽

論文動(dòng)機(jī)

  1. 目前對于圖像修復(fù)(image restoration) 的 SOTA 模型都是基于 ConvNet 的,其把握全局信息的能力不足
  2. 一些針對上面的問題的改進(jìn)方式引入注意力層,但是由于其平方級(jí)別的復(fù)雜度導(dǎo)致只能使用較少層數(shù)

本文工作

  1. Uformer:搭建了分層級(jí)的 encoder-decoder 模型(類似 U-Net)

  2. LeWin:基于 Swin Transformer 的滑動(dòng)窗口自注意力上在 FFN 添加 DWConv

  3. 可學(xué)習(xí)的多尺度修復(fù)模塊:用于調(diào)整 decoder 部分的特征,使其自適應(yīng)不同噪聲

    一個(gè)和 Token 維度相同的可學(xué)習(xí)參數(shù)

完成效果:在去噪、去雨、去模糊等 low level 任務(wù)效果顯著

3. 圖片、表格瀏覽

圖一

模型性能圖,看起來在相同計(jì)算量下比 Unet 性能要好

奇怪的是怎么沒有和 Swin Transformer 碰碰

圖二

模型架構(gòu)圖,可以看到組成了一個(gè) Unet 架構(gòu),在 decoder 分支使用了 Modulators 調(diào)整特征的表示

圖三

局部增強(qiáng)的 FFN,在 1x1 卷積中間引入了 DWConv

感覺可以像 ConvNeXt 一樣挪到 1x1 卷積前面,可以進(jìn)一步降低參數(shù)量

圖四

Modulator 的效果,看起來確實(shí)不錯(cuò)

Token 的表示確實(shí)很輕松就可以引入某些信息

圖五

模型去噪效果


4. 引言瀏覽

本文重心:在不同分辨率上使用自注意力,從而恢復(fù)圖像信息——提出了 Uformer,基于 U-Net,但是保持了他的 味道 ,只是改變了 backbone(跳躍連接啥的沒有變)

兩個(gè)設(shè)計(jì)

  1. Locally enhanced Window:字如其名
    特征圖分辨率改變,但是窗口大小不變
    在 Transformer FFN 的兩個(gè)全連接層之間添加 depth-wise 卷積層
  2. learnable multi-scale restoration modulator:用于學(xué)習(xí)圖像的 退化方式
    作為一種多尺度的空間偏置,來在 decoder 中調(diào)整圖像特征——可以可學(xué)習(xí)的,基于窗口的 tensor 將會(huì)直接加到特征中去,來調(diào)整這些特征,來為重建提供更多信息

自由閱讀


5. 方法

5.1 模型結(jié)構(gòu)

encoder

  1. 使用 3x3 LeakyReLU 卷積對輸入圖像進(jìn)行處理,得到(C,H,W)大小圖像,通過此抽取底層特征

  2. 接著就是和 UNet 一樣,要經(jīng)過 K 個(gè) encoder stages,每個(gè) stage 由一個(gè) LeWin block 和一個(gè)下采樣層組成

    具體而言,LeWin block 輸入輸出分辨率相同,下采樣層先把圖片轉(zhuǎn)化為 2D 的(從 Token 中恢復(fù)圖像)然后使用 4x4,stride=2 的卷積降低分辨率,翻倍特征通道數(shù)

  3. encoder 的最后添加上一個(gè) bottleneck stage,由一系列 LeWin Transformer block 堆疊而成
    在這里可以使用全局自注意力,相比之前的窗口自注意力可以有更強(qiáng)的建模能力

decoder

  1. 同樣 K 個(gè) stage,包含若干個(gè) Transformer blcok 以及一個(gè)上采樣層
    具體而言,使用 2x2 stride=2 的轉(zhuǎn)置卷積來做上采樣,翻倍分辨率,減半特征通道數(shù)量

  2. 接著,和之前的部分做級(jí)聯(lián),然后一直計(jì)算下去

  3. 經(jīng)過了 K 個(gè) stage,將其重新轉(zhuǎn)化為 2D 表示,并使用一個(gè) 3x3 卷積將其特征通道數(shù)重新變?yōu)?3,然后進(jìn)行一個(gè)殘差連接得到輸出

    這里的上下采樣選擇轉(zhuǎn)為圖像表示再使用卷積進(jìn)行操作

LeWin Transformer Block

ViT 兩個(gè)缺陷:

  1. 全局自注意力
  2. 難以把握 local dependencies

進(jìn)行了改進(jìn),結(jié)構(gòu)如下

兩個(gè)核心設(shè)計(jì):

  1. 不重疊的基于窗口的自注意力(W-MSA)
  2. 局部強(qiáng)化前向網(wǎng)絡(luò)(LeFF)

LeFF

  1. 首先進(jìn)行線性映射
  2. 轉(zhuǎn)化為圖像表示,進(jìn)行 3x3 卷積
  3. 轉(zhuǎn)為 token,然后映射為原本的維度,進(jìn)行殘差連接

Multi-Scale Restoration Modulator

這里說到,因?yàn)椴煌膱D像退化方式會(huì)有不同的擾動(dòng)模式,為了讓 Uformer 可以解決這些不同的擾動(dòng),使用了一個(gè)輕量化的恢復(fù)模塊,它可以標(biāo)定輸出的特征,鼓勵(lì)模型使用更多的細(xì)節(jié)來恢復(fù)圖像

在每一個(gè)塊中,這個(gè)調(diào)制器是一個(gè) tensor ,大小為(M,M,C),用法和偏置一樣,在計(jì)算自注意力之前直接加到每一個(gè)窗口中就可以了。

在去模糊和圖像去噪方面可以改善效果,尤其是在去運(yùn)動(dòng)模糊方面和噪聲方面可以得到更好的結(jié)果

這里說,和 StyleGAN 中添加隨機(jī)噪聲的思路是一致的,所以這個(gè) StyleGAN 之后也可以去看一下

6. 實(shí)驗(yàn)

6.1 實(shí)驗(yàn)設(shè)置

損失函數(shù)

\[l(I',\hat I)=\sqrt{||I'-\hat I||^2 +\epsilon^2} \]

這里是選擇了一個(gè) Charbonnier Loss 作為損失函數(shù)

優(yōu)化器:Adam(0.9, 0.999), weight decay 0.02; lr 2e-4;使用余弦衰減

數(shù)據(jù)增強(qiáng):水平翻轉(zhuǎn),旋轉(zhuǎn) 90,180,270

模型架構(gòu)

窗口大小 4x4

評(píng)價(jià)指標(biāo)

  • PSNR
  • SSIM

使用 YUV 的 Y 通道進(jìn)行計(jì)算

6.2 實(shí)驗(yàn)結(jié)果

Real Noise Removal

第一項(xiàng)任務(wù),去噪

數(shù)據(jù)集:SIDD,DND

對比了 8 個(gè)模型,拿到了最佳成績

Motion blur removal

任務(wù)二:去除動(dòng)態(tài)模糊

數(shù)據(jù)集:GoPro(訓(xùn)練),HIDE(合成的數(shù)據(jù)集),GoPro(測試集),RealBlur-R/J

在 GoPro 上對之前的 SOTA 方法實(shí)現(xiàn)了全面的超越(PSNR 多了 0.3 個(gè)點(diǎn),SSIM 多了 0.01)其他的數(shù)據(jù)集也都比之前的 SOTA 要好

defocus Blur Removal

任務(wù)三:去失焦

數(shù)據(jù)集:DPD

全面超越,PSNR 多了好幾個(gè)點(diǎn)!直接按照一位數(shù)算的

Real Rain Removal

離譜啦,多了 3 個(gè)點(diǎn)

6.3 消融實(shí)驗(yàn)

1. Transformer vs convolution

將其中的 Tr 替換為 CNN(ResBlock),設(shè)計(jì)了三個(gè)不同大小的 UNet

效果不錯(cuò),參數(shù)量更小的情況下能得到更好的效果,但是我覺得差距好像也不是很大?

哦但是那個(gè) B 模型就差距比較大了,多了 0.1 個(gè)點(diǎn)

2. Hierarchical structure vs single scale

使用 ViT-based 架構(gòu),單一尺度,用于圖像去噪,在開始和結(jié)束的時(shí)候使用兩層卷積來提取特征以及還原圖像,其中使用 12 層 Tr block,隱藏特征維度為 256,patch 大小 16x16,得到的效果不好

ViT 的單一尺度對這種任務(wù)效果肯定不好,ViT 似乎是一個(gè) 近視眼 ,16x16 的 patch 劃分讓他具有了這種特性,可以看成是低通濾波器

3. Where to enhance locality

對比了是否進(jìn)行局部性強(qiáng)化的效果

可以看到,在自注意力中引入局部強(qiáng)化會(huì)導(dǎo)致效果變差,但是如果在 FFN 中引入局部強(qiáng)化會(huì)得到一個(gè)更好的效果

對 Token 做卷積可以看成是一個(gè)超大感受野的擴(kuò)張卷積

4. Effect of the multi-scale restoration modulator

效果顯著,如果看他的效果對比,可以看的更為明顯

Is Window Shift Iportant?

附錄內(nèi)容

使用滑動(dòng)窗口,帶來了微小的提升

但是根據(jù)我自己跑代碼的情況,我使用了滑動(dòng)窗口帶來的提升挺大的(2-3 個(gè)點(diǎn) PSNR),約等于進(jìn)行了一次感受野的擴(kuò)大

6. 總結(jié)、預(yù)告

6.1 總結(jié)

使用 Transformer 作為 backbone 的 U-Net 網(wǎng)絡(luò),具有兩個(gè)創(chuàng)新點(diǎn)

  1. 基于窗口的自注意力,自注意力卷積聯(lián)合使用,隨著網(wǎng)絡(luò)的加深模型可以獲得更大的 感受野
  2. 可學(xué)習(xí)的 multi-scale restoration modulator,僅僅使用一個(gè)加法取得了一個(gè)不錯(cuò)的效果
  3. 卷積和 MLP 相結(jié)合,構(gòu)成了一個(gè) 局部性強(qiáng)化 方法,更好的應(yīng)用圖像的局部信息

6.2 預(yù)告

打算之后更新一下關(guān)于 Transformer 的論文閱讀了

好久沒有整理自己的筆記然后更新了iai,屯了一大堆的論文筆記文章來源地址http://www.zghlxwxcb.cn/news/detail-476161.html

到了這里,關(guān)于【論文閱讀】Uformer:A General U-Shaped Transformer for Image Restoration的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀:FCB-SwinV2 Transformer for Polyp Segmentation

    論文閱讀:FCB-SwinV2 Transformer for Polyp Segmentation

    這是對FCBFormer的改進(jìn),我的關(guān)于FCBFormer的論文閱讀筆記:論文閱讀FCN-Transformer Feature Fusion for PolypSegmentation-CSDN博客 依然是一個(gè)雙分支結(jié)構(gòu),總體結(jié)構(gòu)如下: 其中一個(gè)是全卷積分支,一個(gè)是Transformer分支。 和FCBFormer不同的是,對兩個(gè)分支都做了一些修改。 本文沒有畫FCB分支的

    2024年04月24日
    瀏覽(21)
  • 【論文閱讀】Augmented Transformer network for MRI brain tumor segmentation

    【論文閱讀】Augmented Transformer network for MRI brain tumor segmentation

    Zhang M, Liu D, Sun Q, et al. Augmented transformer network for MRI brain tumor segmentation[J]. Journal of King Saud University-Computer and Information Sciences, 2024: 101917. [開源] IF 6.9 SCIE JCI 1.58 Q1 計(jì)算機(jī)科學(xué)2區(qū) 【核心思想】 本文提出了一種新型的MRI腦腫瘤分割方法,稱為增強(qiáng)型transformer 網(wǎng)絡(luò)(AugTransU-Net),

    2024年01月23日
    瀏覽(20)
  • 論文閱讀:CenterFormer: Center-based Transformer for 3D Object Detection

    論文閱讀:CenterFormer: Center-based Transformer for 3D Object Detection

    目錄 概要 Motivation 整體架構(gòu)流程 技術(shù)細(xì)節(jié) Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小結(jié) 論文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代碼地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    瀏覽(22)
  • 【論文閱讀】TransCAM: Transformer Attention-based CAM Refinement for WSSS

    【論文閱讀】TransCAM: Transformer Attention-based CAM Refinement for WSSS

    分享一篇閱讀的用于弱監(jiān)督分割的論文 TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic Segmentation https://github.com/liruiwen/TransCAM 大多數(shù)現(xiàn)有的WSSS方法都是基于類激活映射(CAM)來生成像素級(jí)的偽標(biāo)簽,用于監(jiān)督訓(xùn)練。但是基于CNN的WSSS方法只是凸出最具有區(qū)別性

    2024年02月16日
    瀏覽(34)
  • 論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù) low-level task 如deblurringdenoisingdehazing等任務(wù)多是基于CNN做的,這樣的局限性有二: 第一是卷積操作的感受野受限,很難建立起全局依賴, 第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過像素之間的關(guān)系自適

    2024年02月05日
    瀏覽(33)
  • 論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    論文閱讀——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文鏈接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting? [pdf] ? [code] 本文創(chuàng)新點(diǎn): 開發(fā)了一種新穎的修復(fù)框架 MAT,是第一個(gè)能夠直接處理高分辨率圖像的基于 transformer 的修復(fù)系統(tǒng)。 提出了一種新的多頭自注意力 (MSA) 變體,稱為多頭上下文注意力 (MCA),只使用

    2024年02月08日
    瀏覽(23)
  • Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    Cross-Drone Transformer Network for Robust Single Object Tracking論文閱讀筆記

    無人機(jī)在各種應(yīng)用中得到了廣泛使用,例如航拍和軍事安全,這得益于它們與固定攝像機(jī)相比的高機(jī)動(dòng)性和廣闊視野。多 無人機(jī)追蹤系統(tǒng)可以通過從不同視角收集互補(bǔ)的視頻片段 ,為目標(biāo)提供豐富的信息,特別是當(dāng)目標(biāo)在某些視角中被遮擋或消失時(shí)。然而,在多無人機(jī)視覺

    2024年01月25日
    瀏覽(23)
  • 論文閱讀:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    論文閱讀:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 學(xué)習(xí)目的是在無人工標(biāo)注的情況下通過自定制的任務(wù)(hand-crafted pretext tasks)學(xué)習(xí)豐富的表示。 使用 自監(jiān)督學(xué)習(xí) 為卷積網(wǎng)絡(luò)(CNN)學(xué)習(xí)表示已經(jīng)被驗(yàn)證對視覺任務(wù)有效。作為CNN的一種替代方案, 視覺變換器 (ViT)具有強(qiáng)大的表示能力,具有 空間自注意力和通道

    2024年02月09日
    瀏覽(27)
  • 【論文閱讀】Informer Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

    【論文閱讀】Informer Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

    原始題目:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 中文翻譯:Informer:超越有效變換器進(jìn)行長序列時(shí)間序列預(yù)測 發(fā)表時(shí)間:2021-05-18 平臺(tái):Proceedings of the AAAI Conference on Artificial Intelligence 文章鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/17325 開源代碼:htt

    2024年03月12日
    瀏覽(21)
  • 【論文閱讀】Relation-Aware Graph Transformer for SQL-to-Text Generation

    【論文閱讀】Relation-Aware Graph Transformer for SQL-to-Text Generation

    SQL2Text 是一項(xiàng)將 SQL 查詢映射到相應(yīng)的自然語言問題的任務(wù)。之前的工作將 SQL 表示為稀疏圖,并利用 graph-to-sequence 模型來生成問題,其中每個(gè)節(jié)點(diǎn)只能與 k 跳節(jié)點(diǎn)通信。由于無法捕獲長期且缺乏特定于 SQL 的關(guān)系,這樣的模型在適應(yīng)更復(fù)雜的 SQL 查詢時(shí)將會(huì)退化。為了解決這

    2024年02月20日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包