国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言:CVPR2022oral 用transformer應(yīng)用到low-level任務(wù)

Restormer: Efficient Transformer for High-Resolution Image Restoration

引言

low-level task 如deblurring\denoising\dehazing等任務(wù)多是基于CNN做的,這樣的局限性有二:
第一是卷積操作的感受野受限,很難建立起全局依賴,
第二就是卷積操作的卷積核初始化是固定的,而attention的設(shè)計(jì)可以通過(guò)像素之間的關(guān)系自適應(yīng)的調(diào)整權(quán)重

現(xiàn)有的transformer用于low-level任務(wù)最大的瓶頸在于分辨率太大了,自注意力機(jī)制的復(fù)雜度隨著空間分辨率的增加二次增長(zhǎng),現(xiàn)有的一些解決方案有:
1.劃成很多個(gè)8 * 8的像素小窗口,在這個(gè)小窗口內(nèi)進(jìn)行應(yīng)用自注意力
2.化成不重疊的48 * 48的塊,塊與塊之間進(jìn)行自注意力機(jī)制

然而,這樣的設(shè)計(jì)和transformer建立全局依賴的初衷是矛盾的

因此,本文解決了用transformer處理這類問(wèn)題的計(jì)算復(fù)雜性,將其計(jì)算復(fù)雜度降低成和空間分辨率線性相關(guān)
改進(jìn)了SA self-attention部分和feed-forward部分,并提出了一種漸進(jìn)式patch訓(xùn)練方式來(lái)處理基于transformer的圖像復(fù)原問(wèn)題

相關(guān)工作

(這里不得不感嘆看到這位作者介紹相關(guān)工作,都有一種被俯視的感覺(jué),之前的一篇論文直接點(diǎn)某某,某某,are good examples, 這次直接建議閱讀 NTIRE 挑戰(zhàn)報(bào)告了)

方法

文章pipeline,類似Unet結(jié)構(gòu)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
SA設(shè)計(jì)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
這里最大的改動(dòng)就是把HW * HW的attention變成了通道 * 通道的attention,計(jì)算量是降下來(lái)了,但是不過(guò)是把全局特征通道重組,沒(méi)有辦法建立空間像素關(guān)系的依賴,建立像素依賴的部分實(shí)際上還是3 * 3的按通道分組卷積Dconv(綠色方框)部分,(看到這樣的設(shè)計(jì)都能有效果也是驚了)
其中,消融實(shí)驗(yàn),可以看到 (a)(b)差別不大,但是MTA加上一個(gè)3 * 3的Dconv的提升很大,論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)SA代碼

class Attention(nn.Module):
    def __init__(self, dim, num_heads, bias):
        super(Attention, self).__init__()
        self.num_heads = num_heads
        self.temperature = nn.Parameter(torch.ones(num_heads, 1, 1))

        self.qkv = nn.Conv2d(dim, dim*3, kernel_size=1, bias=bias)
        self.qkv_dwconv = nn.Conv2d(dim*3, dim*3, kernel_size=3, stride=1, padding=1, groups=dim*3, bias=bias)
        self.project_out = nn.Conv2d(dim, dim, kernel_size=1, bias=bias)
        


    def forward(self, x):
        b,c,h,w = x.shape

        qkv = self.qkv_dwconv(self.qkv(x))
        q,k,v = qkv.chunk(3, dim=1)   
        
        q = rearrange(q, 'b (head c) h w -> b head c (h w)', head=self.num_heads)
        k = rearrange(k, 'b (head c) h w -> b head c (h w)', head=self.num_heads)
        v = rearrange(v, 'b (head c) h w -> b head c (h w)', head=self.num_heads)

        q = torch.nn.functional.normalize(q, dim=-1)
        k = torch.nn.functional.normalize(k, dim=-1)

        attn = (q @ k.transpose(-2, -1)) * self.temperature
        attn = attn.softmax(dim=-1)

        out = (attn @ v)
        
        out = rearrange(out, 'b head c (h w) -> b (head c) h w', head=self.num_heads, h=h, w=w)

        out = self.project_out(out)
        return out

FN設(shè)計(jì)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
和傳統(tǒng)的Feed-forward部分不同,這里分了兩支進(jìn)行MLP,并且HW依舊保持排列好的狀態(tài)所以還是可以用3 * 3 分組卷積,下面的分支過(guò)了一個(gè)GeLU激活函數(shù)與上面的分支相乘

消融實(shí)驗(yàn)
可以看到 (b)(d)比較,單加上一個(gè)gated分支反倒效果不好,但(b)(e)直接上3 * 3的按通道分組卷積效果提升很明顯,起作用的還是3 * 3的卷積核來(lái)學(xué)習(xí)空間信息
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)

FN的設(shè)計(jì)代碼

class FeedForward(nn.Module):
    def __init__(self, dim, ffn_expansion_factor, bias):
        super(FeedForward, self).__init__()

        hidden_features = int(dim*ffn_expansion_factor)

        self.project_in = nn.Conv2d(dim, hidden_features*2, kernel_size=1, bias=bias)

        self.dwconv = nn.Conv2d(hidden_features*2, hidden_features*2, kernel_size=3, stride=1, padding=1, groups=hidden_features*2, bias=bias)

        self.project_out = nn.Conv2d(hidden_features, dim, kernel_size=1, bias=bias)

    def forward(self, x):
        x = self.project_in(x)
        x1, x2 = self.dwconv(x).chunk(2, dim=1)
        x = F.gelu(x1) * x2
        x = self.project_out(x)
        return x

實(shí)驗(yàn)

作者做了去雨、去糊、去噪等實(shí)驗(yàn),在各個(gè)數(shù)據(jù)集上效果都挺好的
去糊實(shí)驗(yàn)結(jié)果
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)

總結(jié)

雖然這是一篇transformer的文章,但是通道與通道之間的注意力和傳統(tǒng)的Transformer也沒(méi)什么聯(lián)系了,并且前文花了很多篇幅講transformer可以建立起 long-range pixel interactions,但是網(wǎng)絡(luò)設(shè)計(jì)卻仍然還是沒(méi)有利用到transformer的全局像素依賴的這個(gè)屬性
(個(gè)人疑惑的一個(gè)點(diǎn)是在于,既然簡(jiǎn)單的幾層堆疊 [4,6,6,8] 的3*3的空間像素層上的卷積依賴已經(jīng)能有這么好的效果,long-range pixel interactions對(duì)于low-level的任務(wù)真的有必要嗎…)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-745224.html

到了這里,關(guān)于論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】Dynamic Split Computing for Efficient Deep Edge Intelligence

    【論文閱讀】Dynamic Split Computing for Efficient Deep Edge Intelligence

    作者:Arian Bakhtiarnia, Nemanja Milo?evi?, Qi Zhang, Dragana Bajovi?, Alexandros Iosifidis 發(fā)表會(huì)議: ICML 2022 DyNN Workshop ICASSP 2023 發(fā)表單位: ?DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. ?Faculty of Sciences, University of Novi Sad, Serbia. ?Faculty of Technical Sciences, University of N

    2024年02月11日
    瀏覽(18)
  • 論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文閱讀:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀

    論文標(biāo)題: TinySAM: 極致高效的分割一切模型 論文地址:https://arxiv.org/pdf/2312.13789.pdf 代碼地址(pytorch):https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀:TinySAM:極致高效壓縮,手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄 文章內(nèi)容解析 ?概括 文章的觀點(diǎn) 技術(shù)創(chuàng)新解

    2024年01月17日
    瀏覽(24)
  • 【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    論文鏈接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 單位 :蘭州大學(xué)信息科學(xué)與工程學(xué)院,青海省物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,青海師范大學(xué) 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    瀏覽(27)
  • 【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開(kāi)源】 【核心思想】 本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整(Prompt Tuning)方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過(guò)插入可學(xué)習(xí)的

    2024年01月17日
    瀏覽(45)
  • 論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》

    論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR_2023_paper.pdf 源碼地址:https://github.com/ofsoundof/GRL-Image-Restoration ??圖像復(fù)原任務(wù)旨在從低分辨率的圖像(模糊,子采樣,噪聲污染,JPEG壓縮)中恢復(fù)高質(zhì)量的圖

    2024年02月03日
    瀏覽(25)
  • 論文閱讀——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    論文閱讀——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    SMLP4Rec:用于順序推薦的高效全 MLP 架構(gòu) 自注意力模型通過(guò)捕獲用戶-項(xiàng)目交互之間的順序依賴關(guān)系,在順序推薦系統(tǒng)中實(shí)現(xiàn)了最先進(jìn)的性能。然而,它們依賴于向項(xiàng)目序列添加位置嵌入來(lái)保留順序信息,由于這兩種類型的嵌入之間的異質(zhì)性,這可能會(huì)破壞項(xiàng)目嵌入的語(yǔ)義。此

    2024年04月26日
    瀏覽(24)
  • 論文閱讀 | Cross-Attention Transformer for Video Interpolation

    論文閱讀 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插幀的文章,q,kv,來(lái)自不同的圖像 代碼:【here】 傳統(tǒng)的插幀方法多用光流,但是光流的局限性在于 第一:它中間會(huì)算至少兩個(gè) cost volumes,它是四維的,計(jì)算量非常大 第二:光流不太好處理遮擋(光流空洞)以及運(yùn)動(dòng)的邊緣(光流不連續(xù))

    2024年02月09日
    瀏覽(28)
  • 論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文閱讀:Multimodal Graph Transformer for Multimodal Question Answering

    論文名 :Multimodal Graph Transformer for Multimodal Question Answering 論文鏈接 盡管 Transformer模型 在視覺(jué)和語(yǔ)言任務(wù)中取得了成功,但它們經(jīng)常隱式地從大量數(shù)據(jù)中學(xué)習(xí)知識(shí),而不能直接利用結(jié)構(gòu)化的輸入數(shù)據(jù)。另一方面, 結(jié)構(gòu)化學(xué)習(xí)方法 ,如集成先驗(yàn)信息的圖神經(jīng)網(wǎng)絡(luò)(gnn),幾乎無(wú)法

    2024年02月04日
    瀏覽(21)
  • 【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu),整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性 整篇文章還有點(diǎn)疑惑,比如階段B的訓(xùn)練,使用的模型;節(jié)省

    2024年02月21日
    瀏覽(24)
  • 論文閱讀:FCB-SwinV2 Transformer for Polyp Segmentation

    論文閱讀:FCB-SwinV2 Transformer for Polyp Segmentation

    這是對(duì)FCBFormer的改進(jìn),我的關(guān)于FCBFormer的論文閱讀筆記:論文閱讀FCN-Transformer Feature Fusion for PolypSegmentation-CSDN博客 依然是一個(gè)雙分支結(jié)構(gòu),總體結(jié)構(gòu)如下: 其中一個(gè)是全卷積分支,一個(gè)是Transformer分支。 和FCBFormer不同的是,對(duì)兩個(gè)分支都做了一些修改。 本文沒(méi)有畫(huà)FCB分支的

    2024年04月24日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包