国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration

2年前作者：btee分類：Toy博客閱讀(32)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言：CVPR2022oral 用transformer應(yīng)用到low-level任務(wù)

Restormer: Efficient Transformer for High-Resolution Image Restoration

引言

low-level task 如deblurring\denoising\dehazing等任務(wù)多是基于CNN做的，這樣的局限性有二：
第一是卷積操作的感受野受限，很難建立起全局依賴，
第二就是卷積操作的卷積核初始化是固定的，而attention的設(shè)計(jì)可以通過(guò)像素之間的關(guān)系自適應(yīng)的調(diào)整權(quán)重

現(xiàn)有的transformer用于low-level任務(wù)最大的瓶頸在于分辨率太大了，自注意力機(jī)制的復(fù)雜度隨著空間分辨率的增加二次增長(zhǎng)，現(xiàn)有的一些解決方案有：
1.劃成很多個(gè)8 * 8的像素小窗口，在這個(gè)小窗口內(nèi)進(jìn)行應(yīng)用自注意力
2.化成不重疊的48 * 48的塊，塊與塊之間進(jìn)行自注意力機(jī)制

然而，這樣的設(shè)計(jì)和transformer建立全局依賴的初衷是矛盾的

因此，本文解決了用transformer處理這類問(wèn)題的計(jì)算復(fù)雜性，將其計(jì)算復(fù)雜度降低成和空間分辨率線性相關(guān)
改進(jìn)了SA self-attention部分和feed-forward部分，并提出了一種漸進(jìn)式patch訓(xùn)練方式來(lái)處理基于transformer的圖像復(fù)原問(wèn)題

相關(guān)工作

（這里不得不感嘆看到這位作者介紹相關(guān)工作，都有一種被俯視的感覺(jué)，之前的一篇論文直接點(diǎn)某某，某某，are good examples, 這次直接建議閱讀 NTIRE 挑戰(zhàn)報(bào)告了）

方法

文章pipeline，類似Unet結(jié)構(gòu)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
SA設(shè)計(jì)

這里最大的改動(dòng)就是把HW * HW的attention變成了通道 * 通道的attention,計(jì)算量是降下來(lái)了，但是不過(guò)是把全局特征通道重組，沒(méi)有辦法建立空間像素關(guān)系的依賴，建立像素依賴的部分實(shí)際上還是3 * 3的按通道分組卷積Dconv(綠色方框)部分，（看到這樣的設(shè)計(jì)都能有效果也是驚了）
其中，消融實(shí)驗(yàn)，可以看到 (a)（b）差別不大，但是MTA加上一個(gè)3 * 3的Dconv的提升很大，論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí) SA代碼

class Attention(nn.Module):
    def __init__(self, dim, num_heads, bias):
        super(Attention, self).__init__()
        self.num_heads = num_heads
        self.temperature = nn.Parameter(torch.ones(num_heads, 1, 1))

        self.qkv = nn.Conv2d(dim, dim*3, kernel_size=1, bias=bias)
        self.qkv_dwconv = nn.Conv2d(dim*3, dim*3, kernel_size=3, stride=1, padding=1, groups=dim*3, bias=bias)
        self.project_out = nn.Conv2d(dim, dim, kernel_size=1, bias=bias)
        


    def forward(self, x):
        b,c,h,w = x.shape

        qkv = self.qkv_dwconv(self.qkv(x))
        q,k,v = qkv.chunk(3, dim=1)   
        
        q = rearrange(q, 'b (head c) h w -> b head c (h w)', head=self.num_heads)
        k = rearrange(k, 'b (head c) h w -> b head c (h w)', head=self.num_heads)
        v = rearrange(v, 'b (head c) h w -> b head c (h w)', head=self.num_heads)

        q = torch.nn.functional.normalize(q, dim=-1)
        k = torch.nn.functional.normalize(k, dim=-1)

        attn = (q @ k.transpose(-2, -1)) * self.temperature
        attn = attn.softmax(dim=-1)

        out = (attn @ v)
        
        out = rearrange(out, 'b head c (h w) -> b (head c) h w', head=self.num_heads, h=h, w=w)

        out = self.project_out(out)
        return out

FN設(shè)計(jì)
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)
和傳統(tǒng)的Feed-forward部分不同，這里分了兩支進(jìn)行MLP，并且HW依舊保持排列好的狀態(tài)所以還是可以用3 * 3 分組卷積，下面的分支過(guò)了一個(gè)GeLU激活函數(shù)與上面的分支相乘

消融實(shí)驗(yàn)
可以看到（b）(d)比較，單加上一個(gè)gated分支反倒效果不好，但（b）(e)直接上3 * 3的按通道分組卷積效果提升很明顯，起作用的還是3 * 3的卷積核來(lái)學(xué)習(xí)空間信息
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)

FN的設(shè)計(jì)代碼

class FeedForward(nn.Module):
    def __init__(self, dim, ffn_expansion_factor, bias):
        super(FeedForward, self).__init__()

        hidden_features = int(dim*ffn_expansion_factor)

        self.project_in = nn.Conv2d(dim, hidden_features*2, kernel_size=1, bias=bias)

        self.dwconv = nn.Conv2d(hidden_features*2, hidden_features*2, kernel_size=3, stride=1, padding=1, groups=hidden_features*2, bias=bias)

        self.project_out = nn.Conv2d(hidden_features, dim, kernel_size=1, bias=bias)

    def forward(self, x):
        x = self.project_in(x)
        x1, x2 = self.dwconv(x).chunk(2, dim=1)
        x = F.gelu(x1) * x2
        x = self.project_out(x)
        return x

實(shí)驗(yàn)

作者做了去雨、去糊、去噪等實(shí)驗(yàn)，在各個(gè)數(shù)據(jù)集上效果都挺好的
去糊實(shí)驗(yàn)結(jié)果
論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration,論文閱讀,論文閱讀,transformer,深度學(xué)習(xí)

總結(jié)

雖然這是一篇transformer的文章，但是通道與通道之間的注意力和傳統(tǒng)的Transformer也沒(méi)什么聯(lián)系了，并且前文花了很多篇幅講transformer可以建立起 long-range pixel interactions,但是網(wǎng)絡(luò)設(shè)計(jì)卻仍然還是沒(méi)有利用到transformer的全局像素依賴的這個(gè)屬性
（個(gè)人疑惑的一個(gè)點(diǎn)是在于，既然簡(jiǎn)單的幾層堆疊 [4,6,6,8] 的3*3的空間像素層上的卷積依賴已經(jīng)能有這么好的效果，long-range pixel interactions對(duì)于low-level的任務(wù)真的有必要嗎…）文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-745224.html

到了這里，關(guān)于論文閱讀 | Restormer: Efficient Transformer for High-Resolution Image Restoration的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【論文閱讀】Dynamic Split Computing for Efficient Deep Edge Intelligence
作者：Arian Bakhtiarnia, Nemanja Milo?evi?, Qi Zhang, Dragana Bajovi?, Alexandros Iosifidis 發(fā)表會(huì)議： ICML 2022 DyNN Workshop ICASSP 2023 發(fā)表單位： ?DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. ?Faculty of Sciences, University of Novi Sad, Serbia. ?Faculty of Technical Sciences, University of N
2024年02月11日
瀏覽(18)
論文閱讀：TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章內(nèi)容閱讀
論文標(biāo)題： TinySAM: 極致高效的分割一切模型論文地址：https://arxiv.org/pdf/2312.13789.pdf 代碼地址（pytorch）：https://github.com/xinghaochen/TinySAM 詳細(xì)論文解讀：TinySAM：極致高效壓縮，手機(jī)就能實(shí)時(shí)跑的分割一切模型 - 知乎 (zhihu.com)? 目錄文章內(nèi)容解析 ?概括文章的觀點(diǎn) 技術(shù)創(chuàng)新解
2024年01月17日
瀏覽(24)
【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks
論文鏈接：ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者：Wei Xu, Yi Wan 單位：蘭州大學(xué)信息科學(xué)與工程學(xué)院，青海省物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室，青海師范大學(xué) 引用：Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,
2024年04月15日
瀏覽(27)
【論文閱讀筆記】Prompt Tuning for Parameter-efficient Medical Image Segmentation
Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【開(kāi)源】【核心思想】本文的核心思想是提出了一種用于醫(yī)學(xué)圖像分割的參數(shù)高效的提示調(diào)整（Prompt Tuning）方法。這種方法基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，通過(guò)插入可學(xué)習(xí)的
2024年01月17日
瀏覽(45)
論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》
論文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR_2023_paper.pdf 源碼地址：https://github.com/ofsoundof/GRL-Image-Restoration ??圖像復(fù)原任務(wù)旨在從低分辨率的圖像（模糊，子采樣，噪聲污染，JPEG壓縮）中恢復(fù)高質(zhì)量的圖
2024年02月03日
瀏覽(25)
論文閱讀——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations
SMLP4Rec：用于順序推薦的高效全 MLP 架構(gòu) 自注意力模型通過(guò)捕獲用戶-項(xiàng)目交互之間的順序依賴關(guān)系，在順序推薦系統(tǒng)中實(shí)現(xiàn)了最先進(jìn)的性能。然而，它們依賴于向項(xiàng)目序列添加位置嵌入來(lái)保留順序信息，由于這兩種類型的嵌入之間的異質(zhì)性，這可能會(huì)破壞項(xiàng)目嵌入的語(yǔ)義。此
2024年04月26日
瀏覽(24)
論文閱讀 | Cross-Attention Transformer for Video Interpolation
前言：ACCV2022wrokshop用transformer做插幀的文章，q，kv，來(lái)自不同的圖像代碼：【here】傳統(tǒng)的插幀方法多用光流，但是光流的局限性在于第一：它中間會(huì)算至少兩個(gè) cost volumes，它是四維的，計(jì)算量非常大第二：光流不太好處理遮擋（光流空洞）以及運(yùn)動(dòng)的邊緣（光流不連續(xù)）
2024年02月09日
瀏覽(28)
論文閱讀：Multimodal Graph Transformer for Multimodal Question Answering
論文名：Multimodal Graph Transformer for Multimodal Question Answering 論文鏈接盡管 Transformer模型在視覺(jué)和語(yǔ)言任務(wù)中取得了成功，但它們經(jīng)常隱式地從大量數(shù)據(jù)中學(xué)習(xí)知識(shí)，而不能直接利用結(jié)構(gòu)化的輸入數(shù)據(jù)。另一方面，結(jié)構(gòu)化學(xué)習(xí)方法，如集成先驗(yàn)信息的圖神經(jīng)網(wǎng)絡(luò)(gnn)，幾乎無(wú)法
2024年02月04日
瀏覽(21)
【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS
這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu)，整體思路比較直白，在不損失圖像生成質(zhì)量的情況下，相比于現(xiàn)有T2I模型（SD1.4，SD2.1等）大大節(jié)約了成本。附錄部分給了一些有趣的東西，比如FID的魯棒性整篇文章還有點(diǎn)疑惑，比如階段B的訓(xùn)練，使用的模型；節(jié)省
2024年02月21日
瀏覽(24)
論文閱讀：FCB-SwinV2 Transformer for Polyp Segmentation
這是對(duì)FCBFormer的改進(jìn)，我的關(guān)于FCBFormer的論文閱讀筆記：論文閱讀FCN-Transformer Feature Fusion for PolypSegmentation-CSDN博客依然是一個(gè)雙分支結(jié)構(gòu)，總體結(jié)構(gòu)如下：其中一個(gè)是全卷積分支，一個(gè)是Transformer分支。和FCBFormer不同的是，對(duì)兩個(gè)分支都做了一些修改。本文沒(méi)有畫(huà)FCB分支的
2024年04月24日
瀏覽(21)