国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀筆記】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network

這篇具有很好參考價值的文章主要介紹了【論文閱讀筆記】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文地址:https://arxiv.org/pdf/2305.02126.pdf

論文小結(jié)

??本文提出的實時性、輕量級的圖像超分網(wǎng)絡(luò),名為Bicubic++。

??Bicubic++的網(wǎng)絡(luò)結(jié)構(gòu),首先學(xué)習(xí)了圖像的快速可逆降級和低分辨率特征,以減少計算量。
??然后作者還設(shè)計了一個訓(xùn)練管道,可以在不使用幅度或梯度(magnitude or gradient)等指標(biāo)的情況下實現(xiàn)端對端的全局結(jié)構(gòu)裁剪,讓優(yōu)化后的網(wǎng)絡(luò)可以專注于優(yōu)化在驗證集上的PSNR指標(biāo)。

??此外,作者發(fā)現(xiàn),偏置項占用了相當(dāng)多的時間,會略微增加PSNR,因此作者在卷積的過程中移除偏置選項。

??在性能上,對比雙三次差值算法,本文的方法在所有的SR測試數(shù)據(jù)集提升PSNR ~ 1 d B \sim1dB 1dB。在720p輸入和4K輸出的 3 3 3倍超分目標(biāo),在RTX3090上耗時約1.17ms,在RTX3070上耗時約2.9ms,運行精度為FP16。目標(biāo)是成為工業(yè)界現(xiàn)在使用的Bicubic++的替代方案。

??Bicubic++是NTIRE 2023 RTSR Track2賽道,即 3 3 3倍超分比賽的第一名,是所有競爭方法中最快的。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

??總的來說,沒啥新想法,主打的應(yīng)用嘗試。和bicubic比效果,和其他深度學(xué)習(xí)方法比時間。

論文簡介

??網(wǎng)絡(luò)的整體架構(gòu),是先進行 × 2 \times2 ×2的下采樣,縮小圖像特征,以顯著減少計算量,然后在最后使用 × 6 \times6 ×6上采樣。網(wǎng)絡(luò)架構(gòu)如上圖所示。

??在訓(xùn)練階段,提出三階段訓(xùn)練管道來訓(xùn)練網(wǎng)絡(luò)。首先訓(xùn)練一個卷積層通道大于“硬件最佳點”(hardware’s sweet spot)的網(wǎng)絡(luò)。然后在不影響權(quán)重或梯度規(guī)范的情況下,使用全局結(jié)構(gòu)化層裁剪(global structured layer pruning)。裁剪期間的重點在于維持PSNR的優(yōu)化,卷積層bias的移除,和finetune操作,以進一步降低其運行速度,同時不會造成視覺效果的犧牲。

??整篇論文的優(yōu)化方向,也就是競賽中的計算分?jǐn)?shù)(下列公式(1)),其中 P P P P b i c P_{bic} Pbic?是網(wǎng)絡(luò)和Bicubic上采樣在測試集上的PSNR值, t t t 720 P 720P 720P 4 K 4K 4K的運行時間: S ( P , t ) = { 0 i f ? P ≤ P b i c 2 P ? P b i c × 2 0.1 × t e l s e (1) S(P,t)=\begin{cases} 0 \quad &if \ P\leq P_{bic} \\ \frac{2^{P-P_{bic}}\times2}{0.1\times\sqrt{t}} \quad & else \end{cases}\tag{1} S(P,t)={00.1×t ?2P?Pbic?×2??if?PPbic?else?(1)

方法介紹

??作者對比了幾種下采樣方法(如下圖所示),最后選擇了帶下采樣的卷積,而不是S2D。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

??在通道數(shù)量的設(shè)計上,作者發(fā)現(xiàn)連續(xù)卷積層中某層的通道數(shù)降低,并不總是反饋到運行時間的降低。所以,作者決定在通道數(shù)上一直保持一致,除非在維持必要的輸出通道數(shù)時。
??在一些超分方法上,通過Squeeze和expand模塊來更好地提取特征。但作者認(rèn)為,這種模塊對于運行時間的增加大大超過了其對于模型帶來的增益。
??為了得到最佳通道數(shù),作者做了個實驗,觀察到運行時間與通道數(shù)并不是一直都是正相關(guān)的,存在一些“最佳點”,如下圖所示。在作者的設(shè)計下,在實時性的約束下,RFDN論文中使用的 56 56 56個通道,和ABPN使用的 28 28 28個通道并不是最佳點。所以,如下圖所示,本文最終模型使用的通道數(shù)為 32 32 32
??然而,作者一開始訓(xùn)練采用的通道數(shù)是 34 34 34,是一個非最優(yōu)通道,然后對模型進行全局裁剪,獲得最后的 32 32 32個通道。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

??作者對bias移除也進行了實驗,證明相對于運行時間的降低,PSNR的降低是較小的。所以,在最后的網(wǎng)絡(luò)中,也將偏置選項移除了。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

訓(xùn)練細(xì)節(jié)

??本文總共訓(xùn)練三個管道:(1)大channel的模型;(2)channel裁剪的模型;(3)移除bias的模型。第二第三個模型,都進行finetune訓(xùn)練。三個訓(xùn)練管道均使用 Adam 優(yōu)化器, β 1 = 0.99 \beta_1=0.99 β1?=0.99, β 2 = 0.999 \beta_2=0.999 β2?=0.999。每個管道都訓(xùn)練 1000 1000 1000個epoch,每個epoch由 800 800 800 組隨機裁剪和翻轉(zhuǎn)的對組成。每組LR的 patchSize 108 108 108,由DIV2K訓(xùn)練數(shù)據(jù)集經(jīng)過 J P E G Q = 90 JPEG Q=90 JPEGQ=90 衰退而來。
??初始學(xué)習(xí)率為 5 e ? 4 5e^{-4} 5e?4,在所有階段使用學(xué)習(xí)率衰減調(diào)度程序:其中在前 500 500 500個epoch中,學(xué)習(xí)率lr保持不變,在后500個epoch中,lr線性衰減,直到 1 e ? 8 1e^{-8} 1e?8。

階段一

??訓(xùn)練網(wǎng)絡(luò)如下圖所示。其中, c h = 34 , m = 2 , R = 1 ch=34,m=2,R=1 ch=34,m=2,R=1,DS是上面所提及的 s t r i d e = 2 stride=2 stride=2的卷積層,此時每層都有卷積偏置項bias。參數(shù)在后續(xù)有所解釋。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

階段二

??模型裁剪階段,全局結(jié)構(gòu)化裁剪。裁剪channel。此時還在應(yīng)用conv bias。此時將ch從 34 34 34降到 32 32 32。

階段三

??消除卷積層的偏置項。再次finetune網(wǎng)絡(luò)。

論文實驗

??量化分析網(wǎng)絡(luò)的各個組成結(jié)構(gòu),消融實驗如下表所示。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

消融學(xué)習(xí)

??消融實驗部分由五個方面組成:
??(1)下采樣(Downscaling, DS),偏置(bias, b),激活層函數(shù)選擇。
??從實驗Q到T,可以看出,即便在通道數(shù)較少的情況下,帶有stride的卷積(SC),比離散小波變換(discrete wavelet transform,DWT)和space-to-space(S2D)要好(score是有一個比賽的公式得到的)。
??對比Q和Z,盡管Q的通道數(shù)更少,但Q和Z幾乎獲得相同的分?jǐn)?shù)(score以psnr和runtime為平衡)。
??對比T和A,可以看出LReLU比ReLU能帶來較大收益,而基本沒有運行時間的損失。
??對比A和E,可以看出,移除偏置項bias,可以得到更高的分?jǐn)?shù)。

??(2)殘差模塊數(shù)量(R)和卷積層數(shù)量(m)。
??1到4和E的實驗結(jié)果表明,設(shè)置為 m = 2 m=2 m=2 R = 1 R=1 R=1在嘗試的模型架構(gòu)中得到最佳分?jǐn)?shù)。因此,最終的模型參數(shù)為 c h = 32 ch=32 ch=32,DS為SC,激活層為Leaky ReLU,并且在某個時刻禁用偏置項。
??但可以看出, m 和 R 的提升也帶來了PSNR的提升。

?? (3)確定裁剪前模型的通道數(shù)量 。
??為了確定裁剪到 channel為32模型的大模型通道數(shù)。從P/B/R的實驗看,通道數(shù)為 34 34 34的大模型好一點,有最高的裁剪分?jǐn)?shù)。

?? (4)finetune和偏置項移除
??從上面的模型 B B B剪枝得到了 B ? B^* B?后,再次對剪枝模型進行微調(diào),得到模型 C C C
??對比C和F,可以看出剪枝的積極效果。剪枝后的訓(xùn)練,比直接訓(xùn)練,指標(biāo)要略微提升一點。
??最后,作者從模型 C C C中移除偏置項,再次進行微調(diào),就獲得了本文提出的模型 Bicubic++ 。模型 I I I 和模型 F F F無法得到最優(yōu)指標(biāo),這都表明了通過剪枝這種訓(xùn)練管道的優(yōu)勢。

??幾種訓(xùn)練管道實驗步驟( A → G , E → H , A → F → I , A → E → H → J A\rightarrow G, E\rightarrow H, A\rightarrow F\rightarrow I, A\rightarrow E\rightarrow H\rightarrow J AG,EH,AFI,AEHJ)的視覺效果對比如下圖所示。

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

??(5)不同的R(殘差塊)和m(卷積層數(shù))參數(shù)的加載
??提高R和m抗原帶來更高的PSNR以及更慢的運行時間,本文的目標(biāo)是在RTX3070保持在3ms以下,所以就堅持上面的選擇。

對比結(jié)果

??定量和定性的比較結(jié)果如下圖所示。本文提出的Bicubic++比Bicubic好,比其他相關(guān)方法運行速度快。文章來源地址http://www.zghlxwxcb.cn/news/detail-854256.html

bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記bicubic++: slim, slimmer, slimmest - designing an industry-grade super-resol,論文閱讀,筆記

到了這里,關(guān)于【論文閱讀筆記】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 論文閱讀:Vary-toy論文閱讀筆記

    論文閱讀:Vary-toy論文閱讀筆記

    論文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 說來也巧,之前在寫論文閱讀:Vary論文閱讀筆記文章時,正好看到了Vary-toy剛剛發(fā)布。 這次,咱也是站在了時代的前沿,這不趕緊先睹為快。讓我看看相比于Vary,Vary-toy做了哪些改進? 從整體結(jié)構(gòu)來看,仍

    2024年01月25日
    瀏覽(24)
  • [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    擴散模型近期在圖像生成領(lǐng)域很火, 沒想到很快就被用在了檢測上. 打算對這篇論文做一個筆記. 論文地址: 論文 代碼: 代碼 首先介紹什么是擴散模型. 我們考慮生成任務(wù), 即encoder-decoder形式的模型, encoder提取輸入的抽象信息, 并嘗試在decoder中恢復(fù)出來. 擴散模型就是這一類中的

    2023年04月08日
    瀏覽(26)
  • 論文閱讀:Segment Anything之閱讀筆記

    論文閱讀:Segment Anything之閱讀筆記

    引言 論文:Segment Anything是Meta出的圖像語義分割的算法。這個算法因其強大的zero-shot泛化能力讓人驚艷,這不抽空拿來學(xué)習(xí)了一下。 該算法的代碼寫得很清楚、簡潔和規(guī)范,讀來讓人賞心悅目。推薦去看源碼,很有意思。 本篇文章,將以問答形式來解讀閱讀過程中遇到的困

    2024年02月13日
    瀏覽(28)
  • 3D卷積網(wǎng)絡(luò)論文閱讀筆記

    3D卷積網(wǎng)絡(luò)論文閱讀筆記

    數(shù)據(jù)集 BraTS 2020 數(shù)據(jù)增強方法 ? Flipping翻轉(zhuǎn): 以1/3的概率隨機沿著三個軸之一翻轉(zhuǎn) ? Rotation旋轉(zhuǎn): 從限定范圍(0到 15?或到30?或到60?或到90?)的均勻分布中隨機選擇角度旋轉(zhuǎn) ? Scale縮放: 通過從范圍為±10%或為±20%的均勻分布中隨機選擇的因子,對每個軸進行縮放 ? Br

    2023年04月10日
    瀏覽(26)
  • LIME論文閱讀筆記

    LIME論文閱讀筆記

    這是暗圖增強領(lǐng)域一篇經(jīng)典的傳統(tǒng)方法論文,發(fā)表在TIP這個頂刊 文章基于的是這樣一個公式: L = R ? T L=Rcdot T L = R ? T 其中, L L L 是暗圖, R R R 是反射分量, T T T 是illumination map,并且對于彩色圖像來說,三通道都共享相同的illumination map。我們可以使用各種方法估計 T

    2024年02月09日
    瀏覽(27)
  • 論文閱讀筆記(一)

    論文閱讀筆記(一)

    發(fā)表年份: 2016 主要貢獻: 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 數(shù)據(jù)集 提出了多模態(tài)情緒分析未來研究的基線 提出了一種新的多模態(tài)融合方式 在這些在線意見視頻中研究情緒主要面臨的挑戰(zhàn)和解決方法: 挑戰(zhàn) 解決方法 這些視頻的不穩(wěn)定性和快節(jié)奏性。演講者經(jīng)

    2023年04月09日
    瀏覽(23)
  • Retinexformer 論文閱讀筆記

    Retinexformer 論文閱讀筆記

    清華大學(xué)、維爾茲堡大學(xué)和蘇黎世聯(lián)邦理工學(xué)院在ICCV2023的一篇transformer做暗圖增強的工作,開源。 文章認(rèn)為,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假設(shè)干凈的R和L,但實際上由于噪聲,并不干凈,所以分別為L和R添加干擾項,把公式改成如下: 本文采用先預(yù)測 L  ̄ overline L

    2024年01月21日
    瀏覽(24)
  • GPT-3 論文閱讀筆記

    GPT-3 論文閱讀筆記

    GPT-3模型出自論文《Language Models are Few-Shot Learners》是OpenAI在2020年5月發(fā)布的。 論文摘要翻譯 :最近的工作表明,通過對大量文本進行預(yù)訓(xùn)練,然后對特定任務(wù)進行微調(diào)(fine-tuning),在許多NLP任務(wù)和基準(zhǔn)測試上取得了實質(zhì)性的進展。雖然這種方法在架構(gòu)上通常與任務(wù)無關(guān),但它

    2024年02月12日
    瀏覽(29)
  • 論文閱讀筆記2:NetVLAD

    題目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 團隊: PSL Research University/Tokyo Institute of Technology 解決的問題: 我們解決了大規(guī)模視覺位置識別的問題,其任務(wù)是快速準(zhǔn)確地識別給定查詢照片的位置 創(chuàng)新點: 這篇文章主要有3個創(chuàng)新點: 1. 為場景識別任務(wù)構(gòu)造出

    2024年02月11日
    瀏覽(25)
  • 論文閱讀筆記整理(持續(xù)更新)

    FAST 2021 Paper?泛讀筆記 針對LSM樹同時優(yōu)化讀寫性能的問題,現(xiàn)有方法通過壓縮提升讀性能,但會導(dǎo)致讀放大或?qū)懛糯?。作者利用新存儲硬件的性能,隨機讀和順序讀性能相近,因此提出構(gòu)建邏輯排序視圖優(yōu)化范圍查詢,因為減少了真正的壓縮操作,同時減少了寫放大。 ATC 2

    2024年01月23日
    瀏覽(54)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包