論文地址:https://arxiv.org/pdf/2305.02126.pdf
論文小結(jié)
??本文提出的實時性、輕量級的圖像超分網(wǎng)絡(luò),名為Bicubic++。
??Bicubic++的網(wǎng)絡(luò)結(jié)構(gòu),首先學(xué)習(xí)了圖像的快速可逆降級和低分辨率特征,以減少計算量。
??然后作者還設(shè)計了一個訓(xùn)練管道,可以在不使用幅度或梯度(magnitude or gradient)等指標(biāo)的情況下實現(xiàn)端對端的全局結(jié)構(gòu)裁剪,讓優(yōu)化后的網(wǎng)絡(luò)可以專注于優(yōu)化在驗證集上的PSNR指標(biāo)。
??此外,作者發(fā)現(xiàn),偏置項占用了相當(dāng)多的時間,會略微增加PSNR,因此作者在卷積的過程中移除偏置選項。
??在性能上,對比雙三次差值算法,本文的方法在所有的SR測試數(shù)據(jù)集提升PSNR ~ 1 d B \sim1dB ~1dB。在720p輸入和4K輸出的 3 3 3倍超分目標(biāo),在RTX3090上耗時約1.17ms,在RTX3070上耗時約2.9ms,運行精度為FP16。目標(biāo)是成為工業(yè)界現(xiàn)在使用的Bicubic++的替代方案。
??Bicubic++是NTIRE 2023 RTSR Track2賽道,即 3 3 3倍超分比賽的第一名,是所有競爭方法中最快的。

??總的來說,沒啥新想法,主打的應(yīng)用嘗試。和bicubic比效果,和其他深度學(xué)習(xí)方法比時間。
論文簡介
??網(wǎng)絡(luò)的整體架構(gòu),是先進行 × 2 \times2 ×2的下采樣,縮小圖像特征,以顯著減少計算量,然后在最后使用 × 6 \times6 ×6上采樣。網(wǎng)絡(luò)架構(gòu)如上圖所示。
??在訓(xùn)練階段,提出三階段訓(xùn)練管道來訓(xùn)練網(wǎng)絡(luò)。首先訓(xùn)練一個卷積層通道大于“硬件最佳點”(hardware’s sweet spot)的網(wǎng)絡(luò)。然后在不影響權(quán)重或梯度規(guī)范的情況下,使用全局結(jié)構(gòu)化層裁剪(global structured layer pruning)。裁剪期間的重點在于維持PSNR的優(yōu)化,卷積層bias的移除,和finetune操作,以進一步降低其運行速度,同時不會造成視覺效果的犧牲。
??整篇論文的優(yōu)化方向,也就是競賽中的計算分?jǐn)?shù)(下列公式(1)),其中 P P P和 P b i c P_{bic} Pbic?是網(wǎng)絡(luò)和Bicubic上采樣在測試集上的PSNR值, t t t是 720 P 720P 720P到 4 K 4K 4K的運行時間: S ( P , t ) = { 0 i f ? P ≤ P b i c 2 P ? P b i c × 2 0.1 × t e l s e (1) S(P,t)=\begin{cases} 0 \quad &if \ P\leq P_{bic} \\ \frac{2^{P-P_{bic}}\times2}{0.1\times\sqrt{t}} \quad & else \end{cases}\tag{1} S(P,t)={00.1×t?2P?Pbic?×2??if?P≤Pbic?else?(1)
方法介紹
??作者對比了幾種下采樣方法(如下圖所示),最后選擇了帶下采樣的卷積,而不是S2D。

??在通道數(shù)量的設(shè)計上,作者發(fā)現(xiàn)連續(xù)卷積層中某層的通道數(shù)降低,并不總是反饋到運行時間的降低。所以,作者決定在通道數(shù)上一直保持一致,除非在維持必要的輸出通道數(shù)時。
??在一些超分方法上,通過Squeeze和expand模塊來更好地提取特征。但作者認(rèn)為,這種模塊對于運行時間的增加大大超過了其對于模型帶來的增益。
??為了得到最佳通道數(shù),作者做了個實驗,觀察到運行時間與通道數(shù)并不是一直都是正相關(guān)的,存在一些“最佳點”,如下圖所示。在作者的設(shè)計下,在實時性的約束下,RFDN論文中使用的
56
56
56個通道,和ABPN使用的
28
28
28個通道并不是最佳點。所以,如下圖所示,本文最終模型使用的通道數(shù)為
32
32
32。
??然而,作者一開始訓(xùn)練采用的通道數(shù)是
34
34
34,是一個非最優(yōu)通道,然后對模型進行全局裁剪,獲得最后的
32
32
32個通道。

??作者對bias移除也進行了實驗,證明相對于運行時間的降低,PSNR的降低是較小的。所以,在最后的網(wǎng)絡(luò)中,也將偏置選項移除了。

訓(xùn)練細(xì)節(jié)
??本文總共訓(xùn)練三個管道:(1)大channel的模型;(2)channel裁剪的模型;(3)移除bias的模型。第二第三個模型,都進行finetune訓(xùn)練。三個訓(xùn)練管道均使用 Adam 優(yōu)化器,
β
1
=
0.99
\beta_1=0.99
β1?=0.99,
β
2
=
0.999
\beta_2=0.999
β2?=0.999。每個管道都訓(xùn)練
1000
1000
1000個epoch,每個epoch由
800
800
800 組隨機裁剪和翻轉(zhuǎn)的對組成。每組LR的 patchSize 為
108
108
108,由DIV2K訓(xùn)練數(shù)據(jù)集經(jīng)過
J
P
E
G
Q
=
90
JPEG Q=90
JPEGQ=90 衰退而來。
??初始學(xué)習(xí)率為
5
e
?
4
5e^{-4}
5e?4,在所有階段使用學(xué)習(xí)率衰減調(diào)度程序:其中在前
500
500
500個epoch中,學(xué)習(xí)率lr保持不變,在后500個epoch中,lr線性衰減,直到
1
e
?
8
1e^{-8}
1e?8。
階段一
??訓(xùn)練網(wǎng)絡(luò)如下圖所示。其中, c h = 34 , m = 2 , R = 1 ch=34,m=2,R=1 ch=34,m=2,R=1,DS是上面所提及的 s t r i d e = 2 stride=2 stride=2的卷積層,此時每層都有卷積偏置項bias。參數(shù)在后續(xù)有所解釋。

階段二
??模型裁剪階段,全局結(jié)構(gòu)化裁剪。裁剪channel。此時還在應(yīng)用conv bias。此時將ch從 34 34 34降到 32 32 32。
階段三
??消除卷積層的偏置項。再次finetune網(wǎng)絡(luò)。
論文實驗
??量化分析網(wǎng)絡(luò)的各個組成結(jié)構(gòu),消融實驗如下表所示。

消融學(xué)習(xí)
??消融實驗部分由五個方面組成:
??(1)下采樣(Downscaling, DS),偏置(bias, b),激活層函數(shù)選擇。
??從實驗Q到T,可以看出,即便在通道數(shù)較少的情況下,帶有stride的卷積(SC),比離散小波變換(discrete wavelet transform,DWT)和space-to-space(S2D)要好(score是有一個比賽的公式得到的)。
??對比Q和Z,盡管Q的通道數(shù)更少,但Q和Z幾乎獲得相同的分?jǐn)?shù)(score以psnr和runtime為平衡)。
??對比T和A,可以看出LReLU比ReLU能帶來較大收益,而基本沒有運行時間的損失。
??對比A和E,可以看出,移除偏置項bias,可以得到更高的分?jǐn)?shù)。
??(2)殘差模塊數(shù)量(R)和卷積層數(shù)量(m)。
??1到4和E的實驗結(jié)果表明,設(shè)置為
m
=
2
m=2
m=2和
R
=
1
R=1
R=1在嘗試的模型架構(gòu)中得到最佳分?jǐn)?shù)。因此,最終的模型參數(shù)為
c
h
=
32
ch=32
ch=32,DS為SC,激活層為Leaky ReLU,并且在某個時刻禁用偏置項。
??但可以看出, m 和 R 的提升也帶來了PSNR的提升。
?? (3)確定裁剪前模型的通道數(shù)量 。
??為了確定裁剪到 channel為32模型的大模型通道數(shù)。從P/B/R的實驗看,通道數(shù)為
34
34
34的大模型好一點,有最高的裁剪分?jǐn)?shù)。
?? (4)finetune和偏置項移除 。
??從上面的模型
B
B
B剪枝得到了
B
?
B^*
B?后,再次對剪枝模型進行微調(diào),得到模型
C
C
C。
??對比C和F,可以看出剪枝的積極效果。剪枝后的訓(xùn)練,比直接訓(xùn)練,指標(biāo)要略微提升一點。
??最后,作者從模型
C
C
C中移除偏置項,再次進行微調(diào),就獲得了本文提出的模型 Bicubic++ 。模型
I
I
I 和模型
F
F
F無法得到最優(yōu)指標(biāo),這都表明了通過剪枝這種訓(xùn)練管道的優(yōu)勢。
??幾種訓(xùn)練管道實驗步驟( A → G , E → H , A → F → I , A → E → H → J A\rightarrow G, E\rightarrow H, A\rightarrow F\rightarrow I, A\rightarrow E\rightarrow H\rightarrow J A→G,E→H,A→F→I,A→E→H→J)的視覺效果對比如下圖所示。

??(5)不同的R(殘差塊)和m(卷積層數(shù))參數(shù)的加載。
??提高R和m抗原帶來更高的PSNR以及更慢的運行時間,本文的目標(biāo)是在RTX3070保持在3ms以下,所以就堅持上面的選擇。文章來源:http://www.zghlxwxcb.cn/news/detail-854256.html
對比結(jié)果
??定量和定性的比較結(jié)果如下圖所示。本文提出的Bicubic++比Bicubic好,比其他相關(guān)方法運行速度快。文章來源地址http://www.zghlxwxcb.cn/news/detail-854256.html




到了這里,關(guān)于【論文閱讀筆記】Bicubic++: Slim, Slimmer, Slimmest Designing an Industry-Grade Super-Resolution Network的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!