用于圖像恢復(fù)的圖像層次結(jié)構(gòu)的高效和顯式建模
摘要
本文的目的是提出一種機(jī)制,在全局、區(qū)域和局部范圍內(nèi)高效、明確地對(duì)圖像層次結(jié)構(gòu)進(jìn)行建模,以進(jìn)行圖像恢復(fù)。為實(shí)現(xiàn)這一目標(biāo),我們首先分析自然圖像的兩個(gè)重要屬性,包括跨尺度相似性和各向異性圖像特征。受此啟發(fā),我們提出了anchored stripe self-attention,它在self-attention的空間和時(shí)間復(fù)雜度與超出區(qū)域范圍的建模能力之間取得了很好的平衡。然后,我們提出了一種名為GRL 的新網(wǎng)絡(luò)架構(gòu),通過(guò)錨定條紋自注意力、窗口自注意力和通道注意力增強(qiáng)卷積顯式地對(duì)全局、區(qū)域和局部范圍內(nèi)的圖像層次結(jié)構(gòu)進(jìn)行建模。最后,將所提出的網(wǎng)絡(luò)應(yīng)用于 7 種圖像恢復(fù)類(lèi)型,涵蓋真實(shí)和合成設(shè)置。所提出的方法為其中的幾個(gè)設(shè)置了新的最先進(jìn)的技術(shù)。代碼位于 https://github.com/ofsoundof/GRL-Image-Restoration.git
圖1。自然圖像顯示了全局、區(qū)域和局部范圍內(nèi)的特征層次。局部特征(邊緣、顏色)和區(qū)域特征(粉色方塊)可以通過(guò)細(xì)胞神經(jīng)網(wǎng)絡(luò)和窗口自我注意很好地建模。相比之下,很難有效且明確地對(duì)豐富的全局特征(青色矩形)進(jìn)行建模。
1.介紹
??? 圖像恢復(fù)旨在從低質(zhì)量圖像中恢復(fù)高質(zhì)量圖像,這些圖像是由圖像退化過(guò)程(如模糊、子采樣、噪聲干擾和JPEG壓縮)引起的。圖像恢復(fù)是一個(gè)不適定逆問(wèn)題,因?yàn)樵趫D像退化過(guò)程中,有關(guān)圖像的重要內(nèi)容信息丟失。因此,為了恢復(fù)高質(zhì)量的圖像,應(yīng)該充分利用退化圖像中表現(xiàn)出的豐富信息。
???自然圖像包含全局、區(qū)域和局部范圍的特征層次,深度神經(jīng)網(wǎng)絡(luò)可以使用這些特征進(jìn)行圖像恢復(fù)。首先,局部范圍覆蓋幾個(gè)像素,典型特征是邊緣和局部顏色。為了對(duì)這些局部特征進(jìn)行建模,使用了具有小內(nèi)核(例如3×3)的卷積神經(jīng)網(wǎng)絡(luò)。其次,區(qū)域范圍由具有數(shù)十個(gè)像素的窗口表征。這一系列像素可以覆蓋小物體和大物體的組件(圖1中的粉紅色方塊)。由于范圍更大,用大的核細(xì)胞神經(jīng)網(wǎng)絡(luò)明確地對(duì)區(qū)域特征(一致性、相似性)建模在參數(shù)和計(jì)算方面都是低效的。相反,具有窗口保持機(jī)制的transformers非常適合這項(xiàng)任務(wù)。第三,無(wú)論是局部還是區(qū)域,一些特征都具有全局跨度(圖1中的青色矩形),包括但不限于對(duì)稱(chēng)性嘗試、多尺度模式重復(fù)(圖1a)、同尺度特征相似性(圖1b)以及大型對(duì)象和內(nèi)容的結(jié)構(gòu)相似性和一致性(圖1c)。要對(duì)這一范圍的特征進(jìn)行建模,需要對(duì)全局圖像進(jìn)行理解。
圖2:所提出的GRL在各種圖像恢復(fù)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。第5節(jié)中提供的詳細(xì)信息。
??? 與局部和區(qū)域范圍特征不同,對(duì)全局范圍特征進(jìn)行建模有兩個(gè)主要挑戰(zhàn)。首先,現(xiàn)有的基于卷積和窗口注意的圖像恢復(fù)網(wǎng)絡(luò)不能通過(guò)使用單個(gè)假定模塊來(lái)明確地捕獲長(zhǎng)距離依賴(lài)關(guān)系。盡管在一些作品中使用了非本地操作,但它們要么在網(wǎng)絡(luò)中很少使用,要么應(yīng)用于小圖像裁剪。因此,全局圖像理解主要是通過(guò)重復(fù)計(jì)算模塊進(jìn)行特征的漸進(jìn)傳播。其次,當(dāng)今圖像分辨率的不斷提高給長(zhǎng)期依賴(lài)性建模帶來(lái)了挑戰(zhàn)。高圖像分辨率導(dǎo)致與成對(duì)像素比較和相似性搜索相關(guān)的計(jì)算負(fù)擔(dān)。
???上述討論引出了一系列重新搜索的問(wèn)題:1)如何有效地對(duì)高維圖像中的全局范圍特征進(jìn)行建模以進(jìn)行圖像恢復(fù);2) 如何通過(guò)單個(gè)計(jì)算模塊顯式地對(duì)圖像層次(局部、區(qū)域、全局)進(jìn)行建模,以進(jìn)行高維圖像恢復(fù);3) 以及這種聯(lián)合建模如何為不同的圖像恢復(fù)任務(wù)帶來(lái)統(tǒng)一的性能改進(jìn)。本文試圖分別在第3節(jié)、第4節(jié)和第5節(jié)中回答這些問(wèn)題。
???首先,我們提出了錨定條紋自注意,用于區(qū)域范圍之外的有效依賴(lài)性建模。提出的自關(guān)注是受自然圖像的兩個(gè)特性的啟發(fā),包括跨尺度相似性和各向異性圖像特征??绯叨认嗨菩允侵缸匀粓D像中的結(jié)構(gòu)在不同尺度上被復(fù)制。受此啟發(fā),我們建議使用錨點(diǎn)作為中介來(lái)近似自我注意中查詢(xún)和關(guān)鍵字之間的精確注意力映射。由于錨點(diǎn)將圖像信息聚合到較低維的空間中,因此可以顯著降低自我注意的空間和時(shí)間復(fù)雜性。此外,在觀察各向異性圖像特征的基礎(chǔ)上,我們建議在垂直和水平條紋內(nèi)進(jìn)行編排的自注意。由于注意范圍的各向異性收縮,進(jìn)一步降低了復(fù)雜性。軸向條紋的組合也確保了圖像內(nèi)容的全局視圖。當(dāng)配備條紋移位操作時(shí),四種條紋自注意模式(水平、垂直、水平移位、垂直移位)在計(jì)算復(fù)雜性和全局范圍依賴(lài)性建模能力之間實(shí)現(xiàn)了良好的平衡。此外,從低秩和相似性傳播的角度分析了所提出的錨定條紋自注意.
???其次,提出了一種新的transformer網(wǎng)絡(luò),在單個(gè)計(jì)算模塊中對(duì)全局、區(qū)域和局部范圍依賴(lài)性進(jìn)行精確建模。通過(guò)并行計(jì)算所提出的錨定條紋自注意、窗口自注意和通道注意增強(qiáng)卷積來(lái)實(shí)現(xiàn)圖像的分層建模.
???第三,將所提出的GRLtransformer應(yīng)用于各種圖像恢復(fù)任務(wù)。根據(jù)數(shù)據(jù)的可用性,這些任務(wù)可以分為三種設(shè)置,包括真實(shí)圖像恢復(fù)、合成圖像恢復(fù)和基于數(shù)據(jù)合成的真實(shí)圖像恢復(fù)。總的來(lái)說(shuō),對(duì)所提出的網(wǎng)絡(luò)進(jìn)行了七項(xiàng)任務(wù)的探索,包括圖像超分辨率、圖像去噪、JPEG壓縮偽影去除、去馬賽克、真實(shí)圖像超分辨率,單圖像運(yùn)動(dòng)去模糊和去焦去模糊。如圖2所示所提出的網(wǎng)絡(luò)在所有研究的圖像恢復(fù)任務(wù)上都顯示出有希望的結(jié)果。
2.相關(guān)工作
???局部范圍建模的卷積。例如,基于學(xué)習(xí)的圖像恢復(fù)的基本假設(shè)之一是,重復(fù)模式可能存在于相同或不同的圖像中,并且它們攜帶的冗余信息可能有助于恢復(fù)局部補(bǔ)丁。因此,如果可以檢測(cè)和建模重復(fù)模式,這將有所幫助。這種直覺(jué)與卷積井的計(jì)算過(guò)程相匹配,卷積井在圖像上滑動(dòng)內(nèi)核,并檢測(cè)類(lèi)似于可學(xué)習(xí)內(nèi)核的局部模式。通過(guò)堆疊多個(gè)卷積層,一個(gè)CNN的感受野逐漸擴(kuò)大,并捕捉到豐富的圖像特征。自從深度學(xué)習(xí)出現(xiàn)以來(lái),已經(jīng)為設(shè)計(jì)用于圖像恢復(fù)的CNNs做出了巨大的努力
???非局部和全局先驗(yàn)。除了局部特征外,對(duì)非局部和整體圖像先驗(yàn)進(jìn)行建模也很重要。非局部均值的早期工作為這種目的服務(wù),它計(jì)算輸出像素作為圖像內(nèi)所有像素的加權(quán)總和[4]。受此啟發(fā),最近的工作已經(jīng)開(kāi)發(fā)出來(lái),利用非局部范圍內(nèi)的重復(fù)模式進(jìn)行圖像去噪[11]和超分辨率[24]。除了傳統(tǒng)的方法外,非局部操作也被引入到深度神經(jīng)網(wǎng)絡(luò)中,用于視頻分類(lèi)[80]和圖像SR.
???除了非局部操作外,還開(kāi)發(fā)了自我注意來(lái)對(duì)全局范圍依賴(lài)性進(jìn)行建模。受自然語(yǔ)言處理成功的啟發(fā),transformer已被應(yīng)用于視覺(jué)感知任務(wù)和圖像恢復(fù)任務(wù),但是全局自注意力的計(jì)算復(fù)雜性隨tokens數(shù)量呈二次方增長(zhǎng)。因此,幾項(xiàng)工作對(duì)全局自我關(guān)注效率的提高進(jìn)行了研究。
???區(qū)域自注意。在交流加速transformer的方法中,區(qū)域自注意似乎很有前途。這一想法是在第一次工作中提出的,并隨著窗口偏移進(jìn)行了改進(jìn)。受轉(zhuǎn)移窗口注意力用于視覺(jué)識(shí)別和感知的成功啟發(fā),該方法也用于圖像恢復(fù)。盡管窗口注意機(jī)制表現(xiàn)良好,但在最近的工作中指出,更廣泛的像素參與可以帶來(lái)更好的圖像恢復(fù)。因此,在本文中,我們?cè)噲D提出一種方法,有效地將自我注意的建模能力提高到區(qū)域范圍之外。
3.動(dòng)機(jī)
3.1依賴(lài)建模的自我關(guān)注
自我注意善于明確地對(duì)長(zhǎng)期依賴(lài)關(guān)系進(jìn)行建模,它有助于信息在建模依賴(lài)關(guān)系中的傳播。此操作允許將一個(gè)token與所有其他token進(jìn)行比較。輸出token根據(jù)相似性比較計(jì)算為所有token的加權(quán)和
其中
Q
=
W
Q
?
X
Q=W_{Q}·X
Q=WQ??X,
K
=
W
K
?
X
K=W_{K}·X
K=WK??X,
V
=
W
V
?
X
V=W_{V}·X
V=WV??X,
W
Q
W_Q
WQ?,
W
K
W_K
WK?,
W
V
∈
R
d
×
d
W_V∈R^{d×d}
WV?∈Rd×d,以及
X
,
Y
∈
R
d
×
N
X,Y∈R^{d×N}
X,Y∈Rd×N。N和d分別記下token的數(shù)量和一個(gè)token的維數(shù)。此外,M表示注意力圖,即M=Softmax(
Q
?
K
T
Q·K^T
Q?KT/√d)
???自我注意的時(shí)間復(fù)雜度為O(
N
2
d
N^2d
N2d),空間復(fù)雜度由注意力映射M的項(xiàng)O(
N
2
N^2
N2)決定。自我注意的計(jì)算復(fù)雜性和記憶足跡隨著tokens數(shù)量的增加呈二次增長(zhǎng)。因此,對(duì)于標(biāo)記的數(shù)量是特征圖的兩個(gè)維度的乘積的圖像,自注意很容易成為計(jì)算瓶頸。為了克服這個(gè)問(wèn)題,建議在一個(gè)窗口內(nèi)應(yīng)用自我注意。這樣,顯著減少了參與自我注意的標(biāo)記數(shù)量,也減輕了計(jì)算負(fù)擔(dān)。
???窗口自關(guān)注的問(wèn)題是,由于窗口大小較?。?×8),操作的建模能力僅限于區(qū)域范圍。另一方面,最近的工作表明,即使窗口大小略有增加,也可以實(shí)現(xiàn)更好的圖像恢復(fù)。因此,可以推測(cè),區(qū)域范圍以外的建模依賴(lài)性對(duì)于圖像恢復(fù)仍然很重要.因此,如何去維持受控計(jì)算預(yù)算下的長(zhǎng)程依賴(lài)性建模的能力還有待調(diào)查。
圖3??绯叨认嗨菩浴#╟) 以及(d)展示出了所選擇的像素和示例高分辨率圖像之間的注意力映射。盡管(a)中的青色像素和(b)中的紅色像素來(lái)自不同分辨率的圖像,但它們相對(duì)于高分辨率圖像的注意力圖顯示出非常相似的結(jié)構(gòu)
3.2動(dòng)機(jī)一:跨尺度相似性
???注意力圖M在自我注意力中發(fā)揮著重要作用,因?yàn)樗蹲綀D像中每個(gè)成對(duì)像素之間的相似性。因此,提高方程中自我注意的效率。(1)需要分析注意圖的性質(zhì)。我們的靈感來(lái)自圖像的一個(gè)特性,即跨尺度相似性。也就是說(shuō),圖像的線條和邊緣等基本結(jié)構(gòu)保留在具有不同比例因子的不同版本的圖像中。在圖3中,顯示了圖像中像素之間的注意力圖。特別地,像素和整個(gè)圖像之間的注意力圖被可視化為灰度熱圖。因此,無(wú)論像素來(lái)自高分辨率圖像還是縮小版本,像素和高分辨率圖像之間的熱圖都顯示了圖像的基本結(jié)構(gòu)。圖3(c)和圖3(d)中的熱圖非常相似。
???錨定的自我注意。受圖3所示的跨尺度相似性的啟發(fā),我們?cè)噲D降低方程中全局自我注意的復(fù)雜性。公式(1)通過(guò)對(duì)不同分辨率的圖像進(jìn)行操作并操縱標(biāo)記的數(shù)量,即O(
N
2
d
N^2d
N2d)中的
N
2
N^2
N2項(xiàng)。為了實(shí)現(xiàn)這一點(diǎn),除了查詢(xún)、鍵和值的三元組之外,我們引入了一個(gè)名為錨點(diǎn)的附加概念。錨集合是圖像特征圖中的信息的集合,并且具有較低的維度。與其直接在查詢(xún)和關(guān)鍵字之間進(jìn)行相似性比較,不如將查詢(xún)作為相似性比較的中間。形式上,錨定的自我注意被提出如下方程
其中M遠(yuǎn)小于N,
A
∈
R
M
×
d
A∈R^{M×d}
A∈RM×d為錨,
M
e
∈
R
N
×
M
M_e∈R^{N×M}
Me?∈RN×M,
M
d
M_d
Md?∈
R
M
×
N
R^{M×N}
RM×N表示在查詢(xún)錨點(diǎn)對(duì)和錨點(diǎn)密鑰對(duì)間的注意力圖,在本文消融研究的實(shí)施細(xì)節(jié)中,對(duì)衍生錨固件的手術(shù)選擇進(jìn)行了研究。
圖4。自然圖像中的圖像特征是各向異性的。因此,并不總是需要在圖像的所有部分使用均勻的全局范圍注意力
???由于錨的數(shù)量比其他tokens的數(shù)量小得多,因此得到的兩個(gè)注意力圖 M e , M d M_e,M_d Me?,Md?的大小比原始注意力圖M在公式(1)的大小小得多。(1)。然后從右手計(jì)算方程(2)中的矩陣多重乘法。首先對(duì)錨點(diǎn)和關(guān)鍵點(diǎn)進(jìn)行自我關(guān)注。注意力圖 M d M_d Md?將標(biāo)記V提取為中間特征Z。然后在查詢(xún)和錨點(diǎn)之間進(jìn)行自我關(guān)注。第二注意力圖 M e M_e Me?擴(kuò)展特征Z的大小并恢復(fù)V中的信息。錨定自我注意的計(jì)算復(fù)雜度降低到O(N M d)。并將空間復(fù)雜度降為O(N M)
3.3動(dòng)機(jī)二:各向異性圖像特征
圖5。來(lái)自所提出的網(wǎng)絡(luò)的不同層的(a)查詢(xún)、(b)錨點(diǎn)和(c)密鑰的可視化。(d) 顯示了由公式(2)近似的注意力圖,即 M e ? M d M_e·M_d Me??Md?。(e)顯示了公式(1)中計(jì)算的精確注意力圖M。
???錨定的自我注意可以降低方程中自我注意的空間和時(shí)間復(fù)雜性。(1)通過(guò)去除二次項(xiàng)
N
2
N^2
N2,顯著降低了自我注意的時(shí)間和空間復(fù)雜性。然而,對(duì)于圖像恢復(fù)任務(wù),剩余項(xiàng)是圖像寬度和高度的乘積。因此,方程中固定的自我注意的復(fù)雜性。(2)由于大項(xiàng)N,仍然無(wú)法承受。因此,希望進(jìn)一步降低錨定的自我注意的復(fù)雜性。
???為了實(shí)現(xiàn)這一目標(biāo),我們求助于自然圖像的另一個(gè)特征,即各向異性圖像特征。如圖4所示,自然圖像特征,如圖4(c)和(d)中的單個(gè)對(duì)象,圖4(h)中的多尺度相似性,圖4中的對(duì)稱(chēng)性。4(e)和(g)以各向異性的方式跨度。因此,整個(gè)圖像上的各向同性全局范圍注意力對(duì)于捕捉各向異性圖像特征是多余的。作為回應(yīng),我們建議在圖4所示的各向異性條紋內(nèi)進(jìn)行關(guān)注.
???條紋注意機(jī)制所提出的條紋衰減機(jī)制由四種模式組成,包括水平條紋、垂直條紋、偏移水平條紋和偏移垂直條紋,水平和垂直條紋注意機(jī)制可以交替地用于transformer網(wǎng)絡(luò)。通過(guò)這種方式,在保持全局范圍建模能力和控制全局自我注意的計(jì)算復(fù)雜性之間進(jìn)行權(quán)衡。因此,結(jié)合錨的概念,我們提出了錨條自注意。對(duì)于這種注意機(jī)制,在引入的錨的幫助下,在垂直和水平條紋內(nèi)進(jìn)行有效的自注意。
3.4討論
???所提出的錨定條紋自注意機(jī)制與其他兩個(gè)概念密切相關(guān),包括低秩和相似性傳播。我們?cè)谶@一小節(jié)中詳細(xì)介紹了關(guān)系如下。
???注意圖的低秩。通過(guò)比較方程(1)和方程(2)中的自我注意機(jī)制,我們可以很容易地發(fā)現(xiàn),原始的注意圖M由小的注意圖
M
d
,
M
e
M_d,M_e
Md?,Me?組成,其秩不大于M。這里的本質(zhì)是在不首先計(jì)算原始保持圖的情況下提供低秩近似。為了錨定的自我注意力的成功,重要的是要確保錨定作為中間,近似的注意力圖與原始的注意力圖相似。因此,圖5中提供了額外的分析.
圖6。擬議網(wǎng)絡(luò)的體系結(jié)構(gòu)。主要組件是(a)表示學(xué)習(xí)模塊,它由幾個(gè)階段的轉(zhuǎn)換器層組成。(b) transformer層配備了全局、區(qū)域和局部建模塊。(c) 密集的條紋注意力是幫助網(wǎng)絡(luò)超越區(qū)域范圍參與的關(guān)鍵組成部分
???首先,通過(guò)觀察查詢(xún)、錨點(diǎn)和鍵,我們可以得出結(jié)論,錨點(diǎn)的結(jié)構(gòu)與查詢(xún)和鍵非常相似。因此,錨點(diǎn)是查詢(xún)和鍵中信息的一個(gè)很好的匯總。將自我關(guān)注與錨定相結(jié)合作為中介似乎是合理的。此外,近似注意力映射
M
e
?
M
d
M_e·M_d
Me??Md?和精確注意力映射M也在圖5中進(jìn)行了比較。如圖所示,近似注意力圖將主要結(jié)構(gòu)保持在精確注意力圖中,這通過(guò)兩個(gè)注意力圖之間的大的Pearson相關(guān)系數(shù)(0.9505)來(lái)證實(shí)。所以,精心安排的自我關(guān)注的質(zhì)量是有保證的.
???度量和相似性傳播。從另一個(gè)角度來(lái)看,在所提出的錨定自注意中,首先將查詢(xún)和關(guān)鍵字與錨進(jìn)行比較,然后計(jì)算查詢(xún)關(guān)鍵字的相似性。因此,該推定過(guò)程需要將查詢(xún)錨和密鑰錨的相似性傳播到查詢(xún)密鑰對(duì)。相似傳播與度量空間中的三角形不等式有關(guān).一個(gè)數(shù)學(xué)度量需要滿足幾個(gè)條件,包括本質(zhì)三角形不等式.
其中d( , )定義了兩個(gè)實(shí)體之間的度量。因此,q/k距離是由a/q距離和a/k距離之和的上界。這意味著,如果a和兩個(gè)q和k相似(接近),那么q和k也應(yīng)該相似(靠近)。然而,公式(1),(2)中的相似性度量由點(diǎn)積而不是tokens之間的距離來(lái)定義,這不滿足三角不等式。因此,不能從理論上保證相似性的傳播。為了研究相似性度量的影響,進(jìn)行了消融研究,結(jié)果如第5節(jié)所示。將點(diǎn)積和距離作為相似性度量進(jìn)行比較。結(jié)果表明,盡管點(diǎn)積不嚴(yán)格遵守三角不等式,但它仍然保證了更好的圖像恢復(fù)結(jié)果。因此,我們可以根據(jù)經(jīng)驗(yàn)得出結(jié)論,在當(dāng)前環(huán)境下,點(diǎn)積足以進(jìn)行相似性傳播。
4建模圖像層次結(jié)構(gòu)
表1.單圖像運(yùn)動(dòng)去模糊結(jié)果。前2名結(jié)果分別以紅色和藍(lán)色突出顯示
表2.RealBlur[64]數(shù)據(jù)集上的單圖像運(yùn)動(dòng)去模糊結(jié)果。網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。Top-2結(jié)果分別用紅色和藍(lán)色突出顯示。
???在本節(jié)中,我們回答了引言中描述的第二個(gè)研究問(wèn)題,即如何通過(guò)單個(gè)計(jì)算模塊對(duì)圖像層次結(jié)構(gòu)進(jìn)行明確建模。為此,我們提出了GRL網(wǎng)絡(luò)架構(gòu),該架構(gòu)包含全局范圍、區(qū)域范圍和局部范圍的圖像建模能力。
???網(wǎng)絡(luò)架構(gòu)。所提出的網(wǎng)絡(luò)的總體架構(gòu)如圖6所示。網(wǎng)絡(luò)以退化的低質(zhì)量圖像作為輸入,處理網(wǎng)絡(luò)內(nèi)部的圖像,并輸出恢復(fù)的高質(zhì)量圖像。詳細(xì)地說(shuō),該網(wǎng)絡(luò)包含三個(gè)部分。1) 特征提取層被實(shí)現(xiàn)為簡(jiǎn)單的卷積,并將輸入圖像轉(zhuǎn)換為特征圖。2) 表示學(xué)習(xí)組件豐富了在先前操作中提取的信息。變壓器組由幾個(gè)變壓器層組成,并以一個(gè)卷積層結(jié)束。在整個(gè)表示學(xué)習(xí)模塊中保持特征圖的維度。跳過(guò)連接應(yīng)用于變換器階段和表示學(xué)習(xí)模塊。3) 圖像重建模塊獲取通過(guò)先前操作計(jì)算出的豐富特征,并估計(jì)恢復(fù)的圖像
???transformer層。transformer層如圖所示。6b是在全局、地區(qū)和地方范圍內(nèi)提供分層贍養(yǎng)建模能力的關(guān)鍵組件。該層首先通過(guò)并行自注意模塊和通道注意增強(qiáng)卷積來(lái)處理輸入特征圖。卷積分支用于覆蓋輸入特征圖中的局部結(jié)構(gòu)。另一方面,自注意模塊包含Swin transformer V2[53]中提出的窗口注意和本文中提出的錨條注意。在兩個(gè)注意力模塊內(nèi)的并行處理之后,特征圖沿著通道維度被等分,并且再次沿著通道維度凹陷。windowattention提供了捕獲區(qū)域范圍依賴(lài)關(guān)系的機(jī)制。然后將卷積模塊和注意力模塊輸出的特征圖添加到輸入的特征圖中,由后續(xù)的MLP模塊進(jìn)行處理
???錨定條紋自我關(guān)注所提出的錨定條紋注意力的操作根據(jù)等式進(jìn)行。(2),如圖6c所示。還顯示了不同特征的尺寸。Q,K,V的三重態(tài)由平面線性投影導(dǎo)出。為了將信息匯總為錨點(diǎn),錨點(diǎn)投影被實(shí)現(xiàn)為平均池化層,然后是線性投影。錨投影后,圖像特征圖的分辨率沿兩個(gè)方向按s的因子縮小。如圖6所示,兩個(gè)注意力圖Md和Me與原始注意力圖M起到了相似的作用,但空間和時(shí)間復(fù)雜度較小.
5.實(shí)驗(yàn)結(jié)果
???實(shí)驗(yàn)結(jié)果如本節(jié)所示。通過(guò)研究所提出的網(wǎng)絡(luò)在不同圖像恢復(fù)任務(wù)中的性能,回答了引言中提出的第三個(gè)研究問(wèn)題。根據(jù)數(shù)據(jù)類(lèi)型,所研究的任務(wù)被分為三種常用設(shè)置,包括1)真實(shí)圖像恢復(fù)(單圖像運(yùn)動(dòng)去模糊、散焦去模糊),2)基于合成數(shù)據(jù)的圖像恢復(fù)(圖像去噪、單圖像SR、JPEG壓縮偽影去除、去馬賽克),以及3)基于數(shù)據(jù)合成的真實(shí)圖像恢復(fù)。我們提供三種不同型號(hào)的網(wǎng)絡(luò),包括小型、小型和基礎(chǔ)版本(GRL-T、GRL-S、GRL-B)。對(duì)于真實(shí)圖像和合成圖像恢復(fù),Adam優(yōu)化器和L1loss用于訓(xùn)練初始學(xué)習(xí)率為2×10?4的網(wǎng)絡(luò)。補(bǔ)充材料中顯示了有關(guān)訓(xùn)練數(shù)據(jù)集、訓(xùn)練協(xié)議和其他可視化結(jié)果的更多詳細(xì)信息.
5.1圖像去模糊
???我們首先研究了所提出的網(wǎng)絡(luò)在兩個(gè)真實(shí)圖像恢復(fù)任務(wù)上的性能,包括單圖像運(yùn)動(dòng)去模糊和運(yùn)動(dòng)去模糊。
???單圖像運(yùn)動(dòng)去模糊。表1和表2分別顯示了合成數(shù)據(jù)集(GoPro[58],HIDE[66])和實(shí)際數(shù)據(jù)集(RealBlur-R[64])上單圖像運(yùn)動(dòng)去模糊環(huán)的實(shí)驗(yàn)結(jié)果。與之前最先進(jìn)的Restormer[86]相比,所提出的GRL在GoPro數(shù)據(jù)集上實(shí)現(xiàn)了1.01 dB的顯著PSNR改進(jìn)。在HIDE數(shù)據(jù)集上,PSNR改善為0.43dB。請(qǐng)注意,改進(jìn)是在較少的參數(shù)預(yù)算下實(shí)現(xiàn)的。如表4所示,GRL-B與Restormer相比節(jié)省了24%的參數(shù)。如表2所示,GRP-B在RealBlur-R數(shù)據(jù)集上設(shè)置了40.20 PSNR的新性能狀態(tài).
???散焦去模糊。表3顯示了使用單圖像和雙像素圖像進(jìn)行散焦去模糊的實(shí)驗(yàn)結(jié)果。我們的GRL在所有三種場(chǎng)景類(lèi)型上都優(yōu)于以前的方法。與組合場(chǎng)景中的Restormeron相比,我們的GRL在單像素和雙像素散焦去模糊方面分別實(shí)現(xiàn)了0.20 dB和0.38 dB的優(yōu)雅共振峰提升。與Uformer[84]和IFAN[45]相比,GRL在雙像素設(shè)置下實(shí)現(xiàn)了1.39 dB和1.05dB的PSNR增益。
表3.散焦去模糊結(jié)果。S:?jiǎn)螆D像散焦去lurring。D:雙像素散焦去Lurring
表4.彩色和灰度圖像去噪結(jié)果。為了更好地進(jìn)行比較,顯示了模型復(fù)雜性和預(yù)測(cè)準(zhǔn)確性。最好的兩個(gè)結(jié)果分別用紅色和藍(lán)色突出顯示。
5.2基于合成數(shù)據(jù)的圖像恢復(fù)
???研究合成數(shù)據(jù)的圖像恢復(fù)對(duì)于揭示恢復(fù)方法的網(wǎng)絡(luò)容量也很有價(jià)值。除了在真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)外,我們還研究了網(wǎng)絡(luò)在合成數(shù)據(jù)上的性能。
???圖像去噪。首先,高斯圖像去噪的實(shí)驗(yàn)結(jié)果如表4所示。為了在不同的模型之間進(jìn)行公平的比較,表中顯示了網(wǎng)絡(luò)的復(fù)雜性和準(zhǔn)確性。觀察到了幾個(gè)關(guān)鍵發(fā)現(xiàn)。I。小版本的GRL-T非常有效,將模型復(fù)雜性降低了兩個(gè)數(shù)量級(jí)(僅為[6]的0.76%和DRUNet[90]的2.7%),同時(shí)又不犧牲網(wǎng)絡(luò)精度。II。小版本GRL-S與以前最先進(jìn)的SwinIR[49]和Restormer[86]相比具有競(jìng)爭(zhēng)力。II。在Urban100上,基本版本在很大程度上優(yōu)于Restormer(例如,對(duì)于彩色圖像和噪聲水平為50的0.44dB PSNR增益)。
圖像SR。經(jīng)典圖像的實(shí)驗(yàn)結(jié)果如表5所示。對(duì)輕量級(jí)模型和精確SR模型進(jìn)行了總結(jié)。從結(jié)果中可以得出類(lèi)似的結(jié)論。I.在輕量級(jí)網(wǎng)絡(luò)中,GRL-T的性能優(yōu)于基于卷積和自注意的網(wǎng)絡(luò),包括DBPN[27]、SwinIR[49]和EDT[47]。與EDT相比,Urban100和Manga109數(shù)據(jù)集獲得了顯著的改進(jìn)(×4SR為0.44 dB和0.22 dB)。II.GRL-B為精確圖像SR設(shè)置了新的最先進(jìn)技術(shù)。III.GRL-S在網(wǎng)絡(luò)復(fù)雜性和SR圖像質(zhì)量之間實(shí)現(xiàn)了良好的平衡。JPEG壓縮偽影去除。彩色和灰度圖像的實(shí)驗(yàn)結(jié)果如表所示。6。研究了JPEG壓縮的四個(gè)圖像質(zhì)量因子,范圍從10到40。如表所示,所提出的GRL-S網(wǎng)絡(luò)在不同的數(shù)據(jù)集和質(zhì)量因素上都優(yōu)于以前最先進(jìn)的方法。值得注意的是,GRL-S的模型組合比FBCNN小得多.
正在卸載。圖像去馬賽克的結(jié)果如表8所示。所提出的方法顯著優(yōu)于先前的方法RNAN[96]和DRUNet[90]。
5.3基于數(shù)據(jù)合成的真實(shí)圖像恢復(fù)
最后,我們還研究了網(wǎng)絡(luò)工作在真實(shí)世界圖像恢復(fù)中的性能。其目的是通過(guò)放大因子4對(duì)低質(zhì)量圖像進(jìn)行超分辨率處理。由于該任務(wù)沒(méi)有地面實(shí)況圖像,因此圖7中只給出了視覺(jué)比較。與其他方法相比,所提出的GRL能夠去除低分辨率圖像中的更多偽影
5.4消融研究
在本節(jié)中,列舉了所提出方法的各種設(shè)計(jì)選擇
表5.經(jīng)典圖像SR結(jié)果??偨Y(jié)了輕量級(jí)模型和精確模型的結(jié)果
表6.灰度圖像JPEG壓縮偽影去除結(jié)果。作為比較指標(biāo),F(xiàn)BCNN[32]GRL-S的參數(shù)計(jì)數(shù)分別為71.92M和3.12M
表7.表7.彩色圖像JPEG壓縮偽影去除結(jié)果
表8.圖像去馬賽克結(jié)果
圖7。真實(shí)世界圖像SR的視覺(jué)結(jié)果。
相似性比較方法的影響。如第3.4節(jié)所述,為了從理論上保證相似傳播,應(yīng)使用數(shù)學(xué)度量,而不是點(diǎn)積。為了研究?jī)烧咧g的差異,對(duì)兩種操作的成像對(duì)比進(jìn)行了比較,結(jié)果如表9所示。如表所示,點(diǎn)積與度量相比非常有競(jìng)爭(zhēng)力,并且在一些設(shè)置中優(yōu)于距離度量??紤]到這一點(diǎn),點(diǎn)積仍在其他實(shí)驗(yàn)中使用
錨投影的影響。錨投影操作有助于總結(jié)特征圖中的信息。消融研究如表10所示??紤]到精度性能和參數(shù)budget,最終使用了Avgpool和線性投影。此外,在表11中還消除了窗口和條紋尺寸對(duì)圖像SR的影響。增加窗口和錨點(diǎn)尺寸可能會(huì)顯著提高Urban100和Manga109的性能.
6結(jié)論
表9。相似性比較手術(shù)的消融研究
表10。錨投影操作的消融研究。
表11。窗口和條紋尺寸的消融研究。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-737951.html
在本文中,我們提出了GRL,這是一種具有高效和明確的圖像恢復(fù)分層建模能力的網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要受兩種圖像財(cái)產(chǎn)的啟發(fā),包括跨尺度相似性和各向異性圖像特征。在此基礎(chǔ)上,我們提出了用于長(zhǎng)期依賴(lài)建模的高效錨定條帶自注意模塊。然后提出了一種用于圖像恢復(fù)的通用網(wǎng)絡(luò)體系結(jié)構(gòu)。該網(wǎng)絡(luò)可以對(duì)全局、區(qū)域和局部范圍內(nèi)的圖像層次進(jìn)行建模。由于先進(jìn)的計(jì)算機(jī)制,所提出的網(wǎng)絡(luò)架構(gòu)在各種圖像恢復(fù)任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-737951.html
到了這里,關(guān)于用于圖像恢復(fù)的圖像層次結(jié)構(gòu)的高效和顯式建模Efficient and Explicit Modelling of Image Hierarchies for Image Restoration的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!