貢獻(xiàn)
- 提出用于高分辨率圖像修復(fù)的aggregated contextual transformations(AOT),它允許捕獲信息豐富的遠(yuǎn)程上下文和豐富的感興趣模式,以進(jìn)行上下文推理。
- 設(shè)計(jì)了一個(gè)新的掩模預(yù)測任務(wù)來訓(xùn)練用于圖像修復(fù)的判別器,使判別器可以區(qū)分真實(shí)patch和合成patch,從而有助于生成器合成細(xì)粒度紋理。
模型結(jié)構(gòu)
整體結(jié)構(gòu)
AOT block
生成器先通過幾層標(biāo)準(zhǔn)的卷積層進(jìn)行編碼,再通過AOT塊,最后再通過轉(zhuǎn)置卷積進(jìn)行解碼。
AOT塊通過三個(gè)步驟采用拆分轉(zhuǎn)換合并策略:
(1)拆分:AOT塊將標(biāo)準(zhǔn)卷積的卷積核拆分為多個(gè)子核,每個(gè)子卷積核具有較少的輸出通道;
(2)轉(zhuǎn)換:每個(gè)子卷積核具有不同的膨脹率。較大的膨脹率使子卷積核能夠關(guān)注到輸入圖像的較大區(qū)域,而使用較小膨脹率的子核則關(guān)注較小感受野的局部模式。
(3)聚合:來自不同感受野的上下文轉(zhuǎn)換最終通過串聯(lián)和標(biāo)準(zhǔn)卷積進(jìn)行聚合,以進(jìn)行特征融合。
這樣的設(shè)計(jì)能夠讓AOT塊通過不同的視圖預(yù)測圖像的每個(gè)輸出像素。
下面的公式中對傳統(tǒng)的相同剩余連接進(jìn)行改進(jìn),改進(jìn)為選通剩余連接,聚合公式中g(shù)是空間可變門控值。這種空間變化的特征聚合在盡可能更新缺失區(qū)域內(nèi)的特征的同時(shí),保留缺失區(qū)域外的已知特征。
x 3 = x 1 × g + x 2 × ( 1 ? g ) x_{3}=x_{1} \times g+x_{2}{\large }\times(1-g) x3?=x1?×g+x2?×(1?g)
Soft Mask-Guided PatchGAN (SM-PatchGAN)
解決什么問題?
大多數(shù)深度修復(fù)模型往往基于重建損失(L1 Loss)生成所有可能解決方案的平均值,這會導(dǎo)致紋理模糊。
修復(fù)結(jié)果表示為:
z
=
x
⊙
(
1
?
m
)
+
G
(
x
⊙
(
1
?
m
)
,
m
)
⊙
m
z=x \odot(1-m)+G(x \odot(1-m), m) \odot m
z=x⊙(1?m)+G(x⊙(1?m),m)⊙m
修復(fù)結(jié)果為兩部分的疊加,原圖像的完好區(qū)域和生成的空洞區(qū)域。其中,m為二進(jìn)制掩碼(0表示已知像素,1表示未知像素),即缺失區(qū)域表示為白色。
判別器的對抗損失:
L a d v D = E z ~ p z [ ( D ( z ) ? σ ( 1 ? m ) ) 2 ] + E x ~ p data? [ ( D ( x ) ? 1 ) 2 ] \begin{array}{c} L_{a d v}^{D}=\mathbb{E}_{z \sim p_{z}}\left[(D(z)-\sigma(1-m))^{2}\right]+ \mathbb{E}_{x \sim p_{\text {data }}}\left[(D(x)-1)^{2}\right] \end{array} LadvD?=Ez~pz??[(D(z)?σ(1?m))2]+Ex~pdata???[(D(x)?1)2]?
其中, σ \sigma σ 表示下采樣和高斯濾波的合成函數(shù)。
生成器的對抗損失:
L a d v G = E z ~ p z [ ( D ( z ) ? 1 ) 2 ⊙ m ] L_{a d v}^{G}=\mathbb{E}_{z \sim p_{z}}\left[(D(z)-1)^{2} \odot m\right] LadvG?=Ez~pz??[(D(z)?1)2⊙m]
判別器上的設(shè)計(jì)
對于判別器設(shè)計(jì)了soft patch-level mask。
不同設(shè)計(jì)的比較:
PatchGAN的判別器將所有修復(fù)圖像中的補(bǔ)丁都判別為假,這忽略了缺失區(qū)域之外的補(bǔ)丁確實(shí)來自真實(shí)圖像。 而所提出的SM-PatchGAN能夠?qū)⑷笔^(qū)域的合成補(bǔ)丁與上下文的真實(shí)補(bǔ)丁區(qū)分開來,這可以增強(qiáng)鑒別器的能力。
HM-PatchGAN中沒有使用高斯濾波器,從而忽略了修補(bǔ)圖像的邊界周圍可能同時(shí)包含真實(shí)像素和合成像素。而所提出的SM-PatchGAN引入了高斯濾波器解決了這個(gè)問題。
總體優(yōu)化
優(yōu)化函數(shù)包括四個(gè): L 1 L_1 L1? loss(重建損失)、style loss(風(fēng)格損失)、perceptual loss(感知損失)和adversarial loss (對抗損失)。
(1)
L
1
L_1
L1? loss確保像素級的重建精度
L
r
e
c
=
∥
x
?
G
(
x
⊙
(
1
?
m
)
,
m
)
∥
1
L_{r e c}=\|x-G(x \odot(1-m), m)\|_{1}
Lrec?=∥x?G(x⊙(1?m),m)∥1?
(2)perceptual loss旨在最小化修復(fù)圖像和真實(shí)圖像的激活圖之間的
L
1
L_1
L1?距離
L
p
e
r
=
∑
i
∥
?
i
(
x
)
?
?
i
(
z
)
∥
1
N
i
L_{p e r}=\sum_{i} \frac{\left\|\phi_{i}(x)-\phi_{i}(z)\right\|_{1}}{N_{i}}
Lper?=i∑?Ni?∥?i?(x)??i?(z)∥1??
其中,
?
i
\phi_{i}
?i? 來自預(yù)訓(xùn)練網(wǎng)絡(luò)(如VGG19)第i層的激活圖,
N
i
N_i
Ni? 是
?
i
\phi_{i}
?i? 中的總數(shù)量。
(3)style loss被定義為修復(fù)圖像和真實(shí)圖像深層特征的Gram矩陣之間的
L
1
L_1
L1?距離:
L
s
t
y
=
E
i
[
∥
?
i
(
x
)
T
?
i
(
x
)
?
?
i
(
z
)
T
?
i
(
z
)
∥
1
]
L_{s t y}=\mathbb{E}_{i}\left[\left\|\phi_{i}(x)^{T} \phi_{i}(x)-\phi_{i}(z)^{T} \phi_{i}(z)\right\|_{1}\right]
Lsty?=Ei?[∥
∥??i?(x)T?i?(x)??i?(z)T?i?(z)∥
∥?1?]
(4)adversarial loss
L
a
d
v
=
E
z
~
p
z
[
(
D
(
z
)
?
1
)
2
⊙
m
]
L_{a d v}=\mathbb{E}_{z \sim p_{z}}\left[(D(z)-1)^{2} \odot m\right]
Ladv?=Ez~pz??[(D(z)?1)2⊙m]
總的優(yōu)化目標(biāo):
L
=
λ
a
d
v
L
a
d
v
G
+
λ
r
e
c
L
r
e
c
+
λ
p
e
r
L
p
e
r
+
λ
s
t
y
L
s
t
y
L=\lambda_{a d v} L_{a d v}^{G}+\lambda_{r e c} L_{r e c}+\lambda_{p e r} L_{p e r}+\lambda_{s t y} L_{s t y}
L=λadv?LadvG?+λrec?Lrec?+λper?Lper?+λsty?Lsty?
參數(shù)設(shè)置:
λ
a
d
v
\lambda_{a d v}
λadv? = 0.01,
λ
r
e
c
\lambda_{rec}
λrec? = 1,
λ
p
e
r
\lambda_{per}
λper? = 0.1,
λ
s
t
y
\lambda_{sty}
λsty? = 250。
實(shí)現(xiàn)細(xì)節(jié)
SM-PatchGAN中的高斯濾波處理,將高斯核的核大小設(shè)置為了70×70。為了避免歸一化層引起的顏色偏移問題,移除了生成器網(wǎng)絡(luò)中的所有歸一化層。
訓(xùn)練參數(shù)設(shè)置:
一個(gè)mini-batch中,隨機(jī)采8張圖片和相應(yīng)的掩碼。生成器和鑒別器的學(xué)習(xí)率都為 1 0 ? 4 10^{-4} 10?4,使用 β 1 = 0 ?和? β 2 = 0.9 \beta_{1}=0 \text { 和 } \beta_{2}=0.9 β1?=0?和?β2?=0.9 的優(yōu)化器。使用ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG19作為預(yù)訓(xùn)練網(wǎng)絡(luò),用于計(jì)算風(fēng)格損失和感知損失。
實(shí)驗(yàn)
使用的數(shù)據(jù)集
Places2、CELEBA-HQ、QMUL-OpenLogo
掩膜數(shù)據(jù)集
論文Image Inpainting for Irregular Holes Using Partial Convolutions中所提供的掩膜數(shù)據(jù)集,也是大多數(shù)圖像修復(fù)任務(wù)中所使用的。
對比的模型基準(zhǔn)
(1)CA:Context encoders: Feature learning by inpainting. (2016)
(2)PEN-Net:Learning pyramid-context encoder network for high-quality image inpainting. (2019)
(3)PConv:Image inpainting for irregular holes using partial convolutions. (2018)
(4)EdgeConnect:Edgeconnect: Generative image inpainting with adversarial edge learning. (2019)
(5)GatedConv:Free-form image inpainting with gated convolution. (2019)
(6)HiFill :Contextual residual aggregation for ultra high-resolution image inpainting. (2020)
(7)MNPS :High-resolution image inpainting using multi-scale neural patch synthesis. (2017)
上述7個(gè)模型都是Image Inpainting領(lǐng)域比較經(jīng)典的模型。
評估標(biāo)準(zhǔn)
L 1 L_1 L1? error、PSNR、SSIM、FID
然后就是定性實(shí)驗(yàn)、定量實(shí)驗(yàn)、User Study,結(jié)果肯定都優(yōu)于其他,就不總結(jié)了,細(xì)節(jié)看論文。
消融實(shí)驗(yàn)
驗(yàn)證AOT-GAN中三種組成要素的有效性 :gated contextual transformations(選通上下文轉(zhuǎn)換)、gated residual connections(選通殘余連接)、SM-PatchGAN discriminator(SM PatchGAN鑒別器)。
結(jié)論
局限性
(1)AOT塊的分支數(shù)和擴(kuò)張率是根據(jù)經(jīng)驗(yàn)性的研究和設(shè)置,當(dāng)圖像大小改變時(shí),可能就要重新去設(shè)置參數(shù),無法自適應(yīng)。文章來源:http://www.zghlxwxcb.cn/news/detail-404188.html
(2)在實(shí)際應(yīng)用(如logo移除)中很難自動分割logo的區(qū)域。文章來源地址http://www.zghlxwxcb.cn/news/detail-404188.html
到了這里,關(guān)于【圖像修復(fù)】AOT-GAN《Aggregated Contextual Transformations for High-Resolution Image Inpainting》的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!