AI實(shí)戰(zhàn)營(yíng)第二期 第九節(jié) 《底層視覺與MMEditing》
本節(jié)內(nèi)容 :
- 圖像超分辨率 Super Resolution
- 基于卷積網(wǎng)絡(luò)的模型 SRCNN 與 FSRCNN
- 損失函數(shù)
- 對(duì)抗生成網(wǎng)絡(luò) GAN 簡(jiǎn)介
- 基于 GAN 的模型 SRGAN 與 ESRGAN
- 視頻超分辨率介紹
- 實(shí)踐 MMEditing 1
什么是超分辨率
圖像超分辨率 : 根據(jù)從低分辨率圖像重構(gòu)高分辨率圖像 。 將圖像放大,變清晰
圖像分辨率的目標(biāo)
- 提高圖像的分辨率
- 高分圖像符合低分圖像的內(nèi)容
- 恢復(fù)圖像的細(xì)節(jié)、產(chǎn)生真實(shí)的內(nèi)容
常用的雙線性或雙立方揷值不能恢復(fù)圖像的高頻細(xì)節(jié)
應(yīng)用方向
經(jīng)典游戲高清重制
動(dòng)畫高清重制
照片修復(fù)
節(jié)約高清視頻傳輸帶寬
民生領(lǐng)域,如:醫(yī)療影像,衛(wèi)星影像,監(jiān)控系統(tǒng) (車牌或人臉),空中監(jiān)察等。
超分的類型
單圖超分的解決思路
經(jīng)典的解決方法:稀疏編碼 ,一種無(wú)監(jiān)督的方法。
缺點(diǎn):即便已經(jīng)學(xué)習(xí)出字典,對(duì)低分辨率圖像塊進(jìn)行系數(shù)分解、得到系數(shù)仍然是一個(gè)相對(duì)復(fù)雜的優(yōu)化問題。而且訓(xùn)練和推理都很耗時(shí)!
深度學(xué)習(xí)時(shí)代的超分辨率算法
- 基于卷積網(wǎng)絡(luò)和普通損失函數(shù)
使用卷積神經(jīng)網(wǎng)絡(luò),端到端從低分辨率圖像恢復(fù)高分辨率圖像
代表算法 : SRCNN 與 FSRCNN - 使用生成對(duì)抗網(wǎng)絡(luò)
采用生成對(duì)抗網(wǎng)絡(luò)的策略,鼓勵(lì)產(chǎn)生細(xì)節(jié)更為真實(shí)的高分辨率圖像。
代表算法: SRGAN 與 ESRGAN
SRCNN
SRCNN 是首個(gè)基于深度學(xué)習(xí)的超分辨率算法,證明了深度學(xué)習(xí)在底層視覺的可行性。 模型僅由三層卷積層構(gòu)成構(gòu)成,可以端到端學(xué)習(xí),不需要額外的前后處理步驟。
SRCNN 的單個(gè)卷積層有明確的物理意義 :
第一層 : 提取圖像塊的低層次局部特征;
第二層 : 對(duì)低層次局部特征進(jìn)行非線性變換,得到高層次特征;
第三層 : 組合鄰域內(nèi)的高層次特征,恢復(fù)高清圖像。
經(jīng)典方法通常將圖像切分成小塊, 并基于一系列基底對(duì)圖像塊進(jìn)行分 解 (常用算法有PCA、DCT、 Haar小波等 ),分解系數(shù)向量即 為圖像塊在基底上的表示。
這個(gè)操作等價(jià)于用一系列卷積核 (對(duì)應(yīng)經(jīng)典方法中的基底) 對(duì)原圖 像進(jìn)行卷積。
F
1
(
Y
)
F_{1}(Y)
F1?(Y) 中每個(gè)像素位 置上的
n
1
n_{1}
n1? 維度的向量即為對(duì)應(yīng)圖 像塊在基底上的表示。
使用神經(jīng)網(wǎng)絡(luò),基底可以從數(shù)據(jù)中學(xué)習(xí)出來(lái)。
在 ImageNet 數(shù)據(jù)集上訓(xùn)練的 SRCNN 可以學(xué)習(xí)到不同的低層次特征所對(duì)應(yīng)的卷積核。
第二層:非線性映射
f
2
=
1
f_{2}=1
f2?=1 時(shí),第二層卷積將
F
1
(
Y
)
F_{1}(Y)
F1?(Y) 每 個(gè)位置上
n
1
n_{1}
n1? 維度的特征非線性映射 為一個(gè)
n
2
n_{2}
n2? 維的特征。
該特征可以看作是圖像塊在高分基 底上的表示,在后一層中用于重 構(gòu)。
非線性映射可以有很多層,但實(shí)驗(yàn) 表明只應(yīng)用單層卷積層就可以達(dá)到 較好的效果
第三層:圖像重構(gòu)
第三層的卷積核對(duì)應(yīng)高分辨率基 底,用 F_{2}(Y) 中的系數(shù)對(duì)高分基底 加權(quán)求和即可得到高分圖像塊。第 三層卷積完成這個(gè)過程。
三個(gè)步驟與稀疏編碼方法中的步驟一一對(duì)應(yīng)。
準(zhǔn)備數(shù)據(jù):
將 ImageNet 數(shù)據(jù)集中的圖像作為高分圖像,降采樣再揷值升采樣得到的圖像作為低分圖像
需要學(xué)習(xí)的參數(shù) :
Θ
=
{
W
1
,
W
2
,
W
3
,
B
1
,
B
2
,
B
3
}
\Theta=\left\{W_{1}, W_{2}, W_{3}, B_{1}, B_{2}, B_{3}\right\}
Θ={W1?,W2?,W3?,B1?,B2?,B3?}
損失函數(shù) : 逐像素計(jì)算恢復(fù)圖像和原高分圖像的平方誤差 (Mean Squared Error, MSE)
L ( Θ ) = 1 n ∑ i = 1 n ∥ F ( Y i ; Θ ) ? X i ∥ 2 , ?最小化損失函數(shù)即可鼓勵(lì)網(wǎng)絡(luò)完美恢復(fù)高分辨率圖像? L(\Theta)=\frac{1}{n} \sum_{i=1}^{n}\left\|F\left(\mathbf{Y}_{i} ; \Theta\right)-\mathbf{X}_{i}\right\|^{2}, \quad \text { 最小化損失函數(shù)即可鼓勵(lì)網(wǎng)絡(luò)完美恢復(fù)高分辨率圖像 } L(Θ)=n1?i=1∑n?∥F(Yi?;Θ)?Xi?∥2,?最小化損失函數(shù)即可鼓勵(lì)網(wǎng)絡(luò)完美恢復(fù)高分辨率圖像?
通過標(biāo)準(zhǔn)的 SGD 訓(xùn)練模型
Δ
i
+
1
=
0.9
?
Δ
i
?
η
?
?
L
?
W
i
?
,
W
i
+
1
?
=
W
i
?
+
Δ
i
+
1
\Delta_{i+1}=0.9 \cdot \Delta_{i}-\eta \cdot \frac{\partial L}{\partial W_{i}^{\ell}}, \quad W_{i+1}^{\ell}=W_{i}^{\ell}+\Delta_{i+1}
Δi+1?=0.9?Δi??η??Wi???L?,Wi+1??=Wi??+Δi+1?
評(píng)估
P S N R = 10 ? log ? 10 ( M A X I 2 M S E ) P S N R=10 \cdot \log _{10}\left(\frac{M A X_{I}^{2}}{M S E}\right) PSNR=10?log10?(MSEMAXI2??)
峰值信噪比 (Peak signal-to-noise ratio, PSNR) 為最大信號(hào)能量與平均 噪聲能量的比值,值越大恢復(fù)效果越 好。
SRCNN 在性能和速度上全面超越深 度學(xué)習(xí)前的算法
缺點(diǎn)
SRCNN 先對(duì)低分圖像進(jìn)行揷值,再在高分辨率下進(jìn)行卷積運(yùn)算; 然而揷值不產(chǎn)生額外信息,因而產(chǎn)生一定的幾余計(jì)算;
在學(xué)術(shù)數(shù)據(jù)集上,SRCNN 的速度在 1 10 FPS,達(dá)不到實(shí)時(shí)的標(biāo)準(zhǔn)。
Fast SRCNN
FSRCNN 在 SRCNN 的基礎(chǔ)上針對(duì)速度進(jìn)行了改進(jìn) :
- 不使用掐值, 直接在低分辨率圖像上完成卷積運(yùn)算, 降低運(yùn)算量
- 使用 1 × \times × 1 的卷積層對(duì)特征圖通道進(jìn)行壓縮,進(jìn)一步降低卷積的運(yùn)算量
- 若干卷積層后再通過轉(zhuǎn)置卷積層提高圖像分辨率
優(yōu)點(diǎn) - 基于 CPU 進(jìn)行推理,速度可以達(dá)到實(shí)時(shí);
- 在處理不同上采樣倍數(shù)時(shí),只需要微調(diào)反卷積的權(quán)重,特征映射層的參數(shù)額可以保持不變,大幅加快訓(xùn) 練速度。
SRResNet
Twitter 于2016年提出的 模型使用類似 ResNet 的網(wǎng)絡(luò)結(jié)構(gòu)從低分圖像生成高分圖像。
感知損失 VS. 均方誤差
- 逐像素計(jì)算的損失函數(shù)
比較恢復(fù)圖像與原始高分圖像的每個(gè)像素值,并計(jì)算均方誤差。
例如 : SRCNN 和 FSRCNN 中用到的均方誤差損失 (MSE Loss) - 感知損失函數(shù)
比較恢復(fù)圖像與原始高分圖像的語(yǔ)義特征,并計(jì)算損失。
語(yǔ)義特征的計(jì)算由預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型給出。例如 : 使用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)诪好的神經(jīng)網(wǎng)絡(luò)計(jì)算語(yǔ)義特征。
均方誤差
感知損失
比較恢復(fù)圖像與原始高分圖像的語(yǔ)義特征,并計(jì)算損失
損失網(wǎng)絡(luò)一般是訓(xùn)練圖像分類任務(wù)得到的模型構(gòu)成,例如 VGG 網(wǎng)絡(luò)
損失網(wǎng)絡(luò)不參與學(xué)習(xí),在訓(xùn)練過程中參數(shù)保持不變
對(duì)抗生成網(wǎng)絡(luò)
對(duì)抗生成網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)模型,可以建模數(shù)據(jù)的分布,并通過采樣生成新數(shù)據(jù)。
GAN應(yīng)用于超分辨率
使用普通損失函數(shù)訓(xùn)練的模型細(xì)節(jié)還有些模糊
使用對(duì)抗訓(xùn)練方法訓(xùn)練的模型 細(xì)節(jié)恢復(fù)得更好
如何學(xué)習(xí)生成器網(wǎng)絡(luò)
問題 : 我們希望
p
x
p_{x}
px? 與
p
d
a
t
a
p_{d a t a}
pdata? 近似,但二者沒有閉式表達(dá),無(wú)法直接計(jì)算 “差距” 或損失函數(shù)。
思路 : 如果
p
x
p_{x}
px? 與
p
d
a
t
a
p_{d a t a}
pdata? 有差別,那么它們的樣本就可以區(qū)分
→
\rightarrow
→ 使用一個(gè)分類網(wǎng)絡(luò)區(qū)分兩類樣本,將分類 正確率作為兩個(gè)概率分布的“差距”。二者越接近,分類正確率應(yīng)該越低。
對(duì)抗訓(xùn)練
判別器網(wǎng)絡(luò) D 和生成器網(wǎng)絡(luò) G 采用對(duì)抗的方式進(jìn)行訓(xùn)練 :
- 訓(xùn)練 D 網(wǎng)絡(luò)時(shí)降低分類損失,盡力分辨 G 網(wǎng)絡(luò)產(chǎn)生的假樣本
- 訓(xùn)練 G 網(wǎng)絡(luò)時(shí)提高分類損失,盡力迷惑 D 網(wǎng)絡(luò),使之無(wú)法區(qū)分真假樣本
二者相互對(duì)抗相互進(jìn)步,最優(yōu)狀態(tài)下 G 網(wǎng)絡(luò)可以生成以假亂真的樣本
GAN優(yōu)化目標(biāo)
- 對(duì)于給定的 G 網(wǎng)絡(luò),訓(xùn)練出最佳判別器網(wǎng)絡(luò),記錄對(duì)應(yīng)的分類損失 (的負(fù)值)
- 在所有可能的 G 網(wǎng)絡(luò)中,找到使得上述損失最大 (對(duì)應(yīng)負(fù)值最小 ) 的 G 網(wǎng)絡(luò)。
- 可以證明,最優(yōu) G \mathrm{G} G 網(wǎng)絡(luò)滿足 p G = p data? p_{G}=p_{\text {data }} pG?=pdata??
DCGAN
SRGAN
SRGAN 在 SRResNet 的基礎(chǔ)上額外增加了判別器網(wǎng)絡(luò),用于區(qū)分訓(xùn)練集中的高分圖像 ( 真實(shí)圖像 ) 以及 SRResNet 恢復(fù)的高分圖像 ( 虛假圖像 )
ESRGAN
Enhanced SRGAN (ESRGAN) 從網(wǎng)絡(luò)結(jié)構(gòu)、感知損失、對(duì)抗損失三個(gè)角度對(duì) SRGAN 進(jìn)行了全面改進(jìn),在超 分辨率效果上取得了很大的提升,同時(shí)獲得了 PIRM2018 超分辨率挑戰(zhàn)賽冠軍。
視頻復(fù)原任務(wù)流程
EDVR
- 適用于不同視頻復(fù)原任務(wù)的通用框架
- PCD: 通過金字塔級(jí)聯(lián)變形對(duì)齊處理大的運(yùn)動(dòng),使用形變卷積以由粗到細(xì)的方式在特征級(jí)別進(jìn)行幀對(duì)齊
- TSA: 時(shí)空注意力機(jī)制
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-486647.html
- 由于遮擋,模糊和末對(duì)齊等等問題,相鄰 幀的信息不足, 不同的相鄰幀應(yīng)該有不同 的權(quán)重
- 我們通過以下方式在每幀上分配像素級(jí)聚 合權(quán)重 :
? t e m p o r a l a t t e n t i o n \checkmark temporal attention ?temporalattention 時(shí)間注意機(jī)制
? s p a t i a l a t t e n t i o n \checkmark spatial attention ?spatialattention 空間注意機(jī)制
BasicVSR
BasicVSR在結(jié)構(gòu)上更簡(jiǎn)單,效果比EDVR更好文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-486647.html
到了這里,關(guān)于AI實(shí)戰(zhàn)營(yíng)第二期 第九節(jié) 《底層視覺與MMEditing》——筆記10的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!