論文: 《Thin-Plate Spline Motion Model for Image Animation》
github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model
解決問(wèn)題
問(wèn)題:
盡管當(dāng)前有些工作使用無(wú)監(jiān)督方法進(jìn)可行任意目標(biāo)姿態(tài)遷移,但是當(dāng)源圖與目標(biāo)圖差異大時(shí),對(duì)當(dāng)前無(wú)監(jiān)督方案來(lái)說(shuō)仍然具有挑戰(zhàn)。
方法:
本文提出無(wú)監(jiān)督TPS Motion,
1、提出thin-plate spline(TPS)運(yùn)動(dòng)估計(jì),以生成更靈活光流,將源圖特征遷移至目標(biāo)圖特征;
2、為了補(bǔ)全缺失區(qū)域,使用多分辨率遮擋mask進(jìn)行有效特征融合。
3、額外輔助損失函數(shù)用于確保網(wǎng)絡(luò)各模塊分工,使得生成高質(zhì)量圖片;
算法
TPS Motion算法整體流程圖如圖2所示,
TPS Motion主要包括以下模塊:
1、關(guān)鍵點(diǎn)檢測(cè)模塊
E
k
p
E_{kp}
Ekp?:生成
K
?
N
K*N
K?N對(duì)關(guān)鍵點(diǎn)用于生成K個(gè)TPS變換;
2、背景運(yùn)動(dòng)預(yù)測(cè)
E
b
g
E_{bg}
Ebg?:估計(jì)背景變換參數(shù);
3、稠密運(yùn)動(dòng)網(wǎng)絡(luò)(Dense Motion Network):這是一個(gè)hourglass網(wǎng)絡(luò),使用
E
b
g
E_{bg}
Ebg?背景變換及
E
k
p
E_{kp}
Ekp?的K的K個(gè)TPS變換進(jìn)行光流估計(jì)、多分辨率遮擋mask預(yù)測(cè),用于指導(dǎo)缺失區(qū)域;
4、修復(fù)網(wǎng)絡(luò)(Inpainting Network):同為hourglass網(wǎng)絡(luò),使用預(yù)測(cè)光流扭曲原圖特征圖,修復(fù)每個(gè)尺度下特征圖缺失區(qū)域;
TPS運(yùn)動(dòng)估計(jì)
1、通過(guò)TPS可通過(guò)最小扭曲,將原圖變換到目標(biāo)圖,如式1,
P
i
X
表示圖
X
上第
i
個(gè)關(guān)鍵點(diǎn)
P^X_i表示圖X上第i個(gè)關(guān)鍵點(diǎn)
PiX?表示圖X上第i個(gè)關(guān)鍵點(diǎn);
E
k
p
E_{kp}
Ekp?使用
K
?
N
K*N
K?N個(gè)關(guān)鍵點(diǎn),計(jì)算k個(gè)tps變換,每個(gè)使用N個(gè)關(guān)鍵點(diǎn)(N=5),TPS計(jì)算如式2,
p
為坐標(biāo),
A
與
w
為式
1
求解到的系數(shù),
U
為偏置項(xiàng)
p為坐標(biāo),A與w為式1求解到的系數(shù),U為偏置項(xiàng)
p為坐標(biāo),A與w為式1求解到的系數(shù),U為偏置項(xiàng),
2、背景變換矩陣如式4,其中
A
b
g
A_{bg}
Abg?由背景運(yùn)動(dòng)預(yù)測(cè)器
E
b
g
E_{bg}
Ebg?生成;
3、通過(guò)Dense Motion Network將K+1個(gè)變換預(yù)測(cè)contribution map
M
~
∈
R
(
K
+
1
)
×
H
×
W
\tilde M \in R^{(K+1)\times H \times W}
M~∈R(K+1)×H×W,經(jīng)過(guò)softmax得到
M
M
M,如式5,
將其與K+1個(gè)變換結(jié)合計(jì)算光流,如式6,
由于訓(xùn)練初期僅有部分TPS變換起作用,由此導(dǎo)致contribution map有的地方為0,因此訓(xùn)練時(shí)容易陷入局部最優(yōu);
作者使用dropout使得某些contribution map為0,將式5改為式7,
b
i
服從伯努利分布,概率為
1
?
P
b_i服從伯努利分布,概率為1-P
bi?服從伯努利分布,概率為1?P,使得網(wǎng)絡(luò)不會(huì)過(guò)度依賴(lài)某些TPS變換,訓(xùn)練幾個(gè)epoch后,作者將其去除;
4、修復(fù)網(wǎng)絡(luò)(Inpainting Network)的編碼器提取原圖特征進(jìn)行變換,解碼器進(jìn)行重構(gòu)目標(biāo)圖;
多分辨率遮擋Mask
一些論文證明,不同尺度特征圖關(guān)注區(qū)域有區(qū)別,低分辨率關(guān)注抽象形態(tài),高分辨率關(guān)注細(xì)節(jié)紋理;因此作者在每層進(jìn)行預(yù)測(cè)遮擋mask;
Dense Motion Network除了預(yù)測(cè)光流還預(yù)測(cè)多分辨率遮擋mask,通過(guò)在每層編碼器添加一個(gè)額外的卷積層實(shí)現(xiàn);
Inpaintting Network融合多尺度特征生成高質(zhì)量圖像,細(xì)節(jié)如圖3所示;
1、將原圖S送入編碼器,光流
T
~
\tilde T
T~用于變換每層特征圖;
2、使用預(yù)測(cè)的遮擋mask進(jìn)行遮擋變換后的特征圖;
3、使用skip connection與淺層解碼器輸出concat;
4、通過(guò)兩個(gè)殘差網(wǎng)絡(luò)及上采樣層,生成最終圖像;
訓(xùn)練損失函數(shù)
重構(gòu)損失:使用VGG-19計(jì)算重構(gòu)損失,如式9;
同變損失:用于約束關(guān)鍵點(diǎn)檢測(cè)模塊,如式10;
背景損失:用于約束背景Motion預(yù)測(cè)器,確保預(yù)測(cè)更加準(zhǔn)確,
A
b
g
A_{bg}
Abg?表示從S到D的背景仿射變換矩陣;
A
b
g
′
A'_{bg}
Abg′?表示D到S的背景仿射變換矩陣,防止預(yù)測(cè)輸出矩陣為0,loss未使用式11,而是式12;
扭曲損失:用于約束Inpainting Network,使得估計(jì)光流更加可靠,如式13,Ei表示網(wǎng)絡(luò)第i層編碼器;
整體損失函數(shù)如式14
測(cè)試階段
FOMM有兩種模式:標(biāo)準(zhǔn)、相關(guān);
前者使用驅(qū)動(dòng)視頻
D
t
D_t
Dt?每一幀及S,依據(jù)式6估計(jì)motion,但當(dāng)S與D差異大時(shí)(比如S與D中人體身材差異大),表現(xiàn)不佳;
后者用于估計(jì)
D
1
D_1
D1?至
D
t
D_t
Dt?的motion,將其應(yīng)用于S,這要求
D
1
D_1
D1?與S的pose接近;
MRAA提出一種新模式,通過(guò)解耦進(jìn)行動(dòng)畫(huà),額外訓(xùn)練網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)motion,應(yīng)用于S,本文使用相同模式;訓(xùn)練shape及pose編碼器,shape編碼器學(xué)習(xí)關(guān)鍵點(diǎn)S的shape,pose編碼器學(xué)習(xí)關(guān)鍵點(diǎn)
D
t
D_t
Dt?的pose,解碼器重構(gòu)關(guān)鍵點(diǎn)保留S的shape及
D
t
D_t
Dt?的pose,訓(xùn)練過(guò)程中使用同一視頻兩幀,其中一幀關(guān)鍵點(diǎn)進(jìn)行隨機(jī)變換仿真另一個(gè)體的pose;
對(duì)于圖像動(dòng)畫(huà)而言,將S及
D
t
D_t
Dt?的關(guān)鍵點(diǎn)送入shape及pose編碼器,經(jīng)過(guò)解碼器獲取重構(gòu)的關(guān)鍵點(diǎn),根據(jù)式6估計(jì)motion。
實(shí)驗(yàn)
評(píng)估指標(biāo)
L1表示驅(qū)動(dòng)圖與生成圖像素L1距離;
Average keypoint distance (AKD)表示生成圖與驅(qū)動(dòng)圖關(guān)鍵點(diǎn)距離;
Missing keypoint rate (MKR)表示驅(qū)動(dòng)圖中存在但是生成圖中不存在的關(guān)鍵點(diǎn)比率;
Average Euclidean distance (AED)表示使用reid模型提取生成圖與驅(qū)動(dòng)圖特征,比較兩者之間L2損失;
視頻重構(gòu)結(jié)果如表1;
圖6展示圖像動(dòng)畫(huà)結(jié)果,在4個(gè)數(shù)據(jù)集上與MRAA比較,
表2展示真實(shí)用戶(hù)在連續(xù)性及真實(shí)性上評(píng)價(jià);
表4展示消融實(shí)驗(yàn)結(jié)果;
表3比較不同K對(duì)結(jié)果影響,F(xiàn)OMM、MRAA使用K=5,10,20;本文方式用2,4,8;文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-409996.html
結(jié)論
作者提出的方無(wú)監(jiān)督圖像動(dòng)畫(huà)方法:
1、通過(guò)TPS估計(jì)光流,訓(xùn)練初期使用dropout,防止陷入局部最優(yōu);
2、多分辨率遮擋mask用于更有效特征融合;
3、設(shè)計(jì)額外輔助損失;
本文方法取得SOTA,但是當(dāng)源圖與驅(qū)動(dòng)圖人物身份極度不匹配時(shí),效果不理想;文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-409996.html
到了這里,關(guān)于TPS Motion(CVPR2022)視頻生成論文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!