国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

TPS Motion(CVPR2022)視頻生成論文解讀

這篇具有很好參考價(jià)值的文章主要介紹了TPS Motion(CVPR2022)視頻生成論文解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。


論文: 《Thin-Plate Spline Motion Model for Image Animation》
github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model

解決問(wèn)題

問(wèn)題:
盡管當(dāng)前有些工作使用無(wú)監(jiān)督方法進(jìn)可行任意目標(biāo)姿態(tài)遷移,但是當(dāng)源圖與目標(biāo)圖差異大時(shí),對(duì)當(dāng)前無(wú)監(jiān)督方案來(lái)說(shuō)仍然具有挑戰(zhàn)。
方法:
本文提出無(wú)監(jiān)督TPS Motion,
1、提出thin-plate spline(TPS)運(yùn)動(dòng)估計(jì),以生成更靈活光流,將源圖特征遷移至目標(biāo)圖特征;
2、為了補(bǔ)全缺失區(qū)域,使用多分辨率遮擋mask進(jìn)行有效特征融合。
3、額外輔助損失函數(shù)用于確保網(wǎng)絡(luò)各模塊分工,使得生成高質(zhì)量圖片;

算法

TPS Motion算法整體流程圖如圖2所示,
TPS Motion(CVPR2022)視頻生成論文解讀
TPS Motion主要包括以下模塊:
1、關(guān)鍵點(diǎn)檢測(cè)模塊 E k p E_{kp} Ekp?:生成 K ? N K*N K?N對(duì)關(guān)鍵點(diǎn)用于生成K個(gè)TPS變換;
2、背景運(yùn)動(dòng)預(yù)測(cè) E b g E_{bg} Ebg?:估計(jì)背景變換參數(shù);
3、稠密運(yùn)動(dòng)網(wǎng)絡(luò)(Dense Motion Network):這是一個(gè)hourglass網(wǎng)絡(luò),使用 E b g E_{bg} Ebg?背景變換及 E k p E_{kp} Ekp?的K的K個(gè)TPS變換進(jìn)行光流估計(jì)、多分辨率遮擋mask預(yù)測(cè),用于指導(dǎo)缺失區(qū)域;
4、修復(fù)網(wǎng)絡(luò)(Inpainting Network):同為hourglass網(wǎng)絡(luò),使用預(yù)測(cè)光流扭曲原圖特征圖,修復(fù)每個(gè)尺度下特征圖缺失區(qū)域;

TPS運(yùn)動(dòng)估計(jì)

1、通過(guò)TPS可通過(guò)最小扭曲,將原圖變換到目標(biāo)圖,如式1, P i X 表示圖 X 上第 i 個(gè)關(guān)鍵點(diǎn) P^X_i表示圖X上第i個(gè)關(guān)鍵點(diǎn) PiX?表示圖X上第i個(gè)關(guān)鍵點(diǎn);
TPS Motion(CVPR2022)視頻生成論文解讀
E k p E_{kp} Ekp?使用 K ? N K*N K?N個(gè)關(guān)鍵點(diǎn),計(jì)算k個(gè)tps變換,每個(gè)使用N個(gè)關(guān)鍵點(diǎn)(N=5),TPS計(jì)算如式2, p 為坐標(biāo), A 與 w 為式 1 求解到的系數(shù), U 為偏置項(xiàng) p為坐標(biāo),A與w為式1求解到的系數(shù),U為偏置項(xiàng) p為坐標(biāo),Aw為式1求解到的系數(shù),U為偏置項(xiàng),
TPS Motion(CVPR2022)視頻生成論文解讀
2、背景變換矩陣如式4,其中 A b g A_{bg} Abg?由背景運(yùn)動(dòng)預(yù)測(cè)器 E b g E_{bg} Ebg?生成;
TPS Motion(CVPR2022)視頻生成論文解讀
3、通過(guò)Dense Motion Network將K+1個(gè)變換預(yù)測(cè)contribution map M ~ ∈ R ( K + 1 ) × H × W \tilde M \in R^{(K+1)\times H \times W} M~R(K+1)×H×W,經(jīng)過(guò)softmax得到 M M M,如式5,
TPS Motion(CVPR2022)視頻生成論文解讀
將其與K+1個(gè)變換結(jié)合計(jì)算光流,如式6,
TPS Motion(CVPR2022)視頻生成論文解讀
由于訓(xùn)練初期僅有部分TPS變換起作用,由此導(dǎo)致contribution map有的地方為0,因此訓(xùn)練時(shí)容易陷入局部最優(yōu);
作者使用dropout使得某些contribution map為0,將式5改為式7, b i 服從伯努利分布,概率為 1 ? P b_i服從伯努利分布,概率為1-P bi?服從伯努利分布,概率為1?P,使得網(wǎng)絡(luò)不會(huì)過(guò)度依賴(lài)某些TPS變換,訓(xùn)練幾個(gè)epoch后,作者將其去除;

TPS Motion(CVPR2022)視頻生成論文解讀

4、修復(fù)網(wǎng)絡(luò)(Inpainting Network)的編碼器提取原圖特征進(jìn)行變換,解碼器進(jìn)行重構(gòu)目標(biāo)圖;

多分辨率遮擋Mask

一些論文證明,不同尺度特征圖關(guān)注區(qū)域有區(qū)別,低分辨率關(guān)注抽象形態(tài),高分辨率關(guān)注細(xì)節(jié)紋理;因此作者在每層進(jìn)行預(yù)測(cè)遮擋mask;
Dense Motion Network除了預(yù)測(cè)光流還預(yù)測(cè)多分辨率遮擋mask,通過(guò)在每層編碼器添加一個(gè)額外的卷積層實(shí)現(xiàn);
TPS Motion(CVPR2022)視頻生成論文解讀
Inpaintting Network融合多尺度特征生成高質(zhì)量圖像,細(xì)節(jié)如圖3所示;
1、將原圖S送入編碼器,光流 T ~ \tilde T T~用于變換每層特征圖;
2、使用預(yù)測(cè)的遮擋mask進(jìn)行遮擋變換后的特征圖;
3、使用skip connection與淺層解碼器輸出concat;
4、通過(guò)兩個(gè)殘差網(wǎng)絡(luò)及上采樣層,生成最終圖像;

訓(xùn)練損失函數(shù)

重構(gòu)損失:使用VGG-19計(jì)算重構(gòu)損失,如式9;
TPS Motion(CVPR2022)視頻生成論文解讀
同變損失:用于約束關(guān)鍵點(diǎn)檢測(cè)模塊,如式10;
TPS Motion(CVPR2022)視頻生成論文解讀
背景損失:用于約束背景Motion預(yù)測(cè)器,確保預(yù)測(cè)更加準(zhǔn)確, A b g A_{bg} Abg?表示從S到D的背景仿射變換矩陣; A b g ′ A'_{bg} Abg?表示D到S的背景仿射變換矩陣,防止預(yù)測(cè)輸出矩陣為0,loss未使用式11,而是式12;
TPS Motion(CVPR2022)視頻生成論文解讀
TPS Motion(CVPR2022)視頻生成論文解讀
扭曲損失:用于約束Inpainting Network,使得估計(jì)光流更加可靠,如式13,Ei表示網(wǎng)絡(luò)第i層編碼器;
TPS Motion(CVPR2022)視頻生成論文解讀
整體損失函數(shù)如式14
TPS Motion(CVPR2022)視頻生成論文解讀

測(cè)試階段

FOMM有兩種模式:標(biāo)準(zhǔn)、相關(guān);
前者使用驅(qū)動(dòng)視頻 D t D_t Dt?每一幀及S,依據(jù)式6估計(jì)motion,但當(dāng)S與D差異大時(shí)(比如S與D中人體身材差異大),表現(xiàn)不佳;
后者用于估計(jì) D 1 D_1 D1? D t D_t Dt?的motion,將其應(yīng)用于S,這要求 D 1 D_1 D1?與S的pose接近;
MRAA提出一種新模式,通過(guò)解耦進(jìn)行動(dòng)畫(huà),額外訓(xùn)練網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)motion,應(yīng)用于S,本文使用相同模式;訓(xùn)練shape及pose編碼器,shape編碼器學(xué)習(xí)關(guān)鍵點(diǎn)S的shape,pose編碼器學(xué)習(xí)關(guān)鍵點(diǎn) D t D_t Dt?的pose,解碼器重構(gòu)關(guān)鍵點(diǎn)保留S的shape及 D t D_t Dt?的pose,訓(xùn)練過(guò)程中使用同一視頻兩幀,其中一幀關(guān)鍵點(diǎn)進(jìn)行隨機(jī)變換仿真另一個(gè)體的pose;
對(duì)于圖像動(dòng)畫(huà)而言,將S及 D t D_t Dt?的關(guān)鍵點(diǎn)送入shape及pose編碼器,經(jīng)過(guò)解碼器獲取重構(gòu)的關(guān)鍵點(diǎn),根據(jù)式6估計(jì)motion。

實(shí)驗(yàn)

評(píng)估指標(biāo)
L1表示驅(qū)動(dòng)圖與生成圖像素L1距離;
Average keypoint distance (AKD)表示生成圖與驅(qū)動(dòng)圖關(guān)鍵點(diǎn)距離;
Missing keypoint rate (MKR)表示驅(qū)動(dòng)圖中存在但是生成圖中不存在的關(guān)鍵點(diǎn)比率;
Average Euclidean distance (AED)表示使用reid模型提取生成圖與驅(qū)動(dòng)圖特征,比較兩者之間L2損失;
視頻重構(gòu)結(jié)果如表1;
TPS Motion(CVPR2022)視頻生成論文解讀
圖6展示圖像動(dòng)畫(huà)結(jié)果,在4個(gè)數(shù)據(jù)集上與MRAA比較,
TPS Motion(CVPR2022)視頻生成論文解讀
表2展示真實(shí)用戶(hù)在連續(xù)性及真實(shí)性上評(píng)價(jià);
TPS Motion(CVPR2022)視頻生成論文解讀
表4展示消融實(shí)驗(yàn)結(jié)果;
TPS Motion(CVPR2022)視頻生成論文解讀
表3比較不同K對(duì)結(jié)果影響,F(xiàn)OMM、MRAA使用K=5,10,20;本文方式用2,4,8;
TPS Motion(CVPR2022)視頻生成論文解讀

結(jié)論

作者提出的方無(wú)監(jiān)督圖像動(dòng)畫(huà)方法:
1、通過(guò)TPS估計(jì)光流,訓(xùn)練初期使用dropout,防止陷入局部最優(yōu);
2、多分辨率遮擋mask用于更有效特征融合;
3、設(shè)計(jì)額外輔助損失;
本文方法取得SOTA,但是當(dāng)源圖與驅(qū)動(dòng)圖人物身份極度不匹配時(shí),效果不理想;文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-409996.html

到了這里,關(guān)于TPS Motion(CVPR2022)視頻生成論文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • HumanNeRF(CVPR2022 oral)-人體重建論文閱讀

    HumanNeRF(CVPR2022 oral)-人體重建論文閱讀

    論文: 《HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video》 github: https://github.com/chungyiweng/humannerf 作者提出HumanNeRF,給出復(fù)雜動(dòng)作人體單視角視頻,暫停任一幀渲染出任意視角下該人體,甚至360度視角下該人體; HumanNeRF優(yōu)化了人在標(biāo)準(zhǔn)T姿勢(shì)下的表征,與運(yùn)動(dòng)場(chǎng)相一致,

    2024年02月15日
    瀏覽(641)
  • Latent Diffusion(CVPR2022 oral)-論文閱讀

    Latent Diffusion(CVPR2022 oral)-論文閱讀

    論文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 為了使得DM在有限計(jì)算資源下訓(xùn)練,同時(shí)保留其生成質(zhì)量及靈活性,作者將其應(yīng)用于預(yù)訓(xùn)練編解碼器的隱空間?;诒碚饔?xùn)練擴(kuò)散模型達(dá)到降低計(jì)算量及細(xì)節(jié)保留的最優(yōu)點(diǎn)。作者

    2024年02月11日
    瀏覽(95)
  • CVPR視頻理解論文

    CVPR視頻理解論文

    視頻理解、圖像/視頻字幕(Image/Video Caption) 時(shí)空Transformer+CLIP的對(duì)比學(xué)習(xí)思路 自監(jiān)督學(xué)習(xí),訓(xùn)練Masked AutoEncoder,為視頻人臉生成通用的面部編碼 In this paper, our goal is to learn universal and taskagnostic representations in a self-supervised manner for face-related downstream tasks

    2024年02月08日
    瀏覽(21)
  • 【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    發(fā)表時(shí)間:CVPR 2023 作者團(tuán)隊(duì):北航,美團(tuán),JD Explore 代碼鏈接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    瀏覽(26)
  • 【論文簡(jiǎn)述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    【論文簡(jiǎn)述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)

    1. 第一作者: Xiuchao Sui、Shaohua Li 2. 發(fā)表年份: 2021 3. 發(fā)表期刊: arxiv 4. : 光流、Transformer、自注意力、交叉注意力、相關(guān)體 5. 探索動(dòng)機(jī): 由于卷積的局部性和剛性權(quán)重,有限的上下文信息被納入到像素特征中,并且計(jì)算出的相關(guān)性具有很高的隨機(jī)性,以至于大多數(shù)

    2024年02月03日
    瀏覽(95)
  • SadTalker(CVPR2023)-音頻驅(qū)動(dòng)視頻生成

    SadTalker(CVPR2023)-音頻驅(qū)動(dòng)視頻生成

    論文: 《SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation》 github: https://github.com/Winfredy/SadTalker 演示效果: https://www.bilibili.com/video/BV1fX4y1675W 利用一張面部圖片及一段音頻讓其變?yōu)橐欢沃v話(huà)的視頻仍然存在許多挑戰(zhàn): 頭部運(yùn)動(dòng)不自然、

    2023年04月18日
    瀏覽(22)
  • CVPR 2023 | 視頻AIGC,預(yù)測(cè)/插幀/生成/編輯

    CVPR 2023 | 視頻AIGC,預(yù)測(cè)/插幀/生成/編輯

    視頻預(yù)測(cè)(video prediction)的性能已經(jīng)通過(guò)先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)大幅提高。然而,大多數(shù)當(dāng)前的方法存在著大的模型尺寸和需要額外的輸入(如,語(yǔ)義/深度圖)以實(shí)現(xiàn)良好的性能。出于效率考慮,本文提出了一個(gè)動(dòng)態(tài)多尺度體素流網(wǎng)絡(luò)(Dynamic Multi-scale Voxel Flow Network,DMVFN),

    2024年02月09日
    瀏覽(41)
  • 字節(jié)跳動(dòng)CVPR 2023論文精選來(lái)啦(內(nèi)含一批圖像生成新研究)

    字節(jié)跳動(dòng)CVPR 2023論文精選來(lái)啦(內(nèi)含一批圖像生成新研究)

    計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂會(huì)之一的 CVPR 今年已經(jīng)開(kāi)獎(jiǎng)啦。 今年的 CVPR 將于六月在加拿大溫哥華舉辦,和往年一樣,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)的同學(xué)們收獲了不少中選論文,覆蓋文本生成圖像、語(yǔ)義分割、目標(biāo)檢測(cè)、自監(jiān)督學(xué)習(xí)等多個(gè)領(lǐng)域,其中不少成果在所屬領(lǐng)域達(dá)到了 SOTA(當(dāng)前最

    2023年04月09日
    瀏覽(19)
  • CVPR 2023 | 用戶(hù)可控的條件圖像到視頻生成方法(基于Diffusion)

    CVPR 2023 | 用戶(hù)可控的條件圖像到視頻生成方法(基于Diffusion)

    注1:本文系“計(jì)算機(jī)視覺(jué)/三維重建論文速遞”系列之一,致力于簡(jiǎn)潔清晰完整地介紹、解讀計(jì)算機(jī)視覺(jué),特別是三維重建領(lǐng)域最新的頂會(huì)/頂刊論文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介紹的論文是: CVPR 2023 | 用戶(hù)可控的條件圖

    2024年02月13日
    瀏覽(16)
  • 論文閱讀: (CVPR2023 SDT )基于書(shū)寫(xiě)者風(fēng)格和字符風(fēng)格解耦的手寫(xiě)文字生成及源碼對(duì)應(yīng)

    論文閱讀: (CVPR2023 SDT )基于書(shū)寫(xiě)者風(fēng)格和字符風(fēng)格解耦的手寫(xiě)文字生成及源碼對(duì)應(yīng)

    引言 許久不認(rèn)真看論文了,這不趕緊撿起來(lái)。這也是自己看的第一篇用到Transformer結(jié)構(gòu)的CV論文。 之所以選擇這篇文章來(lái)看,是考慮到之前做過(guò)手寫(xiě)字體生成的項(xiàng)目。這個(gè)工作可以用來(lái)合成一些手寫(xiě)體數(shù)據(jù)集,用來(lái)輔助手寫(xiě)體識(shí)別模型的訓(xùn)練。 本篇文章將從論文與代碼一一對(duì)

    2024年02月12日
    瀏覽(96)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包