ICLR:International Conference on Learning Representations
CCF-A 國(guó)際表征學(xué)習(xí)大會(huì):深度學(xué)習(xí)的頂級(jí)會(huì)議
生成對(duì)抗網(wǎng)絡(luò)(GANs)的最新進(jìn)展已經(jīng)證明了生成令人驚嘆的逼真肖像圖像的能力。雖然之前的一些工作已經(jīng)將這種圖像gan應(yīng)用于無(wú)條件的2D人像視頻生成和靜態(tài)的3D人像合成,但很少有工作成功地將gan擴(kuò)展到生成3D感知人像視頻。在這項(xiàng)工作中,我們提出了PV3D,這是第一個(gè)可以合成多視圖一致人像視頻的生成框架。具體來(lái)說(shuō),我們的方法通過(guò)推廣3D隱式神經(jīng)表示來(lái)模擬時(shí)空空間,將最近的靜態(tài)3D感知圖像GAN擴(kuò)展到視頻領(lǐng)域。為了將運(yùn)動(dòng)動(dòng)力學(xué)引入到生成過(guò)程中,我們開(kāi)發(fā)了一個(gè)運(yùn)動(dòng)生成器,通過(guò)疊加多個(gè)運(yùn)動(dòng)層,通過(guò)調(diào)制卷積合成運(yùn)動(dòng)特征。為了減輕由攝像機(jī)/人體運(yùn)動(dòng)引起的運(yùn)動(dòng)歧義,我們提出了一種簡(jiǎn)單而有效的PV3D攝像機(jī)條件策略,實(shí)現(xiàn)了時(shí)間和多視圖一致的視頻生成。此外,PV3D引入了兩個(gè)判別器來(lái)正則化空間和時(shí)間域,以確保生成的人像視頻的可信性。這些精心設(shè)計(jì)使PV3D能夠生成具有高質(zhì)量外觀和幾何形狀的3d感知運(yùn)動(dòng)逼真的人像視頻,顯著優(yōu)于先前的作品。因此,PV3D能夠支持下游應(yīng)用程序,如靜態(tài)肖像動(dòng)畫(huà)和視圖一致的運(yùn)動(dòng)編輯。代碼和模型可在https://showlab.github.io/pv3d上獲得。
PV3D的github代碼和模型https://showlab.github.io/pv3d我們的目標(biāo)是:通過(guò)只學(xué)習(xí)2D單眼視頻來(lái)減輕創(chuàng)建高質(zhì)量3D感知人像視頻的工作量,而不需要任何3D或多視圖注釋
最近3d感知肖像生成方法通過(guò)整合內(nèi)隱神經(jīng)表征INRs可以產(chǎn)生逼真的多視圖一致的結(jié)果,但是這些方法僅限于靜態(tài)人像生成,很難擴(kuò)展到人像視頻生成:
1)如何在生成框架中有效地建模三維動(dòng)態(tài)人體肖像仍然不清楚;
2)在沒(méi)有三維監(jiān)督的情況下學(xué)習(xí)動(dòng)態(tài)三維幾何是高度受限的;
3)相機(jī)運(yùn)動(dòng)和人類(lèi)運(yùn)動(dòng)/表情之間的糾纏給訓(xùn)練過(guò)程帶來(lái)了模糊性。
為此,本篇文章提出了一種3D人像視頻生成模型(PV3D),這是第一種可以在純粹從單目2D視頻中學(xué)習(xí)的情況下生成具有多種動(dòng)作的高質(zhì)量3D人像視頻的方法。PV3D通過(guò)將3D三平面表示(Chan et al, 2022)擴(kuò)展到時(shí)空域來(lái)實(shí)現(xiàn)3D人像視頻建模。在本文中,我們綜合分析了各種設(shè)計(jì)選擇,得出了一套新穎的設(shè)計(jì),包括將潛在代碼分解為外觀和運(yùn)動(dòng)組件,基于時(shí)間三平面的運(yùn)動(dòng)生成器,適當(dāng)?shù)臄z像機(jī)姿態(tài)序列調(diào)理和攝像機(jī)條件視頻鑒別器,可以顯著提高3D人像視頻生成的視頻保真度和幾何質(zhì)量。
?Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio
Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al. Efficient geometry-aware 3d
generative adversarial networks. In CVPR, 2022.
EG3D: Efficient Geometry-aware 3D Generative Adversarial Networkshttps://nvlabs.github.io/eg3d/
As shown in Figure 1, despite being trained from only monocular 2D videos, PV3D can generate a large variety of photo-realistic portrait videos under arbitrary viewpoints with diverse motions and high-quality 3D geometry. Comprehensive experiments on various datasets including VoxCeleb (Nagrani et al, 2017), CelebV-HQ (Zhu et al, 2022) and TalkingHead-1KH (Wang et al, 2021a) well demonstrate the superiority of PV3D over previous state-of-the-art methods, both qualitatively and quantitatively. Notably, it achieves 29.1 FVD on VoxCeleb, improving upon a concurrent work 3DVidGen (Bahmani et al, 2022) by 55.6%. PV3D can also generate high-quality 3D geometry, achieving the best multi-view identity similarity and warping error across all datasets.
Our contributions are three-fold. 1) To our best knowledge, PV3D is the first method that is capable to generate a large variety of 3D-aware portrait videos with high-quality appearance, motions, and geometry. 2) We propose a novel temporal tri-plane based video generation framework that can synthesize 3D-aware portrait videos by learning from 2D videos only. 3) We demonstrate state-ofthe-art 3D-aware portrait video generation on three datasets. Moreover, our PV3D supports several downstream applications, i.e., static image animation, monocular video reconstruction, and multiview consistent motion editing.
如圖1所示,盡管PV3D僅從單眼2D視頻進(jìn)行訓(xùn)練,但它可以在任意視點(diǎn)下生成大量具有多種運(yùn)動(dòng)和高質(zhì)量3D幾何形狀的逼真人像視頻。在各種數(shù)據(jù)集上的綜合實(shí)驗(yàn),包括VoxCeleb (Nagrani等人,2017),CelebV-HQ (Zhu等人,2022)和TalkingHead-1KH (Wang等人,2021a),都很好地證明了PV3D在定性和定量上優(yōu)于以前最先進(jìn)的方法。值得注意的是,它在VoxCeleb上實(shí)現(xiàn)了29.1 FVD,比并發(fā)工作3DVidGen (Bahmani et al, 2022)提高了55.6%。PV3D還可以生成高質(zhì)量的3D幾何圖形,在所有數(shù)據(jù)集上實(shí)現(xiàn)最佳的多視圖識(shí)別相似性和翹曲誤差。
我們的貢獻(xiàn)有三方面。1)據(jù)我們所知,PV3D是第一種能夠生成各種具有高質(zhì)量外觀,運(yùn)動(dòng)和幾何形狀的3d感知人像視頻的方法。2)提出了一種新的基于時(shí)間三平面的視頻生成框架,該框架僅通過(guò)學(xué)習(xí)2D視頻即可合成3d感知人像視頻。3)我們?cè)谌齻€(gè)數(shù)據(jù)集上展示了最先進(jìn)的3d感知人像視頻生成。此外,我們的PV3D支持幾個(gè)下游應(yīng)用,即靜態(tài)圖像動(dòng)畫(huà),單目視頻重建和多視圖一致的運(yùn)動(dòng)編輯。
DATASET PREPROCESSING
VoxCeleb (Nagrani et al, 2017; Chung et al, 2018) is an audio-visual speaker verification dataset containing interview videos for more than 7,000 speakers. It provides speaker labels for each video clip. For each speaker, we sample two video clips that have the highest video resolutions.
CelebV-HQ (Zhu et al, 2022) is a large-scale face video dataset that provides high-quality video clips involving 15,653 identities. Compared with VoxCeleb, it contains diverse lighting conditions.
TalkingHead-1KH (Wang et al, 2021a) consists of talking head videos extracted from 2,900 long video conferences.
VoxCeleb (Nagrani et al, 2017;Chung等人,2018)是一個(gè)視聽(tīng)演講者驗(yàn)證數(shù)據(jù)集,包含超過(guò)7000名演講者的采訪視頻。它為每個(gè)視頻剪輯提供揚(yáng)聲器標(biāo)簽。對(duì)于每個(gè)講話(huà)者,我們采樣兩個(gè)具有最高視頻分辨率的視頻剪輯。
CelebV-HQ (Zhu et al, 2022)是一個(gè)大規(guī)模的人臉視頻數(shù)據(jù)集,提供了涉及15,653個(gè)身份的高質(zhì)量視頻剪輯。與VoxCeleb相比,它包含了多樣化的照明條件。
TalkingHead-1KH (Wang et al ., 2021a)由從2900個(gè)長(zhǎng)視頻會(huì)議中提取的talking head視頻組成。
EVALUATION METRICS
FVD: Frechet Video Distance 視頻距離
ID: Multi-view Identity Consistency 多視圖身份一致性
CD: Chamfer Distance 倒角距離?使用正面和側(cè)面點(diǎn)云之間的倒角距離來(lái)測(cè)量3D幾何的多視圖一致性
WE:?Multi-view Image Warping Errors? 多視圖圖像扭曲錯(cuò)誤
我們的PV3D有幾個(gè)限制:
1)PV3D是在最多包含48幀的視頻剪輯上訓(xùn)練和測(cè)試的。該模型對(duì)長(zhǎng)期(分鐘級(jí))動(dòng)態(tài)建模的能力尚不清楚。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-703381.html
2) 2D視頻數(shù)據(jù)集質(zhì)量無(wú)法與FFHQ、CelebA等圖像數(shù)據(jù)集相比。我們的模型具有靈活的架構(gòu),可以支持圖像數(shù)據(jù)集的預(yù)訓(xùn)練或聯(lián)合訓(xùn)練,然而這種增強(qiáng)策略尚未被探索,盡管它很有前途和意義。對(duì)于未來(lái)的工作,我們將探索用更適合3D視頻生成的新型3D表示建模長(zhǎng)期動(dòng)態(tài),并利用高質(zhì)量的圖像數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-703381.html
到了這里,關(guān)于PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!