国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】

2年前作者：一直在努力的小寧分類(lèi)：Toy博客閱讀(14)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ICLR：International Conference on Learning Representations

CCF-A 國(guó)際表征學(xué)習(xí)大會(huì)：深度學(xué)習(xí)的頂級(jí)會(huì)議

生成對(duì)抗網(wǎng)絡(luò)(GANs)的最新進(jìn)展已經(jīng)證明了生成令人驚嘆的逼真肖像圖像的能力。雖然之前的一些工作已經(jīng)將這種圖像gan應(yīng)用于無(wú)條件的2D人像視頻生成和靜態(tài)的3D人像合成，但很少有工作成功地將gan擴(kuò)展到生成3D感知人像視頻。在這項(xiàng)工作中，我們提出了PV3D，這是第一個(gè)可以合成多視圖一致人像視頻的生成框架。具體來(lái)說(shuō)，我們的方法通過(guò)推廣3D隱式神經(jīng)表示來(lái)模擬時(shí)空空間，將最近的靜態(tài)3D感知圖像GAN擴(kuò)展到視頻領(lǐng)域。為了將運(yùn)動(dòng)動(dòng)力學(xué)引入到生成過(guò)程中，我們開(kāi)發(fā)了一個(gè)運(yùn)動(dòng)生成器，通過(guò)疊加多個(gè)運(yùn)動(dòng)層，通過(guò)調(diào)制卷積合成運(yùn)動(dòng)特征。為了減輕由攝像機(jī)/人體運(yùn)動(dòng)引起的運(yùn)動(dòng)歧義，我們提出了一種簡(jiǎn)單而有效的PV3D攝像機(jī)條件策略，實(shí)現(xiàn)了時(shí)間和多視圖一致的視頻生成。此外，PV3D引入了兩個(gè)判別器來(lái)正則化空間和時(shí)間域，以確保生成的人像視頻的可信性。這些精心設(shè)計(jì)使PV3D能夠生成具有高質(zhì)量外觀和幾何形狀的3d感知運(yùn)動(dòng)逼真的人像視頻，顯著優(yōu)于先前的作品。因此，PV3D能夠支持下游應(yīng)用程序，如靜態(tài)肖像動(dòng)畫(huà)和視圖一致的運(yùn)動(dòng)編輯。代碼和模型可在https://showlab.github.io/pv3d上獲得。

PV3D的github代碼和模型https://showlab.github.io/pv3d我們的目標(biāo)是：通過(guò)只學(xué)習(xí)2D單眼視頻來(lái)減輕創(chuàng)建高質(zhì)量3D感知人像視頻的工作量，而不需要任何3D或多視圖注釋

PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】,人臉3D,3d

最近3d感知肖像生成方法通過(guò)整合內(nèi)隱神經(jīng)表征INRs可以產(chǎn)生逼真的多視圖一致的結(jié)果，但是這些方法僅限于靜態(tài)人像生成，很難擴(kuò)展到人像視頻生成：

1)如何在生成框架中有效地建模三維動(dòng)態(tài)人體肖像仍然不清楚;

2)在沒(méi)有三維監(jiān)督的情況下學(xué)習(xí)動(dòng)態(tài)三維幾何是高度受限的;

3)相機(jī)運(yùn)動(dòng)和人類(lèi)運(yùn)動(dòng)/表情之間的糾纏給訓(xùn)練過(guò)程帶來(lái)了模糊性。

為此，本篇文章提出了一種3D人像視頻生成模型(PV3D)，這是第一種可以在純粹從單目2D視頻中學(xué)習(xí)的情況下生成具有多種動(dòng)作的高質(zhì)量3D人像視頻的方法。PV3D通過(guò)將3D三平面表示(Chan et al, 2022)擴(kuò)展到時(shí)空域來(lái)實(shí)現(xiàn)3D人像視頻建模。在本文中，我們綜合分析了各種設(shè)計(jì)選擇，得出了一套新穎的設(shè)計(jì)，包括將潛在代碼分解為外觀和運(yùn)動(dòng)組件，基于時(shí)間三平面的運(yùn)動(dòng)生成器，適當(dāng)?shù)臄z像機(jī)姿態(tài)序列調(diào)理和攝像機(jī)條件視頻鑒別器，可以顯著提高3D人像視頻生成的視頻保真度和幾何質(zhì)量。

?Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio
Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al. Efficient geometry-aware 3d
generative adversarial networks. In CVPR, 2022.

EG3D: Efficient Geometry-aware 3D Generative Adversarial Networkshttps://nvlabs.github.io/eg3d/

As shown in Figure 1, despite being trained from only monocular 2D videos, PV3D can generate a large variety of photo-realistic portrait videos under arbitrary viewpoints with diverse motions and high-quality 3D geometry. Comprehensive experiments on various datasets including VoxCeleb (Nagrani et al, 2017), CelebV-HQ (Zhu et al, 2022) and TalkingHead-1KH (Wang et al, 2021a) well demonstrate the superiority of PV3D over previous state-of-the-art methods, both qualitatively and quantitatively. Notably, it achieves 29.1 FVD on VoxCeleb, improving upon a concurrent work 3DVidGen (Bahmani et al, 2022) by 55.6%. PV3D can also generate high-quality 3D geometry, achieving the best multi-view identity similarity and warping error across all datasets.

Our contributions are three-fold. 1) To our best knowledge, PV3D is the first method that is capable to generate a large variety of 3D-aware portrait videos with high-quality appearance, motions, and geometry. 2) We propose a novel temporal tri-plane based video generation framework that can synthesize 3D-aware portrait videos by learning from 2D videos only. 3) We demonstrate state-ofthe-art 3D-aware portrait video generation on three datasets. Moreover, our PV3D supports several downstream applications, i.e., static image animation, monocular video reconstruction, and multiview consistent motion editing.

如圖1所示，盡管PV3D僅從單眼2D視頻進(jìn)行訓(xùn)練，但它可以在任意視點(diǎn)下生成大量具有多種運(yùn)動(dòng)和高質(zhì)量3D幾何形狀的逼真人像視頻。在各種數(shù)據(jù)集上的綜合實(shí)驗(yàn)，包括VoxCeleb (Nagrani等人，2017)，CelebV-HQ (Zhu等人，2022)和TalkingHead-1KH (Wang等人，2021a)，都很好地證明了PV3D在定性和定量上優(yōu)于以前最先進(jìn)的方法。值得注意的是，它在VoxCeleb上實(shí)現(xiàn)了29.1 FVD，比并發(fā)工作3DVidGen (Bahmani et al, 2022)提高了55.6%。PV3D還可以生成高質(zhì)量的3D幾何圖形，在所有數(shù)據(jù)集上實(shí)現(xiàn)最佳的多視圖識(shí)別相似性和翹曲誤差。

我們的貢獻(xiàn)有三方面。1)據(jù)我們所知，PV3D是第一種能夠生成各種具有高質(zhì)量外觀，運(yùn)動(dòng)和幾何形狀的3d感知人像視頻的方法。2)提出了一種新的基于時(shí)間三平面的視頻生成框架，該框架僅通過(guò)學(xué)習(xí)2D視頻即可合成3d感知人像視頻。3)我們?cè)谌齻€(gè)數(shù)據(jù)集上展示了最先進(jìn)的3d感知人像視頻生成。此外，我們的PV3D支持幾個(gè)下游應(yīng)用，即靜態(tài)圖像動(dòng)畫(huà)，單目視頻重建和多視圖一致的運(yùn)動(dòng)編輯。

DATASET PREPROCESSING

VoxCeleb (Nagrani et al, 2017; Chung et al, 2018) is an audio-visual speaker verification dataset containing interview videos for more than 7,000 speakers. It provides speaker labels for each video clip. For each speaker, we sample two video clips that have the highest video resolutions.

CelebV-HQ (Zhu et al, 2022) is a large-scale face video dataset that provides high-quality video clips involving 15,653 identities. Compared with VoxCeleb, it contains diverse lighting conditions.

TalkingHead-1KH (Wang et al, 2021a) consists of talking head videos extracted from 2,900 long video conferences.

VoxCeleb (Nagrani et al, 2017;Chung等人，2018)是一個(gè)視聽(tīng)演講者驗(yàn)證數(shù)據(jù)集，包含超過(guò)7000名演講者的采訪視頻。它為每個(gè)視頻剪輯提供揚(yáng)聲器標(biāo)簽。對(duì)于每個(gè)講話(huà)者，我們采樣兩個(gè)具有最高視頻分辨率的視頻剪輯。

CelebV-HQ (Zhu et al, 2022)是一個(gè)大規(guī)模的人臉視頻數(shù)據(jù)集，提供了涉及15,653個(gè)身份的高質(zhì)量視頻剪輯。與VoxCeleb相比，它包含了多樣化的照明條件。

TalkingHead-1KH (Wang et al .， 2021a)由從2900個(gè)長(zhǎng)視頻會(huì)議中提取的talking head視頻組成。

EVALUATION METRICS

FVD: Frechet Video Distance 視頻距離

ID: Multi-view Identity Consistency 多視圖身份一致性

CD: Chamfer Distance 倒角距離?使用正面和側(cè)面點(diǎn)云之間的倒角距離來(lái)測(cè)量3D幾何的多視圖一致性

WE：?Multi-view Image Warping Errors? 多視圖圖像扭曲錯(cuò)誤

PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】,人臉3D,3d

我們的PV3D有幾個(gè)限制:

1)PV3D是在最多包含48幀的視頻剪輯上訓(xùn)練和測(cè)試的。該模型對(duì)長(zhǎng)期(分鐘級(jí))動(dòng)態(tài)建模的能力尚不清楚。

2) 2D視頻數(shù)據(jù)集質(zhì)量無(wú)法與FFHQ、CelebA等圖像數(shù)據(jù)集相比。我們的模型具有靈活的架構(gòu)，可以支持圖像數(shù)據(jù)集的預(yù)訓(xùn)練或聯(lián)合訓(xùn)練，然而這種增強(qiáng)策略尚未被探索，盡管它很有前途和意義。對(duì)于未來(lái)的工作，我們將探索用更適合3D視頻生成的新型3D表示建模長(zhǎng)期動(dòng)態(tài)，并利用高質(zhì)量的圖像數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-703381.html

到了這里，關(guān)于PV3D: A 3D GENERATIVE MODEL FOR PORTRAITVIDEO GENERATION 【2023 ICLR】的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis
Abstract 雖然二維生成對(duì)抗網(wǎng)絡(luò)能夠?qū)崿F(xiàn)高分辨率的圖像合成，但它們?cè)诤艽蟪潭壬?缺乏對(duì)三維世界和圖像形成過(guò)程的理解。因此，它們不能提供對(duì)相機(jī)視點(diǎn)或物體姿態(tài)的精確控制。為了解決這個(gè)問(wèn)題，最近的幾種方法利用基于中間體素的表示與可微渲染相結(jié)合。然
2023年04月17日
瀏覽(15)
106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation
?很多工作在擴(kuò)散先驗(yàn)中注入跨視圖一致性，但仍然缺乏細(xì)粒度的視圖一致性。論文提出的文本到3d的方法有效地減輕了漂浮物(由于密度過(guò)大)和完全空白空間(由于密度不足)的產(chǎn)生。 ?簡(jiǎn)單而言，論文工作是 Dreamfusion+Zero123 。 ?使用兩種不同的分?jǐn)?shù)蒸餾進(jìn)行監(jiān)督:文本條件下
2024年01月17日
瀏覽(26)
論文簡(jiǎn)讀《3D Equivariant Diffusion For Target-Aware Molecule Generation and Affinity Prediction》
Targetdiff ICLR 2023 *一個(gè)端到端的框架，用于在蛋白靶點(diǎn)條件下生成分子，該框架明確考慮了蛋白質(zhì)和分子在三維空間中的物理相互作用。 *就我們所知，這是針對(duì)靶向藥物設(shè)計(jì)的第一個(gè)概率擴(kuò)散公式，其中訓(xùn)練和采樣過(guò)程以非自回歸和SE(3)-等變的方式對(duì)齊，這得益于移位中心操
2024年04月28日
瀏覽(22)
84、Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
論文：https://arxiv.org/abs/2211.07600 dream fusion開(kāi)創(chuàng)了2d擴(kuò)散模型引導(dǎo)nerf生成的先河，但是其使用的是stable diffusion，龐大的資源開(kāi)銷(xiāo)是不可忽視的一個(gè)問(wèn)題，該論文則是基于潛空間的diffusion模型（IDM），有效提升了效率，同時(shí)還提出了兩個(gè)新的生成方式——Sketch-shape，Latent-Paint *
2024年02月06日
瀏覽(24)
【論文解讀】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
我們提出了一種新的高性能3D對(duì)象檢測(cè)框架，稱(chēng)為PointVoxel RCNN（PV-RCNN），用于從點(diǎn)云中精確檢測(cè)3D對(duì)象。我們提出的方法深度集成了三維體素卷積神經(jīng)網(wǎng)絡(luò)（CNN）和基于PointNet的集合抽象，以學(xué)習(xí)更具判別力的點(diǎn)云特征。它利用了3D體素CNN的高效學(xué)習(xí)和高質(zhì)量建議以及基于Poi
2024年01月23日
瀏覽(47)
Ring Co-XOR encryption based reversible data hiding for 3D mesh model
期刊：Signal Processing 作者：Lingfeng Qu et al. -- 加密域可逆數(shù)據(jù)隱藏被廣泛應(yīng)用于云存儲(chǔ)數(shù)字媒體的內(nèi)容安全、隱私保護(hù)和便捷管理。然而，RDH-ED技術(shù)在三維網(wǎng)格模型載體中的應(yīng)用研究仍處于起步階段。為解決現(xiàn)有針對(duì)三維網(wǎng)格模型的RDH-ED算法需要像第三方傳輸輔助信息，嵌入容
2024年02月04日
瀏覽(17)
【論文筆記】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection
原文鏈接：https://arxiv.org/abs/2307.02270 ??目前的從單目相機(jī)生成偽傳感器表達(dá)的方法依賴(lài)預(yù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)。這些方法需要深度標(biāo)簽來(lái)訓(xùn)練深度估計(jì)網(wǎng)絡(luò)，且偽立體方法通過(guò)圖像正向變形合成立體圖像，會(huì)導(dǎo)致遮擋區(qū)域的像素偽影、扭曲、孔洞。此外，特征級(jí)別的偽立體
2024年02月08日
瀏覽(22)
generative-model [ From GAN to WGAN ]
目錄 Kullback–Leibler and Jensen–Shannon Divergence Generative Adversarial Network (GAN) What is the optimal value for D? What is the global optimal? What does the loss function represent? Problems in GANs Hard to achieve Nash equilibrium Low dimensional supports Vanishing gradient Mode collapse Lack of a proper evaluation metric Improved GAN Training
2024年02月10日
瀏覽(26)
論文解讀《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》無(wú)需位姿標(biāo)注的model-free 6D位姿估計(jì)
論文：《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》摘要：解決問(wèn)題：標(biāo)注困難且沒(méi)有CAD模型。開(kāi)發(fā)了一種基于關(guān)鍵點(diǎn)的6D對(duì)象姿態(tài)檢測(cè)方法，Object Keypoint based POSe Estimation (OK-POSE)。通過(guò)使用大量具有多視點(diǎn)之間的相對(duì)變換信息的圖像對(duì)（相對(duì)變換信息可以很容
2024年02月04日
瀏覽(19)
Diffusion Model (擴(kuò)散生成模型)的基本原理詳解(二）Score-Based Generative Modeling(SGM)
本篇是《Diffusion Model (擴(kuò)散生成模型)的基本原理詳解(一）Denoising Diffusion Probabilistic Models(DDPM)》的續(xù)寫(xiě)，繼續(xù)介紹有關(guān)diffusion的另一個(gè)相關(guān)模型，同理，參考文獻(xiàn)和詳細(xì)內(nèi)容與上一篇相同，讀者可自行查閱，本篇著重介紹Score-Based Generative Modeling(SGM)的部分，本篇的理論部分參
2024年02月09日
瀏覽(22)