国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 筆記

這篇具有很好參考價值的文章主要介紹了Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 筆記

摘要

Talking head synthesis is an emerging technology with wide applications in film dubbing, virtual avatars and online education. Recent NeRF-based methods generate more natural talking videos, as they better capture the 3D structural information of faces. However, a specific model needs to be trained for each identity with a large dataset. In this paper, we propose Dynamic Facial Radiance Fields (DFRF) for few-shot talking head synthesis, which can rapidly generalize to an unseen identity with few training data. Different from the existing NeRF-based methods which directly encode the 3D geometry and appearance of a specific person into the network, our DFRF conditions face radiance field on 2D appearance images to learn the face prior. Thus the facial radiance field can be flexibly adjusted to the new identity with few reference images. Additionally, for better modeling of the facial deformations, we propose a differentiable face warping module conditioned on audio signals to deform all reference images to the query space. Extensive experiments show that with only tens of seconds of training clip available, our proposed DFRF can synthesize natural and high-quality audio-driven talking head videos for novel identities with only 40k iterations. We highly recommend readers view our supplementary video for intuitive comparisons. Code is available in https://sstzal.github.io/DFRF/.

會說話的頭像合成是一項新興的技術,在電影配音、虛擬化身和在線教育等領域有著廣泛的應用。最近的基于NeRF的方法生成更自然的談話視頻,因為它們更好地捕獲面部的3D結構信息。然而,需要針對具有大型數(shù)據(jù)集的每個身份訓練特定模型。在本文中,我們提出了動態(tài)面部輻射場(DFRF)的幾個鏡頭說話的頭部合成,它可以快速推廣到一個看不見的身份與少量的訓練數(shù)據(jù)。與現(xiàn)有的直接將特定人的3D幾何形狀和外觀編碼到網(wǎng)絡中的基于NeRF的方法不同,我們的DFRF條件在2D外觀圖像上的人臉輻射場來學習人臉先驗。因此,面部輻射場可以靈活地調(diào)整到新的身份與幾個參考圖像。此外,為了更好地建模的面部變形,我們提出了一個可微的面部變形模塊的音頻信號變形的查詢空間的所有參考圖像。大量的實驗表明,只有幾十秒的訓練剪輯可用,我們提出的DFRF可以合成自然和高質(zhì)量的音頻驅(qū)動的說話頭部視頻的新身份,只有40k迭代。我們強烈建議讀者查看我們的補充視頻,以進行直觀的比較。代碼可在www.example.com上獲得https://sstzal.github.io/DFRF/。

GitHub:https://github.com/sstzal/DFRF

知識點

框架

learning dynamic facial radiance fields for few-shot talking head synthesis,NeRF,Paper,筆記,Nerf,人工智能,數(shù)字人,3D重建

Overview of the proposed Dynamic Facial Radiance Fields (DFRF)所提出的動態(tài)面部輻射場(DFRF)的概述。

使用預訓練的基于RNN的DeepSpeech模塊來提取每幀音頻特征。對于幀間一致性,進一步引入時間濾波模塊[39]以計算平滑音頻流圖像流投影基于注意力的特征融合音頻特征A,其可以表示為其相鄰音頻特征的基于自注意力的融合。以這些音頻特征序列A為條件,我們可以學習音頻-嘴唇映射。該音頻驅(qū)動的面部輻射場可以表示為 ( c , σ ) = F θ ( p , d , A ) \quad(c,\sigma)=\mathcal{F}_{\theta}\left(p,d,A\right) (c,σ)=Fθ?(p,d,A)。

由于身份信息被隱式編碼到面部輻射場中,并且在渲染時不提供顯式身份特征,因此該面部輻射場是人特定的。對于每個新身份,都需要在大型數(shù)據(jù)集上從頭開始優(yōu)化。這導致昂貴的計算成本并且需要長的訓練視頻。為了擺脫這些限制,我們設計了一個參考機制,使訓練有素的基礎模型能夠快速泛化到新的人員類別,只有一小段目標人員可用。圖2中示出了這種基于參考的架構的概述。具體地,取N個參考圖像 M = { M n ∈ R H × W ∣ 1 ≤ n ≤ N } M=\left\{M_n\in\mathbb{R}^{H\times W}\text{}|1\leq n\leq N\right\} M={Mn?RH×W∣1nN}及其對應的攝像機位置 { T n } \{T_n\} {Tn?}作為輸入,用一個兩層卷積網(wǎng)絡計算其像素對齊的圖像特征 F = { F n ∈ R H × W × D ∣ 1 ≤ n ≤ N } F=\left\{F_n\in\mathbb{R}^{H\times W\times D}|1\leq n\leq N\right\} F={Fn?RH×W×D∣1nN},無下采樣。在本工作中,特征尺寸D被設置為128,并且H、W分別表示圖像的高度和寬度。多個參考圖像的使用提供了更好的多視圖信息。對于一個3D查詢點 p = ( x , y , z ) ∈ P p=\left(x,y,z\right)\in\mathcal{P} p=(x,y,z)P,我們使用本征函數(shù) { K n } \{K_n\} {Kn?}和相機姿態(tài) { R n , T n } \{R_n,T_n\} {Rn?,Tn?}將其投影回這些參考的2D圖像空間,并得到相應的2D坐標。使用 p n r e f = ( u n , v n ) \begin{matrix}p_n^{ref}=(u_n,v_n)\end{matrix} pnref?=(un?,vn?)?來表示第n幅參考圖像中的2D坐標,該投影可以被公式化為:
p n r e f = M ( p , K n , R n , T n ) , (1) p_n^{ref}=\mathcal{M}(p,K_n,R_n,T_n),\tag1 pnref?=M(p,Kn?,Rn?,Tn?),(1)

其中 M \text{}\mathcal{M} M是從世界空間到圖像空間的傳統(tǒng)映射。然后,在舍入操作之后對來自N個參考的這些對應的像素級特征 { F n ( u n , v n ) } ∈ R N × D {\{F_n}(u_n,v_n)\}\in{\mathbb{R}^{N\times D}} {Fn?(un?,vn?)}RN×D進行采樣,并與基于注意力的模塊融合,以獲得最終特征 F ~ = A g g r e g a t i o n ( { F n ( u n , v n ) } ) ∈ R D \tilde{F}=A g g r e g a t i o n(\{F_{n}(u_{n},v_{n})\})\in\mathbb{R}^{D} F~=Aggregation({Fn?(un?,vn?)})RD。這些要素網(wǎng)格包含有關身份和外觀的豐富信息。使用它們作為我們的面部輻射場的附加條件,使得模型可以從幾個觀察到的幀快速概括為新的面部外觀。該雙驅(qū)動面部輻射場最終可以被公式化為:
( c , σ ) = F θ ( p , d , A , F ~ ) . (2) (c,\sigma)=\mathcal F_\theta\left(p,d,A,\tilde F\right).\tag2 (c,σ)=Fθ?(p,d,A,F~).(2)

可微分面變形

我們將查詢3D點投影回這些參考圖像的2D圖像空間,如等式(1)所示。(1)以得到經(jīng)調(diào)節(jié)的像素特征。該操作基于NeRF中的先驗知識,即從不同視點投射的相交光線應對應于相同的物理位置,從而產(chǎn)生相同的顏色。這種嚴格的空間映射關系適用于剛性場景,但說話的臉是動態(tài)的。說話時,嘴唇和其他面部肌肉會根據(jù)發(fā)音而運動。應用等式(1)直接在可變形的說話面部上可能導致關鍵點不匹配。例如,標準體積空間中的嘴角附近的3D點被映射回參考圖像的像素空間。如果參考面示出不同的嘴部形狀,則映射點可能遠離期望的真實的嘴角。這種不準確的映射導致來自參考圖像的不正確的像素特征條件,這進一步影響對說話嘴的變形的預測。

為了解決這個限制,我們建議一個audio-conditioned和3D逐點面變形模塊 D η \mathcal{D}_{\eta} Dη?。退化抵消 Δ o = ( Δ u , Δ v ) \Delta o=(\Delta u,\Delta v) Δo=(Δu,Δv)為每個投影點”在特定的變形,就像圖像流圖2所示。具體來說, D η \mathcal{D}_{\eta} Dη?實現(xiàn)變形場與中長期規(guī)劃三層,其中 η \eta η是可學的參數(shù)?;貧w抵消 Δ o \Delta o Δo,動態(tài)查詢圖像和參考圖像之間的差異需要有效地利用。查詢的音頻信息反映了動態(tài)圖像,而變形的參考圖片可以看到通過 { F n } \{F_n\} {Fn?}隱式的圖像特征。因此,我們將這兩個部分與查詢3D點坐標P-起作為 D η \mathcal{D}_{\eta} Dη?的輸入。面變形的過程來預測補償模塊 D η \mathcal{D}_{\eta} Dη?可以制定為:
Δ o n = D η ( p , A , F n ( u n , v n ) ) . (3) \Delta o_n=\mathcal{D}_\eta(p,A,F_n(u_n,v_n)).\tag3 Δon?=Dη?(p,A,Fn?(un?,vn?)).(3)
然后,如圖3所示,將預測的偏移 o n o_n on?添加到 p n r e f p^{ref}_n pnref?,如圖3所示,以得到如圖3所示的精確對應坐標 p n r e f ‘ p^{ref^{`}}_n pnref?,以得到3D查詢點 p p p,
p n r e f = p n r e f + Δ o n = ( u n ′ , v n ′ ) , ( where?? u n ′ = u n + Δ u n ?? a n d ?? v n ′ = v n + Δ v n . ) (4) p_n^{ref}=p_n^{ref}+\Delta o_n=(u_n',v_n'),(\text{where}\ \ u'_n=u_n+\varDelta u_n\mathrm{\ \ and\ \ }v'_n=v_n+\varDelta v_n.)\tag4 pnref?=pnref?+Δon?=(un?,vn?),(where??un?=un?+Δun???and??vn?=vn?+Δvn?.)(4)
由于硬索引操作 F n ( u n ′ , v n ′ ) F_{n}({u_{n}}^{\prime},{v_{n}}^{\prime}) Fn?(un?,vn?)不可微,因此梯度不能被反向傳播到該扭曲模塊。因此,我們引入了一個軟指標函數(shù)來實現(xiàn)可微翹曲,其中每個像素的特征是通過雙線性采樣的特征插值其周圍的點。以這種方式,可以端到端地聯(lián)合優(yōu)化變形場 D η \mathcal{D}_{\eta} Dη?和面部輻射場 F θ \mathcal{F}_{\theta} Fθ?。該軟索引操作的可視化在圖3中示出。對于綠點,其像素特征通過其四個最近鄰居的特征通過雙線性插值來計算。為了更好地約束該扭曲模塊的訓練過程,我們引入正則化項 L r L_r Lr?以將預測偏移的值限制在合理的范圍內(nèi)以防止失真。
L r = 1 N ? ∣ P ∣ ∑ p ∈ P ∑ n = 1 N Δ u n 2 + Δ v n 2 , (5) L_r=\dfrac{1}{N\cdot|\mathcal{P}|}\sum\limits_{p\in\mathcal{P}}\sum\limits_{n=1}^N\sqrt{\Delta u_n^2+\Delta v_n^2},\tag5 Lr?=N?P1?pP?n=1N?Δun2?+Δvn2? ?,(5)

其中 P \mathcal{P} P是體素空間中所有3D點的集合, N N N是參考圖像的數(shù)量。此外,我們認為,低密度的點更有可能是背景區(qū)域,應該有低變形偏移。在這些區(qū)域中,應施加更強的正則化約束。為了更合理的約束,我們將上述 L r L_r Lr?改變?yōu)椋?/p>

L r ′ = ( 1 ? σ ) ? L r , (6) L_r{'}=(1-\sigma)\cdot L_r,\tag6 Lr?=(1?σ)?Lr?,(6)
其中 σ \sigma σ表示這些點的密度。動態(tài)面部輻射場最終可以被公式化為:
( c , σ ) = F θ ( p , d , A , F ~ ′ ) , (7) (c,\sigma)=\mathcal F_\theta\left(p,d,A,\tilde F'\right),\tag7 (c,σ)=Fθ?(p,d,A,F~),(7)
其中 F ~ = A g g r e g a t i o n ( { F n ( u n ′ , v n ′ ) } ) \tilde{F}=A g g r e g a t i o n(\{F_{n}(u'_{n},v'_{n})\}) F~=Aggregation({Fn?(un?,vn?)})。

利用該面部變形模塊,可以將所有參考圖像變換到查詢空間,以更好地對說話面部變形進行建模。消融研究已經(jīng)證明了該組件在產(chǎn)生更準確和音頻同步的嘴部運動方面的有效性。

learning dynamic facial radiance fields for few-shot talking head synthesis,NeRF,Paper,筆記,Nerf,人工智能,數(shù)字人,3D重建

可微分面翹曲的可視化(Visualization of the differentiable face warping.)。查詢3D點(紫色)被投影到參考圖像空間(紅色)。然后,學習偏移Δ o以將其扭曲到查詢空間(綠色),其中其特征通過雙線性插值來計算。

體渲染

體繪制用于對來自等式(7)的顏色c和密度σ進行積分轉化成人臉圖像。我們將背景、軀干和頸部部分一起作為渲染“背景”,并從原始視頻中逐幀恢復。我們將每條射線的最后一個點的顏色設置為相應的背景像素,以渲染包括軀干部分的自然背景。這里,我們按照原始NeRF中的設置,在音頻信號A和圖像特征 F ′ ~ \tilde{F^{\prime}} F~的條件下,相機光線 r r r的累積顏色 C C C為:
C ( r ; θ , η , R , T , A , F ~ ′ ) = ∫ z n e a r z f a r σ ( t ) ? c ( t ) ? T ( t ) d t , (8) C\left(r;\theta,\eta,R,T,A,\tilde{F}'\right)=\int_{z_{near}}^{z_{far}}\sigma\left(t\right)\cdot c(t)\cdot T\left(t\right)dt,\tag8 C(r;θ,η,R,T,A,F~)=znear?zfar??σ(t)?c(t)?T(t)dt,(8)
其中 θ \theta θ η \eta η分別是面部輻射場 F θ \mathcal F_{\theta} Fθ?和面部扭曲模塊 D η \mathcal{D}_{\eta} Dη?的可學習參數(shù)。 R R R是旋轉矩陣, T T T是平移向量。 T ( t ) = e x p ( ? ∫ z n e a r t σ ( r ( s ) ) d s ) T\left(t\right)=e x p\left(-\int_{z_{n e a r}}^{t}\sigma\left(r\left(s\right)\right)d s\right) T(t)=exp(?znear?t?σ(r(s))ds)是沿著相機光線的積分透射率,其中 z n e a r z_{near} znear? z f a r z_{far} zfar?是相機光線的近邊界和遠邊界。我們按照NeRF設計MSE損失為 L M S E = ∥ C ? I ∥ 2 L_{MSE} =\left\|C-I\right\|^{2} LMSE?=C?I2,其中I是地面真值顏色。與方程中的正則化項耦合。(6),總損失函數(shù)可以公式化為:

L = L M S E + λ ? L r ′ . (9) L=L_{MSE}+\lambda\cdot L_r{'}.\tag9 L=LMSE?+λ?Lr?.(9)

效果

learning dynamic facial radiance fields for few-shot talking head synthesis,NeRF,Paper,筆記,Nerf,人工智能,數(shù)字人,3D重建
learning dynamic facial radiance fields for few-shot talking head synthesis,NeRF,Paper,筆記,Nerf,人工智能,數(shù)字人,3D重建文章來源地址http://www.zghlxwxcb.cn/news/detail-828100.html

到了這里,關于Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文鏈接:https://arxiv.org/pdf/2102.11165.pdf ? 目錄 摘要: 引言 問題定義 方法 Graph Deviation Networks Cross-network Meta-learning ????????網(wǎng)絡異常檢測旨在找到與絕大多數(shù)行為顯著不同的網(wǎng)絡元素(例如節(jié)點、邊、子圖)。它對從金融、醫(yī)療保健到社交網(wǎng)絡分析等各種應用產(chǎn)生了深遠

    2024年02月14日
    瀏覽(23)
  • 論文筆記|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    論文筆記|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    論文地址:https://arxiv.org/pdf/2303.14123.pdf 這是一篇2023年發(fā)表在CVPR上的論文,論文題目是Semantic Prompt for Few-Shot Image Recognitio,即用于小樣本圖像識別的語義提示。 第一,最近幾項研究利用 語義信息 來進行小樣本學習的研究。 一方面因為通過少量樣本去識別新類別很難,就想使

    2024年02月04日
    瀏覽(30)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    域偏移是臨床應用中的常見問題,其中訓練圖像(源域)和測試圖像(目標域)處于不同的分布下。已經(jīng)提出了無監(jiān)督域適應 (UDA) 技術,以使在源域中訓練的模型適應目標域。但是,這些方法需要來自目標域的大量圖像進行模型訓練。 本文提出了一種新的少樣本無監(jiān)督域

    2024年04月28日
    瀏覽(39)
  • 論文筆記|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    論文筆記|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    這篇論文的題目是 用于小樣本Transformers的監(jiān)督遮掩知識蒸餾 論文接收: CVPR 2023 論文地址: https://arxiv.org/pdf/2303.15466.pdf 代碼鏈接: https://github.com/HL-hanlin/SMKD 1.ViT在小樣本學習(只有少量標記數(shù)據(jù)的小型數(shù)據(jù)集)中往往會 過擬合,并且由于缺乏 歸納偏置 而導致性能較差;

    2024年02月06日
    瀏覽(26)
  • 論文精讀:用于少樣本圖像識別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

    論文精讀:用于少樣本圖像識別的語義提示(Semantic Prompt for Few-Shot Image Recognition)

    原論文于2023.11.6撤稿,原因:缺乏合法的授權 ,詳見此處 在小樣本學習中(Few-shot Learning, FSL)中,有通過利用額外的語義信息,如類名的文本Embedding,通過將語義原型與視覺原型相結合來解決樣本稀少的問題。但這種方法可能會遇到稀有樣本中學到噪聲特征導致收益有限。

    2024年02月08日
    瀏覽(22)
  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

    本文是LLM系列文章,針對《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻譯。 基于知識的視覺問答(VQA)涉及回答需要圖像中不存在的外部知識的問題?,F(xiàn)有的方法首先從外部資源中檢索知識,然后對所選知識、輸入圖像和問答預測進行推理。然而,這種兩步走的方法

    2024年02月09日
    瀏覽(28)
  • Prompt learning 教學[進階篇]:簡介Prompt框架并給出自然語言處理技術:Few-Shot Prompting、Self-Consistency等;項目實戰(zhàn)搭建知識庫內(nèi)容機器人

    看完基礎篇的各種場景介紹后,你應該對 Prompt 有較深的理解。之前的章節(jié)我們講的都是所謂的「術」,更多地集中講如何用,但講「道」的部分不多。高級篇除了會講更高級的運用外,還會講更多「道」的部分。高級篇的開篇,我們來講一下構成 prompt 的框架。 查閱了非常

    2024年02月04日
    瀏覽(25)
  • few-shot基本概念

    few-shot基本概念

    Few-shot learning https://www.youtube.com/watch?v=UkQ2FVpDxHglist=PLvOO0btloRnuGl5OJM37a8c6auebn-rH2index=1t=3s 1.問題的引出 通過很少的樣本來進行分類/回歸 給你四張圖像,人類大概可以知道,查詢圖像是什么。 同樣,機器也需要知道。 Support set:很少的數(shù)據(jù)集,例如每類圖像有2張。這么少的樣本

    2024年02月06日
    瀏覽(28)
  • few-shot / one shot / zero shot object counting論文匯總

    few-shot / one shot / zero shot object counting論文匯總

    code: https://paperswithcode.com/paper/class-agnostic-counting 摘要:幾乎所有現(xiàn)有的計數(shù)方法都是為一個特定的對象類而設計的。然而,我們的工作旨在創(chuàng)建一個能夠計數(shù)任何類對象的計數(shù)模型。為了實現(xiàn)這一目標,我們將計數(shù)表述為一個匹配問題,使我們能夠利用對象計數(shù)問題中自然存

    2024年02月09日
    瀏覽(23)
  • 【計算機視覺】Zero-shot, One-shot和Few-shot的理解

    【計算機視覺】Zero-shot, One-shot和Few-shot的理解

    機器學習任務按照對 樣本量 的需求可以分為:傳統(tǒng)監(jiān)督式學習、Few-shot Learning、One-shot Learning、Zero-shot Learning。 傳統(tǒng)learning,煉丹模式。傳統(tǒng)深度學習的學習速度慢,往往需要學習海量數(shù)據(jù)和反復訓練后才能使網(wǎng)絡模型具備不錯的泛化能力,傳統(tǒng)learning可以總結為:海量數(shù)據(jù)

    2024年02月04日
    瀏覽(41)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包