本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記,轉(zhuǎn)載請注明出處
標(biāo)題:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision
鏈接:[1905.06817] Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision (arxiv.org)
摘要
從單張圖像估計3D面部形狀必須對光照、頭部姿勢、表情、面部毛發(fā)、化妝和遮擋等變化具有魯棒性。魯棒性要求具備大規(guī)模的野外圖像訓(xùn)練集,而這些圖像在構(gòu)建時缺乏真實的3D形狀信息。為了在沒有任何2D到3D監(jiān)督的情況下訓(xùn)練網(wǎng)絡(luò),我們提出了RingNet,它能夠從單張圖像中學(xué)習(xí)計算3D面部形狀。我們的關(guān)鍵觀察是,一個人的面部形狀在不同圖像中是恒定的,不受表情、姿勢、光照等影響。RingNet利用一個人的多張圖像和自動檢測的2D面部特征。它使用一種新穎的損失函數(shù),鼓勵當(dāng)身份相同時,面部形狀相似,而對于不同的人則不同。我們通過使用FLAME模型表示面部,實現(xiàn)了對表情的不變性。一旦訓(xùn)練完成,我們的方法接受一張圖像并輸出FLAME的參數(shù),可以輕松實現(xiàn)動畫效果。此外,我們創(chuàng)建了一個新的“不太野外”(NoW)人臉數(shù)據(jù)庫,其中包含3D頭部掃描和受試者在各種條件下的高分辨率圖像。我們評估了公開可用的方法,并發(fā)現(xiàn)RingNet比使用3D監(jiān)督的方法更準(zhǔn)確。該數(shù)據(jù)集、模型和結(jié)果可供研究目的使用,網(wǎng)址為http://ringnet.is.tuebingen.mpg.de。
1. 引言
我們的目標(biāo)是從一個人的單張圖像中估計3D頭部和面部形狀。與先前的方法不同,我們感興趣的不僅僅是面部周圍的緊密裁剪區(qū)域。相反,我們估計完整的3D面部、頭部和頸部。這樣的表示對VR/AR、虛擬眼鏡試穿、動畫、生物特征等應(yīng)用是必要的。此外,我們尋求一種能夠捕捉3D面部表情、根據(jù)表情因素化面部形狀,并能夠重新擺姿和動畫的表示。雖然計算機視覺文獻中已經(jīng)提出了許多方法來解決面部形狀估計問題[40],但沒有一種方法滿足我們所有的目標(biāo)。
具體而言,我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),直接從圖像像素回歸到3D面部模型的參數(shù)。在這里,我們使用FLAME [21],因為它比其他模型更精確,涵蓋了各種形狀,對整個頭部和頸部進行建模,容易進行動畫處理,并且是免費提供的。然而,訓(xùn)練一個網(wǎng)絡(luò)來解決這個問題是具有挑戰(zhàn)性的,因為幾乎沒有配對的3D頭部/面部與人物自然圖像的數(shù)據(jù)。為了使模型對成像條件、姿勢、面部毛發(fā)、攝像機噪聲、光照等具有魯棒性,我們希望從大量野外圖像中進行訓(xùn)練。這樣的圖像在定義上缺乏受控的真實3D數(shù)據(jù)。
這是計算機視覺中的通用問題 - 尋找2D訓(xùn)練數(shù)據(jù)很容易,但當(dāng)配對的3D訓(xùn)練數(shù)據(jù)非常有限且難以獲取時,從2D到3D的回歸學(xué)習(xí)就變得困難。在沒有真實3D的情況下,有幾種選擇,但每種都有問題。合成訓(xùn)練數(shù)據(jù)通常不能捕捉真實世界的復(fù)雜性??梢詫?D模型擬合到2D圖像特征,但這種映射是模棱兩可的,因此不準(zhǔn)確。由于模棱兩可性,僅使用觀察到的2D特征和投影的3D特征之間的損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并不能取得良好的結(jié)果(參見[17])。
為了解決缺乏訓(xùn)練數(shù)據(jù)的問題,我們提出了一種新方法,該方法可以在沒有任何監(jiān)督的2D到3D訓(xùn)練數(shù)據(jù)的情況下,學(xué)習(xí)從像素到3D形狀的映射。為此,我們僅使用OpenPose [29]自動提取的2D面部特征來學(xué)習(xí)映射。為了使這種可能,我們的關(guān)鍵觀察是同一人的多張圖像對3D面部形狀提供了強有力的約束,因為形狀保持不變,盡管其他因素可能發(fā)生變化,如姿勢、光照和表情。FLAME可以因子化姿勢和形狀,使我們的模型能夠?qū)W習(xí)什么是恒定的(形狀)并排除發(fā)生變化的內(nèi)容(姿勢和表情)。
雖然事實上,同一人的面部形狀在不同圖像中是恒定的,但我們需要定義一種訓(xùn)練方法,讓神經(jīng)網(wǎng)絡(luò)利用這種形狀的恒定性。為此,我們引入了RingNet。RingNet使用一個人的多張圖像,并強制要求所有圖像對之間的形狀應(yīng)該相似,同時最小化觀察到的特征和投影的3D特征之間的2D誤差。雖然這鼓勵網(wǎng)絡(luò)以相似的方式編碼形狀,但我們發(fā)現(xiàn)這還不足夠。我們還將屬于不同隨機人的面孔添加到“環(huán)”中,并強制要求環(huán)中所有其他圖像之間的潛在空間距離大于同一人之間的距離。類似的思想已經(jīng)在流形學(xué)習(xí)(例如三元組損失)[37]和人臉識別[26]中被使用,但據(jù)我們所知,我們的方法以前尚未用于學(xué)習(xí)從2D到3D幾何的映射。我們發(fā)現(xiàn),將三元組擴展到更大的環(huán)對學(xué)習(xí)準(zhǔn)確的幾何形狀至關(guān)重要。
雖然我們使用一個人的多張圖像進行訓(xùn)練,但請注意,在運行時,我們只需要一張單獨的圖像。通過這種公式,我們能夠訓(xùn)練一個網(wǎng)絡(luò),直接從圖像像素回歸到FLAME的參數(shù)。因為我們用“野外”圖像進行訓(xùn)練,所以該網(wǎng)絡(luò)在各種條件下都具有魯棒性,如圖1所示。然而,該方法更為一般化,可以應(yīng)用于其他2D到3D學(xué)習(xí)問題。
圖1:在沒有3D監(jiān)督的情況下,RingNet學(xué)習(xí)從單個圖像的像素到FLAME模型[21]的3D面部參數(shù)的映射。頂部:圖像來自CelebA數(shù)據(jù)集[22]。底部:估計的形狀、姿勢和表情。
評估3D面部估計方法的準(zhǔn)確性仍然是一個挑戰(zhàn),盡管已經(jīng)發(fā)表了許多方法,但在各種成像條件、姿勢、光照和遮擋下,沒有對3D準(zhǔn)確性進行嚴(yán)格的比較。為了解決這個問題,我們收集了一個名為NoW(Not quite in-the-Wild)的新數(shù)據(jù)集,其中包含100名受試者在各種條件下拍攝的高分辨率真實掃描和高質(zhì)量圖像(圖2)。NoW比以前的數(shù)據(jù)集更復(fù)雜,我們使用它來評估所有具有公開實現(xiàn)的最新方法。具體而言,我們與[34]、[35]和[9]進行比較,這些方法都經(jīng)過3D監(jiān)督訓(xùn)練。盡管我們的RingNet方法沒有任何2D到3D監(jiān)督,但恢復(fù)了更準(zhǔn)確的3D面部形狀。我們還在具有挑戰(zhàn)性的野外人臉圖像上定性評估了該方法。
圖2:NoW數(shù)據(jù)集包括在不同條件下拍攝的各種圖像(頂部)和高分辨率的3D頭部掃描(底部)。深藍色區(qū)域是我們在面部挑戰(zhàn)中考慮的部分。
總的來說,我們的論文的主要貢獻有:(1)從單一面部圖像中進行完整的面部、帶頸部的重建。 (2)RingNet - 一種端到端可訓(xùn)練的網(wǎng)絡(luò),強制要求在主體的不同視角、光照條件、分辨率和遮擋下實現(xiàn)面部圖像的形狀一致性。 (3)一種用于從2D輸入學(xué)習(xí)3D幾何的新型形狀一致性損失。 (4)NoW - 用于定性和定量評估3D面部重建方法的基準(zhǔn)數(shù)據(jù)集。 (5)最后,我們免費提供模型、訓(xùn)練代碼和新數(shù)據(jù)集,以鼓勵進行定量比較[25]。
2. 相關(guān)工作
有幾種方法可以解決從圖像估計3D面部形狀的問題。一種方法估計深度圖、法線等;也就是說,這些方法產(chǎn)生了一個與像素相關(guān)但專門用于面部的對象形狀表示。另一種方法估計可以進行動畫處理的3D形狀模型。我們專注于后者的方法。在最近的一篇綜述文章中,Zollh?fer等人[40]描述了單目面部重建的現(xiàn)狀,并為該領(lǐng)域提供了一個前瞻性的一系列挑戰(zhàn)。請注意,監(jiān)督、弱監(jiān)督和無監(jiān)督方法之間的界限是模糊的。大多數(shù)方法使用某種形式的3D形狀模型,該模型事先從掃描中學(xué)習(xí);在這里我們不稱之為監(jiān)督。這里的術(shù)語"監(jiān)督"意味著使用了配對的2D到3D數(shù)據(jù);這可能來自真實數(shù)據(jù)或合成數(shù)據(jù)。如果首先優(yōu)化3D模型以適應(yīng)2D圖像特征,那么我們稱之為使用了2D到3D的監(jiān)督。如果在訓(xùn)練網(wǎng)絡(luò)時使用了2D圖像特征,但沒有3D數(shù)據(jù),那么這通常是弱監(jiān)督,相對于2D到3D任務(wù)而言是無監(jiān)督的。
量化評估:由于缺乏具有復(fù)雜圖像和高質(zhì)量地面實況的共同數(shù)據(jù)集,方法之間的定量比較一直受到限制。最近,F(xiàn)eng等人[10]組織了一個單圖像到3D面部重建的挑戰(zhàn),其中提供了受試者的地面實況掃描。我們的NoW基準(zhǔn)與這種方法互補,因為它專注于極端的視角、面部表情和部分遮擋。
優(yōu)化:大多數(shù)現(xiàn)有方法需要緊密裁剪的輸入圖像和/或僅對適用于人臉的緊密裁剪區(qū)域進行重建。大多數(shù)當(dāng)前的形狀模型都是原始的Blanz和Vetter 3D可塑模型(3DMM)[3]的后裔。雖然有許多對這個模型的變體和改進,如[13],我們在這里使用FLAME [21],因為它的形狀空間和表情空間都是從比其他方法更多的掃描中學(xué)到的。只有FLAME在形狀空間中包括頸部區(qū)域,并且使用頭部旋轉(zhuǎn)時模擬頸部的姿勢相關(guān)變形。緊密裁剪的面部區(qū)域使頭部旋轉(zhuǎn)的估計變得模棱兩可。直到最近,這一直是主導(dǎo)范式[2、30、11]。例如,Kemelmacher-Shlizerman和Seitz [18]使用多圖像陰影重建圖像集,允許視點和形狀的變化。Thies等人[33]在單目視頻序列上獲得準(zhǔn)確的結(jié)果。雖然這些方法可以在高逼真度下取得良好的結(jié)果,但它們計算成本高昂。
使用3D監(jiān)督進行學(xué)習(xí):深度學(xué)習(xí)方法迅速取代基于優(yōu)化的方法[35、39、19、16]。例如,Sela等人[27]使用合成數(shù)據(jù)集生成圖像到深度映射和像素到頂點映射,二者結(jié)合生成面部網(wǎng)格。Tran等人[34]直接回歸面部模型的3DMM參數(shù),使用密集網(wǎng)絡(luò)。他們的關(guān)鍵思想是使用同一主體的多個圖像,并使用2D標(biāo)志物擬合每個圖像的3DMM。然后,他們?nèi)M合網(wǎng)格的加權(quán)平均值用作訓(xùn)練網(wǎng)絡(luò)的ground truth。Feng等人[9]從圖像回歸到記錄3D面部位置信息的UV位置圖,提供對UV空間上每個點的語義含義的密集對應(yīng)關(guān)系。所有上述方法都使用了某種形式的3D監(jiān)督,如合成渲染、基于3DMM的優(yōu)化擬合,或使用3DMM生成UV映射或體積表示。在基于擬合的方法中,沒有一種方法能夠為真實世界的面部圖像產(chǎn)生真實的ground truth,而合成生成的面部可能無法很好地推廣到真實世界[31]。依賴將3DMM擬合到圖像中,使用2D-3D對應(yīng)關(guān)系創(chuàng)建偽地面實況的方法始終受到3DMM的表現(xiàn)力和擬合過程的準(zhǔn)確性的限制。
使用弱3D監(jiān)督進行學(xué)習(xí):Sengupta等人[28]通過使用混合合成渲染圖像和真實圖像來學(xué)習(xí)模仿Lambertian渲染過程。他們處理了緊密裁剪的面部,不生成可以進行動畫處理的模型。Genova等人[12]提出了一種使用可微分渲染過程的端到端學(xué)習(xí)方法。他們還使用合成數(shù)據(jù)及其相應(yīng)的3D參數(shù)來訓(xùn)練他們的編碼器。Tran和Liu [36]通過使用具有解析可微分渲染層的非線性3DMM模型,以弱監(jiān)督的方式學(xué)習(xí)3DMM模型。
沒有3D監(jiān)督進行學(xué)習(xí):MoFA [32]估計3DMM的參數(shù),并使用光度損失和可選的2D特征損失進行端到端訓(xùn)練。從本質(zhì)上講,它是Blanz和Vetter模型的神經(jīng)網(wǎng)絡(luò)版本,因為它模擬了形狀、皮膚反射和照明,生成與輸入匹配的逼真圖像。這種方法的優(yōu)勢在于它比優(yōu)化方法快得多[31]。MoFA估計了面部的緊密裁剪,產(chǎn)生了看起來很好的結(jié)果,但在處理極端表情時存在問題。他們只對真實圖像使用FaceWarehouse模型作為“ground truth”進行定量評估;這不是真實3D面部形狀的準(zhǔn)確表示。
所有沒有任何2D到3D監(jiān)督的學(xué)習(xí)方法都明確地對圖像形成過程進行建模(如Blanz和Vetter),并制定光度損失,通常還結(jié)合了與3D模型已知對應(yīng)關(guān)系的2D面部特征檢測。光度損失的問題在于圖像形成模型總是近似的(例如Lambertian)。理想情況下,人們希望網(wǎng)絡(luò)不僅能學(xué)到面部形狀,還能學(xué)到真實世界圖像的復(fù)雜性以及它們與形狀的關(guān)系。為此,我們的RingNet方法僅使用2D面部特征,沒有光度項。盡管(或因為)如此,該方法能夠直接從像素到3D面部形狀進行學(xué)習(xí)。這是已發(fā)表方法中最少監(jiān)督的一種。
3. 提出的方法
我們方法的目標(biāo)是從單張面部圖像I中估計3D頭部和面部形狀。給定一張圖像,我們假設(shè)已經(jīng)檢測到了面部,進行了松散的裁剪,并大致居中。在訓(xùn)練期間,我們的方法利用2D標(biāo)志物和身份標(biāo)簽作為輸入。在推理期間,它僅使用圖像像素;不使用2D標(biāo)志物和身份標(biāo)簽。
關(guān)鍵思想:
關(guān)鍵思想可以總結(jié)如下:
- 一個人的面部形狀保持不變,即使面部圖像在視角、光照條件、分辨率、遮擋、表情或其他因素上有所變化。
- 每個人都有獨特的面部形狀(不考慮相同的雙胞胎)。我們通過引入形狀一致性損失來利用這個想法,體現(xiàn)在我們的環(huán)形網(wǎng)絡(luò)結(jié)構(gòu)中。
RingNet(圖3)是一個基于多個編碼器-解碼器的體系結(jié)構(gòu),其中編碼器之間共享權(quán)重,并在形狀變量上施加形狀約束。環(huán)中的每個編碼器都是特征提取網(wǎng)絡(luò)和回歸器網(wǎng)絡(luò)的組合。在形狀變量上施加形狀約束迫使網(wǎng)絡(luò)將面部形狀、表情、頭部姿勢和相機參數(shù)解耦。我們使用FLAME [21]作為解碼器,從語義上有意義的嵌入中重建3D面部,以及在嵌入空間中獲得語義上有意義的參數(shù)的解耦(即形狀、表情和姿勢參數(shù))。
圖3:RingNet在訓(xùn)練過程中獲取同一人物(主體A)的多個圖像和另一個人物(主體B)的圖像,并在相同主體之間強制執(zhí)行形狀一致性以及在不同主體之間強制執(zhí)行形狀不一致性。從預(yù)測的3D網(wǎng)格計算的3D地標(biāo)在2D域中投影以計算與地面真實2D地標(biāo)的損失。在推理過程中,RingNet以單個圖像作為輸入并預(yù)測相應(yīng)的3D網(wǎng)格。圖像來自[6]。該圖是為了說明目的而簡化的版本。
我們將在接下來更詳細地介紹FLAME解碼器、RingNet體系結(jié)構(gòu)和損失。
3.1. FLAME模型
FLAME使用線性變換來描述與身份和表情相關(guān)的形狀變化,并使用標(biāo)準(zhǔn)的線性混合蒙皮(LBS)來模擬圍繞 K = 4 K = 4 K=4個關(guān)節(jié)的頸部、下巴和眼球旋轉(zhuǎn)。由形狀系數(shù)參數(shù)化, β ? ∈ R ∣ β ? ∣ \vec{β} \in \mathbb{R}^{|\vec{β}|} β?∈R∣β?∣,姿勢 θ ? ∈ R ∣ θ ? ∣ \vec{θ} \in \mathbb{R}^{|\vec{θ}|} θ∈R∣θ∣,和表情 ψ ? ∈ R ∣ ψ ? ∣ \vec{ψ} \in \mathbb{R}^{|\vec{ψ}|} ψ?∈R∣ψ?∣,F(xiàn)LAME返回 N = 5023 N = 5023 N=5023個頂點。
FLAME模型了與身份相關(guān)的形狀變化 B S ( β ? ; S ) : R ∣ β ? ∣ → R 3 N B_S(\vec{β};\pmb{S}):\mathbb{R}^{|\vec{β}|} \rightarrow \mathbb{R} ^ {3N} BS?(β?;S):R∣β?∣→R3N,校正姿勢混合形狀 B P ( θ ? ; P ) : R ∣ θ ? ∣ → R 3 N B_P(\vec{θ};\pmb{P}):\mathbb{R}^{|\vec{θ}|} \rightarrow \mathbb{R} ^ {3N} BP?(θ;P):R∣θ∣→R3N,以及表情混合形狀 B E ( ψ ? ; E ) : R ∣ ψ ? ∣ → R 3 N B_E(\vec{ψ};\pmb{E}):\mathbb{R}^{|\vec{ψ}|} \rightarrow \mathbb{R} ^ {3N} BE?(ψ?;E):R∣ψ?∣→R3N,作為具有學(xué)習(xí)基礎(chǔ) S \mathcal{S} S、 E \mathcal{E} E和 P \mathcal{P} P的線性變換。給定模板 T  ̄ ∈ R 3 N \overline{\pmb{T}} \in \mathbb{R}^{3N} T∈R3N處于“零姿勢”,身份、姿勢和表情混合形狀被建模為相對于 T  ̄ \overline{\pmb{T}} T的頂點偏移。每個姿勢向量 θ ? ∈ R 3 K + 3 \vec{θ} \in \mathbb{R}^{3K+3} θ∈R3K+3包含 ( K + 1 ) (K+1) (K+1)個軸角表示中的旋轉(zhuǎn)向量;即每個關(guān)節(jié)加上全局旋轉(zhuǎn)一個向量?;旌厦善ず瘮?shù) W ( T  ̄ , J , θ ? , W ) W (\overline{\pmb{T}}, \pmb{J}, \vec{θ}, \mathcal{W}) W(T,J,θ,W)然后圍繞關(guān)節(jié) J ∈ R 3 K \pmb{J} \in \mathbb{R}^{3K} J∈R3K旋轉(zhuǎn)頂點,由混合權(quán)重 W ∈ R K × N \mathcal{W} \in \mathbb{R} ^ {K \times N} W∈RK×N線性平滑。
更正式地,F(xiàn)LAME表示為:
M
(
β
?
,
θ
?
,
ψ
?
)
=
W
(
T
P
(
β
?
,
θ
?
,
ψ
?
)
,
J
(
β
?
)
,
θ
?
,
W
)
,
(1)
M(\vec{β},\vec{θ},\vec{ψ})=W(T_P(\vec{β},\vec{θ},\vec{ψ}),\pmb{J}(\vec{β}),\vec{θ},\mathcal{W}), \tag{1}
M(β?,θ,ψ?)=W(TP?(β?,θ,ψ?),J(β?),θ,W),(1)
其中
T
P
(
β
?
,
θ
?
,
ψ
?
)
=
T
 ̄
+
B
S
(
β
?
;
S
)
+
B
P
(
θ
?
;
P
)
+
B
E
(
ψ
?
;
E
)
,
(2)
T_P(\vec{β},\vec{θ},\vec{ψ})=\overline{\pmb{T}}+B_S(\vec{β};\mathcal{S})+B_P(\vec{θ};\mathcal{P})+B_E(\vec{ψ};\mathcal{E}), \tag{2}
TP?(β?,θ,ψ?)=T+BS?(β?;S)+BP?(θ;P)+BE?(ψ?;E),(2)
由于不同的面部形狀需要不同的關(guān)節(jié)位置,關(guān)節(jié)被定義為與
β
?
\vec{β}
β?相關(guān)的函數(shù)。我們使用方程1來解碼我們的嵌入空間,以生成完整頭部和面部的3D網(wǎng)格。
3.2. RingNet
最近在人臉識別(例如[38])和面部標(biāo)志檢測(例如[4, 29])方面的進展導(dǎo)致了帶有身份標(biāo)簽和2D面部標(biāo)志的大型圖像數(shù)據(jù)集。在訓(xùn)練中,我們假設(shè)有一組2D面部圖像 I i I_i Ii?,對應(yīng)的身份標(biāo)簽 c i c_i ci?和標(biāo)志 k i k_i ki?。
形狀一致性假設(shè)可以通過 β i ? = β j ? , ? c i = c j \vec{β_i} = \vec{β_j},?c_i = c_j βi??=βj??,?ci?=cj?(即一個主體的面部形狀在多個圖像中應(yīng)保持不變),以及 β i ? ≠ β j ? , ? c i ≠ c j \vec{β_i} \neq \vec{β_j},?c_i \neq c_j βi??=βj??,?ci?=cj?(即不同主體的面部形狀應(yīng)該是不同的)來形式化。RingNet引入了一個環(huán)形結(jié)構(gòu),可以同時優(yōu)化任意數(shù)量的輸入圖像的形狀一致性。有關(guān)形狀一致性的詳細信息,請參見第3節(jié)。
RingNet分為 R R R個環(huán)元素 e i = 1 i = R e^{i=R}_{i=1} ei=1i=R?,如圖3所示,其中每個ei都包括一個編碼器和一個解碼器網(wǎng)絡(luò)(見圖4)。編碼器在 e i e_i ei?之間共享權(quán)重,解碼器在訓(xùn)練期間保持不變。編碼器是特征提取網(wǎng)絡(luò) f f e a t f_{feat} ffeat?和回歸網(wǎng)絡(luò) f r e g f_{reg} freg?的組合。給定圖像 I i I_i Ii?, f f e a t f_{feat} ffeat?輸出一個高維向量,然后由 f r e g f_{reg} freg?編碼成一個語義上有意義的向量(即 f e n c ( I i ) = f r e g ( f f e a t ( I i ) ) f_{enc}(I_i) = f_{reg}(f_{feat}(I_i)) fenc?(Ii?)=freg?(ffeat?(Ii?)))。這個向量可以表示為相機、姿勢、形狀和表情參數(shù)的串聯(lián),即 f e n c ( I i ) = [ c a m i , θ ? i , β ? i , ψ ? i ] f_{enc}(I_i) = [cam_i, \vec θ_i, \vec β_i, \vec ψ_i] fenc?(Ii?)=[cami?,θi?,β?i?,ψ?i?],其中 θ ? i , β ? i , ψ ? i \vec θ_i,\vec β_i,\vec ψ_i θi?,β?i?,ψ?i?是FLAME參數(shù)。
圖4:輸出圖像的3D網(wǎng)格的Ring元素。
為簡單起見,我們在以下省略
I
I
I,使用
f
e
n
c
(
I
i
)
=
f
e
n
c
,
i
f_{enc}(I_i) = f_{enc,i}
fenc?(Ii?)=fenc,i?和
f
f
e
a
t
(
I
i
)
=
f
f
e
a
t
,
i
f_{feat}(I_i) = f_{feat,i}
ffeat?(Ii?)=ffeat,i??;貧w網(wǎng)絡(luò)通過迭代誤差反饋循環(huán)[17, 7]迭代地回歸
f
e
n
c
,
i
f_{enc,i}
fenc,i?,而不是直接從
f
f
e
a
t
,
i
f_{feat,i}
ffeat,i?回歸
f
e
n
c
,
i
f_{enc,i}
fenc,i?。在每個迭代步驟中,從先前的估計中進行漸進性移動,以達到當(dāng)前估計。形式上,回歸網(wǎng)絡(luò)將串聯(lián)的
[
f
f
e
a
t
,
i
t
,
f
e
n
c
,
i
t
]
[f^t_{feat,i}, f^t_{enc,i}]
[ffeat,it?,fenc,it?]作為輸入,并輸出
δ
f
e
n
c
,
i
t
δf^t_{enc,i}
δfenc,it?。然后我們通過以下方式更新當(dāng)前估計,
f
e
n
c
,
i
t
+
1
=
f
e
n
c
,
i
t
+
δ
f
e
n
c
,
i
t
(3)
{f_{enc,i}}^{t+1} = {f_{enc,i}}^{t} + δ{f_{enc,i}}^{t} \tag{3}
fenc,i?t+1=fenc,i?t+δfenc,i?t(3)
該迭代網(wǎng)絡(luò)在整個RingNet訓(xùn)練的每個迭代中執(zhí)行多個回歸迭代。初始估計設(shè)置為
0
?
\vec 0
0。然后,將回歸網(wǎng)絡(luò)的輸出饋送到可微的FLAME解碼器網(wǎng)絡(luò),該解碼器網(wǎng)絡(luò)輸出3D頭部網(wǎng)格。
環(huán)元素 R R R的數(shù)量是我們網(wǎng)絡(luò)的一個超參數(shù),它確定在 β ? \vec β β?上進行優(yōu)化一致性的并行處理的圖像數(shù)量。RingNet允許同時使用同一主體的圖像和不同主體的圖像的任意組合。然而,為了不失一般性,我們將相同身份的面部圖像提供給 { e j } j = 1 j = R ? 1 {\{e_j\}}^{j=R?1}_{j=1} {ej?}j=1j=R?1?,將不同身份的圖像提供給 e R e_R eR?。因此,對于每個輸入訓(xùn)練批次,每個切片包含 R ? 1 R-1 R?1個相同人的圖像和另一個人的一個圖像(見圖3)。
3.3. Shape Consistency Loss
為簡化起見,讓我們稱具有相同身份標(biāo)簽的兩個主體為“匹配對”,而具有不同身份標(biāo)簽的兩個主體為“不匹配對”。我們工作的一個關(guān)鍵目標(biāo)是創(chuàng)建一個強大的端到端可訓(xùn)練的網(wǎng)絡(luò),可以從同一主體的圖像中產(chǎn)生相同的形狀,并對不同主體產(chǎn)生不同的形狀。換句話說,我們希望使我們的形狀生成器具有區(qū)分性。我們通過要求匹配對在形狀空間中的距離比不匹配對小一個邊界值 η η η來強制執(zhí)行這一點。距離是在面部形狀參數(shù)的空間中計算的,這對應(yīng)于中性姿勢下頂點的歐幾里得空間。
在RingNet結(jié)構(gòu)中,
e
j
e_j
ej?和
e
k
e_k
ek?產(chǎn)生
β
?
j
\vec β_j
β?j?和
β
?
k
\vec β_k
β?k?,當(dāng)
j
≠
k
j \neq k
j=k且
j
,
k
≠
R
j,k \neq R
j,k=R時,它們是匹配對。類似地,
e
j
e_j
ej?和
e
R
e_R
eR?產(chǎn)生
β
?
j
\vec β_j
β?j?和
β
?
R
\vec β_R
β?R?,當(dāng)
j
≠
R
j \neq R
j=R時,它們是不匹配對。我們的形狀一致性項為:
∥
β
j
?
?
β
k
?
∥
2
2
+
η
≤
∥
β
j
?
?
β
R
?
∥
2
2
(4)
\left\| \vec {\beta_j} - \vec {\beta_k} \right\|_2^2 + \eta \leq \left\| \vec {\beta_j} - \vec {\beta_R} \right\|_2^2 \tag{4}
?βj???βk??
?22?+η≤
?βj???βR??
?22?(4)
因此,我們在訓(xùn)練RingNet端到端時最小化以下?lián)p失:
L
S
=
∑
i
=
1
n
b
∑
j
,
k
=
1
R
?
1
max
?
(
0
,
∥
β
i
j
?
?
β
i
k
?
∥
2
2
?
∥
β
i
j
?
?
β
i
R
?
∥
2
2
+
η
)
(5)
L_S = \sum_{i=1}^{n_b} \sum_{j,k=1}^{R-1} \max\left(0, \left\| \vec {\beta_{ij}} - \vec {\beta_{ik}} \right\|_2^2 - \left\| \vec {\beta_{ij}} - \vec {\beta_{iR}} \right\|_2^2 + \eta\right) \tag{5}
LS?=i=1∑nb??j,k=1∑R?1?max(0,
?βij???βik??
?22??
?βij???βiR??
?22?+η)(5)
其可以歸一化為:
L
S
C
=
1
n
b
×
R
×
L
S
(6)
L_{SC} = \frac{1}{n_b \times R} \times L_S \tag{6}
LSC?=nb?×R1?×LS?(6)
n
b
n_b
nb?是環(huán)中每個元素的批處理大小。
3.4. 2D Feature Loss
最后,我們計算在訓(xùn)練過程中提供的地面真實標(biāo)志和預(yù)測標(biāo)志之間的L1損失。請注意,我們不直接預(yù)測2D標(biāo)志,而是從已知拓撲結(jié)構(gòu)的3D網(wǎng)格中檢索。
給定FLAME模板網(wǎng)格,我們?yōu)槊總€OpenPose [29]關(guān)鍵點定義了網(wǎng)格表面上對應(yīng)的3D點。請注意,這是我們提供連接2D和3D的監(jiān)督的唯一地方。這只做一次。嘴巴、鼻子、眼睛和眉毛關(guān)鍵點具有固定的對應(yīng)3D點(稱為靜態(tài)3D標(biāo)志),輪廓特征的位置隨頭部姿勢而變化(稱為動態(tài)3D標(biāo)志),與[5, 31]類似,我們將輪廓標(biāo)志建模為隨全局頭部旋轉(zhuǎn)動態(tài)移動(見Sup. Mat.)。為了自動計算這個動態(tài)輪廓,我們將FLAME模板在左右旋轉(zhuǎn)-20到40度之間,用紋理渲染網(wǎng)格,運行OpenPose預(yù)測2D標(biāo)志,并將這些2D點投影到3D表面。得到的軌跡在臉的左右兩側(cè)對稱傳輸。
在訓(xùn)練期間,RingNet輸出3D網(wǎng)格,為這些網(wǎng)格計算靜態(tài)和動態(tài)3D標(biāo)志,并使用編碼器輸出中預(yù)測的相機參數(shù)將這些標(biāo)志投影到圖像平面。因此,我們計算投影標(biāo)志kpi和地面真實2D標(biāo)志ki之間的以下L1損失:
L
proj
=
∥
w
i
×
(
k
p
i
?
k
i
)
∥
1
(7)
L_{\text{proj}} = \|w_i \times (k_{pi} - k_i)\|_1 \tag{7}
Lproj?=∥wi?×(kpi??ki?)∥1?(7)
其中
w
i
w_i
wi?是由2D標(biāo)志預(yù)測器提供的每個地面真實標(biāo)志的置信度得分。如果置信度高于0.41,則將其設(shè)置為1,否則設(shè)置為0。訓(xùn)練RingNet端到端的總損失
L
t
o
t
L_{tot}
Ltot?是:
L
tot
=
λ
SC
L
SC
+
λ
proj
L
proj
+
λ
β
~
∥
β
~
∥
2
2
+
λ
ψ
~
∥
ψ
~
∥
2
2
(8)
L_{\text{tot}} = \lambda_{\text{SC}} L_{\text{SC}} + \lambda_{\text{proj}} L_{\text{proj}} + \lambda_{\tilde{\beta}} \|\tilde{\beta}\|_2^2 + \lambda_{\tilde{\psi}} \|\tilde{\psi}\|_2^2 \tag{8}
Ltot?=λSC?LSC?+λproj?Lproj?+λβ~??∥β~?∥22?+λψ~??∥ψ~?∥22?(8)
其中
λ
λ
λ是每個損失項的權(quán)重,最后兩項對形狀和表情系數(shù)進行正則化。由于
B
S
(
β
?
;
S
)
B_S(\vec β; \mathcal S)
BS?(β?;S)和
B
E
(
ψ
?
;
E
)
B_E( \vec ψ; \mathcal E)
BE?(ψ?;E)被平方方差縮放,
β
?
\vec β
β?和
ψ
?
\vec ψ
ψ?的L2范數(shù)表示正交形狀和表情空間中的馬哈拉諾比斯距離。
3.5. 實現(xiàn)細節(jié)
特征提取網(wǎng)絡(luò)使用預(yù)訓(xùn)練的 ResNet50 [15] 架構(gòu),在訓(xùn)練期間也進行了優(yōu)化。特征提取網(wǎng)絡(luò)輸出一個 2048 維向量,作為回歸網(wǎng)絡(luò)的輸入?;貧w網(wǎng)絡(luò)包括兩個維度為 512 的全連接層,帶有 ReLu 激活和 dropout,接著是一個最終的線性全連接層,輸出為 159 維。對這個 159 維的輸出向量,我們連接了相機、姿勢、形狀和表情參數(shù)。前三個元素表示比例和 2D 圖像平移。接下來的 6 個元素是全局旋轉(zhuǎn)和顎部旋轉(zhuǎn),都是在軸角表示法中。由于 FLAME 的頸部和眼球旋轉(zhuǎn)不對應(yīng)于面部標(biāo)記,因此不進行回歸。接下來的 100 個元素是形狀參數(shù),然后是 FLAME 的 50 個表情參數(shù)??晌⒎值?FLAME 層在訓(xùn)練期間保持不變。我們使用學(xué)習(xí)率為 1e-4 的 Adam [20] 優(yōu)化器對 RingNet 進行 10 輪訓(xùn)練。不同的模型參數(shù)為 R = 6 R = 6 R=6, λ S C = 1 λ_{SC} = 1 λSC?=1, λ p r o j = 60 λ_{proj} = 60 λproj?=60, λ β ? = 1 e ? 4 λ_{\vec β} = 1e ? 4 λβ??=1e?4, λ ψ ? = 1 e ? 4 λ_{\vec ψ} = 1e ? 4 λψ??=1e?4, η = 0.5 η = 0.5 η=0.5。RingNet 架構(gòu)在 Tensorflow [1] 中實現(xiàn),并將公開發(fā)布。我們使用 VGG2 人臉數(shù)據(jù)庫 [6] 作為訓(xùn)練數(shù)據(jù)集,其中包含面部圖像及其相應(yīng)的標(biāo)簽。我們在數(shù)據(jù)庫上運行 OpenPose [29] 并計算面部的 68 個標(biāo)記點。OpenPose 對許多情況都無法成功。在清理了失敗的情況后,我們得到了大約 80 萬張圖像,以及相應(yīng)的標(biāo)簽和面部標(biāo)記,用于我們的訓(xùn)練語料庫。我們還考慮了由 [4] 提供的約 3000 張具有極端姿勢的圖像及其相應(yīng)的標(biāo)記。由于對于這些極端圖像我們沒有任何標(biāo)簽,我們通過隨機裁剪和縮放來復(fù)制每個圖像,以考慮匹配對。
4. 基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)
本節(jié)介紹了我們的 NoW 基準(zhǔn)測試,用于從單眼圖像進行 3D 面部重建的任務(wù)。該基準(zhǔn)測試的目標(biāo)是引入一個標(biāo)準(zhǔn)評估指標(biāo),以測量在視角、光照和常見遮擋變化下 3D 面部重建方法的準(zhǔn)確性和魯棒性。
數(shù)據(jù)集:該數(shù)據(jù)集包含 100 名受試者的 2054 張 2D 圖像,使用 iPhone X 拍攝,并為每個受試者單獨提供了一個 3D 頭部掃描。這個頭部掃描用作評估的地面真實。選擇的受試者包含年齡、BMI 和性別的變化(55 名女性,45 名男性)。
我們將捕獲的數(shù)據(jù)分為四個挑戰(zhàn):中性(620 張圖像)、表情(675 張圖像)、遮擋(528 張圖像)和自拍(231 張圖像)。中性、表情和遮擋包含所有受試者的中性、富有表情和部分遮擋的面部圖像,從正面視圖到側(cè)面視圖不等。表情包含不同的表情,如快樂、悲傷、驚訝、厭惡和恐懼。遮擋包含具有不同遮擋的圖像,如眼鏡、太陽鏡、面部毛發(fā)、帽子或兜帽等。對于自拍類別,參與者被要求使用 iPhone 自拍,而不對執(zhí)行的面部表情施加任何限制。這些圖像在室內(nèi)和室外捕獲,以提供自然和人工光的變化。
對于所有類別的挑戰(zhàn)都是在給定單眼圖像的情況下重建一個中性的 3D 面部。請注意,幾張圖像中存在面部表情,這需要方法來分離身份和表情,以評估預(yù)測的身份的質(zhì)量。
捕獲設(shè)置:對于每個受試者,我們使用主動立體系統(tǒng)(3dMD LLC,亞特蘭大)捕獲中性表情的原始頭部掃描。多攝像頭系統(tǒng)包括六對灰度立體攝像頭、六個彩色攝像頭、五個斑點圖案投影儀和六個白色 LED 面板。重建的 3D 幾何對于每個受試者包含約 12 萬個頂點。每個受試者在掃描過程中佩戴頭巾,以避免由于頭發(fā)導(dǎo)致的面部或頸部區(qū)域的遮擋和掃描儀噪聲。
數(shù)據(jù)處理:大多數(shù)現(xiàn)有的 3D 面部重建方法需要對面部進行定位。為了減輕這個預(yù)處理步驟的影響,我們?yōu)槊總€圖像提供一個覆蓋面部的邊界框。為了獲得所有圖像的邊界框,我們首先對所有圖像運行一個面部檢測器 [38],然后為每個檢測到的面部預(yù)測關(guān)鍵點 [4]。我們對失敗案例手動選擇 2D 地標(biāo)。然后,我們將地標(biāo)的邊界框向每一側(cè)擴展 5%(底部)、10%(左右)和 30%(頂部),以獲得涵蓋整個面部,包括前額的框。對于面部挑戰(zhàn),我們遵循類似于 [10] 的處理協(xié)議。對于每個掃描,選擇面部中心,并通過刪除指定半徑外的一切來裁剪掃描。所選半徑是特定于主體的,計算方法為 0.7 × (外眼距離 + 鼻距離)(見圖 2)。
評估指標(biāo):在給定單眼圖像的情況下,挑戰(zhàn)是重建一個 3D 面部。由于預(yù)測的網(wǎng)格出現(xiàn)在不同的本地坐標(biāo)系中,通過使用預(yù)測和掃描之間的一組相應(yīng)的地標(biāo)對重建的 3D 網(wǎng)格進行剛性對齊(旋轉(zhuǎn)、平移和縮放)。我們進一步執(zhí)行基于掃描到網(wǎng)格距離的剛性對齊(即每個掃描頂點與網(wǎng)格表面上最近點之間的絕對距離),使用地標(biāo)對齊作為初始化。然后,計算每個圖像的誤差,即地面真實掃描與重建網(wǎng)格之間的掃描到網(wǎng)格距離。然后報告不同的錯誤,包括所有距離的累積錯誤圖,中位距離,平均距離和標(biāo)準(zhǔn)偏差。
如何參與:要參與挑戰(zhàn),我們提供一個網(wǎng)站 [25],用于下載測試圖像,并上傳每個注冊的重建結(jié)果和選定的地標(biāo)。然后,自動計算并返回誤差指標(biāo)。請注意,我們不提供地面真實掃描,以防止在測試數(shù)據(jù)上進行微調(diào)。
5. 實驗
我們對RingNet進行了定性和定量評估,并與公開可用的方法進行了比較,這些方法包括:PRNet(ECCV 2018 [9])、Extreme3D(CVPR 2018 [35])和3DMM-CNN(CVPR 2017 [34])。
定量評估:我們在[10]和我們的NoW數(shù)據(jù)集上比較了不同方法。
Feng等人的基準(zhǔn):Feng等人[10]描述了一個用于評估從單個圖像進行3D面部重建的基準(zhǔn)數(shù)據(jù)集。他們提供了一個測試數(shù)據(jù)集,其中包含面部圖像及其對應(yīng)于Stirling/ESRC 3D面部數(shù)據(jù)庫子集的3D地面真實面部掃描。測試數(shù)據(jù)集包含2000張2D中性面部圖像,包括656張高質(zhì)量(HQ)圖像和1344張低質(zhì)量(LQ)圖像。高質(zhì)量圖像是在受控場景中拍攝的,而低質(zhì)量圖像則是從視頻幀中提取的。該數(shù)據(jù)側(cè)重于中性面部,而我們的數(shù)據(jù)在表情、遮擋和照明方面具有更高的變化性,如第4節(jié)所述。
請注意,我們與之比較的方法(PRNet、Extreme3D、3DMM-CNN)在訓(xùn)練時使用了3D監(jiān)督,而我們的方法沒有。PRNet [9] 要求非常緊密地裁剪面部區(qū)域才能獲得良好的結(jié)果,并且在給定基準(zhǔn)數(shù)據(jù)庫的松散裁剪輸入圖像時表現(xiàn)不佳(參見補充資料)。我們沒有嘗試為PRNet裁剪圖像,而是在給定圖像上運行它,并注意其成功的情況:對于低分辨率測試圖像,它輸出了918個網(wǎng)格,對于高質(zhì)量圖像,輸出了509個網(wǎng)格。為了與PRNet進行比較,我們僅在PRNet成功的1427張圖像上運行所有其他方法。
我們使用[10]中的方法計算誤差,該方法計算從地面真實掃描點到估計的網(wǎng)格表面的距離。圖5(左和中)顯示了不同方法在低質(zhì)量和高質(zhì)量圖像上的累積誤差曲線;RingNet優(yōu)于其他方法。表1報告了均值、標(biāo)準(zhǔn)差和中值誤差。
圖5:累積誤差曲線。從左到右:[10]的低質(zhì)量數(shù)據(jù)。[10]的高質(zhì)量數(shù)據(jù)。NoW數(shù)據(jù)集面部挑戰(zhàn)。
表1:Feng等人[10]基準(zhǔn)的統(tǒng)計信息
NoW面部挑戰(zhàn):對于這個挑戰(zhàn),我們像[10]一樣使用了裁剪的掃描來評估不同方法。我們首先對所有比較方法的預(yù)測網(wǎng)格執(zhí)行剛性對齊。然后,我們計算上述預(yù)測網(wǎng)格與掃描之間的掃描到網(wǎng)格距離[10]。圖5(右)顯示了不同方法的累積誤差曲線;再次,RingNet優(yōu)于其他方法。我們在表2中提供了均值、中值和標(biāo)準(zhǔn)差誤差。
表2:NoW數(shù)據(jù)集面部挑戰(zhàn)的統(tǒng)計信息。
定性結(jié)果:這里我們展示了從單個CelebA [22]和MultiPIE數(shù)據(jù)集 [14]人臉圖像估計3D面/頭網(wǎng)格的定性結(jié)果。圖1展示了RingNet的一些結(jié)果,說明了它對表情、性別、頭部姿勢、頭發(fā)、遮擋等的魯棒性。在圖6和圖7中,我們展示了我們的方法在不同條件下,如照明、姿勢和遮擋下的魯棒性。在Sup. Mat.中提供了定性比較。
圖6:RingNet對不同照明條件的穩(wěn)健性。圖像來自MultiPIE數(shù)據(jù)集[14]。
圖7:RingNet對遮擋、姿勢變化和照明變化的穩(wěn)健性。圖像來自NoW數(shù)據(jù)集。
剔除研究:在這里,我們通過在表3中比較不同 R R R值的選擇,為在RingNet中使用環(huán)形架構(gòu)提供了一些動機。我們在包含10個受試者的驗證集上評估這些值(其中六個來自[8],四個來自[21])。對于每個受試者,我們選擇一個中性掃描和兩到四個掃描儀圖像,為圖像重建3D網(wǎng)格,并在剛性對齊后測量掃描到網(wǎng)格的重建誤差。使用具有更多元素的環(huán)形結(jié)構(gòu)與僅使用單個三元組損失相比,誤差減小,但它也增加了訓(xùn)練時間。為了在時間和誤差之間取得平衡,我們在實驗中選擇了 R = 6 R = 6 R=6。
表3:不同環(huán)元素數(shù)量R的影響。我們在消融研究中描述的驗證集上進行評估。
6. 結(jié)論
我們解決了從單一2D圖像學(xué)習(xí)估計3D、關(guān)節(jié)化和可變形形狀的具有挑戰(zhàn)性的問題,而沒有配對的3D訓(xùn)練數(shù)據(jù)。我們將RingNet模型應(yīng)用于人臉,但該公式是通用的。關(guān)鍵思想是利用一系列成對損失,鼓勵解決方案在相同人物的圖像中共享相同的形狀,在它們不同的情況下具有不同的形狀。我們利用FLAME面部模型將面部姿勢和表情分解為形狀,以便RingNet可以在形狀固定的同時允許其他參數(shù)變化。我們的方法需要一個數(shù)據(jù)集,其中一些人會多次出現(xiàn),以及2D面部特征,可以通過現(xiàn)有方法估計。我們僅提供標(biāo)準(zhǔn)2D面部特征與3D FLAME模型的頂點之間的關(guān)系。與以前的方法不同,我們不優(yōu)化3DMM到2D特征,也不使用合成數(shù)據(jù)。競爭方法通常利用使用面部反照率、反射和陰影的近似生成模型的光度損失。RingNet不需要這樣做來學(xué)習(xí)圖像像素與3D形狀之間的關(guān)系。此外,我們的公式捕捉了整個頭部及其姿勢。最后,我們創(chuàng)建了一個具有準(zhǔn)確的地面真實3D頭部形狀和在各種條件下拍攝的高質(zhì)量圖像的新的公共數(shù)據(jù)集。令人驚訝的是,RingNet優(yōu)于使用3D監(jiān)督的方法。這為未來的研究開辟了許多方向,例如擴展RingNet與[24]。在這里,我們側(cè)重于沒有3D監(jiān)督的情況,但我們可以放寬這一點,并在可用時使用監(jiān)督。我們預(yù)期少量的監(jiān)督會提高準(zhǔn)確性,而野外圖像的大數(shù)據(jù)集將提供對照明、遮擋等的穩(wěn)健性。我們的2D特征檢測器不包括耳朵,盡管耳朵是非常獨特的特征。添加2D耳朵檢測將進一步改善3D頭部姿勢和形狀。雖然我們的模型停在頸部,但我們計劃將模型擴展到全身[23]。有趣的是看到RingNet是否可以擴展到僅使用2D關(guān)節(jié)從圖像中重建3D身體姿勢和形狀。這可能超越當(dāng)前的方法,如HMR [17],以學(xué)習(xí)關(guān)于身體形狀的信息。雖然RingNet學(xué)習(xí)了到現(xiàn)有面部3D模型的映射,但我們可以放寬這一點,并且還可以在低維形狀空間上進行優(yōu)化,從示例中學(xué)習(xí)更詳細的形狀模型。為此,整合陰影線索[32, 28]將有助于約束問題。
致謝:我們感謝T. Alexiadis建立NoW數(shù)據(jù)集,J. Tesch提供渲染結(jié)果,D. Lleshaj提供注釋,A. Osman提供補充視頻,以及S. Tang進行有益的討論。
披露:Michael J. Black收到了Intel、Nvidia、Adobe、Facebook和Amazon的研究禮金。他是Amazon的兼職員工,并在Amazon和Meshcapade GmbH擁有財務(wù)利益。他的研究僅在MPI進行。
References
(……)
附錄
在接下來的部分,我們展示了NoW數(shù)據(jù)集的各個挑戰(zhàn)(中性,圖8;表情,圖9;遮擋,圖10;自拍,圖11)的累積誤差圖。圖5的右側(cè)顯示了跨所有挑戰(zhàn)的累積誤差。
圖8:中性挑戰(zhàn)的累積誤差曲線。
圖9:表情挑戰(zhàn)的累積誤差曲線。
圖10:遮擋挑戰(zhàn)的累積誤差曲線。
文章來源:http://www.zghlxwxcb.cn/news/detail-728038.html
圖11:自拍挑戰(zhàn)的累積誤差曲線。文章來源地址http://www.zghlxwxcb.cn/news/detail-728038.html
到了這里,關(guān)于【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!