【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督

這篇具有很好參考價值的文章主要介紹了【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記，轉(zhuǎn)載請注明出處

標(biāo)題：Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

鏈接：[1905.06817] Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision (arxiv.org)

摘要

從單張圖像估計3D面部形狀必須對光照、頭部姿勢、表情、面部毛發(fā)、化妝和遮擋等變化具有魯棒性。魯棒性要求具備大規(guī)模的野外圖像訓(xùn)練集，而這些圖像在構(gòu)建時缺乏真實的3D形狀信息。為了在沒有任何2D到3D監(jiān)督的情況下訓(xùn)練網(wǎng)絡(luò)，我們提出了RingNet，它能夠從單張圖像中學(xué)習(xí)計算3D面部形狀。我們的關(guān)鍵觀察是，一個人的面部形狀在不同圖像中是恒定的，不受表情、姿勢、光照等影響。RingNet利用一個人的多張圖像和自動檢測的2D面部特征。它使用一種新穎的損失函數(shù)，鼓勵當(dāng)身份相同時，面部形狀相似，而對于不同的人則不同。我們通過使用FLAME模型表示面部，實現(xiàn)了對表情的不變性。一旦訓(xùn)練完成，我們的方法接受一張圖像并輸出FLAME的參數(shù)，可以輕松實現(xiàn)動畫效果。此外，我們創(chuàng)建了一個新的“不太野外”（NoW）人臉數(shù)據(jù)庫，其中包含3D頭部掃描和受試者在各種條件下的高分辨率圖像。我們評估了公開可用的方法，并發(fā)現(xiàn)RingNet比使用3D監(jiān)督的方法更準(zhǔn)確。該數(shù)據(jù)集、模型和結(jié)果可供研究目的使用，網(wǎng)址為http://ringnet.is.tuebingen.mpg.de。

1. 引言

我們的目標(biāo)是從一個人的單張圖像中估計3D頭部和面部形狀。與先前的方法不同，我們感興趣的不僅僅是面部周圍的緊密裁剪區(qū)域。相反，我們估計完整的3D面部、頭部和頸部。這樣的表示對VR/AR、虛擬眼鏡試穿、動畫、生物特征等應(yīng)用是必要的。此外，我們尋求一種能夠捕捉3D面部表情、根據(jù)表情因素化面部形狀，并能夠重新擺姿和動畫的表示。雖然計算機視覺文獻中已經(jīng)提出了許多方法來解決面部形狀估計問題[40]，但沒有一種方法滿足我們所有的目標(biāo)。

具體而言，我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，直接從圖像像素回歸到3D面部模型的參數(shù)。在這里，我們使用FLAME [21]，因為它比其他模型更精確，涵蓋了各種形狀，對整個頭部和頸部進行建模，容易進行動畫處理，并且是免費提供的。然而，訓(xùn)練一個網(wǎng)絡(luò)來解決這個問題是具有挑戰(zhàn)性的，因為幾乎沒有配對的3D頭部/面部與人物自然圖像的數(shù)據(jù)。為了使模型對成像條件、姿勢、面部毛發(fā)、攝像機噪聲、光照等具有魯棒性，我們希望從大量野外圖像中進行訓(xùn)練。這樣的圖像在定義上缺乏受控的真實3D數(shù)據(jù)。

這是計算機視覺中的通用問題 - 尋找2D訓(xùn)練數(shù)據(jù)很容易，但當(dāng)配對的3D訓(xùn)練數(shù)據(jù)非常有限且難以獲取時，從2D到3D的回歸學(xué)習(xí)就變得困難。在沒有真實3D的情況下，有幾種選擇，但每種都有問題。合成訓(xùn)練數(shù)據(jù)通常不能捕捉真實世界的復(fù)雜性?？梢詫?D模型擬合到2D圖像特征，但這種映射是模棱兩可的，因此不準(zhǔn)確。由于模棱兩可性，僅使用觀察到的2D特征和投影的3D特征之間的損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并不能取得良好的結(jié)果（參見[17]）。

為了解決缺乏訓(xùn)練數(shù)據(jù)的問題，我們提出了一種新方法，該方法可以在沒有任何監(jiān)督的2D到3D訓(xùn)練數(shù)據(jù)的情況下，學(xué)習(xí)從像素到3D形狀的映射。為此，我們僅使用OpenPose [29]自動提取的2D面部特征來學(xué)習(xí)映射。為了使這種可能，我們的關(guān)鍵觀察是同一人的多張圖像對3D面部形狀提供了強有力的約束，因為形狀保持不變，盡管其他因素可能發(fā)生變化，如姿勢、光照和表情。FLAME可以因子化姿勢和形狀，使我們的模型能夠?qū)W習(xí)什么是恒定的（形狀）并排除發(fā)生變化的內(nèi)容（姿勢和表情）。

雖然事實上，同一人的面部形狀在不同圖像中是恒定的，但我們需要定義一種訓(xùn)練方法，讓神經(jīng)網(wǎng)絡(luò)利用這種形狀的恒定性。為此，我們引入了RingNet。RingNet使用一個人的多張圖像，并強制要求所有圖像對之間的形狀應(yīng)該相似，同時最小化觀察到的特征和投影的3D特征之間的2D誤差。雖然這鼓勵網(wǎng)絡(luò)以相似的方式編碼形狀，但我們發(fā)現(xiàn)這還不足夠。我們還將屬于不同隨機人的面孔添加到“環(huán)”中，并強制要求環(huán)中所有其他圖像之間的潛在空間距離大于同一人之間的距離。類似的思想已經(jīng)在流形學(xué)習(xí)（例如三元組損失）[37]和人臉識別[26]中被使用，但據(jù)我們所知，我們的方法以前尚未用于學(xué)習(xí)從2D到3D幾何的映射。我們發(fā)現(xiàn)，將三元組擴展到更大的環(huán)對學(xué)習(xí)準(zhǔn)確的幾何形狀至關(guān)重要。

雖然我們使用一個人的多張圖像進行訓(xùn)練，但請注意，在運行時，我們只需要一張單獨的圖像。通過這種公式，我們能夠訓(xùn)練一個網(wǎng)絡(luò)，直接從圖像像素回歸到FLAME的參數(shù)。因為我們用“野外”圖像進行訓(xùn)練，所以該網(wǎng)絡(luò)在各種條件下都具有魯棒性，如圖1所示。然而，該方法更為一般化，可以應(yīng)用于其他2D到3D學(xué)習(xí)問題。

圖1：在沒有3D監(jiān)督的情況下，RingNet學(xué)習(xí)從單個圖像的像素到FLAME模型[21]的3D面部參數(shù)的映射。頂部：圖像來自CelebA數(shù)據(jù)集[22]。底部：估計的形狀、姿勢和表情。

評估3D面部估計方法的準(zhǔn)確性仍然是一個挑戰(zhàn)，盡管已經(jīng)發(fā)表了許多方法，但在各種成像條件、姿勢、光照和遮擋下，沒有對3D準(zhǔn)確性進行嚴(yán)格的比較。為了解決這個問題，我們收集了一個名為NoW（Not quite in-the-Wild）的新數(shù)據(jù)集，其中包含100名受試者在各種條件下拍攝的高分辨率真實掃描和高質(zhì)量圖像（圖2）。NoW比以前的數(shù)據(jù)集更復(fù)雜，我們使用它來評估所有具有公開實現(xiàn)的最新方法。具體而言，我們與[34]、[35]和[9]進行比較，這些方法都經(jīng)過3D監(jiān)督訓(xùn)練。盡管我們的RingNet方法沒有任何2D到3D監(jiān)督，但恢復(fù)了更準(zhǔn)確的3D面部形狀。我們還在具有挑戰(zhàn)性的野外人臉圖像上定性評估了該方法。

圖2：NoW數(shù)據(jù)集包括在不同條件下拍攝的各種圖像（頂部）和高分辨率的3D頭部掃描（底部）。深藍色區(qū)域是我們在面部挑戰(zhàn)中考慮的部分。

總的來說，我們的論文的主要貢獻有：（1）從單一面部圖像中進行完整的面部、帶頸部的重建。（2）RingNet - 一種端到端可訓(xùn)練的網(wǎng)絡(luò)，強制要求在主體的不同視角、光照條件、分辨率和遮擋下實現(xiàn)面部圖像的形狀一致性。（3）一種用于從2D輸入學(xué)習(xí)3D幾何的新型形狀一致性損失。（4）NoW - 用于定性和定量評估3D面部重建方法的基準(zhǔn)數(shù)據(jù)集。（5）最后，我們免費提供模型、訓(xùn)練代碼和新數(shù)據(jù)集，以鼓勵進行定量比較[25]。

2. 相關(guān)工作

有幾種方法可以解決從圖像估計3D面部形狀的問題。一種方法估計深度圖、法線等；也就是說，這些方法產(chǎn)生了一個與像素相關(guān)但專門用于面部的對象形狀表示。另一種方法估計可以進行動畫處理的3D形狀模型。我們專注于后者的方法。在最近的一篇綜述文章中，Zollh?fer等人[40]描述了單目面部重建的現(xiàn)狀，并為該領(lǐng)域提供了一個前瞻性的一系列挑戰(zhàn)。請注意，監(jiān)督、弱監(jiān)督和無監(jiān)督方法之間的界限是模糊的。大多數(shù)方法使用某種形式的3D形狀模型，該模型事先從掃描中學(xué)習(xí)；在這里我們不稱之為監(jiān)督。這里的術(shù)語"監(jiān)督"意味著使用了配對的2D到3D數(shù)據(jù)；這可能來自真實數(shù)據(jù)或合成數(shù)據(jù)。如果首先優(yōu)化3D模型以適應(yīng)2D圖像特征，那么我們稱之為使用了2D到3D的監(jiān)督。如果在訓(xùn)練網(wǎng)絡(luò)時使用了2D圖像特征，但沒有3D數(shù)據(jù)，那么這通常是弱監(jiān)督，相對于2D到3D任務(wù)而言是無監(jiān)督的。

量化評估：由于缺乏具有復(fù)雜圖像和高質(zhì)量地面實況的共同數(shù)據(jù)集，方法之間的定量比較一直受到限制。最近，F(xiàn)eng等人[10]組織了一個單圖像到3D面部重建的挑戰(zhàn)，其中提供了受試者的地面實況掃描。我們的NoW基準(zhǔn)與這種方法互補，因為它專注于極端的視角、面部表情和部分遮擋。

優(yōu)化：大多數(shù)現(xiàn)有方法需要緊密裁剪的輸入圖像和/或僅對適用于人臉的緊密裁剪區(qū)域進行重建。大多數(shù)當(dāng)前的形狀模型都是原始的Blanz和Vetter 3D可塑模型（3DMM）[3]的后裔。雖然有許多對這個模型的變體和改進，如[13]，我們在這里使用FLAME [21]，因為它的形狀空間和表情空間都是從比其他方法更多的掃描中學(xué)到的。只有FLAME在形狀空間中包括頸部區(qū)域，并且使用頭部旋轉(zhuǎn)時模擬頸部的姿勢相關(guān)變形。緊密裁剪的面部區(qū)域使頭部旋轉(zhuǎn)的估計變得模棱兩可。直到最近，這一直是主導(dǎo)范式[2、30、11]。例如，Kemelmacher-Shlizerman和Seitz [18]使用多圖像陰影重建圖像集，允許視點和形狀的變化。Thies等人[33]在單目視頻序列上獲得準(zhǔn)確的結(jié)果。雖然這些方法可以在高逼真度下取得良好的結(jié)果，但它們計算成本高昂。

使用3D監(jiān)督進行學(xué)習(xí)：深度學(xué)習(xí)方法迅速取代基于優(yōu)化的方法[35、39、19、16]。例如，Sela等人[27]使用合成數(shù)據(jù)集生成圖像到深度映射和像素到頂點映射，二者結(jié)合生成面部網(wǎng)格。Tran等人[34]直接回歸面部模型的3DMM參數(shù)，使用密集網(wǎng)絡(luò)。他們的關(guān)鍵思想是使用同一主體的多個圖像，并使用2D標(biāo)志物擬合每個圖像的3DMM。然后，他們?nèi)M合網(wǎng)格的加權(quán)平均值用作訓(xùn)練網(wǎng)絡(luò)的ground truth。Feng等人[9]從圖像回歸到記錄3D面部位置信息的UV位置圖，提供對UV空間上每個點的語義含義的密集對應(yīng)關(guān)系。所有上述方法都使用了某種形式的3D監(jiān)督，如合成渲染、基于3DMM的優(yōu)化擬合，或使用3DMM生成UV映射或體積表示。在基于擬合的方法中，沒有一種方法能夠為真實世界的面部圖像產(chǎn)生真實的ground truth，而合成生成的面部可能無法很好地推廣到真實世界[31]。依賴將3DMM擬合到圖像中，使用2D-3D對應(yīng)關(guān)系創(chuàng)建偽地面實況的方法始終受到3DMM的表現(xiàn)力和擬合過程的準(zhǔn)確性的限制。

使用弱3D監(jiān)督進行學(xué)習(xí)：Sengupta等人[28]通過使用混合合成渲染圖像和真實圖像來學(xué)習(xí)模仿Lambertian渲染過程。他們處理了緊密裁剪的面部，不生成可以進行動畫處理的模型。Genova等人[12]提出了一種使用可微分渲染過程的端到端學(xué)習(xí)方法。他們還使用合成數(shù)據(jù)及其相應(yīng)的3D參數(shù)來訓(xùn)練他們的編碼器。Tran和Liu [36]通過使用具有解析可微分渲染層的非線性3DMM模型，以弱監(jiān)督的方式學(xué)習(xí)3DMM模型。

沒有3D監(jiān)督進行學(xué)習(xí)：MoFA [32]估計3DMM的參數(shù)，并使用光度損失和可選的2D特征損失進行端到端訓(xùn)練。從本質(zhì)上講，它是Blanz和Vetter模型的神經(jīng)網(wǎng)絡(luò)版本，因為它模擬了形狀、皮膚反射和照明，生成與輸入匹配的逼真圖像。這種方法的優(yōu)勢在于它比優(yōu)化方法快得多[31]。MoFA估計了面部的緊密裁剪，產(chǎn)生了看起來很好的結(jié)果，但在處理極端表情時存在問題。他們只對真實圖像使用FaceWarehouse模型作為“ground truth”進行定量評估；這不是真實3D面部形狀的準(zhǔn)確表示。

所有沒有任何2D到3D監(jiān)督的學(xué)習(xí)方法都明確地對圖像形成過程進行建模（如Blanz和Vetter），并制定光度損失，通常還結(jié)合了與3D模型已知對應(yīng)關(guān)系的2D面部特征檢測。光度損失的問題在于圖像形成模型總是近似的（例如Lambertian）。理想情況下，人們希望網(wǎng)絡(luò)不僅能學(xué)到面部形狀，還能學(xué)到真實世界圖像的復(fù)雜性以及它們與形狀的關(guān)系。為此，我們的RingNet方法僅使用2D面部特征，沒有光度項。盡管（或因為）如此，該方法能夠直接從像素到3D面部形狀進行學(xué)習(xí)。這是已發(fā)表方法中最少監(jiān)督的一種。

3. 提出的方法

我們方法的目標(biāo)是從單張面部圖像I中估計3D頭部和面部形狀。給定一張圖像，我們假設(shè)已經(jīng)檢測到了面部，進行了松散的裁剪，并大致居中。在訓(xùn)練期間，我們的方法利用2D標(biāo)志物和身份標(biāo)簽作為輸入。在推理期間，它僅使用圖像像素；不使用2D標(biāo)志物和身份標(biāo)簽。

關(guān)鍵思想：
關(guān)鍵思想可以總結(jié)如下：

一個人的面部形狀保持不變，即使面部圖像在視角、光照條件、分辨率、遮擋、表情或其他因素上有所變化。
每個人都有獨特的面部形狀（不考慮相同的雙胞胎）。我們通過引入形狀一致性損失來利用這個想法，體現(xiàn)在我們的環(huán)形網(wǎng)絡(luò)結(jié)構(gòu)中。

RingNet（圖3）是一個基于多個編碼器-解碼器的體系結(jié)構(gòu)，其中編碼器之間共享權(quán)重，并在形狀變量上施加形狀約束。環(huán)中的每個編碼器都是特征提取網(wǎng)絡(luò)和回歸器網(wǎng)絡(luò)的組合。在形狀變量上施加形狀約束迫使網(wǎng)絡(luò)將面部形狀、表情、頭部姿勢和相機參數(shù)解耦。我們使用FLAME [21]作為解碼器，從語義上有意義的嵌入中重建3D面部，以及在嵌入空間中獲得語義上有意義的參數(shù)的解耦（即形狀、表情和姿勢參數(shù)）。

圖3：RingNet在訓(xùn)練過程中獲取同一人物（主體A）的多個圖像和另一個人物（主體B）的圖像，并在相同主體之間強制執(zhí)行形狀一致性以及在不同主體之間強制執(zhí)行形狀不一致性。從預(yù)測的3D網(wǎng)格計算的3D地標(biāo)在2D域中投影以計算與地面真實2D地標(biāo)的損失。在推理過程中，RingNet以單個圖像作為輸入并預(yù)測相應(yīng)的3D網(wǎng)格。圖像來自[6]。該圖是為了說明目的而簡化的版本。

我們將在接下來更詳細地介紹FLAME解碼器、RingNet體系結(jié)構(gòu)和損失。

3.1. FLAME模型

FLAME使用線性變換來描述與身份和表情相關(guān)的形狀變化，并使用標(biāo)準(zhǔn)的線性混合蒙皮（LBS）來模擬圍繞 $K = 4$ 個關(guān)節(jié)的頸部、下巴和眼球旋轉(zhuǎn)。由形狀系數(shù)參數(shù)化， $\vec{β} \in \mathbb{R}^{|\vec{β}|}$ ，姿勢 $\vec{θ} \in \mathbb{R}^{|\vec{θ}|}$ ，和表情 $\vec{ψ} \in \mathbb{R}^{|\vec{ψ}|}$ ，F(xiàn)LAME返回 $N = 5023$ 個頂點。

FLAME模型了與身份相關(guān)的形狀變化 $B_S(\vec{β};\pmb{S}):\mathbb{R}^{|\vec{β}|} \rightarrow \mathbb{R} ^ {3N}$ ，校正姿勢混合形狀 $B_P(\vec{θ};\pmb{P}):\mathbb{R}^{|\vec{θ}|} \rightarrow \mathbb{R} ^ {3N}$ ，以及表情混合形狀 $B_E(\vec{ψ};\pmb{E}):\mathbb{R}^{|\vec{ψ}|} \rightarrow \mathbb{R} ^ {3N}$ ，作為具有學(xué)習(xí)基礎(chǔ) $\mathcal{S}$ 、 $\mathcal{E}$ 和 $\mathcal{P}$ 的線性變換。給定模板 $\overline{\pmb{T}} \in \mathbb{R}^{3N}$ 處于“零姿勢”，身份、姿勢和表情混合形狀被建模為相對于 $\overline{\pmb{T}}$ 的頂點偏移。每個姿勢向量 $\vec{θ} \in \mathbb{R}^{3K+3}$ 包含 $(K + 1)$ 個軸角表示中的旋轉(zhuǎn)向量；即每個關(guān)節(jié)加上全局旋轉(zhuǎn)一個向量?；旌厦善ず瘮?shù) $(\overline{\pmb{T}}, \pmb{J}, \vec{θ}, \mathcal{W})$ 然后圍繞關(guān)節(jié) $\pmb{J} \in \mathbb{R}^{3K}$ 旋轉(zhuǎn)頂點，由混合權(quán)重 $\mathcal{W} \in \mathbb{R} ^ {K \times N}$ 線性平滑。

更正式地，F(xiàn)LAME表示為：
$M(\vec{β},\vec{θ},\vec{ψ})=W(T_P(\vec{β},\vec{θ},\vec{ψ}),\pmb{J}(\vec{β}),\vec{θ},\mathcal{W}), \tag{1}$
其中
$T_P(\vec{β},\vec{θ},\vec{ψ})=\overline{\pmb{T}}+B_S(\vec{β};\mathcal{S})+B_P(\vec{θ};\mathcal{P})+B_E(\vec{ψ};\mathcal{E}), \tag{2}$
由于不同的面部形狀需要不同的關(guān)節(jié)位置，關(guān)節(jié)被定義為與 $\vec{β}$ 相關(guān)的函數(shù)。我們使用方程1來解碼我們的嵌入空間，以生成完整頭部和面部的3D網(wǎng)格。

3.2. RingNet

最近在人臉識別（例如[38]）和面部標(biāo)志檢測（例如[4, 29]）方面的進展導(dǎo)致了帶有身份標(biāo)簽和2D面部標(biāo)志的大型圖像數(shù)據(jù)集。在訓(xùn)練中，我們假設(shè)有一組2D面部圖像 $I_i$ ，對應(yīng)的身份標(biāo)簽 $c_i$ 和標(biāo)志 $k_i$ 。

形狀一致性假設(shè)可以通過 $\vec{β_i} = \vec{β_j}，?c_i = c_j$ （即一個主體的面部形狀在多個圖像中應(yīng)保持不變），以及 $\vec{β_i} \neq \vec{β_j}，?c_i \neq c_j$ （即不同主體的面部形狀應(yīng)該是不同的）來形式化。RingNet引入了一個環(huán)形結(jié)構(gòu)，可以同時優(yōu)化任意數(shù)量的輸入圖像的形狀一致性。有關(guān)形狀一致性的詳細信息，請參見第3節(jié)。

RingNet分為 $R$ 個環(huán)元素 $e^{i=R}_{i=1}$ ，如圖3所示，其中每個ei都包括一個編碼器和一個解碼器網(wǎng)絡(luò)（見圖4）。編碼器在 $e_i$ 之間共享權(quán)重，解碼器在訓(xùn)練期間保持不變。編碼器是特征提取網(wǎng)絡(luò) $f_{feat}$ 和回歸網(wǎng)絡(luò) $f_{reg}$ 的組合。給定圖像 $I_i$ ， $f_{feat}$ 輸出一個高維向量，然后由 $f_{reg}$ 編碼成一個語義上有意義的向量（即 $f_{enc}(I_i) = f_{reg}(f_{feat}(I_i))$ ）。這個向量可以表示為相機、姿勢、形狀和表情參數(shù)的串聯(lián)，即 $f_{enc}(I_i) = [cam_i, \vec θ_i, \vec β_i, \vec ψ_i]$ ，其中 $\vec θ_i，\vec β_i，\vec ψ_i$ 是FLAME參數(shù)。

圖4：輸出圖像的3D網(wǎng)格的Ring元素。

為簡單起見，我們在以下省略 $I$ ，使用 $f_{enc}(I_i) = f_{enc,i}$ 和 $f_{feat}(I_i) = f_{feat,i}$ ?；貧w網(wǎng)絡(luò)通過迭代誤差反饋循環(huán)[17, 7]迭代地回歸 $f_{enc,i}$ ，而不是直接從 $f_{feat,i}$ 回歸 $f_{enc,i}$ 。在每個迭代步驟中，從先前的估計中進行漸進性移動，以達到當(dāng)前估計。形式上，回歸網(wǎng)絡(luò)將串聯(lián)的 $[f^t_{feat,i}, f^t_{enc,i}]$ 作為輸入，并輸出 $δf^t_{enc,i}$ 。然后我們通過以下方式更新當(dāng)前估計，
${f_{enc,i}}^{t+1} = {f_{enc,i}}^{t} + δ{f_{enc,i}}^{t} \tag{3}$
該迭代網(wǎng)絡(luò)在整個RingNet訓(xùn)練的每個迭代中執(zhí)行多個回歸迭代。初始估計設(shè)置為 $\vec 0$ 。然后，將回歸網(wǎng)絡(luò)的輸出饋送到可微的FLAME解碼器網(wǎng)絡(luò)，該解碼器網(wǎng)絡(luò)輸出3D頭部網(wǎng)格。

環(huán)元素 $R$ 的數(shù)量是我們網(wǎng)絡(luò)的一個超參數(shù)，它確定在 $\vec β$ 上進行優(yōu)化一致性的并行處理的圖像數(shù)量。RingNet允許同時使用同一主體的圖像和不同主體的圖像的任意組合。然而，為了不失一般性，我們將相同身份的面部圖像提供給 ${\{e_j\}}^{j=R?1}_{j=1}$ ，將不同身份的圖像提供給 $e_R$ 。因此，對于每個輸入訓(xùn)練批次，每個切片包含 $R ? 1$ 個相同人的圖像和另一個人的一個圖像（見圖3）。

3.3. Shape Consistency Loss

為簡化起見，讓我們稱具有相同身份標(biāo)簽的兩個主體為“匹配對”，而具有不同身份標(biāo)簽的兩個主體為“不匹配對”。我們工作的一個關(guān)鍵目標(biāo)是創(chuàng)建一個強大的端到端可訓(xùn)練的網(wǎng)絡(luò)，可以從同一主體的圖像中產(chǎn)生相同的形狀，并對不同主體產(chǎn)生不同的形狀。換句話說，我們希望使我們的形狀生成器具有區(qū)分性。我們通過要求匹配對在形狀空間中的距離比不匹配對小一個邊界值 $η$ 來強制執(zhí)行這一點。距離是在面部形狀參數(shù)的空間中計算的，這對應(yīng)于中性姿勢下頂點的歐幾里得空間。

在RingNet結(jié)構(gòu)中， $e_j$ 和 $e_k$ 產(chǎn)生 $\vec β_j$ 和 $\vec β_k$ ，當(dāng) $\neq k$ 且 $\neq R$ 時，它們是匹配對。類似地， $e_j$ 和 $e_R$ 產(chǎn)生 $\vec β_j$ 和 $\vec β_R$ ，當(dāng) $\neq R$ 時，它們是不匹配對。我們的形狀一致性項為：
$\left\| \vec {\beta_j} - \vec {\beta_k} \right\|_2^2 + \eta \leq \left\| \vec {\beta_j} - \vec {\beta_R} \right\|_2^2 \tag{4}$
因此，我們在訓(xùn)練RingNet端到端時最小化以下?lián)p失：
$L_S = \sum_{i=1}^{n_b} \sum_{j,k=1}^{R-1} \max\left(0, \left\| \vec {\beta_{ij}} - \vec {\beta_{ik}} \right\|_2^2 - \left\| \vec {\beta_{ij}} - \vec {\beta_{iR}} \right\|_2^2 + \eta\right) \tag{5}$
其可以歸一化為：
$L_{SC} = \frac{1}{n_b \times R} \times L_S \tag{6}$
$n_b$ 是環(huán)中每個元素的批處理大小。

3.4. 2D Feature Loss

最后，我們計算在訓(xùn)練過程中提供的地面真實標(biāo)志和預(yù)測標(biāo)志之間的L1損失。請注意，我們不直接預(yù)測2D標(biāo)志，而是從已知拓撲結(jié)構(gòu)的3D網(wǎng)格中檢索。

給定FLAME模板網(wǎng)格，我們?yōu)槊總€OpenPose [29]關(guān)鍵點定義了網(wǎng)格表面上對應(yīng)的3D點。請注意，這是我們提供連接2D和3D的監(jiān)督的唯一地方。這只做一次。嘴巴、鼻子、眼睛和眉毛關(guān)鍵點具有固定的對應(yīng)3D點（稱為靜態(tài)3D標(biāo)志），輪廓特征的位置隨頭部姿勢而變化（稱為動態(tài)3D標(biāo)志），與[5, 31]類似，我們將輪廓標(biāo)志建模為隨全局頭部旋轉(zhuǎn)動態(tài)移動（見Sup. Mat.）。為了自動計算這個動態(tài)輪廓，我們將FLAME模板在左右旋轉(zhuǎn)-20到40度之間，用紋理渲染網(wǎng)格，運行OpenPose預(yù)測2D標(biāo)志，并將這些2D點投影到3D表面。得到的軌跡在臉的左右兩側(cè)對稱傳輸。

在訓(xùn)練期間，RingNet輸出3D網(wǎng)格，為這些網(wǎng)格計算靜態(tài)和動態(tài)3D標(biāo)志，并使用編碼器輸出中預(yù)測的相機參數(shù)將這些標(biāo)志投影到圖像平面。因此，我們計算投影標(biāo)志kpi和地面真實2D標(biāo)志ki之間的以下L1損失：
$L_{\text{proj}} = \|w_i \times (k_{pi} - k_i)\|_1 \tag{7}$
其中 $w_i$ 是由2D標(biāo)志預(yù)測器提供的每個地面真實標(biāo)志的置信度得分。如果置信度高于0.41，則將其設(shè)置為1，否則設(shè)置為0。訓(xùn)練RingNet端到端的總損失 $L_{tot}$ 是：
$L_{\text{tot}} = \lambda_{\text{SC}} L_{\text{SC}} + \lambda_{\text{proj}} L_{\text{proj}} + \lambda_{\tilde{\beta}} \|\tilde{\beta}\|_2^2 + \lambda_{\tilde{\psi}} \|\tilde{\psi}\|_2^2 \tag{8}$
其中 $λ$ 是每個損失項的權(quán)重，最后兩項對形狀和表情系數(shù)進行正則化。由于 $B_S(\vec β; \mathcal S)$ 和 $B_E( \vec ψ; \mathcal E)$ 被平方方差縮放， $\vec β$ 和 $\vec ψ$ 的L2范數(shù)表示正交形狀和表情空間中的馬哈拉諾比斯距離。

3.5. 實現(xiàn)細節(jié)

特征提取網(wǎng)絡(luò)使用預(yù)訓(xùn)練的 ResNet50 [15] 架構(gòu)，在訓(xùn)練期間也進行了優(yōu)化。特征提取網(wǎng)絡(luò)輸出一個 2048 維向量，作為回歸網(wǎng)絡(luò)的輸入?；貧w網(wǎng)絡(luò)包括兩個維度為 512 的全連接層，帶有 ReLu 激活和 dropout，接著是一個最終的線性全連接層，輸出為 159 維。對這個 159 維的輸出向量，我們連接了相機、姿勢、形狀和表情參數(shù)。前三個元素表示比例和 2D 圖像平移。接下來的 6 個元素是全局旋轉(zhuǎn)和顎部旋轉(zhuǎn)，都是在軸角表示法中。由于 FLAME 的頸部和眼球旋轉(zhuǎn)不對應(yīng)于面部標(biāo)記，因此不進行回歸。接下來的 100 個元素是形狀參數(shù)，然后是 FLAME 的 50 個表情參數(shù)?？晌⒎值?FLAME 層在訓(xùn)練期間保持不變。我們使用學(xué)習(xí)率為 1e-4 的 Adam [20] 優(yōu)化器對 RingNet 進行 10 輪訓(xùn)練。不同的模型參數(shù)為 $R = 6$ ， $λ_{SC} = 1$ ， $λ_{proj} = 60$ ， $λ_{\vec β} = 1e ? 4$ ， $λ_{\vec ψ} = 1e ? 4$ ， $η = 0.5$ 。RingNet 架構(gòu)在 Tensorflow [1] 中實現(xiàn)，并將公開發(fā)布。我們使用 VGG2 人臉數(shù)據(jù)庫 [6] 作為訓(xùn)練數(shù)據(jù)集，其中包含面部圖像及其相應(yīng)的標(biāo)簽。我們在數(shù)據(jù)庫上運行 OpenPose [29] 并計算面部的 68 個標(biāo)記點。OpenPose 對許多情況都無法成功。在清理了失敗的情況后，我們得到了大約 80 萬張圖像，以及相應(yīng)的標(biāo)簽和面部標(biāo)記，用于我們的訓(xùn)練語料庫。我們還考慮了由 [4] 提供的約 3000 張具有極端姿勢的圖像及其相應(yīng)的標(biāo)記。由于對于這些極端圖像我們沒有任何標(biāo)簽，我們通過隨機裁剪和縮放來復(fù)制每個圖像，以考慮匹配對。

4. 基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)

本節(jié)介紹了我們的 NoW 基準(zhǔn)測試，用于從單眼圖像進行 3D 面部重建的任務(wù)。該基準(zhǔn)測試的目標(biāo)是引入一個標(biāo)準(zhǔn)評估指標(biāo)，以測量在視角、光照和常見遮擋變化下 3D 面部重建方法的準(zhǔn)確性和魯棒性。

數(shù)據(jù)集：該數(shù)據(jù)集包含 100 名受試者的 2054 張 2D 圖像，使用 iPhone X 拍攝，并為每個受試者單獨提供了一個 3D 頭部掃描。這個頭部掃描用作評估的地面真實。選擇的受試者包含年齡、BMI 和性別的變化（55 名女性，45 名男性）。

我們將捕獲的數(shù)據(jù)分為四個挑戰(zhàn)：中性（620 張圖像）、表情（675 張圖像）、遮擋（528 張圖像）和自拍（231 張圖像）。中性、表情和遮擋包含所有受試者的中性、富有表情和部分遮擋的面部圖像，從正面視圖到側(cè)面視圖不等。表情包含不同的表情，如快樂、悲傷、驚訝、厭惡和恐懼。遮擋包含具有不同遮擋的圖像，如眼鏡、太陽鏡、面部毛發(fā)、帽子或兜帽等。對于自拍類別，參與者被要求使用 iPhone 自拍，而不對執(zhí)行的面部表情施加任何限制。這些圖像在室內(nèi)和室外捕獲，以提供自然和人工光的變化。

對于所有類別的挑戰(zhàn)都是在給定單眼圖像的情況下重建一個中性的 3D 面部。請注意，幾張圖像中存在面部表情，這需要方法來分離身份和表情，以評估預(yù)測的身份的質(zhì)量。

捕獲設(shè)置：對于每個受試者，我們使用主動立體系統(tǒng)（3dMD LLC，亞特蘭大）捕獲中性表情的原始頭部掃描。多攝像頭系統(tǒng)包括六對灰度立體攝像頭、六個彩色攝像頭、五個斑點圖案投影儀和六個白色 LED 面板。重建的 3D 幾何對于每個受試者包含約 12 萬個頂點。每個受試者在掃描過程中佩戴頭巾，以避免由于頭發(fā)導(dǎo)致的面部或頸部區(qū)域的遮擋和掃描儀噪聲。

數(shù)據(jù)處理：大多數(shù)現(xiàn)有的 3D 面部重建方法需要對面部進行定位。為了減輕這個預(yù)處理步驟的影響，我們?yōu)槊總€圖像提供一個覆蓋面部的邊界框。為了獲得所有圖像的邊界框，我們首先對所有圖像運行一個面部檢測器 [38]，然后為每個檢測到的面部預(yù)測關(guān)鍵點 [4]。我們對失敗案例手動選擇 2D 地標(biāo)。然后，我們將地標(biāo)的邊界框向每一側(cè)擴展 5%（底部）、10%（左右）和 30%（頂部），以獲得涵蓋整個面部，包括前額的框。對于面部挑戰(zhàn)，我們遵循類似于 [10] 的處理協(xié)議。對于每個掃描，選擇面部中心，并通過刪除指定半徑外的一切來裁剪掃描。所選半徑是特定于主體的，計算方法為 0.7 × （外眼距離 + 鼻距離）（見圖 2）。

評估指標(biāo)：在給定單眼圖像的情況下，挑戰(zhàn)是重建一個 3D 面部。由于預(yù)測的網(wǎng)格出現(xiàn)在不同的本地坐標(biāo)系中，通過使用預(yù)測和掃描之間的一組相應(yīng)的地標(biāo)對重建的 3D 網(wǎng)格進行剛性對齊（旋轉(zhuǎn)、平移和縮放）。我們進一步執(zhí)行基于掃描到網(wǎng)格距離的剛性對齊（即每個掃描頂點與網(wǎng)格表面上最近點之間的絕對距離），使用地標(biāo)對齊作為初始化。然后，計算每個圖像的誤差，即地面真實掃描與重建網(wǎng)格之間的掃描到網(wǎng)格距離。然后報告不同的錯誤，包括所有距離的累積錯誤圖，中位距離，平均距離和標(biāo)準(zhǔn)偏差。

如何參與：要參與挑戰(zhàn)，我們提供一個網(wǎng)站 [25]，用于下載測試圖像，并上傳每個注冊的重建結(jié)果和選定的地標(biāo)。然后，自動計算并返回誤差指標(biāo)。請注意，我們不提供地面真實掃描，以防止在測試數(shù)據(jù)上進行微調(diào)。

5. 實驗

我們對RingNet進行了定性和定量評估，并與公開可用的方法進行了比較，這些方法包括：PRNet（ECCV 2018 [9]）、Extreme3D（CVPR 2018 [35]）和3DMM-CNN（CVPR 2017 [34]）。

定量評估：我們在[10]和我們的NoW數(shù)據(jù)集上比較了不同方法。

Feng等人的基準(zhǔn)：Feng等人[10]描述了一個用于評估從單個圖像進行3D面部重建的基準(zhǔn)數(shù)據(jù)集。他們提供了一個測試數(shù)據(jù)集，其中包含面部圖像及其對應(yīng)于Stirling/ESRC 3D面部數(shù)據(jù)庫子集的3D地面真實面部掃描。測試數(shù)據(jù)集包含2000張2D中性面部圖像，包括656張高質(zhì)量（HQ）圖像和1344張低質(zhì)量（LQ）圖像。高質(zhì)量圖像是在受控場景中拍攝的，而低質(zhì)量圖像則是從視頻幀中提取的。該數(shù)據(jù)側(cè)重于中性面部，而我們的數(shù)據(jù)在表情、遮擋和照明方面具有更高的變化性，如第4節(jié)所述。

請注意，我們與之比較的方法（PRNet、Extreme3D、3DMM-CNN）在訓(xùn)練時使用了3D監(jiān)督，而我們的方法沒有。PRNet [9] 要求非常緊密地裁剪面部區(qū)域才能獲得良好的結(jié)果，并且在給定基準(zhǔn)數(shù)據(jù)庫的松散裁剪輸入圖像時表現(xiàn)不佳（參見補充資料）。我們沒有嘗試為PRNet裁剪圖像，而是在給定圖像上運行它，并注意其成功的情況：對于低分辨率測試圖像，它輸出了918個網(wǎng)格，對于高質(zhì)量圖像，輸出了509個網(wǎng)格。為了與PRNet進行比較，我們僅在PRNet成功的1427張圖像上運行所有其他方法。

我們使用[10]中的方法計算誤差，該方法計算從地面真實掃描點到估計的網(wǎng)格表面的距離。圖5（左和中）顯示了不同方法在低質(zhì)量和高質(zhì)量圖像上的累積誤差曲線；RingNet優(yōu)于其他方法。表1報告了均值、標(biāo)準(zhǔn)差和中值誤差。

圖5：累積誤差曲線。從左到右：[10]的低質(zhì)量數(shù)據(jù)。[10]的高質(zhì)量數(shù)據(jù)。NoW數(shù)據(jù)集面部挑戰(zhàn)。

表1：Feng等人[10]基準(zhǔn)的統(tǒng)計信息

NoW面部挑戰(zhàn)：對于這個挑戰(zhàn)，我們像[10]一樣使用了裁剪的掃描來評估不同方法。我們首先對所有比較方法的預(yù)測網(wǎng)格執(zhí)行剛性對齊。然后，我們計算上述預(yù)測網(wǎng)格與掃描之間的掃描到網(wǎng)格距離[10]。圖5（右）顯示了不同方法的累積誤差曲線；再次，RingNet優(yōu)于其他方法。我們在表2中提供了均值、中值和標(biāo)準(zhǔn)差誤差。

表2：NoW數(shù)據(jù)集面部挑戰(zhàn)的統(tǒng)計信息。

定性結(jié)果：這里我們展示了從單個CelebA [22]和MultiPIE數(shù)據(jù)集 [14]人臉圖像估計3D面/頭網(wǎng)格的定性結(jié)果。圖1展示了RingNet的一些結(jié)果，說明了它對表情、性別、頭部姿勢、頭發(fā)、遮擋等的魯棒性。在圖6和圖7中，我們展示了我們的方法在不同條件下，如照明、姿勢和遮擋下的魯棒性。在Sup. Mat.中提供了定性比較。

圖6：RingNet對不同照明條件的穩(wěn)健性。圖像來自MultiPIE數(shù)據(jù)集[14]。

圖7：RingNet對遮擋、姿勢變化和照明變化的穩(wěn)健性。圖像來自NoW數(shù)據(jù)集。

剔除研究：在這里，我們通過在表3中比較不同 $R$ 值的選擇，為在RingNet中使用環(huán)形架構(gòu)提供了一些動機。我們在包含10個受試者的驗證集上評估這些值（其中六個來自[8]，四個來自[21]）。對于每個受試者，我們選擇一個中性掃描和兩到四個掃描儀圖像，為圖像重建3D網(wǎng)格，并在剛性對齊后測量掃描到網(wǎng)格的重建誤差。使用具有更多元素的環(huán)形結(jié)構(gòu)與僅使用單個三元組損失相比，誤差減小，但它也增加了訓(xùn)練時間。為了在時間和誤差之間取得平衡，我們在實驗中選擇了 $R = 6$ 。

表3：不同環(huán)元素數(shù)量R的影響。我們在消融研究中描述的驗證集上進行評估。

6. 結(jié)論

我們解決了從單一2D圖像學(xué)習(xí)估計3D、關(guān)節(jié)化和可變形形狀的具有挑戰(zhàn)性的問題，而沒有配對的3D訓(xùn)練數(shù)據(jù)。我們將RingNet模型應(yīng)用于人臉，但該公式是通用的。關(guān)鍵思想是利用一系列成對損失，鼓勵解決方案在相同人物的圖像中共享相同的形狀，在它們不同的情況下具有不同的形狀。我們利用FLAME面部模型將面部姿勢和表情分解為形狀，以便RingNet可以在形狀固定的同時允許其他參數(shù)變化。我們的方法需要一個數(shù)據(jù)集，其中一些人會多次出現(xiàn)，以及2D面部特征，可以通過現(xiàn)有方法估計。我們僅提供標(biāo)準(zhǔn)2D面部特征與3D FLAME模型的頂點之間的關(guān)系。與以前的方法不同，我們不優(yōu)化3DMM到2D特征，也不使用合成數(shù)據(jù)。競爭方法通常利用使用面部反照率、反射和陰影的近似生成模型的光度損失。RingNet不需要這樣做來學(xué)習(xí)圖像像素與3D形狀之間的關(guān)系。此外，我們的公式捕捉了整個頭部及其姿勢。最后，我們創(chuàng)建了一個具有準(zhǔn)確的地面真實3D頭部形狀和在各種條件下拍攝的高質(zhì)量圖像的新的公共數(shù)據(jù)集。令人驚訝的是，RingNet優(yōu)于使用3D監(jiān)督的方法。這為未來的研究開辟了許多方向，例如擴展RingNet與[24]。在這里，我們側(cè)重于沒有3D監(jiān)督的情況，但我們可以放寬這一點，并在可用時使用監(jiān)督。我們預(yù)期少量的監(jiān)督會提高準(zhǔn)確性，而野外圖像的大數(shù)據(jù)集將提供對照明、遮擋等的穩(wěn)健性。我們的2D特征檢測器不包括耳朵，盡管耳朵是非常獨特的特征。添加2D耳朵檢測將進一步改善3D頭部姿勢和形狀。雖然我們的模型停在頸部，但我們計劃將模型擴展到全身[23]。有趣的是看到RingNet是否可以擴展到僅使用2D關(guān)節(jié)從圖像中重建3D身體姿勢和形狀。這可能超越當(dāng)前的方法，如HMR [17]，以學(xué)習(xí)關(guān)于身體形狀的信息。雖然RingNet學(xué)習(xí)了到現(xiàn)有面部3D模型的映射，但我們可以放寬這一點，并且還可以在低維形狀空間上進行優(yōu)化，從示例中學(xué)習(xí)更詳細的形狀模型。為此，整合陰影線索[32, 28]將有助于約束問題。

致謝：我們感謝T. Alexiadis建立NoW數(shù)據(jù)集，J. Tesch提供渲染結(jié)果，D. Lleshaj提供注釋，A. Osman提供補充視頻，以及S. Tang進行有益的討論。

披露：Michael J. Black收到了Intel、Nvidia、Adobe、Facebook和Amazon的研究禮金。他是Amazon的兼職員工，并在Amazon和Meshcapade GmbH擁有財務(wù)利益。他的研究僅在MPI進行。

References

（……）

附錄

在接下來的部分，我們展示了NoW數(shù)據(jù)集的各個挑戰(zhàn)（中性，圖8；表情，圖9；遮擋，圖10；自拍，圖11）的累積誤差圖。圖5的右側(cè)顯示了跨所有挑戰(zhàn)的累積誤差。

圖8：中性挑戰(zhàn)的累積誤差曲線。

圖9：表情挑戰(zhàn)的累積誤差曲線。

圖10：遮擋挑戰(zhàn)的累積誤差曲線。

圖11：自拍挑戰(zhàn)的累積誤差曲線。文章來源地址http://www.zghlxwxcb.cn/news/detail-728038.html

到了這里，關(guān)于【計算機視覺|人臉建?！繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！