国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督

這篇具有很好參考價值的文章主要介紹了【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記,轉(zhuǎn)載請注明出處

標(biāo)題:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

鏈接:[1905.06817] Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision (arxiv.org)

摘要

從單張圖像估計3D面部形狀必須對光照、頭部姿勢、表情、面部毛發(fā)、化妝和遮擋等變化具有魯棒性。魯棒性要求具備大規(guī)模的野外圖像訓(xùn)練集,而這些圖像在構(gòu)建時缺乏真實的3D形狀信息。為了在沒有任何2D到3D監(jiān)督的情況下訓(xùn)練網(wǎng)絡(luò),我們提出了RingNet,它能夠從單張圖像中學(xué)習(xí)計算3D面部形狀。我們的關(guān)鍵觀察是,一個人的面部形狀在不同圖像中是恒定的,不受表情、姿勢、光照等影響。RingNet利用一個人的多張圖像和自動檢測的2D面部特征。它使用一種新穎的損失函數(shù),鼓勵當(dāng)身份相同時,面部形狀相似,而對于不同的人則不同。我們通過使用FLAME模型表示面部,實現(xiàn)了對表情的不變性。一旦訓(xùn)練完成,我們的方法接受一張圖像并輸出FLAME的參數(shù),可以輕松實現(xiàn)動畫效果。此外,我們創(chuàng)建了一個新的“不太野外”(NoW)人臉數(shù)據(jù)庫,其中包含3D頭部掃描和受試者在各種條件下的高分辨率圖像。我們評估了公開可用的方法,并發(fā)現(xiàn)RingNet比使用3D監(jiān)督的方法更準(zhǔn)確。該數(shù)據(jù)集、模型和結(jié)果可供研究目的使用,網(wǎng)址為http://ringnet.is.tuebingen.mpg.de。

1. 引言

我們的目標(biāo)是從一個人的單張圖像中估計3D頭部和面部形狀。與先前的方法不同,我們感興趣的不僅僅是面部周圍的緊密裁剪區(qū)域。相反,我們估計完整的3D面部、頭部和頸部。這樣的表示對VR/AR、虛擬眼鏡試穿、動畫、生物特征等應(yīng)用是必要的。此外,我們尋求一種能夠捕捉3D面部表情、根據(jù)表情因素化面部形狀,并能夠重新擺姿和動畫的表示。雖然計算機視覺文獻中已經(jīng)提出了許多方法來解決面部形狀估計問題[40],但沒有一種方法滿足我們所有的目標(biāo)。

具體而言,我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),直接從圖像像素回歸到3D面部模型的參數(shù)。在這里,我們使用FLAME [21],因為它比其他模型更精確,涵蓋了各種形狀,對整個頭部和頸部進行建模,容易進行動畫處理,并且是免費提供的。然而,訓(xùn)練一個網(wǎng)絡(luò)來解決這個問題是具有挑戰(zhàn)性的,因為幾乎沒有配對的3D頭部/面部與人物自然圖像的數(shù)據(jù)。為了使模型對成像條件、姿勢、面部毛發(fā)、攝像機噪聲、光照等具有魯棒性,我們希望從大量野外圖像中進行訓(xùn)練。這樣的圖像在定義上缺乏受控的真實3D數(shù)據(jù)。

這是計算機視覺中的通用問題 - 尋找2D訓(xùn)練數(shù)據(jù)很容易,但當(dāng)配對的3D訓(xùn)練數(shù)據(jù)非常有限且難以獲取時,從2D到3D的回歸學(xué)習(xí)就變得困難。在沒有真實3D的情況下,有幾種選擇,但每種都有問題。合成訓(xùn)練數(shù)據(jù)通常不能捕捉真實世界的復(fù)雜性??梢詫?D模型擬合到2D圖像特征,但這種映射是模棱兩可的,因此不準(zhǔn)確。由于模棱兩可性,僅使用觀察到的2D特征和投影的3D特征之間的損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并不能取得良好的結(jié)果(參見[17])。

為了解決缺乏訓(xùn)練數(shù)據(jù)的問題,我們提出了一種新方法,該方法可以在沒有任何監(jiān)督的2D到3D訓(xùn)練數(shù)據(jù)的情況下,學(xué)習(xí)從像素到3D形狀的映射。為此,我們僅使用OpenPose [29]自動提取的2D面部特征來學(xué)習(xí)映射。為了使這種可能,我們的關(guān)鍵觀察是同一人的多張圖像對3D面部形狀提供了強有力的約束,因為形狀保持不變,盡管其他因素可能發(fā)生變化,如姿勢、光照和表情。FLAME可以因子化姿勢和形狀,使我們的模型能夠?qū)W習(xí)什么是恒定的(形狀)并排除發(fā)生變化的內(nèi)容(姿勢和表情)。

雖然事實上,同一人的面部形狀在不同圖像中是恒定的,但我們需要定義一種訓(xùn)練方法,讓神經(jīng)網(wǎng)絡(luò)利用這種形狀的恒定性。為此,我們引入了RingNet。RingNet使用一個人的多張圖像,并強制要求所有圖像對之間的形狀應(yīng)該相似,同時最小化觀察到的特征和投影的3D特征之間的2D誤差。雖然這鼓勵網(wǎng)絡(luò)以相似的方式編碼形狀,但我們發(fā)現(xiàn)這還不足夠。我們還將屬于不同隨機人的面孔添加到“環(huán)”中,并強制要求環(huán)中所有其他圖像之間的潛在空間距離大于同一人之間的距離。類似的思想已經(jīng)在流形學(xué)習(xí)(例如三元組損失)[37]和人臉識別[26]中被使用,但據(jù)我們所知,我們的方法以前尚未用于學(xué)習(xí)從2D到3D幾何的映射。我們發(fā)現(xiàn),將三元組擴展到更大的環(huán)對學(xué)習(xí)準(zhǔn)確的幾何形狀至關(guān)重要。

雖然我們使用一個人的多張圖像進行訓(xùn)練,但請注意,在運行時,我們只需要一張單獨的圖像。通過這種公式,我們能夠訓(xùn)練一個網(wǎng)絡(luò),直接從圖像像素回歸到FLAME的參數(shù)。因為我們用“野外”圖像進行訓(xùn)練,所以該網(wǎng)絡(luò)在各種條件下都具有魯棒性,如圖1所示。然而,該方法更為一般化,可以應(yīng)用于其他2D到3D學(xué)習(xí)問題。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖1:在沒有3D監(jiān)督的情況下,RingNet學(xué)習(xí)從單個圖像的像素到FLAME模型[21]的3D面部參數(shù)的映射。頂部:圖像來自CelebA數(shù)據(jù)集[22]。底部:估計的形狀、姿勢和表情。

評估3D面部估計方法的準(zhǔn)確性仍然是一個挑戰(zhàn),盡管已經(jīng)發(fā)表了許多方法,但在各種成像條件、姿勢、光照和遮擋下,沒有對3D準(zhǔn)確性進行嚴(yán)格的比較。為了解決這個問題,我們收集了一個名為NoW(Not quite in-the-Wild)的新數(shù)據(jù)集,其中包含100名受試者在各種條件下拍攝的高分辨率真實掃描和高質(zhì)量圖像(圖2)。NoW比以前的數(shù)據(jù)集更復(fù)雜,我們使用它來評估所有具有公開實現(xiàn)的最新方法。具體而言,我們與[34]、[35]和[9]進行比較,這些方法都經(jīng)過3D監(jiān)督訓(xùn)練。盡管我們的RingNet方法沒有任何2D到3D監(jiān)督,但恢復(fù)了更準(zhǔn)確的3D面部形狀。我們還在具有挑戰(zhàn)性的野外人臉圖像上定性評估了該方法。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖2:NoW數(shù)據(jù)集包括在不同條件下拍攝的各種圖像(頂部)和高分辨率的3D頭部掃描(底部)。深藍色區(qū)域是我們在面部挑戰(zhàn)中考慮的部分。

總的來說,我們的論文的主要貢獻有:(1)從單一面部圖像中進行完整的面部、帶頸部的重建。 (2)RingNet - 一種端到端可訓(xùn)練的網(wǎng)絡(luò),強制要求在主體的不同視角、光照條件、分辨率和遮擋下實現(xiàn)面部圖像的形狀一致性。 (3)一種用于從2D輸入學(xué)習(xí)3D幾何的新型形狀一致性損失。 (4)NoW - 用于定性和定量評估3D面部重建方法的基準(zhǔn)數(shù)據(jù)集。 (5)最后,我們免費提供模型、訓(xùn)練代碼和新數(shù)據(jù)集,以鼓勵進行定量比較[25]。

2. 相關(guān)工作

有幾種方法可以解決從圖像估計3D面部形狀的問題。一種方法估計深度圖、法線等;也就是說,這些方法產(chǎn)生了一個與像素相關(guān)但專門用于面部的對象形狀表示。另一種方法估計可以進行動畫處理的3D形狀模型。我們專注于后者的方法。在最近的一篇綜述文章中,Zollh?fer等人[40]描述了單目面部重建的現(xiàn)狀,并為該領(lǐng)域提供了一個前瞻性的一系列挑戰(zhàn)。請注意,監(jiān)督、弱監(jiān)督和無監(jiān)督方法之間的界限是模糊的。大多數(shù)方法使用某種形式的3D形狀模型,該模型事先從掃描中學(xué)習(xí);在這里我們不稱之為監(jiān)督。這里的術(shù)語"監(jiān)督"意味著使用了配對的2D到3D數(shù)據(jù);這可能來自真實數(shù)據(jù)或合成數(shù)據(jù)。如果首先優(yōu)化3D模型以適應(yīng)2D圖像特征,那么我們稱之為使用了2D到3D的監(jiān)督。如果在訓(xùn)練網(wǎng)絡(luò)時使用了2D圖像特征,但沒有3D數(shù)據(jù),那么這通常是弱監(jiān)督,相對于2D到3D任務(wù)而言是無監(jiān)督的。

量化評估:由于缺乏具有復(fù)雜圖像和高質(zhì)量地面實況的共同數(shù)據(jù)集,方法之間的定量比較一直受到限制。最近,F(xiàn)eng等人[10]組織了一個單圖像到3D面部重建的挑戰(zhàn),其中提供了受試者的地面實況掃描。我們的NoW基準(zhǔn)與這種方法互補,因為它專注于極端的視角、面部表情和部分遮擋。

優(yōu)化:大多數(shù)現(xiàn)有方法需要緊密裁剪的輸入圖像和/或僅對適用于人臉的緊密裁剪區(qū)域進行重建。大多數(shù)當(dāng)前的形狀模型都是原始的Blanz和Vetter 3D可塑模型(3DMM)[3]的后裔。雖然有許多對這個模型的變體和改進,如[13],我們在這里使用FLAME [21],因為它的形狀空間和表情空間都是從比其他方法更多的掃描中學(xué)到的。只有FLAME在形狀空間中包括頸部區(qū)域,并且使用頭部旋轉(zhuǎn)時模擬頸部的姿勢相關(guān)變形。緊密裁剪的面部區(qū)域使頭部旋轉(zhuǎn)的估計變得模棱兩可。直到最近,這一直是主導(dǎo)范式[2、30、11]。例如,Kemelmacher-Shlizerman和Seitz [18]使用多圖像陰影重建圖像集,允許視點和形狀的變化。Thies等人[33]在單目視頻序列上獲得準(zhǔn)確的結(jié)果。雖然這些方法可以在高逼真度下取得良好的結(jié)果,但它們計算成本高昂。

使用3D監(jiān)督進行學(xué)習(xí):深度學(xué)習(xí)方法迅速取代基于優(yōu)化的方法[35、39、19、16]。例如,Sela等人[27]使用合成數(shù)據(jù)集生成圖像到深度映射和像素到頂點映射,二者結(jié)合生成面部網(wǎng)格。Tran等人[34]直接回歸面部模型的3DMM參數(shù),使用密集網(wǎng)絡(luò)。他們的關(guān)鍵思想是使用同一主體的多個圖像,并使用2D標(biāo)志物擬合每個圖像的3DMM。然后,他們?nèi)M合網(wǎng)格的加權(quán)平均值用作訓(xùn)練網(wǎng)絡(luò)的ground truth。Feng等人[9]從圖像回歸到記錄3D面部位置信息的UV位置圖,提供對UV空間上每個點的語義含義的密集對應(yīng)關(guān)系。所有上述方法都使用了某種形式的3D監(jiān)督,如合成渲染、基于3DMM的優(yōu)化擬合,或使用3DMM生成UV映射或體積表示。在基于擬合的方法中,沒有一種方法能夠為真實世界的面部圖像產(chǎn)生真實的ground truth,而合成生成的面部可能無法很好地推廣到真實世界[31]。依賴將3DMM擬合到圖像中,使用2D-3D對應(yīng)關(guān)系創(chuàng)建偽地面實況的方法始終受到3DMM的表現(xiàn)力和擬合過程的準(zhǔn)確性的限制。

使用弱3D監(jiān)督進行學(xué)習(xí):Sengupta等人[28]通過使用混合合成渲染圖像和真實圖像來學(xué)習(xí)模仿Lambertian渲染過程。他們處理了緊密裁剪的面部,不生成可以進行動畫處理的模型。Genova等人[12]提出了一種使用可微分渲染過程的端到端學(xué)習(xí)方法。他們還使用合成數(shù)據(jù)及其相應(yīng)的3D參數(shù)來訓(xùn)練他們的編碼器。Tran和Liu [36]通過使用具有解析可微分渲染層的非線性3DMM模型,以弱監(jiān)督的方式學(xué)習(xí)3DMM模型。

沒有3D監(jiān)督進行學(xué)習(xí):MoFA [32]估計3DMM的參數(shù),并使用光度損失和可選的2D特征損失進行端到端訓(xùn)練。從本質(zhì)上講,它是Blanz和Vetter模型的神經(jīng)網(wǎng)絡(luò)版本,因為它模擬了形狀、皮膚反射和照明,生成與輸入匹配的逼真圖像。這種方法的優(yōu)勢在于它比優(yōu)化方法快得多[31]。MoFA估計了面部的緊密裁剪,產(chǎn)生了看起來很好的結(jié)果,但在處理極端表情時存在問題。他們只對真實圖像使用FaceWarehouse模型作為“ground truth”進行定量評估;這不是真實3D面部形狀的準(zhǔn)確表示。

所有沒有任何2D到3D監(jiān)督的學(xué)習(xí)方法都明確地對圖像形成過程進行建模(如Blanz和Vetter),并制定光度損失,通常還結(jié)合了與3D模型已知對應(yīng)關(guān)系的2D面部特征檢測。光度損失的問題在于圖像形成模型總是近似的(例如Lambertian)。理想情況下,人們希望網(wǎng)絡(luò)不僅能學(xué)到面部形狀,還能學(xué)到真實世界圖像的復(fù)雜性以及它們與形狀的關(guān)系。為此,我們的RingNet方法僅使用2D面部特征,沒有光度項。盡管(或因為)如此,該方法能夠直接從像素到3D面部形狀進行學(xué)習(xí)。這是已發(fā)表方法中最少監(jiān)督的一種。

3. 提出的方法

我們方法的目標(biāo)是從單張面部圖像I中估計3D頭部和面部形狀。給定一張圖像,我們假設(shè)已經(jīng)檢測到了面部,進行了松散的裁剪,并大致居中。在訓(xùn)練期間,我們的方法利用2D標(biāo)志物和身份標(biāo)簽作為輸入。在推理期間,它僅使用圖像像素;不使用2D標(biāo)志物和身份標(biāo)簽。

關(guān)鍵思想:
關(guān)鍵思想可以總結(jié)如下:

  1. 一個人的面部形狀保持不變,即使面部圖像在視角、光照條件、分辨率、遮擋、表情或其他因素上有所變化。
  2. 每個人都有獨特的面部形狀(不考慮相同的雙胞胎)。我們通過引入形狀一致性損失來利用這個想法,體現(xiàn)在我們的環(huán)形網(wǎng)絡(luò)結(jié)構(gòu)中。

RingNet(圖3)是一個基于多個編碼器-解碼器的體系結(jié)構(gòu),其中編碼器之間共享權(quán)重,并在形狀變量上施加形狀約束。環(huán)中的每個編碼器都是特征提取網(wǎng)絡(luò)和回歸器網(wǎng)絡(luò)的組合。在形狀變量上施加形狀約束迫使網(wǎng)絡(luò)將面部形狀、表情、頭部姿勢和相機參數(shù)解耦。我們使用FLAME [21]作為解碼器,從語義上有意義的嵌入中重建3D面部,以及在嵌入空間中獲得語義上有意義的參數(shù)的解耦(即形狀、表情和姿勢參數(shù))。

【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖3:RingNet在訓(xùn)練過程中獲取同一人物(主體A)的多個圖像和另一個人物(主體B)的圖像,并在相同主體之間強制執(zhí)行形狀一致性以及在不同主體之間強制執(zhí)行形狀不一致性。從預(yù)測的3D網(wǎng)格計算的3D地標(biāo)在2D域中投影以計算與地面真實2D地標(biāo)的損失。在推理過程中,RingNet以單個圖像作為輸入并預(yù)測相應(yīng)的3D網(wǎng)格。圖像來自[6]。該圖是為了說明目的而簡化的版本。

我們將在接下來更詳細地介紹FLAME解碼器、RingNet體系結(jié)構(gòu)和損失。

3.1. FLAME模型

FLAME使用線性變換來描述與身份和表情相關(guān)的形狀變化,并使用標(biāo)準(zhǔn)的線性混合蒙皮(LBS)來模擬圍繞 K = 4 K = 4 K=4個關(guān)節(jié)的頸部、下巴和眼球旋轉(zhuǎn)。由形狀系數(shù)參數(shù)化, β ? ∈ R ∣ β ? ∣ \vec{β} \in \mathbb{R}^{|\vec{β}|} β ?Rβ ?,姿勢 θ ? ∈ R ∣ θ ? ∣ \vec{θ} \in \mathbb{R}^{|\vec{θ}|} θ Rθ ,和表情 ψ ? ∈ R ∣ ψ ? ∣ \vec{ψ} \in \mathbb{R}^{|\vec{ψ}|} ψ ?Rψ ?,F(xiàn)LAME返回 N = 5023 N = 5023 N=5023個頂點。

FLAME模型了與身份相關(guān)的形狀變化 B S ( β ? ; S ) : R ∣ β ? ∣ → R 3 N B_S(\vec{β};\pmb{S}):\mathbb{R}^{|\vec{β}|} \rightarrow \mathbb{R} ^ {3N} BS?(β ?;S):Rβ ?R3N,校正姿勢混合形狀 B P ( θ ? ; P ) : R ∣ θ ? ∣ → R 3 N B_P(\vec{θ};\pmb{P}):\mathbb{R}^{|\vec{θ}|} \rightarrow \mathbb{R} ^ {3N} BP?(θ ;P):Rθ R3N,以及表情混合形狀 B E ( ψ ? ; E ) : R ∣ ψ ? ∣ → R 3 N B_E(\vec{ψ};\pmb{E}):\mathbb{R}^{|\vec{ψ}|} \rightarrow \mathbb{R} ^ {3N} BE?(ψ ?;E):Rψ ?R3N,作為具有學(xué)習(xí)基礎(chǔ) S \mathcal{S} S、 E \mathcal{E} E P \mathcal{P} P的線性變換。給定模板 T  ̄ ∈ R 3 N \overline{\pmb{T}} \in \mathbb{R}^{3N} TR3N處于“零姿勢”,身份、姿勢和表情混合形狀被建模為相對于 T  ̄ \overline{\pmb{T}} T的頂點偏移。每個姿勢向量 θ ? ∈ R 3 K + 3 \vec{θ} \in \mathbb{R}^{3K+3} θ R3K+3包含 ( K + 1 ) (K+1) (K+1)個軸角表示中的旋轉(zhuǎn)向量;即每個關(guān)節(jié)加上全局旋轉(zhuǎn)一個向量?;旌厦善ず瘮?shù) W ( T  ̄ , J , θ ? , W ) W (\overline{\pmb{T}}, \pmb{J}, \vec{θ}, \mathcal{W}) W(T,J,θ ,W)然后圍繞關(guān)節(jié) J ∈ R 3 K \pmb{J} \in \mathbb{R}^{3K} JR3K旋轉(zhuǎn)頂點,由混合權(quán)重 W ∈ R K × N \mathcal{W} \in \mathbb{R} ^ {K \times N} WRK×N線性平滑。

更正式地,F(xiàn)LAME表示為:
M ( β ? , θ ? , ψ ? ) = W ( T P ( β ? , θ ? , ψ ? ) , J ( β ? ) , θ ? , W ) , (1) M(\vec{β},\vec{θ},\vec{ψ})=W(T_P(\vec{β},\vec{θ},\vec{ψ}),\pmb{J}(\vec{β}),\vec{θ},\mathcal{W}), \tag{1} M(β ?,θ ,ψ ?)=W(TP?(β ?,θ ,ψ ?),J(β ?),θ ,W),(1)
其中
T P ( β ? , θ ? , ψ ? ) = T  ̄ + B S ( β ? ; S ) + B P ( θ ? ; P ) + B E ( ψ ? ; E ) , (2) T_P(\vec{β},\vec{θ},\vec{ψ})=\overline{\pmb{T}}+B_S(\vec{β};\mathcal{S})+B_P(\vec{θ};\mathcal{P})+B_E(\vec{ψ};\mathcal{E}), \tag{2} TP?(β ?,θ ,ψ ?)=T+BS?(β ?;S)+BP?(θ ;P)+BE?(ψ ?;E),(2)
由于不同的面部形狀需要不同的關(guān)節(jié)位置,關(guān)節(jié)被定義為與 β ? \vec{β} β ?相關(guān)的函數(shù)。我們使用方程1來解碼我們的嵌入空間,以生成完整頭部和面部的3D網(wǎng)格。

3.2. RingNet

最近在人臉識別(例如[38])和面部標(biāo)志檢測(例如[4, 29])方面的進展導(dǎo)致了帶有身份標(biāo)簽和2D面部標(biāo)志的大型圖像數(shù)據(jù)集。在訓(xùn)練中,我們假設(shè)有一組2D面部圖像 I i I_i Ii?,對應(yīng)的身份標(biāo)簽 c i c_i ci?和標(biāo)志 k i k_i ki?。

形狀一致性假設(shè)可以通過 β i ? = β j ? , ? c i = c j \vec{β_i} = \vec{β_j},?c_i = c_j βi? ?=βj? ?,?ci?=cj?(即一個主體的面部形狀在多個圖像中應(yīng)保持不變),以及 β i ? ≠ β j ? , ? c i ≠ c j \vec{β_i} \neq \vec{β_j},?c_i \neq c_j βi? ?=βj? ?,?ci?=cj?(即不同主體的面部形狀應(yīng)該是不同的)來形式化。RingNet引入了一個環(huán)形結(jié)構(gòu),可以同時優(yōu)化任意數(shù)量的輸入圖像的形狀一致性。有關(guān)形狀一致性的詳細信息,請參見第3節(jié)。

RingNet分為 R R R個環(huán)元素 e i = 1 i = R e^{i=R}_{i=1} ei=1i=R?,如圖3所示,其中每個ei都包括一個編碼器和一個解碼器網(wǎng)絡(luò)(見圖4)。編碼器在 e i e_i ei?之間共享權(quán)重,解碼器在訓(xùn)練期間保持不變。編碼器是特征提取網(wǎng)絡(luò) f f e a t f_{feat} ffeat?和回歸網(wǎng)絡(luò) f r e g f_{reg} freg?的組合。給定圖像 I i I_i Ii?, f f e a t f_{feat} ffeat?輸出一個高維向量,然后由 f r e g f_{reg} freg?編碼成一個語義上有意義的向量(即 f e n c ( I i ) = f r e g ( f f e a t ( I i ) ) f_{enc}(I_i) = f_{reg}(f_{feat}(I_i)) fenc?(Ii?)=freg?(ffeat?(Ii?)))。這個向量可以表示為相機、姿勢、形狀和表情參數(shù)的串聯(lián),即 f e n c ( I i ) = [ c a m i , θ ? i , β ? i , ψ ? i ] f_{enc}(I_i) = [cam_i, \vec θ_i, \vec β_i, \vec ψ_i] fenc?(Ii?)=[cami?,θ i?,β ?i?,ψ ?i?],其中 θ ? i , β ? i , ψ ? i \vec θ_i,\vec β_i,\vec ψ_i θ i?,β ?i?,ψ ?i?是FLAME參數(shù)。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖4:輸出圖像的3D網(wǎng)格的Ring元素。

為簡單起見,我們在以下省略 I I I,使用 f e n c ( I i ) = f e n c , i f_{enc}(I_i) = f_{enc,i} fenc?(Ii?)=fenc,i? f f e a t ( I i ) = f f e a t , i f_{feat}(I_i) = f_{feat,i} ffeat?(Ii?)=ffeat,i??;貧w網(wǎng)絡(luò)通過迭代誤差反饋循環(huán)[17, 7]迭代地回歸 f e n c , i f_{enc,i} fenc,i?,而不是直接從 f f e a t , i f_{feat,i} ffeat,i?回歸 f e n c , i f_{enc,i} fenc,i?。在每個迭代步驟中,從先前的估計中進行漸進性移動,以達到當(dāng)前估計。形式上,回歸網(wǎng)絡(luò)將串聯(lián)的 [ f f e a t , i t , f e n c , i t ] [f^t_{feat,i}, f^t_{enc,i}] [ffeat,it?,fenc,it?]作為輸入,并輸出 δ f e n c , i t δf^t_{enc,i} δfenc,it?。然后我們通過以下方式更新當(dāng)前估計,
f e n c , i t + 1 = f e n c , i t + δ f e n c , i t (3) {f_{enc,i}}^{t+1} = {f_{enc,i}}^{t} + δ{f_{enc,i}}^{t} \tag{3} fenc,i?t+1=fenc,i?t+δfenc,i?t(3)
該迭代網(wǎng)絡(luò)在整個RingNet訓(xùn)練的每個迭代中執(zhí)行多個回歸迭代。初始估計設(shè)置為 0 ? \vec 0 0 。然后,將回歸網(wǎng)絡(luò)的輸出饋送到可微的FLAME解碼器網(wǎng)絡(luò),該解碼器網(wǎng)絡(luò)輸出3D頭部網(wǎng)格。

環(huán)元素 R R R的數(shù)量是我們網(wǎng)絡(luò)的一個超參數(shù),它確定在 β ? \vec β β ?上進行優(yōu)化一致性的并行處理的圖像數(shù)量。RingNet允許同時使用同一主體的圖像和不同主體的圖像的任意組合。然而,為了不失一般性,我們將相同身份的面部圖像提供給 { e j } j = 1 j = R ? 1 {\{e_j\}}^{j=R?1}_{j=1} {ej?}j=1j=R?1?,將不同身份的圖像提供給 e R e_R eR?。因此,對于每個輸入訓(xùn)練批次,每個切片包含 R ? 1 R-1 R?1個相同人的圖像和另一個人的一個圖像(見圖3)。

3.3. Shape Consistency Loss

為簡化起見,讓我們稱具有相同身份標(biāo)簽的兩個主體為“匹配對”,而具有不同身份標(biāo)簽的兩個主體為“不匹配對”。我們工作的一個關(guān)鍵目標(biāo)是創(chuàng)建一個強大的端到端可訓(xùn)練的網(wǎng)絡(luò),可以從同一主體的圖像中產(chǎn)生相同的形狀,并對不同主體產(chǎn)生不同的形狀。換句話說,我們希望使我們的形狀生成器具有區(qū)分性。我們通過要求匹配對在形狀空間中的距離比不匹配對小一個邊界值 η η η來強制執(zhí)行這一點。距離是在面部形狀參數(shù)的空間中計算的,這對應(yīng)于中性姿勢下頂點的歐幾里得空間。

在RingNet結(jié)構(gòu)中, e j e_j ej? e k e_k ek?產(chǎn)生 β ? j \vec β_j β ?j? β ? k \vec β_k β ?k?,當(dāng) j ≠ k j \neq k j=k j , k ≠ R j,k \neq R j,k=R時,它們是匹配對。類似地, e j e_j ej? e R e_R eR?產(chǎn)生 β ? j \vec β_j β ?j? β ? R \vec β_R β ?R?,當(dāng) j ≠ R j \neq R j=R時,它們是不匹配對。我們的形狀一致性項為:
∥ β j ? ? β k ? ∥ 2 2 + η ≤ ∥ β j ? ? β R ? ∥ 2 2 (4) \left\| \vec {\beta_j} - \vec {\beta_k} \right\|_2^2 + \eta \leq \left\| \vec {\beta_j} - \vec {\beta_R} \right\|_2^2 \tag{4} ?βj? ??βk? ? ?22?+η ?βj? ??βR? ? ?22?(4)
因此,我們在訓(xùn)練RingNet端到端時最小化以下?lián)p失:
L S = ∑ i = 1 n b ∑ j , k = 1 R ? 1 max ? ( 0 , ∥ β i j ? ? β i k ? ∥ 2 2 ? ∥ β i j ? ? β i R ? ∥ 2 2 + η ) (5) L_S = \sum_{i=1}^{n_b} \sum_{j,k=1}^{R-1} \max\left(0, \left\| \vec {\beta_{ij}} - \vec {\beta_{ik}} \right\|_2^2 - \left\| \vec {\beta_{ij}} - \vec {\beta_{iR}} \right\|_2^2 + \eta\right) \tag{5} LS?=i=1nb??j,k=1R?1?max(0, ?βij? ??βik? ? ?22?? ?βij? ??βiR? ? ?22?+η)(5)
其可以歸一化為:
L S C = 1 n b × R × L S (6) L_{SC} = \frac{1}{n_b \times R} \times L_S \tag{6} LSC?=nb?×R1?×LS?(6)
n b n_b nb?是環(huán)中每個元素的批處理大小。

3.4. 2D Feature Loss

最后,我們計算在訓(xùn)練過程中提供的地面真實標(biāo)志和預(yù)測標(biāo)志之間的L1損失。請注意,我們不直接預(yù)測2D標(biāo)志,而是從已知拓撲結(jié)構(gòu)的3D網(wǎng)格中檢索。

給定FLAME模板網(wǎng)格,我們?yōu)槊總€OpenPose [29]關(guān)鍵點定義了網(wǎng)格表面上對應(yīng)的3D點。請注意,這是我們提供連接2D和3D的監(jiān)督的唯一地方。這只做一次。嘴巴、鼻子、眼睛和眉毛關(guān)鍵點具有固定的對應(yīng)3D點(稱為靜態(tài)3D標(biāo)志),輪廓特征的位置隨頭部姿勢而變化(稱為動態(tài)3D標(biāo)志),與[5, 31]類似,我們將輪廓標(biāo)志建模為隨全局頭部旋轉(zhuǎn)動態(tài)移動(見Sup. Mat.)。為了自動計算這個動態(tài)輪廓,我們將FLAME模板在左右旋轉(zhuǎn)-20到40度之間,用紋理渲染網(wǎng)格,運行OpenPose預(yù)測2D標(biāo)志,并將這些2D點投影到3D表面。得到的軌跡在臉的左右兩側(cè)對稱傳輸。

在訓(xùn)練期間,RingNet輸出3D網(wǎng)格,為這些網(wǎng)格計算靜態(tài)和動態(tài)3D標(biāo)志,并使用編碼器輸出中預(yù)測的相機參數(shù)將這些標(biāo)志投影到圖像平面。因此,我們計算投影標(biāo)志kpi和地面真實2D標(biāo)志ki之間的以下L1損失:
L proj = ∥ w i × ( k p i ? k i ) ∥ 1 (7) L_{\text{proj}} = \|w_i \times (k_{pi} - k_i)\|_1 \tag{7} Lproj?=wi?×(kpi??ki?)1?(7)
其中 w i w_i wi?是由2D標(biāo)志預(yù)測器提供的每個地面真實標(biāo)志的置信度得分。如果置信度高于0.41,則將其設(shè)置為1,否則設(shè)置為0。訓(xùn)練RingNet端到端的總損失 L t o t L_{tot} Ltot?是:
L tot = λ SC L SC + λ proj L proj + λ β ~ ∥ β ~ ∥ 2 2 + λ ψ ~ ∥ ψ ~ ∥ 2 2 (8) L_{\text{tot}} = \lambda_{\text{SC}} L_{\text{SC}} + \lambda_{\text{proj}} L_{\text{proj}} + \lambda_{\tilde{\beta}} \|\tilde{\beta}\|_2^2 + \lambda_{\tilde{\psi}} \|\tilde{\psi}\|_2^2 \tag{8} Ltot?=λSC?LSC?+λproj?Lproj?+λβ~??β~?22?+λψ~??ψ~?22?(8)
其中 λ λ λ是每個損失項的權(quán)重,最后兩項對形狀和表情系數(shù)進行正則化。由于 B S ( β ? ; S ) B_S(\vec β; \mathcal S) BS?(β ?;S) B E ( ψ ? ; E ) B_E( \vec ψ; \mathcal E) BE?(ψ ?;E)被平方方差縮放, β ? \vec β β ? ψ ? \vec ψ ψ ?的L2范數(shù)表示正交形狀和表情空間中的馬哈拉諾比斯距離。

3.5. 實現(xiàn)細節(jié)

特征提取網(wǎng)絡(luò)使用預(yù)訓(xùn)練的 ResNet50 [15] 架構(gòu),在訓(xùn)練期間也進行了優(yōu)化。特征提取網(wǎng)絡(luò)輸出一個 2048 維向量,作為回歸網(wǎng)絡(luò)的輸入?;貧w網(wǎng)絡(luò)包括兩個維度為 512 的全連接層,帶有 ReLu 激活和 dropout,接著是一個最終的線性全連接層,輸出為 159 維。對這個 159 維的輸出向量,我們連接了相機、姿勢、形狀和表情參數(shù)。前三個元素表示比例和 2D 圖像平移。接下來的 6 個元素是全局旋轉(zhuǎn)和顎部旋轉(zhuǎn),都是在軸角表示法中。由于 FLAME 的頸部和眼球旋轉(zhuǎn)不對應(yīng)于面部標(biāo)記,因此不進行回歸。接下來的 100 個元素是形狀參數(shù),然后是 FLAME 的 50 個表情參數(shù)??晌⒎值?FLAME 層在訓(xùn)練期間保持不變。我們使用學(xué)習(xí)率為 1e-4 的 Adam [20] 優(yōu)化器對 RingNet 進行 10 輪訓(xùn)練。不同的模型參數(shù)為 R = 6 R = 6 R=6, λ S C = 1 λ_{SC} = 1 λSC?=1, λ p r o j = 60 λ_{proj} = 60 λproj?=60, λ β ? = 1 e ? 4 λ_{\vec β} = 1e ? 4 λβ ??=1e?4 λ ψ ? = 1 e ? 4 λ_{\vec ψ} = 1e ? 4 λψ ??=1e?4, η = 0.5 η = 0.5 η=0.5。RingNet 架構(gòu)在 Tensorflow [1] 中實現(xiàn),并將公開發(fā)布。我們使用 VGG2 人臉數(shù)據(jù)庫 [6] 作為訓(xùn)練數(shù)據(jù)集,其中包含面部圖像及其相應(yīng)的標(biāo)簽。我們在數(shù)據(jù)庫上運行 OpenPose [29] 并計算面部的 68 個標(biāo)記點。OpenPose 對許多情況都無法成功。在清理了失敗的情況后,我們得到了大約 80 萬張圖像,以及相應(yīng)的標(biāo)簽和面部標(biāo)記,用于我們的訓(xùn)練語料庫。我們還考慮了由 [4] 提供的約 3000 張具有極端姿勢的圖像及其相應(yīng)的標(biāo)記。由于對于這些極端圖像我們沒有任何標(biāo)簽,我們通過隨機裁剪和縮放來復(fù)制每個圖像,以考慮匹配對。

4. 基準(zhǔn)數(shù)據(jù)集和評估指標(biāo)

本節(jié)介紹了我們的 NoW 基準(zhǔn)測試,用于從單眼圖像進行 3D 面部重建的任務(wù)。該基準(zhǔn)測試的目標(biāo)是引入一個標(biāo)準(zhǔn)評估指標(biāo),以測量在視角、光照和常見遮擋變化下 3D 面部重建方法的準(zhǔn)確性和魯棒性。

數(shù)據(jù)集:該數(shù)據(jù)集包含 100 名受試者的 2054 張 2D 圖像,使用 iPhone X 拍攝,并為每個受試者單獨提供了一個 3D 頭部掃描。這個頭部掃描用作評估的地面真實。選擇的受試者包含年齡、BMI 和性別的變化(55 名女性,45 名男性)。

我們將捕獲的數(shù)據(jù)分為四個挑戰(zhàn):中性(620 張圖像)、表情(675 張圖像)、遮擋(528 張圖像)和自拍(231 張圖像)。中性、表情和遮擋包含所有受試者的中性、富有表情和部分遮擋的面部圖像,從正面視圖到側(cè)面視圖不等。表情包含不同的表情,如快樂、悲傷、驚訝、厭惡和恐懼。遮擋包含具有不同遮擋的圖像,如眼鏡、太陽鏡、面部毛發(fā)、帽子或兜帽等。對于自拍類別,參與者被要求使用 iPhone 自拍,而不對執(zhí)行的面部表情施加任何限制。這些圖像在室內(nèi)和室外捕獲,以提供自然和人工光的變化。

對于所有類別的挑戰(zhàn)都是在給定單眼圖像的情況下重建一個中性的 3D 面部。請注意,幾張圖像中存在面部表情,這需要方法來分離身份和表情,以評估預(yù)測的身份的質(zhì)量。

捕獲設(shè)置:對于每個受試者,我們使用主動立體系統(tǒng)(3dMD LLC,亞特蘭大)捕獲中性表情的原始頭部掃描。多攝像頭系統(tǒng)包括六對灰度立體攝像頭、六個彩色攝像頭、五個斑點圖案投影儀和六個白色 LED 面板。重建的 3D 幾何對于每個受試者包含約 12 萬個頂點。每個受試者在掃描過程中佩戴頭巾,以避免由于頭發(fā)導(dǎo)致的面部或頸部區(qū)域的遮擋和掃描儀噪聲。

數(shù)據(jù)處理:大多數(shù)現(xiàn)有的 3D 面部重建方法需要對面部進行定位。為了減輕這個預(yù)處理步驟的影響,我們?yōu)槊總€圖像提供一個覆蓋面部的邊界框。為了獲得所有圖像的邊界框,我們首先對所有圖像運行一個面部檢測器 [38],然后為每個檢測到的面部預(yù)測關(guān)鍵點 [4]。我們對失敗案例手動選擇 2D 地標(biāo)。然后,我們將地標(biāo)的邊界框向每一側(cè)擴展 5%(底部)、10%(左右)和 30%(頂部),以獲得涵蓋整個面部,包括前額的框。對于面部挑戰(zhàn),我們遵循類似于 [10] 的處理協(xié)議。對于每個掃描,選擇面部中心,并通過刪除指定半徑外的一切來裁剪掃描。所選半徑是特定于主體的,計算方法為 0.7 × (外眼距離 + 鼻距離)(見圖 2)。

評估指標(biāo):在給定單眼圖像的情況下,挑戰(zhàn)是重建一個 3D 面部。由于預(yù)測的網(wǎng)格出現(xiàn)在不同的本地坐標(biāo)系中,通過使用預(yù)測和掃描之間的一組相應(yīng)的地標(biāo)對重建的 3D 網(wǎng)格進行剛性對齊(旋轉(zhuǎn)、平移和縮放)。我們進一步執(zhí)行基于掃描到網(wǎng)格距離的剛性對齊(即每個掃描頂點與網(wǎng)格表面上最近點之間的絕對距離),使用地標(biāo)對齊作為初始化。然后,計算每個圖像的誤差,即地面真實掃描與重建網(wǎng)格之間的掃描到網(wǎng)格距離。然后報告不同的錯誤,包括所有距離的累積錯誤圖,中位距離,平均距離和標(biāo)準(zhǔn)偏差。

如何參與:要參與挑戰(zhàn),我們提供一個網(wǎng)站 [25],用于下載測試圖像,并上傳每個注冊的重建結(jié)果和選定的地標(biāo)。然后,自動計算并返回誤差指標(biāo)。請注意,我們不提供地面真實掃描,以防止在測試數(shù)據(jù)上進行微調(diào)。

5. 實驗

我們對RingNet進行了定性和定量評估,并與公開可用的方法進行了比較,這些方法包括:PRNet(ECCV 2018 [9])、Extreme3D(CVPR 2018 [35])和3DMM-CNN(CVPR 2017 [34])。

定量評估:我們在[10]和我們的NoW數(shù)據(jù)集上比較了不同方法。

Feng等人的基準(zhǔn):Feng等人[10]描述了一個用于評估從單個圖像進行3D面部重建的基準(zhǔn)數(shù)據(jù)集。他們提供了一個測試數(shù)據(jù)集,其中包含面部圖像及其對應(yīng)于Stirling/ESRC 3D面部數(shù)據(jù)庫子集的3D地面真實面部掃描。測試數(shù)據(jù)集包含2000張2D中性面部圖像,包括656張高質(zhì)量(HQ)圖像和1344張低質(zhì)量(LQ)圖像。高質(zhì)量圖像是在受控場景中拍攝的,而低質(zhì)量圖像則是從視頻幀中提取的。該數(shù)據(jù)側(cè)重于中性面部,而我們的數(shù)據(jù)在表情、遮擋和照明方面具有更高的變化性,如第4節(jié)所述。

請注意,我們與之比較的方法(PRNet、Extreme3D、3DMM-CNN)在訓(xùn)練時使用了3D監(jiān)督,而我們的方法沒有。PRNet [9] 要求非常緊密地裁剪面部區(qū)域才能獲得良好的結(jié)果,并且在給定基準(zhǔn)數(shù)據(jù)庫的松散裁剪輸入圖像時表現(xiàn)不佳(參見補充資料)。我們沒有嘗試為PRNet裁剪圖像,而是在給定圖像上運行它,并注意其成功的情況:對于低分辨率測試圖像,它輸出了918個網(wǎng)格,對于高質(zhì)量圖像,輸出了509個網(wǎng)格。為了與PRNet進行比較,我們僅在PRNet成功的1427張圖像上運行所有其他方法。

我們使用[10]中的方法計算誤差,該方法計算從地面真實掃描點到估計的網(wǎng)格表面的距離。圖5(左和中)顯示了不同方法在低質(zhì)量和高質(zhì)量圖像上的累積誤差曲線;RingNet優(yōu)于其他方法。表1報告了均值、標(biāo)準(zhǔn)差和中值誤差。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖5:累積誤差曲線。從左到右:[10]的低質(zhì)量數(shù)據(jù)。[10]的高質(zhì)量數(shù)據(jù)。NoW數(shù)據(jù)集面部挑戰(zhàn)。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

表1:Feng等人[10]基準(zhǔn)的統(tǒng)計信息

NoW面部挑戰(zhàn):對于這個挑戰(zhàn),我們像[10]一樣使用了裁剪的掃描來評估不同方法。我們首先對所有比較方法的預(yù)測網(wǎng)格執(zhí)行剛性對齊。然后,我們計算上述預(yù)測網(wǎng)格與掃描之間的掃描到網(wǎng)格距離[10]。圖5(右)顯示了不同方法的累積誤差曲線;再次,RingNet優(yōu)于其他方法。我們在表2中提供了均值、中值和標(biāo)準(zhǔn)差誤差。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

表2:NoW數(shù)據(jù)集面部挑戰(zhàn)的統(tǒng)計信息。

定性結(jié)果:這里我們展示了從單個CelebA [22]和MultiPIE數(shù)據(jù)集 [14]人臉圖像估計3D面/頭網(wǎng)格的定性結(jié)果。圖1展示了RingNet的一些結(jié)果,說明了它對表情、性別、頭部姿勢、頭發(fā)、遮擋等的魯棒性。在圖6和圖7中,我們展示了我們的方法在不同條件下,如照明、姿勢和遮擋下的魯棒性。在Sup. Mat.中提供了定性比較。

【計算機視覺|人臉建模】學(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖6:RingNet對不同照明條件的穩(wěn)健性。圖像來自MultiPIE數(shù)據(jù)集[14]。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖7:RingNet對遮擋、姿勢變化和照明變化的穩(wěn)健性。圖像來自NoW數(shù)據(jù)集。

剔除研究:在這里,我們通過在表3中比較不同 R R R值的選擇,為在RingNet中使用環(huán)形架構(gòu)提供了一些動機。我們在包含10個受試者的驗證集上評估這些值(其中六個來自[8],四個來自[21])。對于每個受試者,我們選擇一個中性掃描和兩到四個掃描儀圖像,為圖像重建3D網(wǎng)格,并在剛性對齊后測量掃描到網(wǎng)格的重建誤差。使用具有更多元素的環(huán)形結(jié)構(gòu)與僅使用單個三元組損失相比,誤差減小,但它也增加了訓(xùn)練時間。為了在時間和誤差之間取得平衡,我們在實驗中選擇了 R = 6 R = 6 R=6。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

表3:不同環(huán)元素數(shù)量R的影響。我們在消融研究中描述的驗證集上進行評估。

6. 結(jié)論

我們解決了從單一2D圖像學(xué)習(xí)估計3D、關(guān)節(jié)化和可變形形狀的具有挑戰(zhàn)性的問題,而沒有配對的3D訓(xùn)練數(shù)據(jù)。我們將RingNet模型應(yīng)用于人臉,但該公式是通用的。關(guān)鍵思想是利用一系列成對損失,鼓勵解決方案在相同人物的圖像中共享相同的形狀,在它們不同的情況下具有不同的形狀。我們利用FLAME面部模型將面部姿勢和表情分解為形狀,以便RingNet可以在形狀固定的同時允許其他參數(shù)變化。我們的方法需要一個數(shù)據(jù)集,其中一些人會多次出現(xiàn),以及2D面部特征,可以通過現(xiàn)有方法估計。我們僅提供標(biāo)準(zhǔn)2D面部特征與3D FLAME模型的頂點之間的關(guān)系。與以前的方法不同,我們不優(yōu)化3DMM到2D特征,也不使用合成數(shù)據(jù)。競爭方法通常利用使用面部反照率、反射和陰影的近似生成模型的光度損失。RingNet不需要這樣做來學(xué)習(xí)圖像像素與3D形狀之間的關(guān)系。此外,我們的公式捕捉了整個頭部及其姿勢。最后,我們創(chuàng)建了一個具有準(zhǔn)確的地面真實3D頭部形狀和在各種條件下拍攝的高質(zhì)量圖像的新的公共數(shù)據(jù)集。令人驚訝的是,RingNet優(yōu)于使用3D監(jiān)督的方法。這為未來的研究開辟了許多方向,例如擴展RingNet與[24]。在這里,我們側(cè)重于沒有3D監(jiān)督的情況,但我們可以放寬這一點,并在可用時使用監(jiān)督。我們預(yù)期少量的監(jiān)督會提高準(zhǔn)確性,而野外圖像的大數(shù)據(jù)集將提供對照明、遮擋等的穩(wěn)健性。我們的2D特征檢測器不包括耳朵,盡管耳朵是非常獨特的特征。添加2D耳朵檢測將進一步改善3D頭部姿勢和形狀。雖然我們的模型停在頸部,但我們計劃將模型擴展到全身[23]。有趣的是看到RingNet是否可以擴展到僅使用2D關(guān)節(jié)從圖像中重建3D身體姿勢和形狀。這可能超越當(dāng)前的方法,如HMR [17],以學(xué)習(xí)關(guān)于身體形狀的信息。雖然RingNet學(xué)習(xí)了到現(xiàn)有面部3D模型的映射,但我們可以放寬這一點,并且還可以在低維形狀空間上進行優(yōu)化,從示例中學(xué)習(xí)更詳細的形狀模型。為此,整合陰影線索[32, 28]將有助于約束問題。

致謝:我們感謝T. Alexiadis建立NoW數(shù)據(jù)集,J. Tesch提供渲染結(jié)果,D. Lleshaj提供注釋,A. Osman提供補充視頻,以及S. Tang進行有益的討論。

披露:Michael J. Black收到了Intel、Nvidia、Adobe、Facebook和Amazon的研究禮金。他是Amazon的兼職員工,并在Amazon和Meshcapade GmbH擁有財務(wù)利益。他的研究僅在MPI進行。

References

(……)

附錄

在接下來的部分,我們展示了NoW數(shù)據(jù)集的各個挑戰(zhàn)(中性,圖8;表情,圖9;遮擋,圖10;自拍,圖11)的累積誤差圖。圖5的右側(cè)顯示了跨所有挑戰(zhàn)的累積誤差。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖8:中性挑戰(zhàn)的累積誤差曲線。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖9:表情挑戰(zhàn)的累積誤差曲線。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖10:遮擋挑戰(zhàn)的累積誤差曲線。

【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督,計算機視覺/情感分析/多模態(tài),計算機視覺,學(xué)習(xí),回歸,人工智能,3d

圖11:自拍挑戰(zhàn)的累積誤差曲線。文章來源地址http://www.zghlxwxcb.cn/news/detail-728038.html

到了這里,關(guān)于【計算機視覺|人臉建?!繉W(xué)習(xí)從圖像中回歸3D面部形狀和表情而無需3D監(jiān)督的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 計算機競賽 深度學(xué)習(xí) 機器視覺 人臉識別系統(tǒng) - opencv python

    計算機競賽 深度學(xué)習(xí) 機器視覺 人臉識別系統(tǒng) - opencv python

    ?? 優(yōu)質(zhì)競賽項目系列,今天要分享的是 ?? 深度學(xué)習(xí) 機器視覺 人臉識別系統(tǒng) 該項目較為新穎,適合作為競賽課題方向,學(xué)長非常推薦! ??學(xué)長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù):3分 工作量:3分 創(chuàng)新點:3分 ?? 更多資料, 項目分享: https://gitee.com/dancheng

    2024年02月07日
    瀏覽(101)
  • 計算機設(shè)計大賽 深度學(xué)習(xí)人臉表情識別算法 - opencv python 機器視覺

    計算機設(shè)計大賽 深度學(xué)習(xí)人臉表情識別算法 - opencv python 機器視覺

    ?? 優(yōu)質(zhì)競賽項目系列,今天要分享的是 ?? 深度學(xué)習(xí)人臉表情識別系統(tǒng) 該項目較為新穎,適合作為競賽課題方向,學(xué)長非常推薦! ??學(xué)長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù):3分 工作量:3分 創(chuàng)新點:4分 ?? 更多資料, 項目分享: https://gitee.com/dancheng-senior/

    2024年02月21日
    瀏覽(552)
  • 機器視覺 opencv 深度學(xué)習(xí) 駕駛?cè)四樒跈z測系統(tǒng) -python 計算機競賽

    機器視覺 opencv 深度學(xué)習(xí) 駕駛?cè)四樒跈z測系統(tǒng) -python 計算機競賽

    ?? 優(yōu)質(zhì)競賽項目系列,今天要分享的是 ?? 機器視覺 opencv 深度學(xué)習(xí) 駕駛?cè)四樒跈z測系統(tǒng) 該項目較為新穎,適合作為競賽課題方向,學(xué)長非常推薦! ??學(xué)長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù):3分 工作量:3分 創(chuàng)新點:4分 ?? 更多資料, 項目分享: https:/

    2024年02月05日
    瀏覽(94)
  • 計算機視覺基礎(chǔ)學(xué)習(xí)-圖像拼接

    計算機視覺基礎(chǔ)學(xué)習(xí)-圖像拼接

    首先本文介紹的圖像拼接并非對尺寸相同的圖片進行簡單拼接,而是基于全景圖的拼接 普通相機拍攝圖像時,無法兼顧相機視場與視場中單個物體的分辨率問題,而全景相機普遍價格昂貴, 不適用于低成本的一般性場景。為了使用普通相機獲取寬視角,甚至是 360°全景圖像

    2023年04月10日
    瀏覽(25)
  • 【計算機畢設(shè)選題】機器視覺 opencv 深度學(xué)習(xí) 駕駛?cè)四樒跈z測系統(tǒng) -python

    【計算機畢設(shè)選題】機器視覺 opencv 深度學(xué)習(xí) 駕駛?cè)四樒跈z測系統(tǒng) -python

    ?? 這兩年開始畢業(yè)設(shè)計和畢業(yè)答辯的要求和難度不斷提升,傳統(tǒng)的畢設(shè)題目缺少創(chuàng)新和亮點,往往達不到畢業(yè)答辯的要求,這兩年不斷有學(xué)弟學(xué)妹告訴學(xué)長自己做的項目系統(tǒng)達不到老師的要求。 為了大家能夠順利以及最少的精力通過畢設(shè),學(xué)長分享優(yōu)質(zhì)畢業(yè)設(shè)計項目,今天

    2024年02月20日
    瀏覽(96)
  • 計算機視覺:從圖像識別到深度學(xué)習(xí)

    計算機視覺:從圖像識別到深度學(xué)習(xí)

    ?? 個人網(wǎng)站:【工具大全】【游戲大全】【神級源碼資源網(wǎng)】 ?? 前端學(xué)習(xí)課程:??【28個案例趣學(xué)前端】【400個JS面試題】 ?? 尋找學(xué)習(xí)交流、摸魚劃水的小伙伴,請點擊【摸魚學(xué)習(xí)交流群】 計算機視覺是人工智能領(lǐng)域中的一個重要分支,它致力于讓計算機能夠理解和處理

    2024年02月07日
    瀏覽(33)
  • 基于深度學(xué)習(xí)的人臉性別年齡識別 - 圖像識別 opencv 計算機競賽

    基于深度學(xué)習(xí)的人臉性別年齡識別 - 圖像識別 opencv 計算機競賽

    ?? 優(yōu)質(zhì)競賽項目系列,今天要分享的是 ?? 畢業(yè)設(shè)計 人臉性別年齡識別系統(tǒng) - 圖像識別 opencv 該項目較為新穎,適合作為競賽課題方向,學(xué)長非常推薦! ??學(xué)長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù):3分 工作量:3分 創(chuàng)新點:3分 ?? 更多資料, 項目分享: https

    2024年02月06日
    瀏覽(91)
  • 計算機競賽 基于深度學(xué)習(xí)的人臉性別年齡識別 - 圖像識別 opencv

    計算機競賽 基于深度學(xué)習(xí)的人臉性別年齡識別 - 圖像識別 opencv

    ?? 優(yōu)質(zhì)競賽項目系列,今天要分享的是 ?? 畢業(yè)設(shè)計 人臉性別年齡識別系統(tǒng) - 圖像識別 opencv 該項目較為新穎,適合作為競賽課題方向,學(xué)長非常推薦! ??學(xué)長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù):3分 工作量:3分 創(chuàng)新點:3分 ?? 更多資料, 項目分享: https

    2024年02月10日
    瀏覽(91)
  • 計算機視覺基礎(chǔ)(10)——深度學(xué)習(xí)與圖像分類

    計算機視覺基礎(chǔ)(10)——深度學(xué)習(xí)與圖像分類

    傳統(tǒng)視覺算法采用手工設(shè)計特征與淺層模型 ,而手工設(shè)計特征依賴于專業(yè)知識,且泛化能力差。深度學(xué)習(xí)的出現(xiàn)改變了這一狀況, 為視覺問題提供了端到端的解決方案 。在之前的課程中,我們已經(jīng)學(xué)習(xí)了圖像分類的傳統(tǒng)知識。在本節(jié)課中,我們將學(xué)習(xí)到 圖像分類融合深度學(xué)

    2024年02月04日
    瀏覽(37)
  • 【深度學(xué)習(xí):圖像分割指南】計算機視覺中的圖像分割指南:最佳實踐

    【深度學(xué)習(xí):圖像分割指南】計算機視覺中的圖像分割指南:最佳實踐

    圖像分割是計算機視覺中的一項關(guān)鍵任務(wù),其目標(biāo)是將圖像劃分為不同的有意義且可區(qū)分的區(qū)域或?qū)ο?。這是物體識別、跟蹤和檢測、醫(yī)學(xué)成像和機器人等各種應(yīng)用中的一項基本任務(wù)。 許多技術(shù)可用于圖像分割,從傳統(tǒng)方法到基于深度學(xué)習(xí)的方法。隨著深度學(xué)習(xí)的出現(xiàn),圖像

    2024年01月23日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包