国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成

這篇具有很好參考價(jià)值的文章主要介紹了【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本系列博文為深度學(xué)習(xí)/計(jì)算機(jī)視覺(jué)論文筆記,轉(zhuǎn)載請(qǐng)注明出處

標(biāo)題:PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ° ^{\circ} °

鏈接:[2303.13071] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ° ^{\circ} ° (arxiv.org)

摘要

最近,在計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形領(lǐng)域,對(duì)3D人頭的合成和重建引起了越來(lái)越多的關(guān)注。現(xiàn)有的最先進(jìn)的3D生成對(duì)抗網(wǎng)絡(luò)(GANs)用于3D人頭合成的模型要么僅限于近前視圖,要么難以在大視角下保持3D一致性。我們提出了PanoHead,這是第一個(gè)3D感知的生成模型,通過(guò)僅使用野外非結(jié)構(gòu)化圖像進(jìn)行訓(xùn)練,能夠以360度高質(zhì)量、一致的視圖合成全頭圖像,具有多樣的外觀和詳細(xì)的幾何結(jié)構(gòu)。在其核心,我們提升了最近3D GANs的表示能力,并在從野外圖像中訓(xùn)練時(shí)彌合數(shù)據(jù)對(duì)齊差距,這些圖像具有廣泛分布的視角。具體而言,我們提出了一種新穎的兩階段自適應(yīng)圖像對(duì)齊,用于魯棒的3D GAN訓(xùn)練。我們進(jìn)一步引入了一種三網(wǎng)格神經(jīng)體積表示,有效解決了廣泛采用的三平面公式中前臉和后頭特征糾纏的問(wèn)題。我們的方法注入了2D圖像分割的先驗(yàn)知識(shí),用于對(duì)抗學(xué)習(xí)3D神經(jīng)場(chǎng)景結(jié)構(gòu),從而能夠在各種背景中進(jìn)行可組合的頭部合成。由于這些設(shè)計(jì)的好處,我們的方法在很大程度上優(yōu)于先前的3D GANs,能夠生成具有準(zhǔn)確幾何結(jié)構(gòu)和多樣外觀的高質(zhì)量3D頭部,即使是長(zhǎng)卷曲和非洲頭發(fā)造型,也可以從任意姿勢(shì)渲染。此外,我們展示了我們的系統(tǒng)可以從單個(gè)輸入圖像中重建完整的3D頭部,用于個(gè)性化的逼真3D頭像。

1. 引言

逼真的肖像圖像合成一直是計(jì)算機(jī)視覺(jué)和圖形領(lǐng)域的持續(xù)關(guān)注焦點(diǎn),具有數(shù)字化頭像、遠(yuǎn)程存在、沉浸式游戲等廣泛的下游應(yīng)用。生成對(duì)抗網(wǎng)絡(luò)(GANs)的最新進(jìn)展展示了驚人的高圖像合成質(zhì)量,難以與真實(shí)照片區(qū)分。然而,當(dāng)在不同姿勢(shì)下合成頭像時(shí),當(dāng)代生成方法僅基于2D卷積網(wǎng)絡(luò)操作,未對(duì)底層3D場(chǎng)景進(jìn)行建模,因此無(wú)法嚴(yán)格強(qiáng)制實(shí)現(xiàn)3D一致性。

為了生成具有多樣形狀和外觀的3D頭部,傳統(tǒng)方法需要從大規(guī)模3D掃描收集中學(xué)到的參數(shù)化紋理網(wǎng)格模型。然而,渲染的圖像缺乏細(xì)節(jié),并且在感知質(zhì)量和表現(xiàn)力方面有限。隨著可微分渲染和神經(jīng)隱式表示的出現(xiàn),條件生成模型已經(jīng)發(fā)展出更逼真的3D感知人臉圖像。然而,這些方法通常需要多視圖圖像或3D掃描監(jiān)督,這在受控環(huán)境中捕獲通常難以獲取并具有有限的外觀分布。

最近,受到在3D場(chǎng)景建模中集成隱式神經(jīng)表示和用于圖像合成的生成對(duì)抗網(wǎng)絡(luò)(GANs)的推動(dòng),3D感知的生成模型取得了迅速的進(jìn)展。其中,具有開(kāi)創(chuàng)性意義的3D GAN,EG3D,展示了在視圖一致的圖像合成方面的驚人質(zhì)量,僅從野外單視圖圖像集中訓(xùn)練。然而,這些3D GAN方法仍然受限于近前視圖的合成。

本文提出了PanoHead,一種新穎的3D感知GAN,用于從野外非結(jié)構(gòu)化圖像中訓(xùn)練的高質(zhì)量全3D頭部合成,可以從360度角度一致地查看。我們的模型能夠合成一致的3D頭部,可從所有角度查看,這在許多沉浸式交互場(chǎng)景中是理想的,如數(shù)字頭像和遠(yuǎn)程存在。據(jù)我們所知,我們的方法是第一個(gè)能夠在360度下實(shí)現(xiàn)完整的3D頭部合成的3D GAN方法。

將3D GAN框架(如EG3D)擴(kuò)展到完整的3D頭部合成面臨著一些重要的技術(shù)挑戰(zhàn):首先,許多3D GANs不能分離前景和背景,導(dǎo)致2.5D頭部幾何。我們引入了一種前景感知的三鑒別器,通過(guò)提煉2D圖像分割中的先驗(yàn)知識(shí),共同學(xué)習(xí)在3D空間中分解前景頭部。

其次,雖然當(dāng)前的混合3D場(chǎng)景表示(如三平面)緊湊高效,但對(duì)于360度相機(jī)姿態(tài)存在強(qiáng)烈的投影歧義,導(dǎo)致在背頭上出現(xiàn)“鏡像面”。為了解決這個(gè)問(wèn)題,我們提出了一種新穎的3D三網(wǎng)格體積表示,解開(kāi)了前臉特征和背頭的糾纏,同時(shí)保持了三平面表示的高效性。

最后,對(duì)于野外背頭圖像獲得良好估計(jì)的攝像機(jī)外參數(shù)對(duì)于3D GANs的訓(xùn)練極其困難。此外,在這些圖像和具有可檢測(cè)的面部標(biāo)記的前視圖像之間存在圖像對(duì)齊差距。這種對(duì)齊差距導(dǎo)致外觀嘈雜和頭部幾何不吸引人。因此,我們提出了一個(gè)新穎的兩階段對(duì)齊方案,可以一致地對(duì)齊來(lái)自任何視角的圖像。這一步顯著降低了3D GANs的學(xué)習(xí)難度。特別是,我們提出了一個(gè)相機(jī)自適應(yīng)模塊,動(dòng)態(tài)調(diào)整渲染相機(jī)的位置,以適應(yīng)背頭圖像中的對(duì)齊漂移。

我們的框架顯著增強(qiáng)了3D GANs適應(yīng)野外全頭圖像的能力,如圖1所示。生成的3D GAN不僅能夠生成高保真度的360度RGB圖像和幾何結(jié)構(gòu),而且在量化指標(biāo)方面優(yōu)于最先進(jìn)的方法。借助我們的模型,我們展示了從單目視圖圖像中引人注目的3D全頭重建,實(shí)現(xiàn)了輕松訪問(wèn)的3D肖像創(chuàng)作。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖1. 我們的PanoHead能夠通過(guò)高保真度的幾何感知,在360度視角下實(shí)現(xiàn)一致的照片逼真全頭圖像合成,從而能夠從單一視圖圖像中創(chuàng)建真實(shí)的3D肖像。

總之,我們的主要貢獻(xiàn)如下:

  • 第一個(gè)能夠在360度下實(shí)現(xiàn)一致且高保真度的全頭圖像合成的3D GAN框架,具有詳細(xì)的幾何結(jié)構(gòu)。
  • 一種在表示3D 360度頭部場(chǎng)景方面平衡效率和表現(xiàn)力的新穎三網(wǎng)格公式。
  • 一種前景感知的三鑒別器,將3D前景頭部建模與2D背景合成分離。
  • 一種新穎的兩階段圖像對(duì)齊方案,自適應(yīng)地適應(yīng)不完美的相機(jī)姿勢(shì)和圖像裁剪,實(shí)現(xiàn)了對(duì)來(lái)自野外圖像的3D GANs的訓(xùn)練,具有廣泛的相機(jī)姿態(tài)分布。

2. 相關(guān)工作

3D頭部表示和渲染。 為了表示具有多樣形狀和外觀的3D頭部,一系列工作致力于參數(shù)化紋理網(wǎng)格表示,例如用于面部的3D可塑模型(3DMM)[2-4, 33]和從3D掃描學(xué)到的FLAME頭部模型[25]。然而,這些參數(shù)化表示并未對(duì)超出正面或頭骨的照片逼真外觀和幾何進(jìn)行建模。最近,神經(jīng)隱式函數(shù)[47]作為強(qiáng)大的連續(xù)和微分3D場(chǎng)景表示不斷涌現(xiàn)。其中,神經(jīng)輻射場(chǎng)(NeRF)[1, 28]由于其在建模復(fù)雜場(chǎng)景細(xì)節(jié)和合成繼承3D一致性的多視圖圖像方面的優(yōu)越性而被廣泛應(yīng)用于數(shù)字頭部建模[10,15,17,32,34,43]。與從多視圖圖像或時(shí)間視頻優(yōu)化特定個(gè)體的神經(jīng)輻射場(chǎng)不同,我們的方法從非結(jié)構(gòu)化的2D單眼圖像構(gòu)建生成式NeRF。

最近,對(duì)于更好的效率,已經(jīng)探索了隱式-顯式混合的3D表示[5, 9, 27]。其中,在EG3D中提出的三平面公式展示了一種高效的3D場(chǎng)景表示,具有高質(zhì)量的視圖一致圖像合成。三平面表示可以高效地隨分辨率擴(kuò)展,使相同容量下能夠獲得更多細(xì)節(jié)。我們的三網(wǎng)格表示將三平面表示轉(zhuǎn)換為更富表現(xiàn)力的空間,以更好地嵌入在無(wú)條件3D頭部合成中的特征。

單視圖或少視圖監(jiān)督的3D GANs。 鑒于GAN在2D圖像生成方面的驚人進(jìn)展,許多研究嘗試將其擴(kuò)展到3D感知生成。這些GAN旨在從2D圖像集中學(xué)習(xí)可廣泛使用的3D表示。對(duì)于面部合成,Szabo等人[42]首次提出使用頂點(diǎn)位置圖作為3D表示,以生成紋理網(wǎng)格輸出。Shi等人[39]提出了一個(gè)自監(jiān)督框架,將2D StyleGANs[21]轉(zhuǎn)換為3D生成模型,盡管其可推廣性受到其基礎(chǔ)2D StyleGAN的限制。GRAF[37]和pi-GAN[6]是第一個(gè)將NeRF集成到3D GANs中的方法。然而,它們的性能受到完整NeRF正向和反向計(jì)算的強(qiáng)烈計(jì)算成本的限制。許多最近的研究[5,8,11,13,29–31,38,40,48,49]試圖改進(jìn)這些基于NeRF的GANs的效率和質(zhì)量。具體而言,我們的工作基于EG3D[5],該方法引入了三平面表示,可以利用2D GAN骨干生成高效的3D表示,并顯示優(yōu)于其他3D表示[38]。與這些工作平行,另一系列研究[30,41,46,50]致力于可控的3D GANs,可以操縱生成的3D面部或身體。

3. 方法論

3.1 PanoHead 概述

為了合成逼真且在360度下一致的全頭圖像,我們基于最先進(jìn)的3D感知GAN,即EG3D [5],構(gòu)建了PanoHead,因?yàn)樗哂懈咝院秃铣少|(zhì)量。具體而言,EG3D利用StyleGAN2 [22]作為骨干,輸出一個(gè)三平面表示,表示具有三個(gè)2D特征平面的3D場(chǎng)景。在給定所需相機(jī)姿勢(shì)ccam的情況下,使用MLP網(wǎng)絡(luò)解碼三平面,并進(jìn)行體素渲染成特征圖像,然后通過(guò)超分辨率模塊合成更高分辨率的RGB圖像I+。低分辨率和高分辨率圖像都由雙鑒別器D聯(lián)合優(yōu)化。

盡管EG3D在生成前視臉部方面取得了成功,但我們發(fā)現(xiàn)將其調(diào)整為360度野外全頭圖像是一個(gè)更具挑戰(zhàn)性的任務(wù),原因如下:1)前景-背景糾纏阻礙了大姿勢(shì)渲染;2)三平面表示的強(qiáng)歸納偏差導(dǎo)致在背頭上出現(xiàn)鏡像面;3)背頭圖像具有嘈雜的相機(jī)標(biāo)簽和不一致的裁剪。為了解決這些問(wèn)題,我們引入了一個(gè)背景生成器和一個(gè)三鑒別器來(lái)解耦前景和背景(第3.2節(jié)),一個(gè)高效而更具表現(xiàn)力的三網(wǎng)格表示,同時(shí)仍然與StyleGAN骨干兼容(第3.3節(jié)),以及一個(gè)兩階段圖像對(duì)齊方案,具有自適應(yīng)模塊,可在訓(xùn)練期間動(dòng)態(tài)調(diào)整渲染相機(jī)(第3.4節(jié))。我們模型的整體流程如圖2所示。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖2. 我們的框架由三個(gè)主要組件組成:前景感知生成器G、鑒別器D和神經(jīng)渲染器R。首先,一個(gè)映射網(wǎng)絡(luò)將潛在代碼z和條件相機(jī)姿勢(shì)ccon映射到中間潛在代碼w。生成器G然后使用w獲取3D三網(wǎng)格表示的特征f。使用f和渲染相機(jī)姿勢(shì)ccam,神經(jīng)渲染器R合成超分辨率圖像I+、雙線性上采樣的圖像I以及超分辨率掩模Im+。最后,前景感知的三鑒別器D對(duì)(I+、I、Im+)與真實(shí)圖像進(jìn)行評(píng)價(jià)。數(shù)據(jù)處理流程顯示在右側(cè)。真實(shí)圖像被裁剪為修改后的YOLO邊界框,然而由于缺乏準(zhǔn)確的面部標(biāo)志,它們通常在尺度和位置上有所不同。通過(guò)相機(jī)自適應(yīng)方案,渲染相機(jī)姿勢(shì)ccam能夠自我修正,生成具有一致尺度和位置的圖像。

3.2 前景感知三鑒別

現(xiàn)代3D感知的GAN,如EG3D [5],面臨的典型挑戰(zhàn)之一是合成圖像中前景與背景的交織問(wèn)題。盡管具有高度詳細(xì)的幾何重建,直接從野外RGB圖像集(如FFHQ [21])訓(xùn)練3D GAN會(huì)導(dǎo)致2.5D臉部,如圖3(a)所示。通過(guò)從頭部側(cè)面和背面進(jìn)行圖像監(jiān)督可以幫助建立具有合理背頭形狀的完整頭部幾何,但這并不能解決問(wèn)題,因?yàn)槿矫姹硎颈旧聿⒉辉O(shè)計(jì)用于表示分離的前景和背景。

為了將前景與背景解耦,我們首先引入了一個(gè)額外的StyleGAN2網(wǎng)絡(luò)[22],以在原始特征圖像Ir的相同分辨率下生成2D背景。在體素渲染期間,通過(guò)以下方式可以獲得前景掩模Im
I r ( r ) = ∫ 0 ∞ w ( t ) f ( r ( t ) ) d t , I m ( r ) = ∫ 0 ∞ w ( t ) d t , (1) I^r(r) = \int_{0}^{\infty} w(t)f(r(t))dt, \quad I^m(r) = \int_{0}^{\infty} w(t)dt, \tag{1} Ir(r)=0?w(t)f(r(t))dt,Im(r)=0?w(t)dt,(1)

w ( t ) = exp ? ( ? ∫ 0 t σ ( r ( s ) ) d s ) σ ( r ( t ) ) , (2) w(t) = \exp(-\int_{0}^{t} \sigma(r(s)) ds) \sigma(r(t)), \tag{2} w(t)=exp(?0t?σ(r(s))ds)σ(r(t)),(2)

在這里,r(t)表示從渲染相機(jī)中心發(fā)射的射線。前景掩模然后用于組合新的低分辨率圖像Igen
I g e n = ( 1 ? I m ) I b g + I r , (3) I^{gen} = (1 - I^m) I^{bg} + I^r, \tag{3} Igen=(1?Im)Ibg+Ir,(3)
生成的低分辨率圖像然后被輸入到超分辨率模塊中。請(qǐng)注意,背景生成器的計(jì)算成本是微不足道的,因?yàn)槠漭敵龅姆直媛蔬h(yuǎn)低于三平面生成器和超分辨率模塊。

僅僅添加一個(gè)背景生成器并不能完全將其與前景分離,因?yàn)樯善鲀A向于在背景中合成前景內(nèi)容。因此,我們提出了一種新穎的前景感知三鑒別器,以監(jiān)督渲染的前景掩模以及RGB圖像。具體而言,三鑒別器的輸入具有7個(gè)通道,由雙線性上采樣的RGB圖像I,超分辨率的RGB圖像I+以及單通道上采樣的前景掩模Im+組成。附加的掩模通道允許2D分割先驗(yàn)知識(shí)反向傳播到神經(jīng)輻射場(chǎng)的密度分布中。我們的方法降低了從非結(jié)構(gòu)化的2D圖像中塑造3D全頭幾何的學(xué)習(xí)難度,實(shí)現(xiàn)了與各種背景相容的真實(shí)幾何(圖3(b))和外觀綜合的全頭(圖3(c))。我們注意到,與使用雙生成的掩模的合成前景和背景圖像的RGB圖像的單一鑒別器的ENARF-GAN [30]不同,我們的三鑒別器更好地確保視圖一致的高分辨率輸出。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖3. 通過(guò)雙鑒別(a)和前景感知三鑒別(b,c)生成的幾何和RGB圖像。EG3D(a)無(wú)法完全解耦背景。PanoHead的三鑒別提供了無(wú)背景幾何(b)和可切換背景的全頭圖像合成(c)。

3.3 三網(wǎng)格中的特征解耦

在EG3D [5]中提出的三平面表示為3D生成提供了一種高效的表示方法。體積點(diǎn)的神經(jīng)輻射密度和外觀通過(guò)將其3D坐標(biāo)投影到三個(gè)軸對(duì)齊的正交平面上,并使用微小的MLP解碼三個(gè)雙線性插值特征的總和而得到。然而,當(dāng)合成360度的全頭時(shí),我們觀察到三平面在表達(dá)上的表現(xiàn)力受到限制,并且存在鏡像面的問(wèn)題。當(dāng)訓(xùn)練圖像的相機(jī)分布不平衡時(shí),這個(gè)問(wèn)題甚至更為嚴(yán)重。問(wèn)題的根本原因是三平面投影產(chǎn)生的歸納偏差,其中2D平面上的一個(gè)點(diǎn)必須表示不同3D點(diǎn)的特征。例如,正面的一個(gè)點(diǎn)和后腦的一個(gè)點(diǎn)將被投影到XY平面PXY(垂直于Z軸),如圖4(a)所示。盡管理論上另外兩個(gè)平面應(yīng)該提供互補(bǔ)信息以緩解這種投影的模糊性,但是當(dāng)從后面視覺(jué)監(jiān)督較少或者后頭的結(jié)構(gòu)難以學(xué)習(xí)時(shí),我們發(fā)現(xiàn)情況并非如此。在這種情況下,三平面容易從正面借用特征來(lái)合成后頭,這里稱(chēng)為鏡像面的問(wèn)題(圖5(a))。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖4. 在Z軸上比較三平面(a)和三網(wǎng)格(b)的架構(gòu)。使用三平面,兩個(gè)不同點(diǎn)的投影共享平面PXY的特征,這引入了表示的模糊性。而使用三網(wǎng)格,上述兩點(diǎn)的特征從兩個(gè)不同的平面三線性插值得到,從而生成不同的特征。

為了減少三平面的歸納偏差,我們通過(guò)在三平面中增加一個(gè)額外的深度維度來(lái)將其公式提升到更高的維度。我們將這個(gè)豐富的版本稱(chēng)為三網(wǎng)格。與三平面不同,每個(gè)我們的三網(wǎng)格具有形狀為D × H × W × C的形狀,其中H和W是空間分辨率,C是通道數(shù),D代表深度。例如,為了在XY平面上表示空間特征,三網(wǎng)格將具有沿Z軸均勻分布的D個(gè)軸對(duì)齊特征平面 P i X Y P_i^{XY} PiXY?,i = 1,…,D。我們通過(guò)將坐標(biāo)投影到三網(wǎng)格的每個(gè)平面上來(lái)查詢(xún)?nèi)魏?D空間點(diǎn),通過(guò)三線性插值檢索相應(yīng)的特征向量。因此,對(duì)于共享相同投影坐標(biāo)但深度不同的兩個(gè)點(diǎn),相應(yīng)的特征很可能是從非共享平面插值得到的(圖4(b))。我們的公式解開(kāi)了正面和后頭的特征表達(dá),因此在很大程度上減輕了鏡像面的問(wèn)題(圖5)。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖5. 使用三平面和三網(wǎng)格(D = 3)進(jìn)行圖像合成。由于投影的模糊性,三平面表示(a)可以生成質(zhì)量較好的正面圖像,但在后頭上有一個(gè)“鏡像的臉”,而我們的三網(wǎng)格表示合成了高質(zhì)量的后頭外觀和幾何(b)。

與EG3D [5]中的三平面類(lèi)似,我們可以使用StyleGAN2生成器[21]將三網(wǎng)格合成為3 × D特征平面。也就是說(shuō),我們將原始EG3D骨干的輸出通道數(shù)增加D倍。因此,三平面可以被看作是我們的三網(wǎng)格表示的一個(gè)簡(jiǎn)單情況,其中D = 1。我們的三網(wǎng)格的深度D是可調(diào)的,較大的D提供更多的表示能力,但會(huì)增加額外的計(jì)算開(kāi)銷(xiāo)。經(jīng)驗(yàn)上,我們發(fā)現(xiàn)在特征解耦方面,較小的D值(例如D = 3)足夠,同時(shí)仍然保持其作為3D場(chǎng)景表示的效率。

3.4 自適應(yīng)相機(jī)對(duì)齊

為了對(duì)我們360度全頭進(jìn)行對(duì)抗訓(xùn)練,我們需要來(lái)自比大多數(shù)正面分布更廣的相機(jī)分布的野外圖像示例,例如FFHQ [21]。盡管我們的3D感知GAN僅從廣泛可訪問(wèn)的2D圖像中進(jìn)行訓(xùn)練,但在標(biāo)有估計(jì)良好的相機(jī)參數(shù)的圖像之間準(zhǔn)確對(duì)齊視覺(jué)觀察是獲得最佳質(zhì)量訓(xùn)練的關(guān)鍵。雖然對(duì)于基于面部標(biāo)志的正面面部圖像裁剪和對(duì)齊已經(jīng)建立了一個(gè)良好的實(shí)踐,但在為GAN訓(xùn)練預(yù)處理大角度姿勢(shì)圖像時(shí)從未研究過(guò)。由于側(cè)面和背部拍攝的圖像缺乏穩(wěn)健的面部標(biāo)志檢測(cè),相機(jī)估計(jì)和圖像裁剪不再那么直接。

為了解決上述挑戰(zhàn),我們提出了一種新穎的兩階段處理方法。在第一階段,對(duì)于具有可檢測(cè)到的面部標(biāo)志的圖像,我們?nèi)匀徊捎脴?biāo)準(zhǔn)處理,其中人臉被縮放到相似大小,并使用最先進(jìn)的面部姿態(tài)估計(jì)器3DDFA [14]在頭部中心對(duì)齊。對(duì)于大角度姿勢(shì)的其余圖像,我們使用頭部姿態(tài)估計(jì)器WHENet [52]提供粗略估計(jì)的相機(jī)姿態(tài),以及帶有以檢測(cè)到的頭部為中心的邊界框的人類(lèi)檢測(cè)器YOLO [18]。為了以一致的頭比例和中心裁剪圖像,我們?cè)谝慌鎴D像上同時(shí)應(yīng)用YOLO和3DDFA,從中使用恒定偏移調(diào)整YOLO的頭中心的比例和平移。這種方法使我們能夠在很大程度上以標(biāo)有相機(jī)參數(shù)的一致對(duì)齊方式預(yù)處理所有頭部圖像。

由于存在各種發(fā)型,后頭圖像的對(duì)齊仍然不一致,為我們的網(wǎng)絡(luò)解釋完整的頭部幾何和外觀引入了顯著的學(xué)習(xí)難度(見(jiàn)圖6(a))。因此,我們提出了一種自適應(yīng)相機(jī)對(duì)齊方案,以微調(diào)每個(gè)訓(xùn)練圖像的體積渲染錐體的變換。具體而言,我們的3D感知GAN將每個(gè)圖像與嵌入3D場(chǎng)景信息的潛在代碼z相關(guān)聯(lián),該信息包括幾何和外觀,可以在ccam的視圖下合成。由于ccam可能與我們的訓(xùn)練圖像的圖像內(nèi)容不對(duì)齊,因此3D GAN很難找到合理的完整頭部幾何。因此,我們通過(guò)對(duì)抗訓(xùn)練共同學(xué)習(xí)了從(z,ccam)映射到?ccam的剩余相機(jī)變換。?ccam的大小受L2范數(shù)規(guī)范化。實(shí)質(zhì)上,網(wǎng)絡(luò)通過(guò)在不同的視覺(jué)觀察之間進(jìn)行細(xì)化對(duì)應(yīng)來(lái)動(dòng)態(tài)自適應(yīng)圖像對(duì)齊。我們注意到,這僅僅是因?yàn)?D感知GAN的性質(zhì),它可以在各種相機(jī)下合成視圖一致的圖像。我們的兩階段對(duì)齊使360度視圖一致的頭部合成具有真實(shí)形狀和外觀,可以從具有廣泛分布的相機(jī)姿勢(shì)、樣式和結(jié)構(gòu)的各種頭部圖像中進(jìn)行學(xué)習(xí)。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖6. 使用(a)和不使用(b)相機(jī)自適應(yīng)方案合成的圖像。如果沒(méi)有這個(gè)方案,模型將生成不對(duì)齊的后頭圖像,導(dǎo)致后頭上出現(xiàn)缺陷。

4. 實(shí)驗(yàn)

4.1 數(shù)據(jù)集和基線

我們?cè)谄胶獾腇FHQ [21]、K-hairstyle數(shù)據(jù)集 [24] 以及一個(gè)內(nèi)部大角度頭部圖像集的組合上訓(xùn)練和評(píng)估我們的框架。FFHQ包含70,000個(gè)多樣化的高分辨率人臉圖像,但主要集中在絕對(duì)偏航范圍從0度到60度,假設(shè)正面相機(jī)姿態(tài)對(duì)應(yīng)于0度。我們使用來(lái)自K-hairstyle數(shù)據(jù)集的4,000張后頭圖像以及15,000張內(nèi)部大角度圖像來(lái)擴(kuò)充FFHQ數(shù)據(jù)集,這些圖像具有不同的風(fēng)格,角度范圍從60度到180度。為簡(jiǎn)潔起見(jiàn),我們將這個(gè)數(shù)據(jù)集組合命名為FFHQ-F。更多的數(shù)據(jù)集分析和網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié),請(qǐng)參考補(bǔ)充論文。

我們與最先進(jìn)的3D感知GAN進(jìn)行比較,包括GRAF [37]、EG3D [5]、StyleSDF [31] 和GIRAFFEHD [48]。所有基線都是從相同的FFHQ-F數(shù)據(jù)集重新訓(xùn)練的。我們?cè)诙亢投ㄐ陨蠝y(cè)量生成的多視圖圖像和幾何質(zhì)量。

4.2 定性比較

360°圖像合成。 圖7直觀地比較了模型的圖像質(zhì)量與基線的差異,所有模型都是使用FFHQ-F進(jìn)行訓(xùn)練的,通過(guò)從五個(gè)不同的視角合成圖像,偏航角從0到180度。GRAF [37] 無(wú)法合成引人注目的頭像,其背景與前景頭部糾纏在一起。StyleSDF [31] 和GIRAFFEHD [48] 能夠合成逼真的正面人臉圖像,但從較大的相機(jī)角度渲染時(shí)感知質(zhì)量較低。在沒(méi)有明確依賴(lài)相機(jī)標(biāo)簽的情況下,我們懷疑上述方法直接從具有360°相機(jī)分布的圖像中獨(dú)立解釋3D場(chǎng)景結(jié)構(gòu)可能存在困難。我們觀察到EG3D [5] 能夠在將視圖旋轉(zhuǎn)到側(cè)面甚至背面之前,合成高質(zhì)量的視圖一致的正面頭像。由于三平面的投影模糊和前后景的糾纏,從背面清晰可見(jiàn)鏡像人臉的偽影。[43] 中提出的方法以額外的代價(jià)構(gòu)建個(gè)性化的完整頭部NeRF,但需要多視圖監(jiān)督。盡管該方法在所有視圖上都能生成高質(zhì)量的圖像,但該模型本身不是一個(gè)生成模型。與之強(qiáng)烈對(duì)比的是,我們的模型在保持多視圖一致性的同時(shí),為所有相機(jī)姿態(tài)生成了卓越的逼真頭像。它以細(xì)節(jié)豐富的真實(shí)感呈現(xiàn)不同外觀,從戴眼鏡的光頭到長(zhǎng)卷發(fā)。為了更全面地了解我們的多視圖完整頭部合成,請(qǐng)參考我們的補(bǔ)充視頻以獲取更全面的視覺(jué)結(jié)果。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖7. GRAF [37]、GIRAFFEHD [48]、StyleSDF [31]、EG3D [5]、多視圖監(jiān)督 NeRF [43](左側(cè)從上到下是不同方法),以及我們的 PanoHead(右側(cè))的定性比較。除了 [43],所有模型都是在 FFHQ-F 上訓(xùn)練的。我們以偏航角為0、45、90、135和180度渲染結(jié)果。由于無(wú)監(jiān)督相機(jī)姿態(tài)機(jī)制,GRAF、GIRAFFEHD 和 StyleSDF 未能在潛在空間中建模正確的相機(jī)分布,因此不能旋轉(zhuǎn)到背面。EG3D 能夠旋轉(zhuǎn)到背面,但存在“鏡像人臉”偽影和糾纏的背景。多視圖監(jiān)督 NeRF 與我們的模型相媲美,但它需要單個(gè)人的多視圖數(shù)據(jù),并且不是生成模型。

幾何生成。 圖8比較了通過(guò)運(yùn)行Marching Cubes算法[26]提取的底層3D幾何的視覺(jué)質(zhì)量。雖然StyleSDF [31] 生成了正面的外觀,但頭部的完整幾何形狀雜亂且斷裂。EG3D呈現(xiàn)了正面和頭發(fā)的詳細(xì)幾何形狀,但要么背景混亂(圖3(a)),要么后頭是空心的(圖8)。相反,我們的模型可以始終生成高保真、無(wú)背景的3D頭部幾何,即使頭發(fā)的造型各異。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖8. PanoHead 實(shí)現(xiàn)了高質(zhì)量的完整頭部幾何結(jié)構(gòu),而 StyleSDF [31] 和 EG3D [5] 生成了3D噪聲或空洞頭部。

4.3 定量結(jié)果

為了量化生成圖像的視覺(jué)質(zhì)量、保真度和多樣性,我們使用了50K真實(shí)圖像和生成圖像樣本的Frechet Inception Distance(FID)[16]。我們使用身份相似性分?jǐn)?shù)(ID)來(lái)衡量多視圖一致性,通過(guò)計(jì)算從不同相機(jī)角度渲染的成對(duì)合成的面部圖像的平均Adaface[23]余弦相似性分?jǐn)?shù)。請(qǐng)注意,此指標(biāo)只適用于檢測(cè)到面部特征的圖像。我們使用均方誤差(MSE)來(lái)計(jì)算生成分割與使用DeepLabV3 ResNet101網(wǎng)絡(luò)[7]獲得的掩碼的準(zhǔn)確性。表1對(duì)比了所有基線和我們的方法的這些指標(biāo)。我們觀察到我們的模型在所有視角上一貫優(yōu)于其他基線。請(qǐng)參閱補(bǔ)充材料以獲取指標(biāo)定義和實(shí)施細(xì)節(jié)。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

表1. 在所有基線上的指標(biāo)比較。對(duì)于分割MSE,只有GIRAFFEHD和PanoHead將背景和前景解耦。對(duì)于ID分?jǐn)?shù),GRAF的低質(zhì)量圖像導(dǎo)致面部檢測(cè)失敗。

為了評(píng)估不同視圖下的圖像質(zhì)量,我們對(duì)只有背面姿勢(shì)(|yaw| ≥ 90?),正面姿勢(shì)(|yaw| < 90?)和所有相機(jī)姿勢(shì)的合成圖像使用FID和Inception Score(IS)[36]。FID衡量了真實(shí)圖像和虛假圖像分布的相似性和多樣性,而IS更關(guān)注圖像本身的質(zhì)量。我們的GAN模型遵循EG3D的主要架構(gòu),其中tri-plane生成器以相機(jī)姿勢(shì)為條件。我們觀察到這樣的設(shè)計(jì)導(dǎo)致了生成圖像質(zhì)量朝著條件相機(jī)姿勢(shì)的方向有偏。具體而言,當(dāng)以正面視圖為條件時(shí),我們的生成器在合成背面圖像的質(zhì)量上較差,反之亦然。然而,當(dāng)計(jì)算FID-all時(shí),條件相機(jī)始終與渲染視圖相同。因此,即使生成的頭部圖像在未見(jiàn)過(guò)的視圖中質(zhì)量下降,生成器仍然可以獲得出色的FID-all分?jǐn)?shù)。因此,原始的FID指標(biāo)(FID-all和FID-front)很難全面反映360?中全頭圖像生成的總體質(zhì)量。為了緩解這個(gè)問(wèn)題,我們提出了FID-back,其中我們以正面視圖為條件,但合成背面圖像。它導(dǎo)致了更高的FID分?jǐn)?shù),但更好地反映了360?圖像合成的質(zhì)量。

我們對(duì)我們的方法進(jìn)行了消融研究,定量評(píng)估了每個(gè)單獨(dú)組件的有效性(表2)。如第二列所示,在添加了與原始EG3D相比,前景感知判別顯著提高了所有情況下的質(zhì)量。這表明先驗(yàn)分割知識(shí)在很大程度上減輕了網(wǎng)絡(luò)從野外圖像集合中學(xué)習(xí)3D頭部的難度。鑒于來(lái)自大量良好對(duì)齊的正面圖像的強(qiáng)監(jiān)督,正面面孔合成質(zhì)量在所有方法中都是可比的。然而,對(duì)于背面頭部,解耦前景和背景大大提高了合成質(zhì)量。此外,將tri-plane更改為tri-grid表示進(jìn)一步提高了圖像質(zhì)量。通過(guò)tri-discrimination、tri-grid和相機(jī)自適應(yīng)方案的共同作用,PanoHead實(shí)現(xiàn)了最低的FID-back和最高的IS,用于背部頭部生成。如運(yùn)行時(shí)分析一欄所示,我們的新穎組件僅引入了輕微的計(jì)算開(kāi)銷(xiāo),但極大地提高了圖像合成質(zhì)量。請(qǐng)注意,由于各種發(fā)型和非結(jié)構(gòu)化的背頭外觀,正面圖像質(zhì)量?jī)?yōu)于背頭圖像,這在很大程度上導(dǎo)致了顯著的學(xué)習(xí)難度。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

表2. 對(duì)不同組件的消融研究。+seg.表示使用前景感知三重鑒別。+self-adapt.表示使用相機(jī)自適應(yīng)方案。所有模型均使用FFHQ-F進(jìn)行訓(xùn)練。

4.4 單視角 GAN 反演

圖9展示了使用PanoHead生成潛在空間進(jìn)行單視角全頭部重建。為實(shí)現(xiàn)這一目標(biāo),我們首先通過(guò)像素級(jí)L2損失和圖像級(jí)LPIPS損失[51]執(zhí)行優(yōu)化,找到目標(biāo)圖像的相應(yīng)潛在噪聲z。為了進(jìn)一步提高重建質(zhì)量,我們使用軸心調(diào)整反演(PTI)[35]來(lái)改變具有固定優(yōu)化潛在代碼z的生成器參數(shù)。從單一視圖目標(biāo)圖像中,PanoHead不僅可以重建出逼真的圖像和高保真度的幾何形狀,還可以實(shí)現(xiàn)360°中的新視圖合成,包括大幅度姿勢(shì)和背部頭部。

【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成,計(jì)算機(jī)視覺(jué)/情感分析/多模態(tài),計(jì)算機(jī)視覺(jué),3d,人工智能,生成對(duì)抗網(wǎng)絡(luò),深度學(xué)習(xí)

圖 9. 從不同攝像機(jī)角度的單視角重建。第一列顯示目標(biāo)圖像,第二列是使用 GAN 反演的投影 RGB 圖像和重建的 3D 形狀,最后兩列是從任意給定攝像機(jī)角度渲染的圖像。

5. 討論

局限性與未來(lái)工作。 雖然 PanoHead 在 360? 視圖中展示了出色的圖像和形狀質(zhì)量,但仍然存在一些小的瑕疵,例如牙齒區(qū)域。與原始的 EG3D 相似,我們的模型中也可以注意到閃爍的紋理問(wèn)題。切換到 StyleGAN3 [20] 作為骨干網(wǎng)絡(luò)將有助于保留高頻細(xì)節(jié)。在實(shí)踐中,我們還觀察到在條件相機(jī)姿勢(shì)的更高交換概率下,閃爍的紋理偽影更為明顯。我們將此值設(shè)置為 70%,而不是 EG3D 中的 50%,因?yàn)槲覀兘?jīng)驗(yàn)性地發(fā)現(xiàn)這提高了 360? 渲染的質(zhì)量,但在紋理閃爍偽影上的代價(jià)較小。另一個(gè)觀察是它缺乏更細(xì)致的高頻幾何細(xì)節(jié),例如發(fā)梢。我們將在未來(lái)的工作中對(duì)我們的幾何質(zhì)量進(jìn)行定量評(píng)估,比如使用深度圖。

最后,盡管 PanoHead 能夠在性別、種族和外貌方面生成多樣化的圖像,但僅依賴(lài)幾個(gè)數(shù)據(jù)集的組合訓(xùn)練仍然使其受到數(shù)據(jù)偏見(jiàn)的影響,某種程度上存在一些問(wèn)題。盡管我們做出了數(shù)據(jù)收集的努力,但大規(guī)模的全頭部標(biāo)注訓(xùn)練圖像數(shù)據(jù)集仍然是促進(jìn)全頭部合成研究的最關(guān)鍵方向之一。我們期望這樣的數(shù)據(jù)集能夠解決前述限制中的一些問(wèn)題。

倫理考慮。 PanoHead 并沒(méi)有專(zhuān)門(mén)設(shè)計(jì)用于任何惡意用途,但我們意識(shí)到單視角肖像重建可能會(huì)被操縱,這可能構(gòu)成社會(huì)威脅。我們不鼓勵(lì)以任何形式違反他人權(quán)利的方式使用該方法。

6. 結(jié)論

我們提出了 PanoHead,這是第一個(gè)能夠僅使用單視角圖像合成視圖一致的全頭部圖像的3D GAN框架。通過(guò)我們?cè)谇熬案兄袆e、3D三維網(wǎng)格場(chǎng)景表示和自適應(yīng)圖像對(duì)齊方面的創(chuàng)新設(shè)計(jì),PanoHead能夠在360?中進(jìn)行真實(shí)多視圖一致的全頭部圖像合成,并在與最先進(jìn)的3D GANs相比中展現(xiàn)出引人注目的定性和定量結(jié)果。此外,我們展示了從真實(shí)單視角肖像中進(jìn)行360度的照片級(jí)逼真重建,具有高度詳細(xì)的幾何結(jié)構(gòu)。我們相信所提出的方法為3D肖像的創(chuàng)建開(kāi)辟了一個(gè)有趣的方向,為許多潛在的下游任務(wù)提供了啟示。

參考文獻(xiàn)

(……)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-722563.html

到了這里,關(guān)于【計(jì)算機(jī)視覺(jué)|人臉建?!縋anoHead:360度幾何感知的3D全頭合成的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【計(jì)算機(jī)視覺(jué)】對(duì)極幾何

    【計(jì)算機(jī)視覺(jué)】對(duì)極幾何

    我的《計(jì)算機(jī)視覺(jué)》系列參考UC Berkeley的CS180課程,PPT可以在課程主頁(yè)看到。 在上一篇文章3D視覺(jué)中我們介紹了在兩個(gè)照相機(jī)像平面共面的情況下如何計(jì)算深度:深度與景物在圖片中的位移成反比。這篇文章我們討論更一般的情形,像平面不必共面,甚至不必平行。假設(shè)兩個(gè)相

    2024年02月06日
    瀏覽(26)
  • 計(jì)算機(jī)視覺(jué)之三維重建(一)(攝像機(jī)幾何)

    計(jì)算機(jī)視覺(jué)之三維重建(一)(攝像機(jī)幾何)

    針孔攝像機(jī) 添加屏障: 使用針孔( o =光圈=針孔=攝像機(jī)中心),實(shí)現(xiàn)現(xiàn)實(shí)與成像一對(duì)一映射,減少模糊。其中針孔與像平面的距離為 f (焦距);虛擬像平面位于針孔與真實(shí)物體之間,與像平面互為倒立關(guān)系。 位置映射:利用相似三角形得到現(xiàn)實(shí)坐標(biāo)在像平面上的映射坐標(biāo)。 光

    2024年02月12日
    瀏覽(41)
  • 《計(jì)算機(jī)視覺(jué)中的多視圖幾何》筆記(2)

    《計(jì)算機(jī)視覺(jué)中的多視圖幾何》筆記(2)

    本章主要介紹本書(shū)必要的幾何知識(shí)與符號(hào)。 簡(jiǎn)要介紹了平面幾何,本書(shū)將以代數(shù)和幾何混合的方式來(lái)講解。 行向量與列向量 本書(shū)默認(rèn)所有向量的都是列向量,比如 x x x ,那么 x T x^T x T 就是行向量。對(duì)于一個(gè)行向量 ( x , y ) (x,y) ( x , y ) ,我們就有 x = ( x , y ) T x=(x,y)^T x = ( x

    2024年02月09日
    瀏覽(31)
  • 計(jì)算機(jī)視覺(jué) 圖像形成 幾何圖形和變換 3D到2D投影

    ????????現(xiàn)在我們知道如何表示2D和3D幾何圖元以及如何在空間上轉(zhuǎn)換它們,我們需要指定如何將 3D圖元投影到圖像平面上。 我們可以使用線性3D到2D投影矩陣來(lái)做到這一點(diǎn)。最簡(jiǎn)單的模型是正交法,它不需要除法就可以得到最終的(不均勻的)結(jié)果。更常用的模型是透視,

    2023年04月08日
    瀏覽(100)
  • 目標(biāo)人臉檢測(cè)與識(shí)別(計(jì)算機(jī)視覺(jué))

    目標(biāo)人臉檢測(cè)與識(shí)別(計(jì)算機(jī)視覺(jué))

    通過(guò)python 語(yǔ)言編程設(shè)計(jì)人臉檢測(cè)算法,以此人臉作為訓(xùn)練樣本,訓(xùn)練目標(biāo)人臉模型,進(jìn)一步實(shí)現(xiàn)目標(biāo)人臉的識(shí)別。通過(guò)上述編程促進(jìn)學(xué)生理解并掌握人臉檢測(cè)及識(shí)別的相關(guān)原理,同時(shí)培養(yǎng)學(xué)生的編程能力。 筆記本電腦,windows10系統(tǒng),Visual Studio Code編輯器,opencv視覺(jué)庫(kù),nump

    2024年02月08日
    瀏覽(27)
  • 計(jì)算機(jī)視覺(jué)實(shí)驗(yàn):人臉識(shí)別系統(tǒng)設(shè)計(jì)

    計(jì)算機(jī)視覺(jué)實(shí)驗(yàn):人臉識(shí)別系統(tǒng)設(shè)計(jì)

    設(shè)計(jì) 計(jì)算機(jī)視覺(jué)目標(biāo)識(shí)別系統(tǒng),與實(shí)際應(yīng)用有關(guān)(建議:最終展示形式為帶界面可運(yùn)行的系統(tǒng)),以下內(nèi)容選擇其中一個(gè)做。 1. 人臉識(shí)別系統(tǒng)設(shè)計(jì) (1) 人臉識(shí)別系統(tǒng)設(shè)計(jì)(必做):根據(jù)課堂上學(xué)習(xí)的理論知識(shí)(包括特征提取、分類(lèi)器設(shè)計(jì)),設(shè)計(jì)一個(gè)人臉識(shí)別系統(tǒng),該系統(tǒng)具

    2024年02月14日
    瀏覽(26)
  • 計(jì)算機(jī)視覺(jué):使用dlib實(shí)現(xiàn)人臉檢測(cè)

    計(jì)算機(jī)視覺(jué):使用dlib實(shí)現(xiàn)人臉檢測(cè)

    Dlib是一個(gè)廣泛使用的開(kāi)源庫(kù),在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域具有重要影響。它是由Davis King在2002年開(kāi)發(fā),主要用C++語(yǔ)言編寫(xiě),但也提供了Python接口。Dlib結(jié)合了高效的算法和易用性,使其成為學(xué)術(shù)界和工業(yè)界的熱門(mén)選擇。 多樣的機(jī)器學(xué)習(xí)算法:Dlib包含豐富的機(jī)器學(xué)習(xí)算法,如

    2024年04月28日
    瀏覽(27)
  • 【計(jì)算機(jī)視覺(jué)中的多視圖幾何系列】深入淺出理解針孔相機(jī)模型

    【計(jì)算機(jī)視覺(jué)中的多視圖幾何系列】深入淺出理解針孔相機(jī)模型

    溫故而知新,可以為師矣! 《計(jì)算機(jī)視覺(jué)中的多視圖幾何-第五章》-Richard Hartley, Andrew Zisserman. 1.1 投影中心/攝像機(jī)中心/光心 投影中心 稱(chēng)為 攝像機(jī)中心 ,也稱(chēng)為 光心 。投影中心位于一個(gè)歐式坐標(biāo)系的原點(diǎn)。 1.2 圖像平面/聚焦平面 平面 Z = f Z=f Z = f 被稱(chēng)為 圖像平面 或 聚焦

    2024年02月03日
    瀏覽(31)
  • 【計(jì)算機(jī)視覺(jué)40例】案例29:LBPH人臉識(shí)別

    【計(jì)算機(jī)視覺(jué)40例】案例29:LBPH人臉識(shí)別

    【 導(dǎo)讀 】本文是專(zhuān)欄《計(jì)算機(jī)視覺(jué) 40 例簡(jiǎn)介》的第 29 個(gè)案例《 LBPH 人臉識(shí)別 》。該專(zhuān)欄簡(jiǎn)要介紹李立宗主編《計(jì)算機(jī)視覺(jué) 40 例——從入門(mén)到深度學(xué)習(xí)( OpenCV-Python )》一書(shū)的 40 個(gè)案例。 目前,該書(shū)已經(jīng)在電子工業(yè)出版社出版,大家可以在京東、淘寶、當(dāng)當(dāng)?shù)绕脚_(tái)購(gòu)買(mǎi)。

    2024年02月06日
    瀏覽(24)
  • 計(jì)算機(jī)視覺(jué)設(shè)計(jì)如何應(yīng)用于人臉識(shí)別技術(shù)?

    計(jì)算機(jī)視覺(jué)設(shè)計(jì)如何應(yīng)用于人臉識(shí)別技術(shù)?

    ? ? ? ?計(jì)算機(jī)視覺(jué)設(shè)計(jì)在人臉識(shí)別技術(shù)中起著重要的作用。它通過(guò)使用圖像處理和模式識(shí)別技術(shù),對(duì)人臉圖像進(jìn)行分析和比對(duì),從而實(shí)現(xiàn)人臉的檢測(cè)、定位和識(shí)別。下面是計(jì)算機(jī)視覺(jué)設(shè)計(jì)在人臉識(shí)別技術(shù)中的應(yīng)用方法: 人臉檢測(cè):計(jì)算機(jī)視覺(jué)設(shè)計(jì)可以通過(guò)使用人臉檢測(cè)算法

    2024年01月19日
    瀏覽(41)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包