GRAF: Generative Radiance Fields?for 3D-Aware Image Synthesis
Abstract
雖然二維生成對抗網(wǎng)絡(luò)能夠?qū)崿F(xiàn)高分辨率的圖像合成,但它們在很大程度上缺乏對三維世界和圖像形成過程的理解。因此,它們不能提供對相機(jī)視點或物體姿態(tài)的精確控制。為了解決這個問題,最近的幾種方法利用基于中間體素的表示與可微渲染相結(jié)合。然而,現(xiàn)有的方法要么產(chǎn)生較低的圖像分辨率,要么在分離相機(jī)和場景屬性方面出現(xiàn)不足,例如,物體的身份可能隨視點而變化。在本文中,我們提出了一個輻射場的生成模型,該模型最近被證明是成功地用于單個場景的新視圖合成。與基于體素的表示相比,輻射場并不局限于三維空間的粗糙離散化,但允許解開攝像機(jī)和場景屬性,同時在存在重建模糊性的情況下優(yōu)雅地退化。通過引入一個多尺度的基于補(bǔ)丁的鑒別器,我們演示了高分辨率圖像的合成,同時僅從未曝光的二維圖像訓(xùn)練我們的模型。我們系統(tǒng)地分析了我們的方法在幾個具有挑戰(zhàn)性的合成和真實世界的數(shù)據(jù)集。我們的實驗表明,輻射場是生成圖像合成的一個強(qiáng)大的表示,導(dǎo)致三維一致的模型渲染高保真。
3 Method
我們考慮了三維感知圖像合成的問題,即生成高保真圖像的任務(wù),同時提供對相機(jī)旋轉(zhuǎn)和平移的顯式控制。我們主張用它的輻射場來表示一個場景,這樣一個連續(xù)的表示尺度很好。圖像分辨率和內(nèi)存消耗,同時允許基于物理和無參數(shù)的投影映射。在下面,我們首先簡要回顧了神經(jīng)輻射場(NeRF)[36],它構(gòu)成了所提出的生成輻射場(GRAF)模型的基礎(chǔ)。
3.1 Neural Radiance Fields
3.2 Generative Radiance Fields
在這項工作中,我們感興趣的是輻射場作為三維感知圖像合成的表示。與[36]相比,我們不假設(shè)單個場景有大量的擺姿勢的圖像。相反,我們的目標(biāo)是學(xué)習(xí)一個模型,通過對未曝光圖像的訓(xùn)練來合成新的場景。更具體地說,我們利用一個對抗性框架來訓(xùn)練輻射場的生成模型(GRAF)。
?
圖2顯示了對我們的模型的概述。生成器Gθ以相機(jī)矩陣K、相機(jī)姿態(tài)ξ、二維采樣模式ν和形狀/外觀代碼zs∈Rm/za∈Rn作為輸入,并預(yù)測圖像補(bǔ)丁P’。鑒別器Dφ將合成的補(bǔ)丁P’與從真實圖像i中提取的補(bǔ)丁P進(jìn)行比較。在推斷時,我們預(yù)測每個圖像像素的一個顏色值。然而,在訓(xùn)練時,這是太貴了。因此,我們預(yù)測一個固定大小的K×K像素的補(bǔ)丁,它被隨機(jī)縮放和旋轉(zhuǎn),以為整個輻射場提供梯度。
?
3.2.1 Generator
我們從姿態(tài)分布pξ中采樣相機(jī)姿態(tài)ξ=[R|t]。在我們的實驗中,我們使用在上半球均勻分布的相機(jī)位置,相機(jī)面向坐標(biāo)系的原點。根據(jù)數(shù)據(jù)集的不同,我們也會均勻地改變相機(jī)到原點的距離。我們選擇K,使主點在圖像的中心。
?
ν=(u,s)決定了我們要生成的虛擬K×K補(bǔ)丁P(u,s)的中心u=(u,v)∈R2和尺度s∈R+。這使我們能夠使用一個獨(dú)立于圖像分辨率的卷積鑒別器。我們從圖像域Ω的均勻分布中隨機(jī)抽取補(bǔ)丁中心u~U(Ω),從均勻分布的s~U([1,S])中隨機(jī)抽取補(bǔ)丁尺寸s,其中S=min(W,H)/K,W和H表示目標(biāo)圖像的寬度和高度。此外,我們確保整個補(bǔ)丁都在圖像域Ω內(nèi)。形狀和外觀變量zs和za分別來自形狀和外觀分布zs~ps和za~ps繪制。在我們的實驗中,我們對ps和pa都使用了一個標(biāo)準(zhǔn)的高斯分布。
?
它描述了patch在圖像域Ω中的每個像素的位置,如圖3所示。請注意,這些坐標(biāo)是實數(shù),而不是離散的整數(shù),這允許我們連續(xù)地計算輻射場。相應(yīng)的3D射線由P(u,s)、相機(jī)姿態(tài)ξ和內(nèi)在K唯一確定。我們用r表示像素/射線索引,用dr表示歸一化的三維射線,射線數(shù)用R表示,其中在訓(xùn)練中R=K2,在推理中R=WH。
?
?
?
?
?
條件輻射場gθ的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。我們首先從x的位置編碼和形狀編碼zs中計算一個形狀編碼h。密度頭σθ將該編碼轉(zhuǎn)換為體積密度σ。為了預(yù)測3D位置x處的顏色c,我們將h與d的位置編碼和外觀代碼za連接起來,并將得到的向量傳遞給一個顏色頭cθ。我們獨(dú)立于視點d和外觀代碼za來計算σ,以鼓勵多視圖的一致性,同時分離形狀和外觀。這鼓勵網(wǎng)絡(luò)分別使用潛在代碼zs和za來建模形狀和外觀,并允許在推理過程中分別操作它們。更正式地說,我們有:
?
所有的映射(hθ、cθ和σθ)都是使用具有ReLU激活的全連接網(wǎng)絡(luò)來實現(xiàn)的。為了避免符號混亂,我們使用相同的符號θ來表示每個網(wǎng)絡(luò)的參數(shù)。
?
給定沿射線r的所有點的顏色和體積密度{(cir,σir)},我們使用等式?(3).中的體積渲染操作符得到射線r對應(yīng)像素的顏色cr∈R3結(jié)合所有R射線的結(jié)果,我們將預(yù)測的斑片表示為p’,如圖2所示。
3.2.2 Discriminator
?
鑒別器Dφ是實現(xiàn)為一個卷積神經(jīng)網(wǎng)絡(luò)(見附件)將預(yù)測的補(bǔ)丁P’與從數(shù)據(jù)分布pD中提取的真實圖像I中提取的補(bǔ)丁P進(jìn)行比較。為了從真實圖像I中提取一個K×K補(bǔ)丁,我們首先從我們在上面用于繪制生成器補(bǔ)丁的相同的分布pν中繪制ν=(u,s)。然后,我們通過使用雙線性插值法在二維圖像坐標(biāo)P(u,s)處查詢I,對真實的patch?P進(jìn)行采樣。下面,我們使用Γ(I,ν)來表示這種雙線性采樣操作。請注意,我們的鑒別器類似于PatchGAN[21],除了我們允許連續(xù)位移u和縮放s,而PatchGAN使用s=1。更重要的是,我們并不是基于s對真實圖像I進(jìn)行降采樣,而是在稀疏位置查詢I,以保留高頻細(xì)節(jié),見圖3。
在實驗中,我們發(fā)現(xiàn)一個具有共享權(quán)重的鑒別器對所有的補(bǔ)丁都是足夠的,即使這些補(bǔ)丁是在不同尺度的隨機(jī)位置采樣的。請注意,比例尺決定了補(bǔ)丁的接受域。為了便于訓(xùn)練,我們首先從更大的接受域開始,以捕捉全局環(huán)境。然后,我們逐步采樣具有較小的接受域的補(bǔ)丁,以細(xì)化局部細(xì)節(jié)。
3.2.3 Training and Inference
?
我們在我們的鑒別器中使用光譜歸一化[37]和實例歸一化[65],并使用RMSprop[27]訓(xùn)練我們的方法,生成器和鑒別器的學(xué)習(xí)率分別為0.0005和0.0001。在推理時,我們隨機(jī)抽取zs、za和ξ,并預(yù)測圖像中所有像素的顏色值。關(guān)于網(wǎng)絡(luò)架構(gòu)的詳細(xì)信息可以在附件中找到。
5 Conclusion文章來源:http://www.zghlxwxcb.cn/news/detail-415895.html
我們引入了生成輻射場(GRAF)用于高分辨率三維感知圖像合成。我們證明,與基于體素的方法相比,我們的框架能夠生成具有更好的多視圖一致性的高分辨率圖像。然而,我們的研究結(jié)果僅限于具有單個對象的簡單場景。我們相信,結(jié)合歸納偏差,例如,深度圖或?qū)ΨQ性,將允許將我們的模型擴(kuò)展到未來更具挑戰(zhàn)性的現(xiàn)實世界場景。文章來源地址http://www.zghlxwxcb.cn/news/detail-415895.html
到了這里,關(guān)于GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!