來源:投稿 作者:橡皮
編輯:學(xué)姐
論文鏈接:https://arxiv.org/abs/2303.13843
0.背景:
最近,文本到圖像生成通過將視覺-語言預(yù)訓(xùn)練模型與擴(kuò)散模型相結(jié)合,取得了巨大的成功。這些突破也使得強(qiáng)大的視覺-語言預(yù)訓(xùn)練模型在文本生成三維內(nèi)容中產(chǎn)生了深遠(yuǎn)的影響。最近,幾種文本生成3D的方法已經(jīng)表明,將來自差分3D模型的渲染視圖與來自預(yù)先訓(xùn)練的擴(kuò)散模型的學(xué)習(xí)到的文本到圖像分布相匹配,可以獲得顯著的結(jié)果。
然而,文本描述通常是用于期望的目標(biāo)3D模型或2D圖像的抽象規(guī)范。盡管擁有強(qiáng)大的擴(kuò)散模型,例如stable diffusion,它已經(jīng)在數(shù)十億的文本圖像對(duì)上進(jìn)行了訓(xùn)練,但從文本中生成不同視點(diǎn)的幾何相干圖像仍然是一個(gè)挑戰(zhàn)。
在給定包含多個(gè)對(duì)象的文本的情況下,擴(kuò)散模型可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果,導(dǎo)致對(duì)象丟失或語義混亂,有時(shí)即使使用簡(jiǎn)單的多對(duì)象文本,穩(wěn)定擴(kuò)散也無法保持對(duì)象身份和幾何一致性。這顯然與NeRF中體積渲染的本質(zhì)相矛盾,導(dǎo)致了障礙引導(dǎo)崩潰,尤其是在從多對(duì)象文本中渲染復(fù)雜場(chǎng)景時(shí)。
因此,這自然提出了一個(gè)問題:是否可以從3D場(chǎng)景生成的擴(kuò)散模型的不可知分布中準(zhǔn)確地學(xué)習(xí)和組合多對(duì)象文本中的所有概念。
1.主要貢獻(xiàn):
通過將可編輯的3D布局與多個(gè)局部NeRF集成,以精確關(guān)聯(lián)特定結(jié)構(gòu)的文本引導(dǎo),來解決多物體3D場(chǎng)景生成中的引導(dǎo)崩潰問題
通過引入全局MLP來校準(zhǔn)全局場(chǎng)景顏色和不同級(jí)別的文本引導(dǎo),以在學(xué)習(xí)單個(gè)實(shí)體的全局一致性的同時(shí)保持對(duì)象的身份,從而解決全局一致性和遮擋問題。
全面評(píng)估了我們提出的方法在各種多對(duì)象場(chǎng)景中的有效性,展示了其以合成方式生成3D場(chǎng)景并提供靈活編輯功能的能力。
2.網(wǎng)絡(luò)介紹: CompoNeRF
由三部分組成:
-
可編輯的3D場(chǎng)景布局通過3D框和文本提示配置場(chǎng)景表示;
-
場(chǎng)景渲染包括全局校準(zhǔn)和合成過程;
-
聯(lián)合優(yōu)化將全局和局部文本指導(dǎo)應(yīng)用于全局和局部渲染視圖。
3.1方法細(xì)節(jié):概述
上圖展示了pipeline,由三個(gè)主要組件組成:包括基于多對(duì)象文本的可編輯3D場(chǎng)景布局(第3.3節(jié)),合成所有局部NeRF預(yù)測(cè)的場(chǎng)景渲染pipeline(第3.4節(jié)),以及局部和全局表示模型的聯(lián)合優(yōu)化(第3.5節(jié)),提出的可編輯3D場(chǎng)景布局通過將其分解為一組局部幀來表示場(chǎng)景的全局幀,其中每個(gè)局部幀由局部NeRF、3D邊界框和相應(yīng)的局部文本提示參數(shù)化。
例如,文本提示“一只泰迪熊和一只毛絨猴子并排坐著”被解釋為是一個(gè)3D場(chǎng)景布局。整個(gè)3D布局,即場(chǎng)景幀,由兩個(gè)3D邊界框組成,即局部幀#1和#2,并帶有特定的局部文本提示,即“泰迪熊”和“毛絨猴子”。
3.2方法細(xì)節(jié):先驗(yàn)知識(shí)
生成噪聲圖像。然后,擴(kuò)散模型φ預(yù)測(cè)采樣噪聲?
給定噪聲圖像?、噪聲水平t和可選文本提示T。
特別是SDS根據(jù)預(yù)測(cè)噪聲和添加噪聲之間的差來計(jì)算梯度,
其中w(t)是加權(quán)函數(shù)。在所有渲染視圖上生成的梯度方向用于更新θ,以生成與擴(kuò)散先驗(yàn)下的條件文本提示相匹配的圖像。我們還遵循SJC將擾動(dòng)和平均評(píng)分應(yīng)用于SDS過程。
3.3方法細(xì)節(jié):可編輯3D場(chǎng)景布局
此外,如下圖所示,3D場(chǎng)景布局中的每個(gè)組件都可以用其他經(jīng)過訓(xùn)練的本地NeRF替換或重新合成,與僅使用文本提示相比,這對(duì)于靈活的用戶版本更友好。
3.4方法細(xì)節(jié):場(chǎng)景渲染pipeline
注意,首先使用局部幀的盒尺度將采樣點(diǎn)的坐標(biāo)投影到歸一化坐標(biāo)中,以使每個(gè)局部NeRF能夠?qū)W習(xí)尺度無關(guān)的表示。全局坐標(biāo)中局部框架的邊界框b可以通過(b?p)/s轉(zhuǎn)換為規(guī)范邊界框??紤]到渲染效率,我們只計(jì)算有效點(diǎn),與框進(jìn)行交互,并將所有空點(diǎn)設(shè)置為恒定的背景色。
其中,δ是相鄰采樣點(diǎn)之間的距離。 對(duì)于每個(gè)局部NeRF??,我們還通過,
事實(shí)上,與場(chǎng)景相比,每個(gè)局部幀只有少量的命中光線。盡管部分光線被跳過,但我們觀察到,在保持較短渲染時(shí)間的同時(shí),準(zhǔn)確地表示每個(gè)對(duì)象就足夠了。
3.5方法細(xì)節(jié):聯(lián)合優(yōu)化
4.實(shí)驗(yàn)結(jié)果:
關(guān)注下方《學(xué)姐帶你玩AI》??????
回復(fù)“CVPR”獲取頂會(huì)必讀論文合集文章來源:http://www.zghlxwxcb.cn/news/detail-483368.html
碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!文章來源地址http://www.zghlxwxcb.cn/news/detail-483368.html
到了這里,關(guān)于CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!