国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

這篇具有很好參考價(jià)值的文章主要介紹了CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

來源:投稿 作者:橡皮
編輯:學(xué)姐

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

論文鏈接:https://arxiv.org/abs/2303.13843

0.背景:

最近,文本到圖像生成通過將視覺-語言預(yù)訓(xùn)練模型與擴(kuò)散模型相結(jié)合,取得了巨大的成功。這些突破也使得強(qiáng)大的視覺-語言預(yù)訓(xùn)練模型在文本生成三維內(nèi)容中產(chǎn)生了深遠(yuǎn)的影響。最近,幾種文本生成3D的方法已經(jīng)表明,將來自差分3D模型的渲染視圖與來自預(yù)先訓(xùn)練的擴(kuò)散模型的學(xué)習(xí)到的文本到圖像分布相匹配,可以獲得顯著的結(jié)果。

然而,文本描述通常是用于期望的目標(biāo)3D模型或2D圖像的抽象規(guī)范。盡管擁有強(qiáng)大的擴(kuò)散模型,例如stable diffusion,它已經(jīng)在數(shù)十億的文本圖像對(duì)上進(jìn)行了訓(xùn)練,但從文本中生成不同視點(diǎn)的幾何相干圖像仍然是一個(gè)挑戰(zhàn)。

在給定包含多個(gè)對(duì)象的文本的情況下,擴(kuò)散模型可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果,導(dǎo)致對(duì)象丟失或語義混亂,有時(shí)即使使用簡(jiǎn)單的多對(duì)象文本,穩(wěn)定擴(kuò)散也無法保持對(duì)象身份和幾何一致性。這顯然與NeRF中體積渲染的本質(zhì)相矛盾,導(dǎo)致了障礙引導(dǎo)崩潰,尤其是在從多對(duì)象文本中渲染復(fù)雜場(chǎng)景時(shí)。

因此,這自然提出了一個(gè)問題:是否可以從3D場(chǎng)景生成的擴(kuò)散模型的不可知分布中準(zhǔn)確地學(xué)習(xí)和組合多對(duì)象文本中的所有概念。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

1.主要貢獻(xiàn):

通過將可編輯的3D布局與多個(gè)局部NeRF集成,以精確關(guān)聯(lián)特定結(jié)構(gòu)的文本引導(dǎo),來解決多物體3D場(chǎng)景生成中的引導(dǎo)崩潰問題

通過引入全局MLP來校準(zhǔn)全局場(chǎng)景顏色和不同級(jí)別的文本引導(dǎo),以在學(xué)習(xí)單個(gè)實(shí)體的全局一致性的同時(shí)保持對(duì)象的身份,從而解決全局一致性和遮擋問題。

全面評(píng)估了我們提出的方法在各種多對(duì)象場(chǎng)景中的有效性,展示了其以合成方式生成3D場(chǎng)景并提供靈活編輯功能的能力。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

2.網(wǎng)絡(luò)介紹: CompoNeRF

由三部分組成:

  1. 可編輯的3D場(chǎng)景布局通過3D框和文本提示配置場(chǎng)景表示;

  2. 場(chǎng)景渲染包括全局校準(zhǔn)和合成過程;

  3. 聯(lián)合優(yōu)化將全局和局部文本指導(dǎo)應(yīng)用于全局和局部渲染視圖。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.1方法細(xì)節(jié):概述

上圖展示了pipeline,由三個(gè)主要組件組成:包括基于多對(duì)象文本的可編輯3D場(chǎng)景布局(第3.3節(jié)),合成所有局部NeRF預(yù)測(cè)的場(chǎng)景渲染pipeline(第3.4節(jié)),以及局部和全局表示模型的聯(lián)合優(yōu)化(第3.5節(jié)),提出的可編輯3D場(chǎng)景布局通過將其分解為一組局部幀來表示場(chǎng)景的全局幀,其中每個(gè)局部幀由局部NeRF、3D邊界框和相應(yīng)的局部文本提示參數(shù)化。

例如,文本提示“一只泰迪熊和一只毛絨猴子并排坐著”被解釋為是一個(gè)3D場(chǎng)景布局。整個(gè)3D布局,即場(chǎng)景幀,由兩個(gè)3D邊界框組成,即局部幀#1和#2,并帶有特定的局部文本提示,即“泰迪熊”和“毛絨猴子”。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.2方法細(xì)節(jié):先驗(yàn)知識(shí)

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

生成噪聲圖像。然后,擴(kuò)散模型φ預(yù)測(cè)采樣噪聲?

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

給定噪聲圖像?、噪聲水平t和可選文本提示T。

特別是SDS根據(jù)預(yù)測(cè)噪聲和添加噪聲之間的差來計(jì)算梯度,

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

其中w(t)是加權(quán)函數(shù)。在所有渲染視圖上生成的梯度方向用于更新θ,以生成與擴(kuò)散先驗(yàn)下的條件文本提示相匹配的圖像。我們還遵循SJC將擾動(dòng)和平均評(píng)分應(yīng)用于SDS過程。

3.3方法細(xì)節(jié):可編輯3D場(chǎng)景布局

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

此外,如下圖所示,3D場(chǎng)景布局中的每個(gè)組件都可以用其他經(jīng)過訓(xùn)練的本地NeRF替換或重新合成,與僅使用文本提示相比,這對(duì)于靈活的用戶版本更友好。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.4方法細(xì)節(jié):場(chǎng)景渲染pipeline

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

注意,首先使用局部幀的盒尺度將采樣點(diǎn)的坐標(biāo)投影到歸一化坐標(biāo)中,以使每個(gè)局部NeRF能夠?qū)W習(xí)尺度無關(guān)的表示。全局坐標(biāo)中局部框架的邊界框b可以通過(b?p)/s轉(zhuǎn)換為規(guī)范邊界框??紤]到渲染效率,我們只計(jì)算有效點(diǎn),與框進(jìn)行交互,并將所有空點(diǎn)設(shè)置為恒定的背景色。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

其中,δ是相鄰采樣點(diǎn)之間的距離。 對(duì)于每個(gè)局部NeRF??,我們還通過,

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

事實(shí)上,與場(chǎng)景相比,每個(gè)局部幀只有少量的命中光線。盡管部分光線被跳過,但我們觀察到,在保持較短渲染時(shí)間的同時(shí),準(zhǔn)確地表示每個(gè)對(duì)象就足夠了。

3.5方法細(xì)節(jié):聯(lián)合優(yōu)化

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

4.實(shí)驗(yàn)結(jié)果:

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

關(guān)注下方《學(xué)姐帶你玩AI》??????

回復(fù)“CVPR”獲取頂會(huì)必讀論文合集

碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!文章來源地址http://www.zghlxwxcb.cn/news/detail-483368.html

到了這里,關(guān)于CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包