国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<style id="6cf3a"></style><style id="6cf3a"><nobr id="6cf3a"><dfn id="6cf3a"></dfn></nobr></style>

<form id="6cf3a"><p id="6cf3a"></p></form>

<ul id="6cf3a"><tr id="6cf3a"></tr></ul>

<ul id="6cf3a"></ul>

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

2年前作者：深度之眼分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

來源：投稿作者：橡皮
編輯：學(xué)姐

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

論文鏈接：https://arxiv.org/abs/2303.13843

0.背景：

最近，文本到圖像生成通過將視覺-語言預(yù)訓(xùn)練模型與擴(kuò)散模型相結(jié)合，取得了巨大的成功。這些突破也使得強(qiáng)大的視覺-語言預(yù)訓(xùn)練模型在文本生成三維內(nèi)容中產(chǎn)生了深遠(yuǎn)的影響。最近，幾種文本生成3D的方法已經(jīng)表明，將來自差分3D模型的渲染視圖與來自預(yù)先訓(xùn)練的擴(kuò)散模型的學(xué)習(xí)到的文本到圖像分布相匹配，可以獲得顯著的結(jié)果。

然而，文本描述通常是用于期望的目標(biāo)3D模型或2D圖像的抽象規(guī)范。盡管擁有強(qiáng)大的擴(kuò)散模型，例如stable diffusion，它已經(jīng)在數(shù)十億的文本圖像對(duì)上進(jìn)行了訓(xùn)練，但從文本中生成不同視點(diǎn)的幾何相干圖像仍然是一個(gè)挑戰(zhàn)。

在給定包含多個(gè)對(duì)象的文本的情況下，擴(kuò)散模型可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果，導(dǎo)致對(duì)象丟失或語義混亂，有時(shí)即使使用簡(jiǎn)單的多對(duì)象文本，穩(wěn)定擴(kuò)散也無法保持對(duì)象身份和幾何一致性。這顯然與NeRF中體積渲染的本質(zhì)相矛盾，導(dǎo)致了障礙引導(dǎo)崩潰，尤其是在從多對(duì)象文本中渲染復(fù)雜場(chǎng)景時(shí)。

因此，這自然提出了一個(gè)問題：是否可以從3D場(chǎng)景生成的擴(kuò)散模型的不可知分布中準(zhǔn)確地學(xué)習(xí)和組合多對(duì)象文本中的所有概念。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

1.主要貢獻(xiàn)：

通過將可編輯的3D布局與多個(gè)局部NeRF集成，以精確關(guān)聯(lián)特定結(jié)構(gòu)的文本引導(dǎo)，來解決多物體3D場(chǎng)景生成中的引導(dǎo)崩潰問題

通過引入全局MLP來校準(zhǔn)全局場(chǎng)景顏色和不同級(jí)別的文本引導(dǎo)，以在學(xué)習(xí)單個(gè)實(shí)體的全局一致性的同時(shí)保持對(duì)象的身份，從而解決全局一致性和遮擋問題。

全面評(píng)估了我們提出的方法在各種多對(duì)象場(chǎng)景中的有效性，展示了其以合成方式生成3D場(chǎng)景并提供靈活編輯功能的能力。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

2.網(wǎng)絡(luò)介紹： CompoNeRF

由三部分組成：

可編輯的3D場(chǎng)景布局通過3D框和文本提示配置場(chǎng)景表示；
場(chǎng)景渲染包括全局校準(zhǔn)和合成過程；
聯(lián)合優(yōu)化將全局和局部文本指導(dǎo)應(yīng)用于全局和局部渲染視圖。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.1方法細(xì)節(jié)：概述

上圖展示了pipeline，由三個(gè)主要組件組成：包括基于多對(duì)象文本的可編輯3D場(chǎng)景布局（第3.3節(jié)），合成所有局部NeRF預(yù)測(cè)的場(chǎng)景渲染pipeline（第3.4節(jié)），以及局部和全局表示模型的聯(lián)合優(yōu)化（第3.5節(jié)），提出的可編輯3D場(chǎng)景布局通過將其分解為一組局部幀來表示場(chǎng)景的全局幀，其中每個(gè)局部幀由局部NeRF、3D邊界框和相應(yīng)的局部文本提示參數(shù)化。

例如，文本提示“一只泰迪熊和一只毛絨猴子并排坐著”被解釋為是一個(gè)3D場(chǎng)景布局。整個(gè)3D布局，即場(chǎng)景幀，由兩個(gè)3D邊界框組成，即局部幀#1和#2，并帶有特定的局部文本提示，即“泰迪熊”和“毛絨猴子”。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.2方法細(xì)節(jié)：先驗(yàn)知識(shí)

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

生成噪聲圖像。然后，擴(kuò)散模型φ預(yù)測(cè)采樣噪聲?

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

給定噪聲圖像?、噪聲水平t和可選文本提示T。

特別是SDS根據(jù)預(yù)測(cè)噪聲和添加噪聲之間的差來計(jì)算梯度，

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

其中w(t)是加權(quán)函數(shù)。在所有渲染視圖上生成的梯度方向用于更新θ，以生成與擴(kuò)散先驗(yàn)下的條件文本提示相匹配的圖像。我們還遵循SJC將擾動(dòng)和平均評(píng)分應(yīng)用于SDS過程。

3.3方法細(xì)節(jié)：可編輯3D場(chǎng)景布局

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

此外，如下圖所示，3D場(chǎng)景布局中的每個(gè)組件都可以用其他經(jīng)過訓(xùn)練的本地NeRF替換或重新合成，與僅使用文本提示相比，這對(duì)于靈活的用戶版本更友好。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

3.4方法細(xì)節(jié)：場(chǎng)景渲染pipeline

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

注意，首先使用局部幀的盒尺度將采樣點(diǎn)的坐標(biāo)投影到歸一化坐標(biāo)中，以使每個(gè)局部NeRF能夠?qū)W習(xí)尺度無關(guān)的表示。全局坐標(biāo)中局部框架的邊界框b可以通過（b?p）/s轉(zhuǎn)換為規(guī)范邊界框?？紤]到渲染效率，我們只計(jì)算有效點(diǎn)，與框進(jìn)行交互，并將所有空點(diǎn)設(shè)置為恒定的背景色。

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

其中，δ是相鄰采樣點(diǎn)之間的距離。對(duì)于每個(gè)局部NeRF??，我們還通過，

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

事實(shí)上，與場(chǎng)景相比，每個(gè)局部幀只有少量的命中光線。盡管部分光線被跳過，但我們觀察到，在保持較短渲染時(shí)間的同時(shí)，準(zhǔn)確地表示每個(gè)對(duì)象就足夠了。

3.5方法細(xì)節(jié)：聯(lián)合優(yōu)化

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

4.實(shí)驗(yàn)結(jié)果：

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF

關(guān)注下方《學(xué)姐帶你玩AI》??????

回復(fù)“CVPR”獲取頂會(huì)必讀論文合集

碼字不易，歡迎大家點(diǎn)贊評(píng)論收藏！文章來源地址http://www.zghlxwxcb.cn/news/detail-483368.html

到了這里，關(guān)于CVPR23 | 可編輯3D場(chǎng)景布局的文本引導(dǎo)多對(duì)象合成NeRF的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation
目錄 Abstract Background: DreamFusion High-Resolution 3D Generation Coarse-to-fine Diffusion Priors Scene Models Coarse-to-fine Optimization NeRF optimization Mesh optimization Experiments Controllable 3D Generation Personalized text-to-3D Prompt-based editing through fine-tuning DreamFusion是目前基于文本的3D生成任務(wù)的主流方法，但它有兩
2024年02月13日
瀏覽(20)
51-32 CVPR’24 | 3DSFLabelling，通過偽自動(dòng)標(biāo)注增強(qiáng) 3D 場(chǎng)景流估計(jì)
24 年 2 月，鑒智機(jī)器人、劍橋大學(xué)和上海交通大學(xué)聯(lián)合發(fā)布CVPR\\\'24工作，3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling。提出?3D 場(chǎng)景自動(dòng)標(biāo)注新框架，將 3D 點(diǎn)云打包成具有不同運(yùn)動(dòng)屬性的 Boxes，通過優(yōu)化每個(gè) Box 運(yùn)動(dòng)參數(shù)并將源點(diǎn)云 Warp 扭曲到目標(biāo)點(diǎn)云中，創(chuàng)建了
2024年04月09日
瀏覽(23)
【CVPR 2023的AIGC應(yīng)用匯總(8)】3D相關(guān)（編輯/重建/生成） diffusion擴(kuò)散/GAN生成對(duì)抗網(wǎng)絡(luò)方法...
【CVPR 2023的AIGC應(yīng)用匯總(5)】語義布局可控生成，基于diffusion擴(kuò)散/GAN生成對(duì)抗【CVPR 2023的AIGC應(yīng)用匯總(4)】圖像恢復(fù)，基于GAN生成對(duì)抗/diffusion擴(kuò)散模型【CVPR 2023的AIGC應(yīng)用匯總（3）】GAN改進(jìn)/可控生成的方法10篇【CVPR 2023的AIGC應(yīng)用匯總(2)】可控文生圖，基于diffusion擴(kuò)散模型/G
2024年02月10日
瀏覽(45)
【計(jì)算機(jī)視覺中的 GAN 】 - 條件圖像合成和 3D 對(duì)象生成（2）
????????上文 ?【計(jì)算機(jī)視覺中的 GAN 】或多或少是GANs，生成學(xué)習(xí)和計(jì)算機(jī)視覺的介紹。我們達(dá)到了在 128x128 圖像中生成可區(qū)分圖像特征的程度。但是，如果你真的想了解GAN在計(jì)算機(jī)視覺方面的進(jìn)展，你肯定必須深入研究圖像到圖像的翻譯。盡管這是第一個(gè)成功的模型，
2024年02月15日
瀏覽(26)
界面控件DevExpress WinForms/WPF v23.2 - 富文本編輯器支持內(nèi)容控件
眾所周知內(nèi)容控件是交互式UI元素(文本字段、下拉列表、日期選擇器)，用于在屏幕上輸入和管理信息。內(nèi)容控件通常在模板/表單中使用，以標(biāo)準(zhǔn)化文檔格式和簡(jiǎn)化數(shù)據(jù)輸入。DevExpress文字處理產(chǎn)品庫(kù)（Word Processing Document API、WinForm和WPF富文本編輯器）附帶了內(nèi)容控制支持(v23
2024年04月15日
瀏覽(28)
BMVC 23丨多模態(tài)CLIP：用于3D場(chǎng)景問答任務(wù)的對(duì)比視覺語言預(yù)訓(xùn)練
來源：投稿作者：橡皮編輯：學(xué)姐論文鏈接：https://arxiv.org/abs/2306.02329 訓(xùn)練模型將常識(shí)性語言知識(shí)和視覺概念從 2D 圖像應(yīng)用到 3D 場(chǎng)景理解是研究人員最近才開始探索的一個(gè)有前景的方向。然而，2D 提煉知識(shí)是否可以為下游 3D 視覺語言任務(wù)（例如 3D 問答）提供有用的表示仍
2024年02月04日
瀏覽(27)
在 Qt 的文本編輯類中，document() 是一個(gè)成員函數(shù)，用于獲取文檔對(duì)象
在 Qt 的文本編輯類中， document() 是一個(gè)成員函數(shù)，用于獲取文檔對(duì)象。它返回與文本編輯器關(guān)聯(lián)的 QTextDocument 對(duì)象的指針。 QTextDocument 類是 Qt 中用于處理富文本內(nèi)容的類。它包含了文本內(nèi)容以及相關(guān)的格式、樣式和布局信息。通過 document() 函數(shù)，可以獲取到當(dāng)前文本編輯器
2024年02月04日
瀏覽(32)
23. Unity - 3D游戲開發(fā)小計(jì)02 --- 動(dòng)畫結(jié)束UI、導(dǎo)航網(wǎng)格代理、場(chǎng)景搭建插件(ProGrids,ProBuilder,Polybrush)
1. 動(dòng)畫結(jié)束UI 一個(gè)游戲在通過后，都是需要一個(gè)界面顯示當(dāng)前游戲已經(jīng)結(jié)束，即需要給游戲添加一個(gè)結(jié)束的界面，可以做一個(gè)簡(jiǎn)單的游戲結(jié)束界面，用一個(gè)圖片展示：首先在層級(jí)窗口添加兩層UI中的Image，其中第一層的Image僅作背景，可將其填充顏色設(shè)置為純黑色，第二層的
2024年02月05日
瀏覽(97)
一行文本生成4D動(dòng)態(tài)場(chǎng)景——Meta AI MAV3D論文解讀
論文鏈接:https://arxiv.org/pdf/2301.1128
2024年02月12日
瀏覽(17)
Unity3d C#實(shí)現(xiàn)場(chǎng)景編輯/運(yùn)行模式下3D模型XYZ軸混合一鍵排序功能（含源碼工程）
在部分場(chǎng)景搭建中需要整齊擺放一些物品（如倉(cāng)庫(kù)中的貨堆、貨架等），因?yàn)橛薪换サ牟僮髟趩蝹€(gè)模型上，每次總是手動(dòng)拖動(dòng)模型操作起來也是繁瑣和勞累。在這背景下，我編寫了一個(gè)在運(yùn)行或者編輯狀態(tài)下都可以進(jìn)行一鍵排序模型的腳步。方便在場(chǎng)景搭建時(shí)，可以快速搭建
2024年01月17日
瀏覽(107)