国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【LLM+三維場(chǎng)景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

2年前作者：Arachis_X分類：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【LLM+三維場(chǎng)景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS 3D-GPT：使用大型語言模型進(jìn)行程序化 3D 建模

2023.10

論文主頁
論文地址
代碼地址（未放）
一句話生成3D世界，未公布代碼已獲141星！或引發(fā)3D建模行業(yè)革命
【LLM+三維場(chǎng)景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS,有意思的工作,nlp,3d,gpt,語言模型

Abstract

In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.

在追求高效的自動(dòng)內(nèi)容創(chuàng)建過程中，利用可修改參數(shù)和基于規(guī)則的系統(tǒng)進(jìn)行程序生成是一種很有前途的方法。

然而，由于其復(fù)雜性，需要對(duì)規(guī)則、算法和參數(shù)有深入的了解，這可能是一項(xiàng)艱巨的工作。

為了減少工作量，我們引入了 3D-GPT 框架，該框架利用大型語言模型（LLM）進(jìn)行指令驅(qū)動(dòng)的 3D 建模。

3D-GPT 將大型語言模型定位為熟練的問題解決者，將程序化三維建模任務(wù)分解為可訪問的片段，并為每個(gè)任務(wù)指定合適的agent。

3D-GPT 集成了三個(gè)核心agent：

任務(wù)派遣agent;
概念化agent;
建模agent。

它們共同實(shí)現(xiàn)了兩個(gè)目標(biāo)：

首先，它增強(qiáng)了簡(jiǎn)潔的初始場(chǎng)景描述，將其發(fā)展為詳細(xì)的形式，同時(shí)根據(jù)后續(xù)指令動(dòng)態(tài)調(diào)整文本。
其次，它整合了程序生成功能，從豐富的文本中提取參數(shù)值，從而輕松地與三維軟件對(duì)接，進(jìn)行資產(chǎn)創(chuàng)建。

我們的實(shí)證調(diào)查證實(shí)，3D-GPT 不僅能解釋和執(zhí)行指令，提供可靠的結(jié)果，還能與人類設(shè)計(jì)師有效協(xié)作。此外，它還能與 Blender 無縫集成，從而實(shí)現(xiàn)更多的操作可能性。我們的工作彰顯了 LLM 在三維建模中的潛力，為未來場(chǎng)景生成和動(dòng)畫制作的進(jìn)步提供了一個(gè)基本框架。

簡(jiǎn)評(píng)

概念很有意思，但是實(shí)際很簡(jiǎn)單，本質(zhì)為blender + python，由gpt生成python代碼。加上項(xiàng)目未發(fā)布開源代碼，噱頭略大于實(shí)際。文章來源地址http://www.zghlxwxcb.cn/news/detail-843233.html

到了這里，關(guān)于【LLM+三維場(chǎng)景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

以單顆CMOS攝像頭重構(gòu)三維場(chǎng)景，維悟光子發(fā)布單目紅外3D成像模組
維悟光子近期發(fā)布全新單目紅外3D成像模組，現(xiàn)可提供下游用戶進(jìn)行測(cè)試導(dǎo)入。通過結(jié)合微納光學(xué)元件編碼和人工智能算法解碼，維悟光子單目紅外3D成像模組采用單顆攝像頭，通過單幀拍攝，可同時(shí)獲取像素級(jí)配準(zhǔn)的3D點(diǎn)云和紅外圖像信息，可被應(yīng)用于機(jī)器人、生物識(shí)別等
2024年02月03日
瀏覽(23)
【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling
發(fā)表時(shí)間：CVPR 2023 作者團(tuán)隊(duì)：北航，美團(tuán)，JD Explore 代碼鏈接： GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t
2024年02月05日
瀏覽(26)
PyTorch翻譯官網(wǎng)教程-LANGUAGE MODELING WITH NN.TRANSFORMER AND TORCHTEXT
Language Modeling with nn.Transformer and torchtext — PyTorch Tutorials 2.0.1+cu117 documentation 這是一個(gè)關(guān)于訓(xùn)練模型使用nn.Transformer來預(yù)測(cè)序列中的下一個(gè)單詞的教程。 PyTorch 1.2版本包含了一個(gè)基于論文Attention is All You Need的標(biāo)準(zhǔn) transformer 模塊。與循環(huán)神經(jīng)網(wǎng)絡(luò)( RNNs )相比， transformer 模型已被
2024年02月13日
瀏覽(18)
【論文筆記】Mamba: Linear-Time Sequence Modeling with Selective State Spaces
原文鏈接：https://arxiv.org/abs/2312.00752 基石模型（FM）的主干網(wǎng)絡(luò)通常是序列模型，處理任意的輸入序列。但現(xiàn)代FM主要基于Transformer這一序列模型，及其核心的注意力。但是，自注意力僅能在上下文窗口中密集地傳遞信息，而無法建模窗口外部的數(shù)據(jù)；此外，其尺度與窗口長(zhǎng)度
2024年04月26日
瀏覽(20)
【長(zhǎng)文閱讀】MAMBA作者博士論文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter1
Chapter1 Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士畢業(yè)論文，為了理清楚MAMBA專門花時(shí)間拜讀這篇長(zhǎng)達(dá)330頁的博士論文，由于知識(shí)水平有限，只能盡自己所能概述記錄，并適當(dāng)補(bǔ)充一些相關(guān)數(shù)學(xué)背景，歡迎探討與批評(píng)指正。內(nèi)容多，
2024年01月19日
瀏覽(47)
【長(zhǎng)文閱讀】MAMBA作者博士論文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter2
Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士畢業(yè)論文，為了理清楚MAMBA專門花時(shí)間拜讀這篇長(zhǎng)達(dá)330頁的博士論文，由于知識(shí)水平有限，只能盡自己所能概述記錄，并適當(dāng)補(bǔ)充一些相關(guān)數(shù)學(xué)背景，歡迎探討與批評(píng)指正。內(nèi)容多，分章節(jié)
2024年01月20日
瀏覽(17)
【論文筆記】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
當(dāng)時(shí)的所有的重建目標(biāo)都是關(guān)于低級(jí)圖像元素的，低估了高級(jí)語義。【Q】怎么去定義高級(jí)和低級(jí)語義 VQ-KD編碼器首先根據(jù)可學(xué)習(xí)碼本將輸入圖像轉(zhuǎn)換為離散令牌然后，解碼器學(xué)習(xí)重建由教師模型編碼的語義特征，以離散令牌為條件在訓(xùn)練VQ-KD之后，其編碼器被用作BEIT預(yù)訓(xùn)練
2024年02月11日
瀏覽(45)
自監(jiān)督論文閱讀筆記 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling
????????深度學(xué)習(xí)方法促進(jìn)了遙感 (RS) 圖像解釋的快速發(fā)展。最廣泛使用的訓(xùn)練范式是利用 ImageNet 預(yù)訓(xùn)練模型來處理指定任務(wù)的 RS 數(shù)據(jù)。然而，存在? 自然場(chǎng)景與RS場(chǎng)景之間的領(lǐng)域差距，以及 RS模型泛化能力差等問題。開發(fā) 具有通用 RS 特征表示的基礎(chǔ)模型是有意義的。
2024年02月16日
瀏覽(26)
【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection
原文鏈接：https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪擴(kuò)散模型的技術(shù)，提出完全可微的雷達(dá)-相機(jī)框架。使用校準(zhǔn)矩陣將雷達(dá)點(diǎn)云投影到圖像上后，在特征編碼器和BEV下的Transformer檢測(cè)解碼器中
2024年01月18日
瀏覽(27)
102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies
官網(wǎng) ?Nvidia2023提出的一種新的生成模型，可生成具有任意屬性的高分辨率稀疏3D體素網(wǎng)格，以前饋方式生成數(shù)百萬體素，最細(xì)有效分辨率高達(dá) 102 4 3 1024^3 102 4 3 ，而無需耗時(shí)的 test-time 優(yōu)化，使用一種分層體素潛擴(kuò)散模型，使用建立在高效VDB數(shù)據(jù)結(jié)構(gòu)上的自定義框架，以從粗
2024年02月03日
瀏覽(17)

<ul id="rzyhm"></ul>