国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【生成式AI】ProlificDreamer論文閱讀

2年前作者：lvzelong2014分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了【生成式AI】ProlificDreamer論文閱讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

ProlificDreamer 論文閱讀

Project指路：https://ml.cs.tsinghua.edu.cn/prolificdreamer/
論文簡介：截止2023/8/10，text-to-3D的baseline SOTA，提出了VSD優(yōu)化方法

前置芝士:text-to-3D任務(wù)簡介

text-to-3D Problem

text-to-3D 解決的問題就是給定一段話，生成視角一致的3D場景，如果了解過這個領(lǐng)域的可以略過不看

【生成式AI】ProlificDreamer論文閱讀,計算機圖形學(xué),人工智能,論文閱讀

研發(fā)路線大概是dreamfeild->dreamfusion->polificdreamer

Diffusion Model

text-to-image領(lǐng)域Diffusion Model很厲害，所以基本上就是Extend Diffusion Model to 3D，想看Diffusion Model簡介可以看我之前的博文：

生成模型的Basic Idea就是真實圖片作為隨機分布，每個text是條件。

Diffusion Model訓(xùn)練出了一個條件分布 $p(\mathbf x|y)$ ，x是圖片，y是條件（text），其Loss Function可以表達為 $\mathcal L_{Diff}(\phi) := \mathbb E_{x_0\sim q(x_0),t\sim \mathcal U(0,1),\epsilon \sim \mathcal N(0,1)}[w(t)\|\epsilon_\phi(\alpha_tx_0+\sigma_t\epsilon)-\epsilon\|^2_2]$

text-to-3D 基本思路

$\theta$ 是3D表達的參數(shù)， $c$ 是參數(shù)，那么3D渲染的本質(zhì)是 $\mathbf{x}=g(\theta, c)$ ，如果過程是可微的，稱為DIP(differentiable image parameterization)
對于2D， $x_0\sim q(x_0)$ 代表Sample過程，是真實圖片的分布，而text-to-3D就是把Loss變成 $\mathcal L_{Diff}(\phi,\mathbf{x}=g(\theta, c))$ ，去優(yōu)化 $\theta$

Prolific Dreamer Basic Idea

符號

prolific dreamer這篇文章進一步研究，認為一個合理的3D表達也是一個分布，也就是 $\theta\sim \mu(\theta|y)$
渲染出來的圖片： $q_0^\mu(x_0|c,y):=\int q_0^\mu(x_0|c,y)p(c)dc$
diffusion model渲染出來的圖片： $p_0(x_0|y)$

優(yōu)化目標(biāo)

優(yōu)化一個參數(shù)分布，使得它和Diffusion Model生成的結(jié)果接近（pretrained）
$\min_\mu D_{KL}(q_0^\mu(x_0|y)\| p_0(x_0|y))$

算法

Loss Function

根據(jù)上述優(yōu)化目標(biāo)，可以提出如下的Loss
【生成式AI】ProlificDreamer論文閱讀,計算機圖形學(xué),人工智能,論文閱讀
BTW，為什么這個等號成立我是不太理解的（原論文說是KL Divergence的性質(zhì)），占個坑

我認為這個步驟其實就是cover Diffusion Model的步驟， $q_t^\mu(x_t|y):=\int q_0^\mu(x_0|c,y)p_{t0}(x_t|x_0)dx_0$ ，也就是給定camera，把某張圖片渲染出來之后拿去上t步高斯噪聲的分布，讓這個分布和Diffsuion Model 第t步的圖片分布盡可能接近。

這已經(jīng)是一個非常形式化的優(yōu)化目標(biāo)了。接下來考慮優(yōu)化手段。

Optimization

采用Wasserstein gradient flow of VSD，簡單理解就是，用 $\set\theta_{i=1}^n$ 這n個參數(shù)“粒子”去模擬 $\mu(\theta|y)$ ，然后優(yōu)化的時候就是優(yōu)化每個粒子參數(shù)。

基于此，問題轉(zhuǎn)化解如下的一個ODE：
【生成式AI】ProlificDreamer論文閱讀,計算機圖形學(xué),人工智能,論文閱讀
第一項是Diffusion Model生成的帶噪音的真實圖片的score function，所以它由預(yù)訓(xùn)練好的 $\epsilon_{pretrain}(x_t,t,y)$ 生成
第二項是渲染出來圖片生成的帶噪聲的圖片的score function，它由根據(jù)一個新網(wǎng)絡(luò) $\epsilon_\phi(x_t,t,c,y)$ 生成，這個網(wǎng)絡(luò)采用LoRA 技術(shù)，微調(diào) $\epsilon_{pretrain}$ 再embedding一個c進去。

所以進一步轉(zhuǎn)化：
【生成式AI】ProlificDreamer論文閱讀,計算機圖形學(xué),人工智能,論文閱讀
并得到了如下的算法

【生成式AI】ProlificDreamer論文閱讀,計算機圖形學(xué),人工智能,論文閱讀

這篇文章的做法到這里介紹完畢。

數(shù)學(xué)原理

占坑代填，孩子暫時不會泛函推不了文章來源地址http://www.zghlxwxcb.cn/news/detail-639141.html

到了這里，關(guān)于【生成式AI】ProlificDreamer論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【AI視野·今日CV 計算機視覺論文速覽第258期】Mon, 2 Oct 2023
AI視野 ·今日CS.CV 計算機視覺論文速覽 Mon, 2 Oct 2023 (showing first 100 of 112 entries) Totally 100 papers ?? 上期速覽 ?更多精彩請移步主頁 Interesting: ?? *****The Dawn of LMMs, GPT4-V視覺大語言模型綜述。(from Microsoft Corporation) ?? 生物外科組織數(shù)據(jù)集, Surgical Tattoos in Infrared (from ) website：htt
2024年02月06日
瀏覽(30)
機器學(xué)習(xí)周刊第4期：動手實戰(zhàn)人工智能、計算機科學(xué)熱門論文、免費的基于ChatGPT API的安卓端語音助手、每日數(shù)學(xué)、檢索增強 (RAG) 生成技術(shù)綜述
機器學(xué)習(xí)周刊第4期聚焦了AI實戰(zhàn)教程、熱門計算機科學(xué)論文、基于ChatGPT的安卓端語音助手、數(shù)學(xué)定理分享以及前沿的檢索增強（RAG）生成技術(shù)綜述。
2024年02月02日
瀏覽(35)
【計算機視覺|生成對抗】生成對抗網(wǎng)絡(luò)（GAN）
本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記，轉(zhuǎn)載請注明出處標(biāo)題： Generative Adversarial Nets 鏈接：Generative Adversarial Nets (nips.cc) 我們提出了一個通過**對抗（adversarial）**過程估計生成模型的新框架，在其中我們同時訓(xùn)練兩個模型：一個生成模型G，捕獲數(shù)據(jù)分布一個判別模型
2024年02月12日
瀏覽(35)
【計算機視覺|生成對抗】條件生成對抗網(wǎng)絡(luò)（CGAN）
本系列博文為深度學(xué)習(xí)/計算機視覺論文筆記，轉(zhuǎn)載請注明出處標(biāo)題： Conditional Generative Adversarial Nets 鏈接：[1411.1784] Conditional Generative Adversarial Nets (arxiv.org) 生成對抗網(wǎng)絡(luò)（Generative Adversarial Nets） [8] 最近被引入為訓(xùn)練生成模型的一種新穎方法。在這項工作中，我們介紹了生
2024年02月13日
瀏覽(18)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（8 月 10 日論文合集）
體積快速傅里葉卷積法檢測炭化紙頁上的油墨數(shù)字文檔恢復(fù)（DDR）的最新進展在分析高度損壞的書面文物方面取得了重大突破。其中，應(yīng)用人工智能技術(shù)來虛擬地展開和自動檢測Herculaneum papyri集合上的墨水的興趣越來越大。該系列由碳化卷軸和文件碎片組成，這些文件已通過
2024年02月11日
瀏覽(24)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（7 月 3 日論文合集）
聯(lián)邦集成YOLOv5–一種更好的廣義目標(biāo)檢測算法論文地址：聯(lián)邦學(xué)習(xí)（FL）作為一種隱私保護算法已經(jīng)獲得了顯著的吸引力，但聯(lián)邦學(xué)習(xí)算法（如聯(lián)邦平均（FED Avg）或聯(lián)邦SGD（FED SGD））與集成學(xué)習(xí)算法的潛在相似之處尚未得到充分探索。本文的目的是研究FL的應(yīng)用程序的對象
2024年02月13日
瀏覽(21)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（7 月 6 日論文合集）
利用Sentinel-2對沿海地區(qū)海洋垃圾的大規(guī)模探測檢測和量化海洋污染和宏觀塑料是一個日益緊迫的生態(tài)問題，直接影響生態(tài)和人類健康。量化海洋污染的努力往往是通過稀疏和昂貴的海灘調(diào)查進行的，這很難大規(guī)模進行。在這里，遙感可以通過定期監(jiān)測和檢測沿海地區(qū)的海洋
2024年02月16日
瀏覽(37)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（5月26日論文合集）
基于能量的激光雷達數(shù)據(jù)中不利天氣影響的檢測論文地址：自動駕駛車輛依賴于LiDAR傳感器對環(huán)境進行感知。然而，雨、雪、霧等惡劣天氣條件會對這些傳感器造成負面影響，導(dǎo)致測量數(shù)據(jù)中引入不必要的噪聲，降低了其可靠性。在本研究中，我們通過提出一種新的方法來檢
2024年02月07日
瀏覽(46)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（11 月 28 日論文合集）
基于無人機遙感圖像的窗口自動檢測與計數(shù) 盡管建筑和測量部門的技術(shù)進步，但對在建或現(xiàn)有建筑物中的窗戶等顯著特征的檢查主要是一個手動過程。此外，建筑物中存在的窗戶數(shù)量與其在地震下遭受的變形程度直接相關(guān)。在本研究中，提出了一種通過部署無人機（UAV）遙感
2024年02月05日
瀏覽(28)
【計算機視覺 | 目標(biāo)檢測】arxiv 計算機視覺關(guān)于目標(biāo)檢測的學(xué)術(shù)速遞（7 月 21 日論文合集）
異常檢測中的表征學(xué)習(xí)：成功、局限和巨大挑戰(zhàn) 在這篇透視論文中，我們認為異常檢測中的主導(dǎo)范式不能無限擴展，最終將達到根本的極限。這是由于異常檢測的“沒有免費的午餐”原則。當(dāng)存在強任務(wù)優(yōu)先級時，可以克服這些限制，如許多工業(yè)任務(wù)的情況。當(dāng)這樣的先驗不
2024年02月16日
瀏覽(26)