国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<bdo id="mpdg6"></bdo>

<track id="mpdg6"><menu id="mpdg6"></menu></track>

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

2年前作者：Gene_INNOCENT分類：Toy博客閱讀(39)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言

如果你對(duì)這篇文章感興趣，可以點(diǎn)擊「【訪客必讀 - 指引頁(yè)】一文囊括主頁(yè)內(nèi)所有高質(zhì)量博客」，查看完整博客分類與對(duì)應(yīng)鏈接。

框架

這些生成式 AI 的整體功能為：輸入「文字」，返回「圖像」，即 Text-to-image Generator：

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen
生成器的內(nèi)部框架如下所示：

第一部分：Text Encoder，輸出 Text，返回對(duì)應(yīng)的 Embedding（向量）；
第二部分：Generation Model，輸入為 Text 的 Embedding 與一個(gè)隨機(jī)生成的 Embedding（用于后續(xù)的 Diffusion 過(guò)程），返回中間產(chǎn)物（可以是圖片的壓縮版本，也可以是 Latent Representation）；
第三部分：Decoder，輸入為圖片的壓縮版本，返回最終的圖片。

三個(gè)模塊通常是分開訓(xùn)練，再組合起來(lái)，得到 Text-to-image Generator。

上述框架為通用框架，即均包含上述三個(gè)模塊，例如 Stable Diffusion：
生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen
DALL-E series：

Imagen：

文字 Encoder

GPT、Bert 均可當(dāng)作文字 Encoder，其對(duì)最終結(jié)果的影響非常大。如下圖所示（來(lái)自 Imagen 論文實(shí)驗(yàn)圖）：

圖（a）：曲線越接近框內(nèi)右下角越好，Encoder 越大效果越好，即 Encoder 見(jiàn)過(guò)的數(shù)據(jù)量越多；
圖（b）：Generation Model 的大小對(duì)結(jié)果影響不大。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

FID (Fréchet Inception Distance)

上述結(jié)果中的 FID 用于衡量生成圖片的好壞，即利用一個(gè) CNN 網(wǎng)絡(luò) (Inception Network)，得到一系列原始圖像 (x) 與其對(duì)應(yīng)生成圖像 (g) 的特征表示，并假設(shè)該特征表示服從高斯分布，因此可以得到原始圖像的高斯分布 $\mathcal{N}(\mu_x,\Sigma_x)$ 與生成圖像的高斯分布 $\mathcal{N}(\mu_g,\Sigma_g)$ ，并將兩個(gè)分布之間的 Fréchet distance 作為最終的 FID 結(jié)果（越小越好），即：
$\text{FID}(x,g)=\|\mu_x-\mu_g\|_2^2 + \operatorname{Tr}\left(\Sigma_x+\Sigma_g-2\left(\Sigma_x \Sigma_g\right)^{\frac{1}{2}}\right).$

上述的 FID-10K 表示采樣 10K 張圖片后，計(jì)算 FID，因此 FID 的計(jì)算需要大量圖片。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

CLIP (Contrastive Language-Image Pre-Training)

CLIP 是一個(gè)使用了 400 million image-text paris 訓(xùn)練得到的模型，該模型可以用于給 (Text, Generated Image) 打分，即將 Text, Image 分別丟進(jìn) Text Encoder 和 Image Encoder 中，其產(chǎn)生的 Embedding 越相近，CLIP Score 越高。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

Decoder

Generation Model 的訓(xùn)練需要 (Text, Image) 成對(duì)的數(shù)據(jù)，但 Decoder 的訓(xùn)練不需要文字資料，因此可供其訓(xùn)練的數(shù)據(jù)是更多的。

如果 Decoder 的輸入是圖片的壓縮版本，即小圖（例如 Imagen），則其訓(xùn)練過(guò)程為：將任意一張圖片降采樣得到一張小圖，隨后使用（小圖，原圖）的 pair 進(jìn)行訓(xùn)練，如下所示：

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen
如果 Decoder 的輸入 Latent Representation（例如 Stable Diffusion 與 DALL-E），則訓(xùn)練過(guò)程為：訓(xùn)練一個(gè) Auto-encoder，并將其中的 Decoder 作為框架中的模塊。

Auto-encoder 的訓(xùn)練過(guò)程也非常直接，其 Encoder 負(fù)責(zé)得到圖片的 Latent Representation，Decoder 負(fù)責(zé)根據(jù) Latent Representation 生成對(duì)應(yīng)圖片，訓(xùn)練目標(biāo)是原始圖片與生成的圖片越接近越好。

通常來(lái)說(shuō)原圖尺寸為 (H, W, 3)，Latent Representation 的大小為 (h, w, c)，其中 h 與 w 分別小于 H 和 W。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

Generation Model

在 Diffusion Model 中，我們不斷地在圖片上加噪音，得到一張隨機(jī)圖后，再逐步地去噪，最終訓(xùn)練出去噪的模型，如下所示：

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

而在 Generation Model 中，噪聲不是加在圖片上，而是加在中間產(chǎn)物上，即 Decoder 的輸入 Latent Representation 上，如下所示：

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen

隨后訓(xùn)練一個(gè) Noise Predictor，輸入為「第 x 步 + 第 x 步對(duì)應(yīng)的加噪結(jié)果 + Text Embedding」，輸出為第 x 步所加的噪聲。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen
最后在生成圖片時(shí)，輸入為「Text Embedding + 隨機(jī)高斯噪聲」，每次識(shí)別出具體的噪聲，再一步一步執(zhí)行去噪，即可得到最終的 Latent Representation，再輸入至 Decoder 即可。

生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen
此處需要注意，去噪的過(guò)程是「隨機(jī)高斯噪音」逐步變成「最終 Latent Representation」的過(guò)程，該過(guò)程中的每一步的 Embedding，丟進(jìn) Decoder 均可得到圖片，對(duì)應(yīng)于圖片生成時(shí)，圖片逐步變清晰的過(guò)程。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-482655.html

參考資料

Hung-yi Lee - 生成式 AI
Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
DALL-E series: Zero-Shot Text-to-Image Generation
DALL-E series: Hierarchical Text-Conditional Image Generation with CLIP Latents
Imagen: website
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

到了這里，關(guān)于生成式 AI 背后的共同框架：Stable Diffusion、DALL-E、Imagen的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

ChatGPT 為 Midjourney 或 DALL-E 等 AI 藝術(shù)生成提示
人工智能為創(chuàng)意產(chǎn)業(yè)開辟了一個(gè)充滿可能性的全新世界。人工智能最令人興奮的應(yīng)用之一是生成獨(dú)特的原創(chuàng)藝術(shù)作品。Midjourney?和?DALL-E?是人工智能生成藝術(shù)的兩個(gè)突出例子，它們已經(jīng)引起了藝術(shù)家和藝術(shù)愛(ài)好者的關(guān)注。在本文中，將探索如何使用 ChatGPT 為 AI 藝術(shù)生成提示
2024年02月09日
瀏覽(25)
如何使用 ChatGPT 為 Midjourney 或 DALL-E 等 AI 圖片生成提示詞
人工智能為創(chuàng)意產(chǎn)業(yè)開辟了一個(gè)充滿可能性的全新世界。人工智能最令人興奮的應(yīng)用之一是生成獨(dú)特且原創(chuàng)的藝術(shù)品。Midjourney 和 DALL-E 是人工智能生成藝術(shù)的兩個(gè)突出例子，吸引了藝術(shù)家和藝術(shù)愛(ài)好者的注意。在本文中，我們將探索如何使用 ChatGPT 生成 AI 圖片模型提示。如
2024年02月14日
瀏覽(36)
MidJourney 的新 V4C 模型現(xiàn)在可以創(chuàng)建更寬、更好看的圖像,比Stable Diffusion和Dall-E2強(qiáng)大么？
MidJourney 自成立以來(lái)已經(jīng)走過(guò)了漫長(zhǎng)的道路。這款流行的 AI 藝術(shù)生成器在 2022 年 11 月發(fā)布其 V4 和 V4B 模型時(shí)獲得了巨大的人氣。此次更新旨在改進(jìn)先前版本的細(xì)節(jié)、構(gòu)圖和真實(shí)感。不過(guò)，有一個(gè)限制：V4B 的縱橫比僅限于 1:1。這意味著所有圖像都是方形的。這里有些例子：
2024年02月12日
瀏覽(26)
AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼，支持AI繪畫，支持GPT語(yǔ)音對(duì)話+DALL-E3文生圖+智能思維導(dǎo)圖生成
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，可以說(shuō)SparkAi是目前國(guó)內(nèi)一款的ChatGPT對(duì)接OpenAI軟件系統(tǒng)。那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧！
2024年02月04日
瀏覽(130)
ChatGPT4.0知識(shí)問(wèn)答、DALL-E生成AI圖片、Code Copilot輔助編程，打開新世界的大門
支持在線修改和圖片導(dǎo)出。走一個(gè)~ （1）畫一個(gè)會(huì)飛的豬（2）通過(guò)選擇select，對(duì)會(huì)飛的豬進(jìn)行潤(rùn)色（3）畫一個(gè)花色翅膀（4）來(lái)一個(gè)難的，根據(jù)斗羅大陸的設(shè)定，添加一個(gè)十萬(wàn)年魂環(huán)，哈哈我記得金色魂環(huán)是百萬(wàn)年的了，哈哈。不過(guò)還可以理解。（5）根據(jù)斗羅大陸的設(shè)計(jì)
2024年04月29日
瀏覽(22)
2023最新ChatGPT商用源碼+支持ai繪畫(Midjourney)+GPT4.0+Dall-E2繪畫+支持Mind思維導(dǎo)圖生成
目錄 1.系統(tǒng)演示 1.1 GPT模型提問(wèn) 1.3 Midjourney專業(yè)繪畫 1.4 mind思維導(dǎo)圖 1.5?AI繪畫廣場(chǎng) 2.SparkAi商用系統(tǒng)介紹 2.1前臺(tái)演示站點(diǎn) 2.2?SparkAi源碼下載 2.3 源碼部署教程 3.開始搭建 3.1基礎(chǔ)env環(huán)境配置 4.環(huán)境安裝 4.1 Node版本 4.2 安裝pnpm模塊 4.3 安裝Redis 5.部署跑起來(lái) 5.1 新建站點(diǎn) 5.2 配置
2024年02月15日
瀏覽(31)
Stable Diffusion現(xiàn)代人工智能藝術(shù)成功背后的物理學(xué)原理,破譯用于文本到圖像生成的著名 AI 模型與物理學(xué)中觀察到的過(guò)程之間的聯(lián)系
毫不奇怪地否認(rèn)本文的許多內(nèi)容是使用人工智能生成的，當(dāng)然包括描繪當(dāng)今數(shù)字藝術(shù)最大趨勢(shì)之一的圖像。雖然最近幾天迅速傳播并融入我們對(duì)話中的一些最新語(yǔ)言模型不一定適合圖像生成，但本文旨在關(guān)注文本到圖像 AI，特別是著名的系統(tǒng)“穩(wěn)定擴(kuò)散” ”。創(chuàng)意工具市場(chǎng)
2024年02月11日
瀏覽(42)
手把手教你從零搭建ChatGPT網(wǎng)站AI繪畫系統(tǒng)，（SparkAi系統(tǒng)V6）GPTs應(yīng)用、DALL-E3文生圖、AI換臉、墊圖混圖、SunoAI音樂(lè)生成
SparkAi創(chuàng)作系統(tǒng)是基于ChatGPT進(jìn)行開發(fā)的Ai智能問(wèn)答系統(tǒng)和Midjourney繪畫系統(tǒng)，支持OpenAI-GPT全模型+國(guó)內(nèi)AI全模型。本期針對(duì)源碼系統(tǒng)整體測(cè)試下來(lái)非常完美，那么如何搭建部署AI創(chuàng)作ChatGPT？小編這里寫一個(gè)詳細(xì)圖文教程吧。已支持GPTs、GPT語(yǔ)音對(duì)話、GPT-4模型、GPT聯(lián)網(wǎng)提問(wèn)、DALL-E
2024年04月17日
瀏覽(36)
openai DALL-E 3 從文本描述生成圖像原理通俗解釋
在數(shù)字時(shí)代，圖像生成技術(shù)正日益成為人工智能領(lǐng)域的熱點(diǎn)。本討論將重點(diǎn)聚焦于兩個(gè)備受矚目的模型：DALL-E和其他主流AI繪圖方法。我們將探討它們的優(yōu)勢(shì)、局限性以及未來(lái)的發(fā)展方向。通過(guò)比較分析，我們期望能夠更全面地了解這些技術(shù)，為未來(lái)的研究和應(yīng)用提供啟示。
2024年02月21日
瀏覽(27)
【百科】《DALL·E 2 vs Midjourney vs Stable Diffusion｜AI圖像工具對(duì)比》- 知識(shí)點(diǎn)目錄
Midjourney DALL·E 2 StableDiffusion 需要收費(fèi) 如果出現(xiàn) “區(qū)域限制” 的情況，請(qǐng)嘗試清除緩存后并使用全局代理訪問(wèn)； Stability-AI/stablediffusion DreamStudio 示例prompt: 中文提示英文提示提問(wèn)備忘英文提示
2024年02月12日
瀏覽(28)

<th id="vyem1"><tbody id="vyem1"><blockquote id="vyem1"></blockquote></tbody></th>