国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【文生圖系列】Stable Diffusion原理篇

這篇具有很好參考價值的文章主要介紹了【文生圖系列】Stable Diffusion原理篇。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


“文生圖”,或者AI繪畫,最近異?;鸨?,輸入一些描述性的語句,AI就能夠生成相應的畫作。甚至引發(fā)了一個問題:AI會不會替代原畫師?AI通過學習和分析大量的數(shù)據(jù),學習到各種各樣的繪畫技巧和風格,相比于人類,花費更短的時間和更低的成本,就能創(chuàng)作出很優(yōu)秀的作品。

僅從文本描述中就能夠創(chuàng)作出非凡的視覺圖像,這已清晰地表明人類創(chuàng)作藝術的方式發(fā)生了轉變。Stable Diffusion的發(fā)布是此發(fā)展歷程中的一個里程碑事件,它為大眾提供了一個高性能的模型。

國外大牛JayAlamma 的博文 [The Illustrated Stable Diffusion](The Illustrated Stable Diffusion)形象地描述了AI圖像到底是如何被生成的,形象地解釋了什么是stable diffusion,什么是diffusion。學習完大牛的博文后,我用自己的理解向大家介紹一下Stable Diffusion的原理。

Stable Diffusion的組成

Stable Diffusion不是一個整體模型,它由幾個組件和模型組成。首先是文本理解組件(text-understanding component ),將文本信息轉換成數(shù)字表示,以捕捉文本中的想法。其次是圖像生成器(image generator),圖像生成器包括兩步,圖像信息創(chuàng)建者( Image information creator)和圖像解碼器(Image Decoder)。

圖像信息創(chuàng)建者這一組件運行多步以生成對象,這是stable diffusion接口和庫中的步長參數(shù),通常默認為50或者100。圖像信息創(chuàng)建者完全在圖像信息空間(隱藏空間)中工作,此特性比在像素空間中工作的擴散模型更快。

圖像解碼器根據(jù)從圖像信息創(chuàng)建者哪里獲得信息繪制圖片,它僅僅在生成最終圖像的結束階段運行一次。

【文生圖系列】Stable Diffusion原理篇

上圖是stable diffusion的一個流程圖,包含了上述描述的三個組件,每個組件都有相應的神經網絡。

  1. **文本理解組件:**Clip Text為文本編碼器。以77 token為輸入,輸出為77 token 嵌入向量,每個向量有768維度
  2. **圖像信息創(chuàng)建者:**UNet+Scheduler,在潛在空間中逐步處理擴散信息。以文本嵌入向量和由噪聲組成的起始多維數(shù)組為輸入,輸出處理的信息數(shù)組。
  3. **圖像解碼器:**自動編碼解碼器,使用處理后的信息數(shù)組繪制最終的圖像。以處理后的維度為 4 × 64 × 64 4 \times 64 \times 64 4×64×64的信息數(shù)組為輸入,輸出尺寸為 3 × 512 × 512 3 \times 512 \times 512 3×512×512的圖像。

什么是擴散

上述我們描述過“圖像信息創(chuàng)建者”組件的功能,它以文本嵌入向量和由噪聲組成的起始多維輸入為輸出,輸出圖像解碼器用于繪制最終圖像的信息陣列。擴散是發(fā)生在下圖粉紅色“圖像信息創(chuàng)建者”組件內部的過程。

【文生圖系列】Stable Diffusion原理篇

擴散這個過程是循序漸進的,每一步都會添加更多相關信息。擴散發(fā)生在多個步驟,每一步作用于一個輸入latents array,生成另一個latents array,該數(shù)組能夠更好類比輸入文本和模型從訓練模型中的所有圖像中獲取的所有視覺信息。下圖將每一步生成的latents array作為圖像解碼器的輸入,可視化了每一步中添加了什么信息。下圖的diffusion迭代了50次,隨著迭代步數(shù)的增加,latents array解碼的圖像越來越清晰。

【文生圖系列】Stable Diffusion原理篇

擴散是如何工作的

擴散模型生成圖像的主要思路基于業(yè)內已有強大的計算機視覺模型這一基礎上。只要數(shù)據(jù)集夠大,模型就可以學習到更復雜的邏輯。

假設有一張照片,有一些隨機生成的噪聲,然后隨機選擇一個噪聲添加到此圖像上,這樣構成一條訓練樣本。用相同的方式可以生成大量的訓練樣本組成訓練集,然后使用這份訓練數(shù)據(jù)集,訓練噪聲預測器(UNet)。訓練結束后將會得到一個高性能的噪聲預測器,在特定配置下運行時創(chuàng)建圖像。

【文生圖系列】Stable Diffusion原理篇
【文生圖系列】Stable Diffusion原理篇

去噪聲繪制圖像

基于上述描述構建的噪聲訓練集訓練得到一個噪聲預測器,噪聲預測器可以產生一個噪聲圖像,如果我們從圖像中減去此生成的噪聲圖像,那么就能夠得到與模型訓練樣本盡可能接近的圖像,這個接近是指分布上的接近,比如天空通常是藍色的,人類有兩個眼等。生成圖像的風格傾向于訓練樣本存在的風格。

【文生圖系列】Stable Diffusion原理篇

將文本信息添加到圖像生成器中

上述描述的擴散生成圖像并不包括任何文本圖像,但是圖像生成器的輸入包括文本嵌入向量和由噪聲組成的起始多維數(shù)組,所以調整噪聲生成器來適配文本。這樣基于大量訓練數(shù)據(jù)訓練后既可以得到圖像生成器?;谶x擇的文本編碼器加上訓練后的圖像生成器,就構成了整個stable diffusion模型。可以給定一些描述性的語句,整個stable diffusion模型就能夠生成相應的畫作。

【文生圖系列】Stable Diffusion原理篇文章來源地址http://www.zghlxwxcb.cn/news/detail-501474.html

參考

  1. [The Illustrated Stable Diffusion](The Illustrated Stable Diffusion)

到了這里,關于【文生圖系列】Stable Diffusion原理篇的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【文生圖系列】stable diffusion webui 漢化(雙語)教程

    【文生圖系列】stable diffusion webui 漢化(雙語)教程

    這篇博文記錄于我成功安裝雙語插件之后,所以以下的示例頁面均是雙語。漢化教程分為三步,安裝插件,JSON源文件下載和最后一步的雙語設置。 在擴展(extensions)中選擇從網址安裝(Install from URL),將sd-webui-bilingual-localization的gitHub項目網址https://github.com/journey-ad/sd-webui-bi

    2024年02月17日
    瀏覽(33)
  • 【文生圖系列】Stable Diffusion Webui安裝部署過程中bug匯總(Linux系統(tǒng))

    【文生圖系列】Stable Diffusion Webui安裝部署過程中bug匯總(Linux系統(tǒng))

    看網上部署stable diffusion webui的教程,很簡單。而且我也有部署stable diffusion v1/v2的經驗,想著應該會很快部署完stable diffusion webui,但是沒想到在部署過程中,遇到各種各樣的奇葩問題,特此在此記錄一下。 虛擬環(huán)境python stable diffusion webui支持的python版本需大于等于3.10.6,首先

    2024年02月15日
    瀏覽(21)
  • 文生圖模型之Stable Diffusion

    文生圖模型之Stable Diffusion

    參考文章地址 利用文本生成圖片,進一步衍生到inpainting功能 autoencoder CLIP text encoder tokenizer最大長度為77(CLIP訓練時所采用的設置),當輸入text的tokens數(shù)量超過77后,將進行截斷,如果不足則進行paddings,這樣將保證無論輸入任何長度的文本(甚至是空文本)都得到77x768大小

    2024年02月11日
    瀏覽(34)
  • stable diffusion實踐操作-文生圖

    stable diffusion實踐操作-文生圖

    本文專門開一節(jié)寫 文生圖 相關的內容,在看之前,可以同步關注: stable diffusion實踐操作 詳細信息: 底模:SD 1.5 Lora:baihuaniang_1.0 正向提示詞: 反向提示詞: CLP終止層數(shù):2 迭代步數(shù):25 采樣模式(Sampler):DPM++ 2M Karras 提示詞引導數(shù)(CFG Scales):11 隨機數(shù)種子(seed):2514

    2024年02月10日
    瀏覽(23)
  • AIGC:文生圖模型Stable Diffusion

    AIGC:文生圖模型Stable Diffusion

    Stable Diffusion 是由CompVis、Stability AI和LAION共同開發(fā)的一個文本轉圖像模型,它通過LAION-5B子集大量的 512x512 圖文模型進行訓練,我們只要簡單的輸入一段文本,Stable Diffusion 就可以迅速將其轉換為圖像,同樣我們也可以置入圖片或視頻,配合文本對其進行處理。 Stable Diffusion的

    2024年02月15日
    瀏覽(20)
  • Stable Diffusion教程(5) - 文生圖教程

    Stable Diffusion教程(5) - 文生圖教程

    配套視頻教程: https://v.douyin.com/UyHNfYG/? 文生圖界面標注如下 提示詞內輸入的東西就是你想要畫的東西,反向提示詞內輸入的就是你不想要畫的東西 提示框內只能輸入英文,所有符號都要使用英文半角,詞語之間使用半角逗號隔開 1.1 一般原則 一般來說越靠前的詞匯權重就

    2024年02月08日
    瀏覽(26)
  • Stable diffusion UI 介紹-文生圖

    Stable diffusion UI 介紹-文生圖

    1.提示詞: 你希望圖中有什么東西 2.負面提示詞:你不希望圖中有什么東西 選用了什么模型 使用參數(shù) 1.采樣器 sampling method 使用什么算法進行采樣 2.采樣迭代步數(shù) sampling steps 生成圖像迭代的步數(shù),越多越好,但是生成速度越大越慢 3. 寬度和長度 生成圖片的大小 按照模型的

    2024年02月22日
    瀏覽(23)
  • 文生圖——stable diffusion生成有趣的動漫圖像

    文生圖——stable diffusion生成有趣的動漫圖像

    Stable Diffusion是一個文本轉圖像的模型,由CompVis、Stability AI和LAION共同開發(fā)。它能夠從一段簡單的文本輸入中快速生成相應的圖像。此外,它還可以導入圖像并配合文本對其進行處理。從技術角度來看,Stable Diffusion可以理解為從一張完全的高斯噪音圖像開始,根據(jù)用戶輸入的

    2024年04月11日
    瀏覽(23)
  • AIGC文生圖:使用ControlNet 控制 Stable Diffusion

    AIGC文生圖:使用ControlNet 控制 Stable Diffusion

    ControlNet是斯坦福大學研究人員開發(fā)的Stable Diffusion的擴展,使創(chuàng)作者能夠輕松地控制AI圖像和視頻中的對象。它將根據(jù)邊緣檢測、草圖處理或人體姿勢等各種條件來控制圖像生成。 論壇地址:Adding Conditional Control to Text-to-Image Diffusion Models ControlNet是一種通過添加額外條件來控制

    2024年02月16日
    瀏覽(17)
  • 文生圖Stable-diffusion-webui環(huán)境搭建

    文生圖Stable-diffusion-webui環(huán)境搭建

    ?想自己生成AI美女嗎?跟我一起下來搭建Stable-diffusion-v1-5進行文生圖、圖生圖吧。 該webui支持Mac/Linux/Windows環(huán)境,這里以windows環(huán)境為例。前提是你已經在本機搭建好了GPU運行環(huán)境,建議6G以上GPU,當然,CPU也可以運行,就是奇慢無比。 1. 安裝python3.10.x版本 2.下載最新版本源代

    2024年02月12日
    瀏覽(58)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包