国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

StableDiffusion模型發(fā)展歷史

這篇具有很好參考價值的文章主要介紹了StableDiffusion模型發(fā)展歷史。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

  參考資料:

  相應的github和huggingface

  LDM?[github]

  StableDiffusion v1.1 ~ v1.4 [github] [huggingface]

  StableDiffusion v1.5 [huggingface] [github]

  StableDiffusion v2 v2.1 [github] [huggingface]  

  首先說一下,這篇文章的目的是讓你清晰地了解StableDffusion這個模型的發(fā)展脈絡,由于目前開源AIGC模型基本上都是基于SD的,因此了解它的發(fā)展歷史是非常有必要的,畢竟它是進行再創(chuàng)作的根基,不了解這個base而盲目地搞一些finetune,雖然可能也會出效果,但有事倍功半的危險。

  1. LDM

?  LDM指latent-diffusion model??v觀Diffusion model的發(fā)展歷史,使用一個基于Unet的noise predictor進行diffusion reverse process是主線,這個思路在DDPM這篇文章中就已經(jīng)闡述的很清楚了,但是受限于大量的hidden features,訓練速度堪憂,并且分辨率沒辦法提的很高。classifier-guided[Diffusion Models Beat GANs on Image Synthesis]和classifier-free[CLASSIFIER-FREE DIFFUSION GUIDANCE]這兩篇文章給出了設計“條件Diffusion Model”的方法,但是仍然沒有解決訓練速度和顯存占用的問題。直到LDM的提出,通過引入一個預訓練的VAE做圖片降維,然后在latent-space做diffusion,才為Diffusion Model的大規(guī)模訓練打開了大門。與此同時,它提出可以使用一個業(yè)務相關的conditioning模塊,并借助CrossAttension機制一把實現(xiàn)多個任務比如inpainting,SR,depth-guided等等??傊?,LDM是學術界的產(chǎn)物,由Compvis獨立提出,為后續(xù)的Stablediffusion打下了技術基礎。但同時由于它(LDM)學術產(chǎn)物的本質,得到的關注遠遠不如SD。
   2. StableDiffusion v1.1 ~ v1.4
  發(fā)出了LDM那篇CVPR文章后,Compvis團隊得到了工業(yè)界的關注,得以和Runway和Stability AI合作。有了他們的支持,Compvis開始做一些昂貴的嘗試,即在LAION數(shù)據(jù)集上進行大規(guī)模的訓練。本質上,SDv1.1 ~ 1.4使用的算法框架和LDM完全一致。特別地,SD使用了固定的(frozen)CLIP text encoder作為上一節(jié)提到的conditioning模塊,也就是說不做雜七雜八的conditioning了,依賴于LAION數(shù)據(jù)集的驅動,就一門心思好好把T2I這個任務給做好。下面我摘抄兩段github上的話,很好地總結了這個階段的模型的發(fā)展:Stable Diffusion v1 refers to a specific configuration of the model architecture that uses a downsampling-factor 8 autoencoder with an 860M UNet and CLIP ViT-L/14 text encoder for the diffusion model. The model was pretrained on 256x256 images and then finetuned on 512x512 images.

StableDiffusion模型發(fā)展歷史,stable diffusion,人工智能,計算機視覺,深度學習

  3.?StableDiffusion v1.5

  上面提到Compvis團隊不僅了Stablility-AI團隊合作,還和Runway團隊有合作。而SD1.5這個火遍大江南北的模型就是由RunwayML團隊發(fā)布在hugging face上的。值得注意的是這次模型的發(fā)布就不再是Compvis了(可能是利益相關的問題吧),看看它是怎么做的:

The Stable-Diffusion-v1-5 checkpoint was initialized with the weights of the Stable-Diffusion-v1-2 checkpoint and subsequently fine-tuned on 595k steps at resolution 512x512 on "laion-aesthetics v2 5+" and 10% dropping of the text-conditioning to improve classifier-free guidance sampling.

  似乎沒有什么fancy的... 僅僅就是在一個美學打分較高的LAION子集上猛猛訓...步數(shù)超過了v1-4而已。但是這里有兩個需要注意的地方,先看一下runway在hugging face上發(fā)布的模型:

StableDiffusion模型發(fā)展歷史,stable diffusion,人工智能,計算機視覺,深度學習

  一個是pruned,這個pruned是什么意思?reddit上有一段很好的解釋:?https://www.reddit.com/r/StableDiffusion/comments/xymibu/what_does_it_mean_to_prune_a_model/

A neural network is just a bunch of math operations. The "neurons" are connected by various "weights," which is to say, the output of a neuron is multipled by a weight (just a number) and gets added into another neuron, along with lots of other connections to that other neuron.

When the neural network learns, these weights get modified. Often, many of them become zero (or real close to it). And since anything time zero is zero, we can skip this part of the math when using the network to predict something. Also, when a set of data has a lot of zeros, it can be compressed to be much smaller.

Pruning finds the nearly zero connections, makes them exactly zero, and then let's you save a smaller, compressed network. Moreover, when you use the network to predict/create something, an optimized neural network solution (i.e. the code that does all of the math specified by the network) can do so faster by intelligently skipping the unneeded calculations involving zero.

  這下就知道了,模型的pruning就是剪掉不需要的部分。pruned知道了,ema又是什么意思呢?這個其實我可以解釋一下:EMA?stands for Exponential Moving Average, and it refers to a technique used to smooth out noise in the?training?data. 即EMA是一種訓練策略,在訓練的時候模型會有一個主模型例如Unet,同時也會保存一個copy即EMA_Unet,這個EMA_Unet可以簡單地看作是Unet的一個權值平均化的版本,可以使得訓練更加穩(wěn)定。一般認為EMA_Unet能夠降噪,因此load ema版本的權重就可以了,但是如果你想接著finetune,那么不妨同時load EMA_Unet和真實的Unet,繼續(xù)用ema的策略訓練下去。hugging face上有一段話:

StableDiffusion模型發(fā)展歷史,stable diffusion,人工智能,計算機視覺,深度學習

?  可知v1-5-pruned.ckpt包含的信息是比v1-5-pruned-emaonly.ckpt的信息“絕對”多的,然后就按自己需求有選擇地下載就好了。

  4.?StableDiffusion v2 v2.1

  上面說到之前的模型發(fā)布都是Compvis和Runway完成的,現(xiàn)在老大Stability-AI也坐不住了。我猜它應該是想掙錢的,因此發(fā)布Stalediffusion v2的一個重要舉措是刪除NSFW的東西。這個也可以理解,因為做產(chǎn)品就要考慮風控啊。SD v2同樣有一個一句話定義:Stable Diffusion v2 refers to a specific configuration of the model architecture that uses a downsampling-factor 8 autoencoder with an 865M UNet and OpenCLIP ViT-H/14 text encoder for the diffusion model. The SD 2-v model produces 768x768 px outputs. 有三個變化,一個是text-encoder變了,變這個東西意味著什么?意味著和StableDiffusion v1割席,必須重新從零去訓練了。一個是分辨率加大了,這個東西似乎沒有什么技術壁壘,因為卷積這個操作好像天生就能夠兼容不同分辨率的方圖。

  然后,StableDiffusion v2引入了一個叫v-prediction的概念,這導致模型出現(xiàn)了v2, v2-base, v2.1, v2.1-base,v2和v2.1是SD主推的產(chǎn)品(我的理解),而v2-base和v2.1-base則是原始的noise-prediction的模型。邏輯是這樣的,v2-base是從零開始訓的,并且屏蔽了NSFW,v2基于v2-base繼續(xù)finetune。v2.1-base是基于v2-base finetune的,v2.1基于v2.1-base繼續(xù)finetune。下面只展示v2-base的訓練介紹,其他的模型訓練信息可以到hugging face上自己去看:

StableDiffusion模型發(fā)展歷史,stable diffusion,人工智能,計算機視覺,深度學習文章來源地址http://www.zghlxwxcb.cn/news/detail-538634.html

到了這里,關于StableDiffusion模型發(fā)展歷史的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • docker發(fā)展歷史

    docker發(fā)展歷史

    2008年,Solomon Hykes 和他的朋友 Kamel Founadi、Sebastien Pahl 共同創(chuàng)立了一家名為 DotCloud 的公司,目標是利用一種叫做容器的技術來創(chuàng)建他們稱作是“大規(guī)模的創(chuàng)新工具”:任何人都可以使用的編程工具。 2010年,dotCloud獲得了創(chuàng)業(yè)孵化器Y Combinator的支持,并開始吸引到一些真正的投

    2024年02月13日
    瀏覽(21)
  • 數(shù)據(jù)倉庫發(fā)展歷史

    數(shù)據(jù)倉庫發(fā)展歷史

    數(shù)據(jù)倉庫是企業(yè)中用于存儲、整合和分析數(shù)據(jù)的關鍵組件。隨著時間的推移,數(shù)據(jù)倉庫經(jīng)歷了三代演化: 從需求驅動到平臺化、從平臺化到智能(AI)化 第一代數(shù)據(jù)倉庫演化:需求驅動的分層架構 第一代數(shù)據(jù)倉庫的核心思想是根據(jù)需求分析和業(yè)務模型構建分層架構,使用工

    2024年02月15日
    瀏覽(27)
  • Excel的發(fā)展歷史

    ? ? ? ?1982年,Microsoft推出了它的第一款電子制表軟件──Multiplan,并在CP/M系統(tǒng)上大獲成功,但在MS-DOS系統(tǒng)上,Multiplan敗給了Lotus 1-2-3。這個事件促使了Excel的誕生,正如Excel研發(fā)代號Doug Klunder:做Lotus 1-2-3能做的,并且做的更好。1985年,第一款Excel誕生,它只用于Mac系統(tǒng);

    2024年02月13日
    瀏覽(17)
  • Hadoop發(fā)展歷史

    1)Hadoop是一個由Apache基金會所開發(fā)的 分布式系統(tǒng)基礎架構 2)主要解決,海量數(shù)據(jù)的 存儲 和海量數(shù)據(jù)的 分析計算 問題。 3)廣義上來說,Hadoop通常是指一個更廣泛的概念—— Hadoop生態(tài)圈 。 1)Hadoop創(chuàng)始人 Doug Cutting ,為 了實 現(xiàn)與Google類似的全文搜索功能,他在Lucene框架基

    2024年02月11日
    瀏覽(26)
  • 神經(jīng)網(wǎng)絡的發(fā)展歷史

    神經(jīng)網(wǎng)絡的發(fā)展歷史

    神經(jīng)網(wǎng)絡的發(fā)展歷史可以追溯到上世紀的數(shù)學理論和生物學研究。以下是神經(jīng)網(wǎng)絡發(fā)展史的詳細概述: 1943年,Warren McCulloch和Walter Pitts提出了一種神經(jīng)元模型,被稱為MCP神經(jīng)元模型,它模擬了生物神經(jīng)元的基本功能。 這一模型使用二進制邏輯來描述神經(jīng)元的激活和抑制過程,

    2024年02月07日
    瀏覽(28)
  • 計算機視覺發(fā)展歷史

    計算機視覺發(fā)展歷史

    目錄 1.視覺對于生物界的重要作用 2.人類對于計算機視覺的探索 2.1 20世紀50年代——研究生物視覺的工作原理 2.2 20世紀60年代——計算機視覺萌芽 2.3 20世紀70年代——開創(chuàng)性提出識別流程 2.4 20世紀80年代——著眼于提取特征 2.5? 20世紀90年代——圖像分割 2.6? 21世紀初——各

    2024年02月07日
    瀏覽(28)
  • ARM簡介及其發(fā)展歷史

    ARM名聲很大,最近在學習STM32,也借機梳理一下關于ARM的各種概念和信息。 本文主要內容:ARM一詞的含義,ARM的發(fā)展歷史,ARM cortex系列處理器簡介與ARM在不同市場的應用情況。 1.1 ARM公司 ARM第一種意思是指ARM公司。 ARM公司成立于1990年,是一家英國半導體設計公司,總部位于

    2023年04月10日
    瀏覽(19)
  • 密碼學發(fā)展歷史介紹

    ??稍微介紹一下密碼學,密碼學是研究編制密碼和破譯密碼的學科,就是研究防與攻。密碼學的發(fā)展歷程可分三個階段:古典密碼、近代密碼、現(xiàn)代密碼。 ??古典密碼階段:從密碼的產(chǎn)生到發(fā)展成為近代密碼之間的這段時期密碼的發(fā)展歷史。主要特點是手工加解密,叫手

    2023年04月17日
    瀏覽(28)
  • 第一章 PCIE的發(fā)展歷史

    第一章 PCIE的發(fā)展歷史

    目錄 第1節(jié) PCIE概述 第2節(jié) PCIE速率及計算 第1節(jié) PCIE概述 ? ? ?PCI Express(PCIE)是用來互聯(lián)諸如計算和通信平臺應用中外圍設備的第三代高性能I/O總線。第一代總線包括ISA、EISA、VESA和微通道(Macro Channel )總線,而第二代總線則包括了PCI、AGP 和PCI-X。PCIE是一種可以適用于移動

    2024年02月14日
    瀏覽(17)
  • AI 芯片的簡要發(fā)展歷史

    AI 芯片的簡要發(fā)展歷史

    隨著人工智能領域不斷取得突破性進展。作為實現(xiàn)人工智能技術的重要基石,AI芯片擁有巨大的產(chǎn)業(yè)價值和戰(zhàn)略地位。作為人工智能產(chǎn)業(yè)鏈的關鍵環(huán)節(jié)和硬件基礎,AI芯片有著極高的技術研發(fā)和創(chuàng)新的壁壘。從芯片發(fā)展的趨勢來看,現(xiàn)在仍處于AI芯片發(fā)展的初級階段。未來將是

    2023年04月19日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包