国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<optgroup id="jpjp9"><bdo id="jpjp9"><optgroup id="jpjp9"></optgroup></bdo></optgroup>

<mark id="jpjp9"></mark>

從零開(kāi)始的stable diffusion

2年前作者：阿里巴巴淘系技術(shù)團(tuán)隊(duì)官網(wǎng)博客分類：Toy博客閱讀(15)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了從零開(kāi)始的stable diffusion。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

stable diffusion真的是橫空出世，開(kāi)啟了AIGC的元年。不知你是否有和我一樣的困惑，這AI工具好像并不是那么聽(tīng)話？

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

前言

我們?cè)撊绾尾拍苡煤胹table diffusion這個(gè)工具呢？AI究竟在stable diffusion中承擔(dān)了什么樣的角色？如何能盡可能快、成本低地得到我們期望的結(jié)果？

源于這一系列的疑問(wèn)，我開(kāi)始了漫長(zhǎng)的論文解讀。High-Resolution Image Synthesis with Latent Diffusion Models（地址：https://arxiv.org/abs/2112.10752?spm=ata.21736010.0.0.7d0b28addsl7xQ&file=2112.10752）

當(dāng)然這論文看的云里霧里的，加篇讀了How does Stable Diffusion work?（地址：https://stable-diffusion-art.com/how-stable-diffusion-work/?spm=ata.21736010.0.0.7d0b28addsl7xQ）

先簡(jiǎn)要概括下，stable diffusion的努力基本是為了2個(gè)目的:

低成本、高效驗(yàn)證。設(shè)計(jì)了Latent Space
Conditioning Mechanisms。條件控制，如果不能輸出我們想要的圖片，那這就像Monkey Coding。耗費(fèi)無(wú)限的時(shí)間與資源。

這是整個(gè)內(nèi)容里最重要最核心的兩個(gè)部分。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

圖片生成的幾種方式

隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展，生成模型已經(jīng)有了巨大的發(fā)展，主流的有以下幾種：

自回歸模型(AutoRegressive model)：按照像素點(diǎn)生成圖像，導(dǎo)致計(jì)算成本高。實(shí)驗(yàn)效果還不錯(cuò)
變分自編碼器(Variational Autoencoder)：Image to Latent， Latent to Image，VAE存在生成圖像模糊或者細(xì)節(jié)問(wèn)題
基于流的方法(Glow)
生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network)：利用生成器(G)與判別器(D)進(jìn)行博弈，不斷讓生成的圖像與真實(shí)的圖像在分布上越來(lái)越接近。

其中AR與GAN的生成都是在pixel space進(jìn)行模型訓(xùn)練與推理。

?? 模型是如何生成圖片的？

以一只貓作為案例。當(dāng)我們想畫一只貓的時(shí)候，也都是從一個(gè)白板開(kāi)始，框架、細(xì)節(jié)不斷完善。

對(duì)于AI來(lái)說(shuō)，一個(gè)純是noise的image就是一個(gè)理想的白板，類似下圖展示的這樣。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

從圖中的流程，我們可以看到推理的過(guò)程如下：

生成一個(gè)隨機(jī)的noise image圖片。這個(gè)noise取決于Random這個(gè)參數(shù)。相同的Random生成的noise image是相同的。
使用noise predictor預(yù)測(cè)這個(gè)圖里加了多少noise，生成一個(gè)predicted noise。
使用原始的noise減去predicted noise。
不斷循環(huán)2、3，直到我們的執(zhí)行steps。

最終我們會(huì)得到一只貓。

在這個(gè)過(guò)程中，我們會(huì)以下疑問(wèn)：

如何得到一個(gè)noise predictor？
怎么控制我們最終能得到一只貓？而不是一只狗或者其他的東西？

在回答這些疑問(wèn)之前，我先貼一部分公式：

我們定義一個(gè)noise predictor：從零開(kāi)始的stable diffusion,stable diffusion,人工智能，是第 t 個(gè)step過(guò)程中的noise image，t 表示第t個(gè)stop。

???如何得到一個(gè)noise predictor？

這是一個(gè)訓(xùn)練的過(guò)程。過(guò)程如下圖所示：

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

選擇一張訓(xùn)練用的圖片，比如說(shuō)一張貓
生成一個(gè)隨機(jī)的noise圖片
將noise圖疊加到訓(xùn)練用的圖片上，得到一張有一些noise的圖片。（這里可以疊加1~T步noise
訓(xùn)練noise predictor，告訴我們加了多少noise。通過(guò)正確的noise答案來(lái)調(diào)整模型權(quán)重。

最終我們能得到一個(gè)相對(duì)準(zhǔn)確的noise-predictor。這是一個(gè)U-Net model。在stable-diffusion-model中。

通過(guò)這一步，我們最終能得到一個(gè)noise encoder與noise decoder。

PS: noise encoder在image2image中會(huì)應(yīng)用到。

以上noise與noise-predictor的過(guò)程均在pixel space，那么就會(huì)存在巨大的性能問(wèn)題。比如說(shuō)一張1024x1024x3的RBG圖片對(duì)應(yīng)3,145,728個(gè)數(shù)字，需要極大的計(jì)算資源。在這里stable diffusion定義了一個(gè)Latent Space，來(lái)解決這個(gè)問(wèn)題。

?? Latent Space

Latent Space的提出基于一個(gè)理論：Manifold_hypothesis

它假設(shè)現(xiàn)實(shí)世界中，許多高維數(shù)據(jù)集實(shí)際上位于該高維空間內(nèi)的低維Latent manifolds。像Pixel Space，就存在很多的難以感知的高頻細(xì)節(jié)，而這些都是在Latent Space中需要壓縮掉的信息。

那么基于這個(gè)假設(shè)，我們先定義一個(gè)在RGB域的圖片從零開(kāi)始的stable diffusion,stable diffusion,人工智能

然后存在一個(gè)方法z=varepsilon（x），從零開(kāi)始的stable diffusion,stable diffusion,人工智能，z是x在latent space的一種表達(dá)。

這里有一個(gè)因子f=H/h=W/w，通常我們定義從零開(kāi)始的stable diffusion,stable diffusion,人工智能，比如說(shuō)stable-diffusion v1.5訓(xùn)練與推理圖片在512x512x3，然后Latent Space的中間表達(dá)則是4x64x64，那么我們會(huì)有一個(gè)decoder D能將圖片從Latent Space中解碼出來(lái)。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能在這個(gè)過(guò)程中我們期望，這倆圖片無(wú)限接近。

整個(gè)過(guò)程如下圖所示：

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

而執(zhí)行這個(gè)過(guò)程的就是我們的Variational Autoencoder，也就是VAE。

那么VAE該怎么訓(xùn)練呢？我們需要一個(gè)衡量生成圖像與訓(xùn)練圖像之間的一個(gè)距離指標(biāo)。

也就是從零開(kāi)始的stable diffusion,stable diffusion,人工智能。

細(xì)節(jié)就不關(guān)心了，但這個(gè)指標(biāo)可以用來(lái)衡量VAE模型的還原程度。訓(xùn)練過(guò)程與noise encoder和noise-predictor非常接近。

貼一個(gè)stable diffusion在FID指標(biāo)上，與其他方法的對(duì)比。下面的表格來(lái)自于無(wú)條件圖片生成?；揪褪潜容^Latent Space是否有丟失重要信息。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

為什么Latent Space是可行的？

你可能在想，為什么VAE可以把一張圖片壓縮到更小的latent space，并且可以不丟失信息。

其實(shí)和人對(duì)圖片的理解是一樣的，自然的、優(yōu)秀的圖片都不是隨機(jī)的，他們有高度的規(guī)則，比如說(shuō)臉上會(huì)有眼睛、鼻子。一只狗會(huì)有4條腿和一個(gè)規(guī)則的形狀。

圖像的高維性是人為的，而自然的圖像可以很容易地壓縮為更小的空間中而不丟失任何信息。

可能說(shuō)我們修改了一張圖片的很多難以感知的細(xì)節(jié)，比如說(shuō)隱藏水印，微小的亮度、對(duì)比度的修改，但修改后還是同樣的圖像嗎？我們只能說(shuō)它表達(dá)的東西還是一樣的。并沒(méi)有丟失任何信息。

?? 結(jié)合Latent Space與noise predictor的圖像生成過(guò)程

生成一個(gè)隨機(jī)的latent space matrix，也可以叫做latent representation。一種中間表達(dá)
noise-predictor預(yù)測(cè)這個(gè)latent representation的noise.并生成一個(gè)latent space noise
latent representation減去latent space noise
重復(fù)2~3，直到step結(jié)束
通過(guò)VAE的decoder將latent representation生成最終的圖片

直到目前為止，都還沒(méi)有條件控制的部分。按這個(gè)過(guò)程，我們最終只會(huì)得到一個(gè)隨機(jī)的圖片。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

條件控制

非常關(guān)鍵，沒(méi)有條件控制，我們最終只能不斷地進(jìn)行Monkey Coding，得到源源不斷的隨機(jī)圖片。

相信你在上面的圖片生成的過(guò)程中，已經(jīng)感知到一個(gè)問(wèn)題了，如果只是從一堆noise中去掉noise，那最后得到的為什么是有信息的圖片，而不是一堆noise呢？

noise-predictor在訓(xùn)練的時(shí)候，其實(shí)就是基于已經(jīng)成像的圖片去預(yù)測(cè)noise，那么它預(yù)測(cè)的noise基本都來(lái)自于有圖像信息的訓(xùn)練數(shù)據(jù)。

在這個(gè)denoise的過(guò)程中，noise會(huì)被附加上各種各樣的圖像信息。

怎么控制noise-predictor去選擇哪些訓(xùn)練數(shù)據(jù)去預(yù)測(cè)noise，就是條件控制的核心要素。

這里我們以tex2img為案例討論。

???Text Conditioning

下面的流程圖，展示了一個(gè)prompt如何處理，并提供給noise predictor。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

Tokenizer

從圖中可以看到，我們的每一個(gè)word，都會(huì)被tokenized。stable diffusion v1.5使用的openai ViT-L/14 Clip模型來(lái)進(jìn)行這個(gè)過(guò)程。

tokenized將自然語(yǔ)言轉(zhuǎn)成計(jì)算機(jī)可理解的數(shù)字(NLP)，它只能將words轉(zhuǎn)成token。比如說(shuō)dreambeach會(huì)被CLIP模型拆分成dream和beach。一個(gè)word，并不意味著一個(gè)token。同時(shí)dream與beach也不等同于dream和<space>beach，stable diffusion model目前被限制只能使用75個(gè)tokens來(lái)進(jìn)行prompt，并不等同于75個(gè)word。

Embedding

同樣，這也是使用的openai ViT-L/14 Clip model. Embedding是一個(gè)768長(zhǎng)度的向量。每一個(gè)token都會(huì)被轉(zhuǎn)成一個(gè)768長(zhǎng)度的向量，如上案例，我們最后會(huì)得到一個(gè)4x768的矩陣。

為什么我們需要embedding呢？

比如說(shuō)我們輸入了man，但這是不是同時(shí)可以意味著gentleman、guy、sportsman、boy。他們可能說(shuō)在向量空間中，與man的距離由近而遠(yuǎn)。而你不一定非要一個(gè)完全準(zhǔn)確無(wú)誤的man。通過(guò)embedding的向量，我們可以決定究竟取多近的信息來(lái)生成圖片。對(duì)應(yīng)stable diffusion的參數(shù)就是(Classifier-Free Guidance scale)CFG。相當(dāng)于用一個(gè)scale去放大距離，因此scale越大，對(duì)應(yīng)的能獲取的信息越少，就會(huì)越遵循prompt。而scale越小，則越容易獲取到關(guān)聯(lián)小，甚至無(wú)關(guān)的信息。

如何去控制embedding？

我們經(jīng)常會(huì)遇到stable diffusion無(wú)法準(zhǔn)確繪制出我們想要的內(nèi)容。那么這里我們發(fā)現(xiàn)了第一種條件控制的方式：textual inversion

將我們想要的token用一個(gè)全新的別名定義，這個(gè)別名對(duì)應(yīng)一個(gè)準(zhǔn)確的token。那么就能準(zhǔn)確無(wú)誤地使用對(duì)應(yīng)的embedding生成圖片。

這里的embedding可以是新的對(duì)象，也可以是其他已存在的對(duì)象。

比如說(shuō)我們用一個(gè)玩具貓訓(xùn)練到CLIP模型中，并定義其Tokenizer對(duì)應(yīng)的word，同時(shí)微調(diào)stable diffusion的模型。而從零開(kāi)始的stable diffusion,stable diffusion,人工智能對(duì)應(yīng)toy cat就能產(chǎn)生如下的效果。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

感覺(jué)有點(diǎn)像Lora的思路，具體還得調(diào)研下lora。

text transformer

在得到embedding之后，通過(guò)text transformer輸入給noise-predictor

transformer可以控制多種條件，如class labels、image、depth map等。

Cross-attention

具體cross-attention是什么我也不是很清楚。但這里有一個(gè)案例可以說(shuō)明：

比如說(shuō)我們使用prompt "A man with blue eyes"。雖然這里是兩個(gè)token，但stable diffusion會(huì)把這兩個(gè)單詞一起成對(duì)。

這樣就能保證生成一個(gè)藍(lán)色眼睛的男人。而不是一個(gè)藍(lán)色襪子或者其他藍(lán)色信息的男人。

(cross-attention between the prompt and the image)

LoRA models modify the cross-attention module to change styles。后面在研究Lora，這里把原話摘到這。

感覺(jué)更像是存在blue、eyes，然后有一個(gè)集合同時(shí)滿足blue和eye。去取這個(gè)交叉的集合。問(wèn)題：對(duì)應(yīng)的embedding是不是不一樣的？該如何區(qū)分blue planet in eye和blue eye in planet的區(qū)別？感覺(jué)這應(yīng)該是NLP的領(lǐng)域了。

總結(jié)下tex2img的過(guò)程

stable diffusion生成一個(gè)隨機(jī)的latent space matrix。這個(gè)由Random決定，如果Random不變，則這個(gè)latent space matrix不變。
通過(guò)noise-predictor，將noisy image與text prompt作為入?yún)?，預(yù)測(cè)predicted noise in latent space
latent noise減去predicted noise。將其作為新的latent noise
不斷重復(fù)2~3執(zhí)行step次。比如說(shuō)step=20
最終，通過(guò)VAE的decoder將latent representation生成最終的圖片

這個(gè)時(shí)候就可以貼Stable diffusion論文中的一張圖了

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

手撕一下公式：

左上角的從零開(kāi)始的stable diffusion,stable diffusion,人工智能定義為一張RGB像素空間的圖。經(jīng)過(guò)的變化，生成這個(gè)latent space representation。再經(jīng)過(guò)一系列的noise encoder，得到，T表示step。

而這個(gè)過(guò)程則是img2img的input。如果是img2img，那么初始的noise latent representation就是這個(gè)不斷加noise之后的從零開(kāi)始的stable diffusion,stable diffusion,人工智能。

如果是tex2img，初始的noise latent representation則是直接random出來(lái)的。

再?gòu)挠蚁陆堑?img src="https://imgs.yssmx.com/Uploads/2023/10/725246-26.jpeg" alt="從零開(kāi)始的stable diffusion,stable diffusion,人工智能" referrerpolicy="no-referrer" />，開(kāi)始，y 表示多樣的控制條件的入?yún)ⅲ鐃ext prompts。通過(guò)(domain specific encoder)將 y 轉(zhuǎn)為intermediate representation（一種中間表達(dá)）。而從零開(kāi)始的stable diffusion,stable diffusion,人工智能與將經(jīng)過(guò)cross-attention layer的實(shí)現(xiàn)：

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

具體的細(xì)節(jié)說(shuō)實(shí)話沒(méi)看懂，而這一部分在controlnet中也有解釋，打算從controlnet的部分進(jìn)行理解。

圖中cross-attention的部分可以很清晰的看到是一個(gè)由大到小，又由小到大的過(guò)程，在controlnet的圖中有解釋：

SD Encoder Block_1(64x64) -> SD Encoder Block_2(32x32) -> SD Encoder Block_3(16x16) -> SD Encoder(Block_4 8x8) -> SD Middle(Block 8x8) -> SD Decoder(Block_4 8x8) -> SD Decoder Block_3(16x16) -> SD Decoder Block_2(32x32) -> SD Decoder Blocker_1(64x64)

是一個(gè)從64x64?->?8x8?->?64x64的過(guò)程，具體為啥，得等我撕完controlnet的論文?；氐竭^(guò)程圖中，我們可以看到denoising step則是在Latent Space的左下角進(jìn)行了一個(gè)循環(huán)，這里與上面的流程一直。

最終通過(guò)VAE的decoder D，輸出圖片從零開(kāi)始的stable diffusion,stable diffusion,人工智能

最終的公式如下：

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

結(jié)合上面的圖看，基本還是比較清晰的，不過(guò)這個(gè):=和從零開(kāi)始的stable diffusion,stable diffusion,人工智能代表了啥就不是很清楚了。結(jié)合python代碼看流程更清晰~刪掉了部分代碼，只留下了關(guān)鍵的調(diào)用。

pipe = StableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16
)
vae = AutoencoderKL.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="vae")
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14")
unet = UNet2DConditionModel.from_pretrained(
    "CompVis/stable-diffusion-v1-4", subfolder="unet"
)
scheduler = LMSDiscreteScheduler.from_pretrained(
    "CompVis/stable-diffusion-v1-4", subfolder="scheduler"
)
prompt = ["a photograph of an astronaut riding a horse"]
generator = torch.manual_seed(32)
text_input = tokenizer(
    prompt,
    padding="max_length",
    max_length=tokenizer.model_max_length,
    truncation=True,
    return_tensors="pt",
)
with torch.no_grad():
    text_embeddings = text_encoder(text_input.input_ids.to(torch_device))[0]
max_length = text_input.input_ids.shape[-1]
uncond_input = tokenizer(
    [""] * batch_size, padding="max_length", max_length=max_length, return_tensors="pt"
)
with torch.no_grad():
    uncond_embeddings = text_encoder(uncond_input.input_ids.to(torch_device))[0]
text_embeddings = torch.cat([uncond_embeddings, text_embeddings])
latents = torch.randn(
    (batch_size, unet.in_channels, height // 8, width // 8), generator=generator
)
scheduler.set_timesteps(num_inference_steps)
latents = latents * scheduler.init_noise_sigma


for t in tqdm(scheduler.timesteps):
    latent_model_input = torch.cat([latents] * 2)
    latent_model_input = scheduler.scale_model_input(latent_model_input, t)
    with torch.no_grad():
        noise_pred = unet(
            latent_model_input, t, encoder_hidden_states=text_embeddings
        ).sample
    noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
    noise_pred = noise_pred_uncond + guidance_scale * (
        noise_pred_text - noise_pred_uncond
    )


    latents = scheduler.step(noise_pred, t, latents).prev_sample


latents = 1 / 0.18215 * latents


with torch.no_grad():
    image = vae.decode(latents).sample

還是很貼合圖中流程的。
在代碼中有一個(gè)Scheduler，其實(shí)就是noising的執(zhí)行器，它主要控制每一步noising的強(qiáng)度。
由Scheduler不斷加噪，然后noise predictor進(jìn)行預(yù)測(cè)減噪。
具體可以看Stable Diffusion Samplers: A Comprehensive Guide（地址：https://stable-diffusion-art.com/samplers/）

?? Img2Img

這個(gè)其實(shí)在上面的流程圖中已經(jīng)解釋了。這里把步驟列一下：

輸入的image，通過(guò)VAE的encoder變成latent space representation
往里面加noise，總共加T個(gè)noise，noise的強(qiáng)度由Denoising strength控制。noise其實(shí)沒(méi)有循環(huán)加的過(guò)程，就是不斷疊同一個(gè)noise T次，所以可以一次計(jì)算完成。
noisy image和text prompt作為輸入，由noise predictor U-Net預(yù)測(cè)一個(gè)新的noise
noisy image減去預(yù)測(cè)的noise
重復(fù)3~4 step次
通過(guò)VAE的decoder將latent representation轉(zhuǎn)變成image

?? Inpainting

基于上面的原理，Inpainting就很簡(jiǎn)單了，noise只加到inpaint的部分。其他和Img2Img一樣。相當(dāng)于只生成inpaint的部分。所以我們也經(jīng)常發(fā)現(xiàn)inpaint的邊緣經(jīng)常無(wú)法非常平滑~如果能接受圖片的細(xì)微變化，可以調(diào)低Denoising strength，將inpaint的結(jié)果，再進(jìn)行一次img2img

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

Stable Diffusion v1 vs v2

v2開(kāi)始CLIP的部分用了OpenClip。導(dǎo)致生成的控制變得非常的難。OpenAI的CLIP雖然訓(xùn)練集更小，參數(shù)也更少。(OpenClip是ViT-L/14 CLIP的5倍大小)。但似乎ViT-L/14的訓(xùn)練集更好一些，有更多針對(duì)藝術(shù)和名人照片的部分，所以輸出的結(jié)果通常會(huì)更好。導(dǎo)致v2基本沒(méi)用起來(lái)。不過(guò)現(xiàn)在沒(méi)事了，SDXL橫空出世。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

SDXL model

SDXL模型的參數(shù)達(dá)到了66億，而v1.5只有9.8億

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

由一個(gè)Base model和Refiner model組成。Base model負(fù)責(zé)生成，而Refiner則負(fù)責(zé)加細(xì)節(jié)完善?？梢灾贿\(yùn)行Base model。但類似人臉眼睛模糊之類的問(wèn)題還是需要Refiner解決。

SDXL的主要變動(dòng)：

text encoder組合了OpenClip和ViT-G/14。畢竟OpenClip是可訓(xùn)練的。
訓(xùn)練用的圖片可以小于256x256，增加了39%的訓(xùn)練集
U-Net的部分比v1.5大了3倍
默認(rèn)輸出就是1024x1024

展示下對(duì)比效果：

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

從目前來(lái)看，有朝一日SDXL遲早替代v1.5。從效果來(lái)說(shuō)v2.1確實(shí)被時(shí)代淘汰了。

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

Stable Diffusion的一些常見(jiàn)問(wèn)題

???臉部細(xì)節(jié)不足，比如說(shuō)眼部模糊

可以通過(guò)VAE files進(jìn)行修復(fù)~有點(diǎn)像SDXL的Refiner

???多指、少指

這個(gè)看起來(lái)是一個(gè)無(wú)解的問(wèn)題。Andrew給出的建議是加prompt比如說(shuō)beautiful hands和detailed fingers，期望其中有部分圖片滿足要求?；蛘哂胕npaint。反復(fù)重新生成手部。（這個(gè)時(shí)候可以用相同的prompt。）

從零開(kāi)始的stable diffusion,stable diffusion,人工智能

團(tuán)隊(duì)介紹

我們是淘天集團(tuán)-場(chǎng)景智能技術(shù)團(tuán)隊(duì)，作為一支專注于通過(guò)AI和3D技術(shù)驅(qū)動(dòng)商業(yè)創(chuàng)新的技術(shù)團(tuán)隊(duì), 依托大淘寶豐富的業(yè)務(wù)形態(tài)和海量的用戶、數(shù)據(jù), 致力于為消費(fèi)者提供創(chuàng)新的場(chǎng)景化導(dǎo)購(gòu)體驗(yàn), 為商家提供高效的場(chǎng)景化內(nèi)容創(chuàng)作工具, 為淘寶打造圍繞家的場(chǎng)景的第一消費(fèi)入口。我們不斷探索并實(shí)踐新的技術(shù), 通過(guò)持續(xù)的技術(shù)創(chuàng)新和突破，創(chuàng)新用戶導(dǎo)購(gòu)體驗(yàn), 提升商家內(nèi)容生產(chǎn)力, 讓用戶享受更好的消費(fèi)體驗(yàn), 讓商家更高效、低成本地經(jīng)營(yíng)。

¤?拓展閱讀?¤

3DXR技術(shù)?|?終端技術(shù)?|?音視頻技術(shù)

服務(wù)端技術(shù)?|?技術(shù)質(zhì)量?|?數(shù)據(jù)算法文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-725246.html

到了這里，關(guān)于從零開(kāi)始的stable diffusion的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

人工智能實(shí)戰(zhàn)：Stable Diffusion技術(shù)分享
背景 Stable Diffusion是計(jì)算機(jī)圖形學(xué)和可視化領(lǐng)域中的一項(xiàng)重要技術(shù)。在這篇分享中，我們將深入探討穩(wěn)定擴(kuò)散的原理、關(guān)鍵要素和實(shí)施步驟，通過(guò)了解Stable Diffusion的流程化，我們可以提升自身的設(shè)計(jì)能力和創(chuàng)造力，為公司和個(gè)人注入更多的價(jià)值和創(chuàng)意。美術(shù)制定美術(shù)風(fēng)
2024年01月19日
瀏覽(16)
【人工智能·Stable-Diffusion】如何體驗(yàn)到 Stable-Diffusion
帶大家快速體驗(yàn)到AI圖片生成 Stable-Diffusion，包含 win本地部署參考和云GPU服務(wù)器體驗(yàn) 。 Stable Diffusion 是一種通過(guò)文字描述創(chuàng)造出圖像的 AI 模型. 它是一個(gè)開(kāi)源軟件, 使得新手可以在線嘗試。 Stable Diffusion 的算法需要計(jì)算機(jī)有較強(qiáng)的算力，默認(rèn)是需要配置有英偉達(dá)的獨(dú)立顯卡的
2024年02月11日
瀏覽(27)
神奇的人工智能之神筆馬良|Stable Diffusion使用
1，月球上騎馬的宇航員。 image generate by stable-diffusion model 2，下棋的狗 image generate by stable-diffusion model 3，沉迷學(xué)習(xí)的史努比 image generate by stable-diffusion model 4，鯉魚(yú)躍出海面
2024年02月09日
瀏覽(28)
人工智能AI系列 - java 版的stable diffusion 圖像生成
圖像生成文生圖：輸入提示詞（僅支持英文），生成圖片（僅支持英文） GPU版本 StableDiffusionGPU.java CPU版本 StableDiffusionCPU.java 圖生圖：根據(jù)圖片及提示詞（僅支持英文）生成圖片 GPU版本 Img2ImgStableDiffusionGPU.java 顯卡CUDA：11.7版本參考測(cè)試數(shù)據(jù)：分辨率 512*512 25步 CPU(i5處理器
2024年02月09日
瀏覽(56)
陶哲軒也在用的人工智能數(shù)學(xué)證明驗(yàn)證工具lean [線性代數(shù)篇1]從零開(kāi)始證明矩陣的逆
我還做了一個(gè)視頻專門講解哦，有空支持一下點(diǎn)個(gè)贊：陶哲軒也在用的人工智能數(shù)學(xué)證明驗(yàn)證工具lean [線性代數(shù)篇1]從零開(kāi)始證明矩陣的逆_嗶哩嗶哩_bilibili import Paperproof import Mathlib.LinearAlgebra.Matrix.Adjugate import Mathlib.Data.Real.Sqrt -- set_option trace.Meta.synthInstance true -- 要解釋每一個(gè)
2024年02月03日
瀏覽(31)
AI創(chuàng)作教程之 Stable Diffusion 為何是人工智能新時(shí)代藝術(shù)創(chuàng)作的基石
我們的人腦在當(dāng)今人類產(chǎn)生的技術(shù)進(jìn)步中發(fā)揮著最大的作用。在這種智能的基礎(chǔ)上，人類創(chuàng)造了各種各樣的產(chǎn)品，但不必說(shuō)每一個(gè)都改變了人類生活的本質(zhì)。隨著模型權(quán)重的公開(kāi)發(fā)布以保持穩(wěn)定性，世界將發(fā)生巨大變化。AI穩(wěn)定擴(kuò)散文本到圖像引擎。有了這個(gè)，任何人都可以
2024年02月15日
瀏覽(27)
如何在Mac、Windows和Docker上本地電腦上搭建AI人工智能繪畫工具Stable Diffusion
微信公眾號(hào)：運(yùn)維開(kāi)發(fā)故事，作者：double冬目前，有諸如Midjourney等人工智能繪畫網(wǎng)站可供大家來(lái)免費(fèi)使用，但是由于是免費(fèi)資源肯定會(huì)在機(jī)器性能和使用次數(shù)方面有所限制，因此如果能將人工智能繪畫工具部署在本地運(yùn)行就會(huì)突破機(jī)器性能和使用次數(shù)等方面的限制?？赡芩?/p>
2024年02月13日
瀏覽(28)
TPU編程競(jìng)賽｜Stable Diffusion大模型巔峰對(duì)決，第五屆全球校園人工智能算法精英賽正式啟動(dòng)！
目錄賽題介紹賽題背景賽題任務(wù) 賽程安排評(píng)分機(jī)制獎(jiǎng)項(xiàng)設(shè)置 ????????近日，2023第五屆全球校園人工智能算法精英賽正式開(kāi)啟報(bào)名。作為賽題合作方，算豐承辦了“算法專項(xiàng)賽”賽道，提供賽題「面向Stable Diffusion的圖像提示語(yǔ)優(yōu)化」，同時(shí)為參賽選手提供了豐富的云
2024年02月08日
瀏覽(21)
從零開(kāi)始的stable diffusion
stable diffusion真的是橫空出世，開(kāi)啟了AIGC的元年。不知你是否有和我一樣的困惑，這AI工具好像并不是那么聽(tīng)話？前言我們?cè)撊绾尾拍苡煤胹table diffusion這個(gè)工具呢？AI究竟在stable diffusion中承擔(dān)了什么樣的角色？如何能盡可能快、成本低地得到我們期望的結(jié)果？源于這一系列
2024年02月07日
瀏覽(13)
Stable Diffusion現(xiàn)代人工智能藝術(shù)成功背后的物理學(xué)原理,破譯用于文本到圖像生成的著名 AI 模型與物理學(xué)中觀察到的過(guò)程之間的聯(lián)系
毫不奇怪地否認(rèn)本文的許多內(nèi)容是使用人工智能生成的，當(dāng)然包括描繪當(dāng)今數(shù)字藝術(shù)最大趨勢(shì)之一的圖像。雖然最近幾天迅速傳播并融入我們對(duì)話中的一些最新語(yǔ)言模型不一定適合圖像生成，但本文旨在關(guān)注文本到圖像 AI，特別是著名的系統(tǒng)“穩(wěn)定擴(kuò)散” ”。創(chuàng)意工具市場(chǎng)
2024年02月11日
瀏覽(42)

<mark id="atihq"></mark>