1 基本框架
- ?①:文字變成向量
- ?②:喂入噪聲+文字encoder,產(chǎn)生中間產(chǎn)物
- ?③:decoder 還原圖片
2? text encoder
?這張圖越往右下表示效果越好,可以看到text encoder尺寸越大,對(duì)后續(xù)生成圖片的增益越多
3 評(píng)價(jià)圖片生成好壞的標(biāo)準(zhǔn)
3.1 FID
- ?現(xiàn)有一個(gè)訓(xùn)練好的CNN 模型,可以生成真實(shí)影像和生成圖像的representation
- 這兩組表征的分布越近,效果越好
- ——>我們sample 一堆圖片,然后生成一組同語義的圖片,計(jì)算他們分布的distance
3.2? CLIP
- ?如果圖片和文字是成對(duì)的,那么他們的representation越近表示生成的圖片效果越好
4 decoder
?文章來源地址http://www.zghlxwxcb.cn/news/detail-646148.html
- 訓(xùn)練一個(gè)auoto encoder
- 訓(xùn)練完把decoder拿出來用即可
5 噪聲加的位置
- 之前defusion model 中,noise是加在圖片上
- 但現(xiàn)在產(chǎn)生的東西已經(jīng)不是圖片了
- ——>noise 加在中間產(chǎn)物上
大體上和diffusion model 類似,這里就是最后多接一個(gè)decoder,將中間產(chǎn)物變成圖片文章來源:http://www.zghlxwxcb.cn/news/detail-646148.html
?
到了這里,關(guān)于機(jī)器學(xué)習(xí)筆記:李宏毅 stable diffusion的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!