SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis
論文鏈接
代碼鏈接
介紹
- 背景:Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色,但是仍然需要提高
- 本文提出了SD XL,使用了更大的UNet網(wǎng)絡,以及增加了一個Refinement Model,以進一步提高圖片質(zhì)量。
提高SD的措施
- 用戶偏好調(diào)查比較
可以看到,在不增加Refiner模型的情況下,SD XL的效果已經(jīng)比SD 1.5和2.1好很多了。 - SD XL的模型結(jié)構
可以看到,SD XL由一個SD base模型和一個Refiner模型組成,二者共用一個提示詞輸入,前者的輸出同時也是后者的輸入。Refiner模型其實是一個圖片編輯模型。
-
Architecture & Scale
- transformer block方面,忽略高層級的塊,而使用低層級的2和10特征塊(不懂)
- 使用兩個Text Encoder并將它們的輸出特征拼接到一起
- 額外使用了Pooled text emb作為條件輸入(不懂)
-
Micro-Conditioning
-
Conditioning the Model on Image Size:過去的方法要么選擇忽略小于特定尺寸的圖片,要么選擇放縮圖片,前者忽略了大量的圖片,后者可能造成圖片模糊。SD XL中,將圖片尺寸也當做條件輸入,這樣在推理階段,用戶就可以指定生成圖片的尺寸,如圖5所示。
-
Conditioning the Model on Cropping Parameters
由于SD 1和2系列使用了圖片裁剪的方式進行數(shù)據(jù)增強,導致了生成的圖片中有些物體只展現(xiàn)了一部分,如圖4所示。SD XL通過將左上方 的裁剪坐標當做條件輸入,讓模型學到了裁剪坐標的信息。在推理的過程中,將裁剪坐標條件輸入設置為(0,0)即可輸出物體在圖片中間的圖片。
-
-
Multi-Aspect Training
常見情況下SD模型的輸出是一個方形的圖片,但是在實際應用中,圖片的尺寸比例會有不同的要求。為了適應這一需求,SD XL將訓練圖片按照長寬比劃分為不同的數(shù)據(jù)桶。在訓練過程中,每個batch中的圖片都來自同一個桶,每個訓練步數(shù)中的數(shù)據(jù)在不同桶中之間交替選擇。此外,桶的中數(shù)據(jù)的尺寸也被作為條件輸入。 -
Improved Autoencoder
SD XL重新訓練了一個更大的autoencoder,可以提高生成圖片的局部高頻細節(jié)。從表3中可以看到,使用提升后的autoencoder后,SD XL的重構性能在多個方面都比SD 1和2有所提高。 -
Putting Everything Together
最終的SD XL是使用前面的所有策略共同訓練得到的。
Refinement Stage:使用上述方法訓練的模型有些時候仍然會生成低質(zhì)量的圖片,因此為了提高生成高分辨率的圖片的能力,SD XL使用圖片編輯技術,添加了一個Refiner模型,這個模型是可選的。文章來源:http://www.zghlxwxcb.cn/news/detail-838653.html
未來的工作
作者認為未來還值得研究方向如下:文章來源地址http://www.zghlxwxcb.cn/news/detail-838653.html
- 單階段:SD XL是一個兩階段的模型,時間和空間開銷更大。研究一個同樣效果或更好效果的單階段模型很有必要。
- 文本合成:SD XL中采用了更多和更大的text encoder,也取得了更好的效果。使用byte-level tokenizers [52, 27]或者只是使用更大規(guī)模的文本編碼器是提高SD XL文本處理能力的可能途徑。
- 結(jié)構:作者們嘗試過一些Transformer-based的模型,比如UViT [16] and DiT [33],但是沒有發(fā)現(xiàn)好的效果。然而,作者們?nèi)匀徽J為,Transformer為主的模型是一個方向。(新的Stable Diffusion 3正是采用了DiT [33]的技術,說明作者們堅持的優(yōu)化方向是正確的)
- 蒸餾:使用模型蒸餾技術,減小模型的體積,減少空間和時間開銷。事實上,SD系列一直有蒸餾版本的模型,比如SD XL Turbo。
- SD XL是在離散時間模式下訓練的,需要偏移噪聲預測以生成美觀的圖片。EDM-framework是一個很有潛力的工作,其支持連續(xù)時間,可以提高采樣靈活性而不需要噪音校對。(不是很懂)
其它
- 重要的相關工作
- 圖片編輯模型:SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations
到了這里,關于論文閱讀:SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!