1. 前言
stable_diffusion來了,這個號稱是最強的文本生成圖片的模型它來了,相比較DAEE等大模型,它能夠讓我們消費級的顯卡也能夠?qū)崿F(xiàn)文本到圖像的生成。下面,我們也來試一下。
2. 準備過程
該服務器上必須要有的基礎工具anaconda,wget,git和yum。令我吃驚的是,當我看到wget和yum互為前提的安裝時,我頭都大了。后來使用curl代替wget解決了yum的安裝問題。
3. 執(zhí)行過程
由于有官方詳盡的介紹,因此很容易完成項目的搭建。
-
按照官方的地址,我們下載完源碼。它是基于latent-diffusion而做的。
-
創(chuàng)建環(huán)境
conda env create -f environment.yaml
conda activate ldm
需要注意的是,里面有兩個github的包,可以從github上下載后,放到src下,使用python進行安裝,具體可以參考知乎。 -
額外注意的有以下3個部分:
(1)該項目至少要在torch>=1.9.0以上的環(huán)境中運行,否則會報錯AttributeError: module 'torch' has no attribute 'inference_mode'
。
(2)當遇到ImportError: cannot import name 'autocast' from 'torch' (/root/anaconda3/envs/ldm/lib/python3.8/site-packages/torch/__init__.py)
問題時,需要注釋掉txt2img.py里的import autocast(第14行)以及使用autocast的那一行(第280行),
(3)還有需要注意的是,如果遇到的問題是AttributeError:module ‘distutils’ has no attribute 'version
,那么需要安裝低版本:pip uninstall setuptools
pip install setuptools==59.5.0 //需要比你之前的低
4. 實驗效果
今天是中秋節(jié),我本想使用“海上生明月,天涯共此時”來進行生成,但是很難搞定。只好使用如此笨拙的方式進行生成,還是第一次使用,沒有掌握到prompt的精髓,大家可以加以改進。
python scripts/txt2img.py --prompt "There is a bright moon on the sea, and there is a big ship. There are many people on the ship. People look up at the direction of the moon." --plms --outdir ./Workspace --ckpt ./models/ldm/sd-v1-4.ckpt --ddim_steps 100 --H 512 --W 512 --seed 8
5. 后記
關(guān)于prompt的使用,需要盡可能的詳細描述整個場景,用精準而非通俗的英語單詞更能夠讓畫面具有精致的美感。
當然stable diffusion仍然是有很大的缺陷的,例如,對于整體文化上偏向于西方的表達方式,物體的表現(xiàn)缺少事實性和一致性(一幅圖里會有許多個月亮,這是事實性錯誤),對于人物的細節(jié)缺少精準的控制。在即將發(fā)布的1.5的模型里對于人物的臉部進行了更精致的表現(xiàn),但是仍然對于手部細節(jié)還需要加強。大家可以看一下1.5和1.4版本模型的對比。
幸運的是,相比較latent diffusion,stable diffusion增加了安全檢查操作,因此不會出現(xiàn)太離譜的圖片了。文章來源:http://www.zghlxwxcb.cn/news/detail-526955.html
今天就是中秋節(jié)了,祝大家中秋快樂!也祝各位老師,教師節(jié)快樂!文章來源地址http://www.zghlxwxcb.cn/news/detail-526955.html
到了這里,關(guān)于AI作畫飛入尋常百姓家——stable diffusion初體驗的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!