介紹
stbilityai/stable-video-diffusion-img2vid-xt模型,由Stability AI開發(fā)和訓(xùn)練的基于散度的圖像到視頻生成模型。該模型可以接受一張靜態(tài)圖像作為條件,并生成出一個(gè)短視頻。
該模型通過在SVD Image-to-Video [14幀]的基礎(chǔ)上進(jìn)行微調(diào)而來,可以生成576x1024分辨率、25幀長度的視頻。它使用了行業(yè)標(biāo)準(zhǔn)的f8解碼器來實(shí)現(xiàn)視頻的時(shí)間一致性。
優(yōu)缺點(diǎn)
該模型旨在用于研究目的,可以用來研究生成模型、部署安全模型、理解模型的局限性等。它不適合用來生成關(guān)于真實(shí)人物或事件的視頻。
該模型的一些局限包括生成的視頻較短、運(yùn)動不夠自然流暢、無法用文本進(jìn)行控制等。
原理
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
Stable Video Diffusion(穩(wěn)定視頻擴(kuò)散),這是一種用于高分辨率、最先進(jìn)的文本到視頻和圖像到視頻合成的潛在視頻擴(kuò)散模型。
為構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集,作者進(jìn)行了系統(tǒng)的數(shù)據(jù)選擇和縮放研究,并提出了一種策略來整理海量視頻數(shù)據(jù),將大量嘈雜的視頻集合轉(zhuǎn)化為適合生成式視頻建模的數(shù)據(jù)集。
作者還引入了視頻模型訓(xùn)練的三個(gè)不同階段,并分別分析了它們對最終模型性能的影響。這三個(gè)階段是:圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和視頻微調(diào)。
Stable Video Diffusion提供了一個(gè)強(qiáng)大的視頻表示,作者通過在該模型的基礎(chǔ)上進(jìn)行微調(diào),得到了最先進(jìn)的圖像到視頻合成模型和其他高相關(guān)應(yīng)用,如用于相機(jī)控制的LoRAs。
最后,作者進(jìn)行了視頻擴(kuò)散模型的多視圖微調(diào)的開創(chuàng)性研究,表明Stable Video Diffusion構(gòu)成了一個(gè)強(qiáng)大的3D先驗(yàn)知識,在多視圖合成中取得了最先進(jìn)的結(jié)果,而其計(jì)算量只是之前方法的一小部分。
安裝
https://github.com/Stability-AI/generative-models
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
先決條件:
- 確保您的系統(tǒng)上安裝了 Python。推薦使用 Python 3.10 或更高版本。
- 根據(jù)模型要求,您可能需要一臺配備合適 GPU 的機(jī)器進(jìn)行模型推理。
克隆倉庫
使用 Git 從 GitHub 克隆倉庫。
git clone https://github.com/Stability-AI/generative-models.git
導(dǎo)航到倉庫目錄
克隆后,導(dǎo)航到克隆的倉庫目錄。文章來源:http://www.zghlxwxcb.cn/news/detail-832107.html
cd generative-models
創(chuàng)建并激活Python虛擬環(huán)境文章來源地址http://www.zghlxwxcb.cn/news/detail-832107.html
conda create --name svd python=3.10 -y
conda activate svd
pip3 install -r requirements/pt2.txt
pip3 install .
cd generative-models
streamlit run scripts/demo/video_sampling.py --server.address 0.0.0.0 --server.port 7862
到了這里,關(guān)于AI視頻-stable-video-diffusio介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!