前言
AnimateDiff 是一個實用框架,可以對文本生成圖像模型進(jìn)行動畫處理,無需進(jìn)行特定模型調(diào)整,即可為大多數(shù)現(xiàn)有的個性化文本轉(zhuǎn)圖像模型提供動畫化能力。而Animatediff 已更新至 2.0 版本和3.0兩個版本,相較于 1.0 版本,2.0和3.0版本主要新增了三個插件功能:Lora、ControlNet 和 Prompt travel。Lora,官方新增了 8 個運動模型,使我們能夠自由控制動畫畫面的走向。Prompt travel,可以在提示詞中指定第幾幀以及指定何種動作或畫面,可以通過提示詞實現(xiàn)動態(tài)控制動畫。
感興趣可加入:566929147 企鵝群一起學(xué)習(xí)討論
算法簡介
AnimateDiff 提出了一種創(chuàng)新的方法來解決個性化 Text to Video 的挑戰(zhàn)。其核心原理是將一個新初始化的運動建模模塊附加到凍結(jié)的基于文本到圖像的模型上,并在接下來的視頻剪輯中對其進(jìn)行訓(xùn)練,以提煉出合理的運動先驗知識。一旦訓(xùn)練完成,通過簡單地注入這個運動建模模塊,所有從相同基礎(chǔ)模型派生的個性化版本都可以立即成為以文本驅(qū)動的模型,從而能夠生成多樣化和個性化的動畫圖像。
這一方法的創(chuàng)新之處在于它擺脫了傳統(tǒng)方法中對于敏感超參數(shù)調(diào)整、大量個性化視頻數(shù)據(jù)集收集以及密集的計算資源的依賴,使得普通用戶也能夠參與到個性化 Text to Video 的工作中。通過將運動建模模塊與基礎(chǔ)模型結(jié)合,AnimateDiff 實現(xiàn)了一種更加簡潔高效的個性化動畫生成方式,為用戶提供了更多選擇和可能性。
通過實驗證明,運動先驗可以推廣到 3D 動畫片和 2D 動漫等領(lǐng)域,這意味著 AnimateDiff 能夠為個性化動畫提供一個簡單而有效的基線。用戶只需承擔(dān)個性化圖像模型的成本,就能夠快速獲得自然的個性化動畫。以下是官方提供的一些優(yōu)秀作品效果:
這些作品展示了 AnimateDiff 的強大功能和廣泛適用性,為用戶提供了一個簡便而有效的個性化動畫生成方案。
Stable Diffusion Webui安裝
插件從網(wǎng)址安裝:https://github.com/continue-revolution/sd-webui-animatediff ,擊安裝即可,等待安裝完畢,重啟一下SD UI界面。
然后從:https://huggingface.co/guoyww/animatediff/tree/main 里下載專用的運動模型和Lora模型。下載之后需要放置在對應(yīng)的位置。
運動模型放在stable-diffusion-webui\extensions\sd-webui-animatediff\model里面,運動lora放在stable-diffusion-webui\models\Lora里面。
根據(jù) Lora 的命名可以大概看出它們的功能:
- 向上運動(Up)
- 向下運動(Down)
- 向左運動(Left)
- 向右運動(Right)
- 拉遠(yuǎn)運動(Zoom Out)
- 拉近運動(Zoom In)
- 順時針旋轉(zhuǎn)(Clockwise)
- 逆時針旋轉(zhuǎn)(Counter Clockwise)
這些 Lora 可以通過添加對應(yīng)的 Lora 來控制生成的動畫在空間中的運動方向和旋轉(zhuǎn)方向。
在 animatediff 插件頁面的配置參數(shù)中:
- 動畫模型:選擇最新的 V2 版本。
- 總幀數(shù):指定動畫總共包含的畫面數(shù)量。
- 幀率:指定每秒的幀數(shù)。例如,如果總幀數(shù)設(shè)置為 16,幀率設(shè)置為 8,則單個動畫的播放時長為 2 秒。
- 顯示循環(huán)數(shù)量:指定動畫循環(huán)播放的次數(shù),0 代表一直重復(fù)播放。
- 閉環(huán):勾選此選項,使得動畫的第一幀和最后一幀形成循環(huán)。
- 上下文單批數(shù):與總幀數(shù)保持一致即可。
- 保存:選擇輸出動畫的格式,可以多選。
插件使用
實現(xiàn)一個最基礎(chǔ)的動畫
1girl,night city,rain,coat,hands in pockets,best quality,masterpiece,HDR,UHD,8K,Highly detailed,simple background,
Negative prompt: (worst quality:1.6),(low quality:1.6),EasyNegative,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 601405023, Size: 512x512, Model hash: 876b4c7ba5, Model: cetusMix_Whalefall2, VAE hash: 63aeecb90f, VAE: vae-ft-mse-840000-ema-pruned.safetensors, Clip skip: 2, Version: v1.6.0
使用Lora
對于添加一個鏡頭往左移動的 Lora “l(fā)ora:v2_lora_PanLeft:0.8”,它的使用方式與普通的 Lora 是一樣的??梢钥吹疆嬅嫱笠苿拥姆认喈?dāng)大。通過調(diào)整 Lora 的權(quán)重,可以實現(xiàn)不同幅度的移動。權(quán)重越高,移動的幅度越大。
在這個例子中,權(quán)重為 0.8,表示移動的幅度較大。如果希望移動的幅度更小,可以降低權(quán)重;如果希望移動的幅度更大,可以增加權(quán)重。這樣就可以根據(jù)具體需求調(diào)整鏡頭移動的幅度。
1girl,night city,rain,coat,hands in pockets,best quality,masterpiece,HDR,UHD,8K,Highly detailed,simple background,lora:v2_lora_PanLeft:0.8,
Negative prompt: (worst quality:1.6),(low quality:1.6),EasyNegative,
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 601405027, Size: 512x512, Model hash: 876b4c7ba5, Model: cetusMix_Whalefall2, VAE hash: 63aeecb90f, VAE: vae-ft-mse-840000-ema-pruned.safetensors, Clip skip: 2, Lora hashes: “v2_lora_PanLeft: ed79025f8bea”, TI hashes: “EasyNegative: c74b4e810b03”, Version: v1.6.0
Prompt travel
“Prompt travel” 是一個需要安裝 ControlNet 的功能。它允許用戶在描述人物或場景的提示詞中指定不同幀數(shù)對應(yīng)的動作或畫面。舉例來說,如果總幀數(shù)只有 8 幀,那么在提示詞中最大只能寫到 7,因為索引從 0 開始,0 對應(yīng)第一幀,7 對應(yīng)第八幀,依此類推。如果不遵循這個規(guī)則,可能會導(dǎo)致錯誤。
提示詞的格式應(yīng)該為:在指定幀數(shù)后面加上冒號和空格,然后描述對應(yīng)的動作或畫面。例如:“0: 人物行走”,表示在第一幀人物行走。
如果發(fā)現(xiàn)功能沒有生效,可能是由于插件之間發(fā)生了沖突??梢試L試禁用除 animatediff 和 ControlNet 之外的其他插件,然后逐個重新啟用,查看是否恢復(fù)了功能。
1girl,best quality,masterpiece,realistic,close-up,simple background,
0: smile
2: open eyes
3: (closed eyes:1.2)
5: open eyes文章來源:http://www.zghlxwxcb.cn/news/detail-837425.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-837425.html
到了這里,關(guān)于Stable Diffusion——Animate Diff一鍵AI圖像轉(zhuǎn)視頻的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!