?前言
Animatediff是一個有效的框架將文本到圖像模型擴展到動畫生成器中,無需針對特定模型進行調(diào)整。只要在大型視頻數(shù)據(jù)集中學習到運動先驗知識。AnimateDiff就可以插入到個性化的文生圖模型中,與Civitai和Huggingface的文生圖模型兼容,也可以與自己微調(diào)的大模型兼容。
摘要?
?隨著文本到圖像模型(例如,Stable Diffusion [22])和相應的個性化技術的進步DreamBooth [24] 和 LoRA [13] 等產(chǎn)品,每個人都可以以可承受的成本將他們的想象力體現(xiàn)成高質(zhì)量的圖像。因此,對圖像動畫技術的需求很大,可以進一步將生成的靜態(tài)圖像與運動動態(tài)相結(jié)合。在本報告中,我們提出了一個實用的框架,可以一勞永逸地為大多數(shù)現(xiàn)有的個性化文本到圖像模型制作動畫,從而節(jié)省特定于模型的調(diào)整工作。所提出的框架的核心是將新初始化的運動建模模塊插入到凍結(jié)的文本到圖像模型中,并在視頻剪輯上對其進行訓練,以提煉出合理的運動先驗。經(jīng)過訓練后,只需注入此運動建模模塊,從同一基礎 T2I 派生的所有個性化版本都很容易成為文本驅(qū)動的模型,從而生成多樣化和個性化的動畫圖像。我們對動漫圖片和逼真照片中的幾個具有公共代表性的個性化文本到圖像模型進行了評估,并證明了我們提出的框架有助于這些模型生成時間平滑的動畫剪輯,同時保留其輸出的域和多樣性。代碼和預訓練權(quán)重將在我們的項目頁面上公開提供。
引言?
?文本生成圖像領域廣受關注,幾種輕量級個性化方法,如DreamBooth [24]和LoRA [13],以使用消費級設備(如帶有RTX3080的筆記本電腦)在小型數(shù)據(jù)集上對這些模型進行定制微調(diào),然后這些模型可以生成質(zhì)量顯著提高的定制內(nèi)容。通過這種方式,用戶可以以非常低的成本將新概念或風格引入預訓練的 T2I 模型,從而產(chǎn)生藝術家和業(yè)余愛好者在模型共享平臺(如 CivitAI [4] 和 Huggingface [8] )上貢獻的眾多個性化模型。
文生圖質(zhì)量很高,但都是靜態(tài)圖像,缺乏時間自由度。最近的通用文本到視頻生成方法[7,12,33]建議將時間建模合并到原始T2I模型中,并在視頻數(shù)據(jù)集上調(diào)整模型。然而,個性化 T2I 模型變得具有挑戰(zhàn)性,因為用戶通常負擔不起敏感的超參數(shù)調(diào)整、個性化視頻收集和密集的計算資源。
本文的做法將運動建模模塊引入到基礎T2I模型中,然后對大型視頻剪輯[1]進行微調(diào),學習合理的運動先驗。值得注意的是,基本模型的參數(shù)保持不變。經(jīng)過微調(diào)后,我們證明了派生的個性化 T2I 也可以從學習良好的運動先驗中受益,從而產(chǎn)生流暢且吸引人的動畫。也就是說,運動建模模塊設法為所有相應的個性化 T2I 模型制作動畫,而無需進一步收集數(shù)據(jù)或進行自定義訓練。
相關工作?
?文生圖模型
- GLIDE[17]將文本條件引入擴散模型,并證明分類器引導產(chǎn)生更令人愉悅的結(jié)果
- DALLE-2 [21] 通過 CLIP [19] 聯(lián)合特征空間改進了文本-圖像對齊
- Imagen[25]結(jié)合了在文本語料庫上預訓練的大型語言模型[20]和級聯(lián)擴散模型,以實現(xiàn)逼真的圖像生成。
- Stable Diffusion[22],即穩(wěn)定擴散,提出在自動編碼器的潛在空間中執(zhí)行去噪過程,有效地減少所需的計算資源,同時保持生成圖像的質(zhì)量和靈活性。
個性化的文生動畫?
?????????現(xiàn)有工作[7,12,15,28,31,33]更新了網(wǎng)絡中的全部參數(shù),損害了原始T2I模型的領域知識。
- ?Tune-a-Video [31] 通過輕微的架構(gòu)修改和子網(wǎng)調(diào)優(yōu)解決了一次性視頻生成任務。
- ?Text2Video-Zero [15] 引入了一種免訓練方法,在給定預定義的仿射矩陣的情況下,通過潛在包裝對預訓練的 T2I 模型進行動畫處理。
- Align-Your-Latents [3],這是一種文本到視頻 (T2V) 模型,可在 T2I 模型中訓練單獨的時間層。
方法
預備知識?
文生圖生成器?
?SD基于潛在擴散模型(LDM)[22],該模型在自動編碼器的潛在空間(即E(·)和D(·))中執(zhí)行去噪過程,在大型圖像數(shù)據(jù)集上預先訓練為VQ-GAN [14]或VQ-VAE [29]。這種設計在降低計算成本的同時保持高視覺質(zhì)量方面具有優(yōu)勢。在潛伏擴散網(wǎng)絡的訓練過程中,輸入圖像最初由凍結(jié)編碼器映射到潛伏空間,產(chǎn)生,然后被預定義的馬爾可夫過程擾動:
?
對于時間t=1,...,T,T表示前向擴散過程的步數(shù)。超參數(shù)決定了每一步的噪聲強度 ,上述的迭代公式可以被簡化為下面這個式子,
.Stable Diffusion?采用DDPM[5]中提出的訓練目標函數(shù).
?y是對應的文字描述,是將字符串映射到向量序列的文本編碼器。
在SD中,使用一個UNet變體實現(xiàn)的[23],包括四個上采樣/下采樣模塊和一個中間模塊,使?jié)撛诳臻g發(fā)生四個分辨率級別的變化。每個分辨率級別都集成了2D卷積層以及自注意力和交叉注意力機制。文本模型是使用CLIP [19] ViT-L/14文本編碼器實現(xiàn)的。
個性化圖像生成?
?隨著時代進程的不斷推進,個性化圖像生成越來越受到重視。DreamBooth [24] 和 LoRA [13] 是兩種具有代表性且廣泛使用的個性化方法。要引入新域(新概念、風格等)對于預先訓練的 T2I 模型,一種簡單的方法是在該特定領域的圖像上對其進行微調(diào)。但是,在沒有正則化的情況下直接調(diào)整模型通常會導致過度擬合或災難性遺忘,尤其是當數(shù)據(jù)集較小時。為了克服這個問題,DreamBooth[24]使用一個罕見的字符串作為指示器來表示目標域,并通過添加原始T2I模型生成的圖像來增強數(shù)據(jù)集。這些正則化圖像是在沒有指示器的情況下生成的,因此允許模型在微調(diào)期間學習將稀有字符串與預期域相關聯(lián)。
另一方面,LoRA [13] 采用了一種不同的方法,試圖微調(diào)模型權(quán)重的殘差,即訓練 ?W 而不是 W 。微調(diào)后的權(quán)重計算為 W’ = W + α?W ,其中 α 是一個超參數(shù),用于調(diào)整調(diào)整過程的影響,從而為用戶提供更大的自由度來控制生成的結(jié)果。為了進一步避免過擬合并降低計算成本,?W ∈ 分解為兩個低秩矩陣,即?W = ,其中A∈,B∈,r?m,n。在實踐中, 僅對transformer模塊中的投影矩陣進行微調(diào), 進一步降低了 LoRA 模型的訓練和存儲成本.與訓練后存儲整個模型參數(shù)的 DreamBooth 相比,LoRA 模型在訓練和用戶之間共享的效率要高得多。
?
?個性化動畫
對個性化圖像模型進行動畫處理通常需要對相應的視頻集進行額外調(diào)整,?使其更具挑戰(zhàn)性。在本節(jié)中,我們以個性化動畫為目標,其正式表述為:給定一個個性化的 T2I 模式,例如,由用戶訓練或從 CivitAI [4] 或 Huggingface [8] 下載的 DreamBooth [24] 或 LoRA [13] 檢查點),目標是將其轉(zhuǎn)換為動畫生成器,只需很少或沒有培訓成本,同時保留其原始領域知識和質(zhì)量。例如,假設 T2I 模型針對特定的 2D 動漫風格進行了個性化設置。在這種情況下,相應的動畫生成器應該能夠生成具有適當動作的該風格的動畫剪輯,例如前景/背景分割、角色身體運動等。
為了實現(xiàn)這一點,一種樸素的方法是通過添加時間感知結(jié)構(gòu)并從大規(guī)模視頻數(shù)據(jù)集中學習合理的運動先驗來膨脹T2I模型[7,12,33]。但是,對于個性化域,收集足夠的個性化視頻成本很高。同時,有限的數(shù)據(jù)將導致源域的知識流失。因此,我們選擇單獨訓練一個可泛化的運動建模模塊,并在推理時將其插入到個性化的 T2I 中。通過這樣做,我們避免了對每個個性化模型的特定調(diào)整,并通過保持預先訓練的權(quán)重不變來保留他們的知識。這種方法的另一個關鍵優(yōu)點是,一旦模塊被訓練,它就可以插入到同一基礎模型上的任何個性化 T2I 中,而無需進行特定的調(diào)整,正如以下實驗所驗證的那樣。這是因為個性化過程幾乎沒有修改基礎 T2I 模型的特征空間,這也是Controlnet采用的方法。
運動模塊的詳細信息。模塊插入(左):我們的運動模塊插入到預訓練的圖像層之間。當數(shù)據(jù)批處理通過圖像層和我們的運動模塊時,其時間和空間軸將分別重塑為批處理軸。模塊設計(右):我們的模塊是一個普通的臨時轉(zhuǎn)換器,具有零初始化的輸出項目層。
?運動建模模塊
?網(wǎng)絡膨脹。由于原始標清只能批量處理圖像數(shù)據(jù),因此需要模型膨脹以使其與我們的運動建模模塊兼容,該模塊采用 5D 視頻張量批量×通道形狀的×幀數(shù)×高度×寬度作為輸入。為了實現(xiàn)這一點,我們采用了類似于視頻擴散模型[12]的解決方案。具體來說,我們通過將幀數(shù)軸重塑為批處理軸并允許網(wǎng)絡獨立處理每一幀,將原始圖像模型中的每個 2D 卷積和注意力層轉(zhuǎn)換為空間偽 3D 層。與上述不同的是,我們新插入的運動模塊在每批中跨幀操作,以實現(xiàn)動畫剪輯中的運動流暢性和內(nèi)容一致性。
模塊設計。對于運動建模模塊的網(wǎng)絡設計,我們的目標是實現(xiàn)跨幀的高效信息交換。為了實現(xiàn)這一點,我們選擇了普通的時態(tài)變壓器作為運動模塊的設計。值得注意的是,我們還對運動模塊的其他網(wǎng)絡設計進行了實驗,發(fā)現(xiàn)普通時間變換器足以對運動先驗進行建模。我們將尋找更好的運動模塊留給未來的工作。
原版時間transformer由幾個沿時間軸操作的自注意力塊組成。當通過我們的運動模塊時,特征圖z的空間維度高度和寬度將首先被重塑為批量維度,從而在幀的長度處產(chǎn)生批量×高度×寬度序列。然后,重塑的特征圖將被投影并經(jīng)過幾個自注意力塊,即
?是重塑特征圖的三個投影。此操作使模塊能夠捕獲跨時軸上同一位置的要素之間的時間依賴關系。為了擴大運動模塊的感受野,我們將其插入U形擴散網(wǎng)絡的每個分辨率水平。此外,我們在自注意力塊中添加了正弦位置編碼[30],讓網(wǎng)絡知道動畫剪輯中當前幀的時間位置。為了在訓練過程中插入我們的模塊而不產(chǎn)生有害影響,我們將時態(tài)轉(zhuǎn)換器的輸出投影層初始化為零,這是ControlNet驗證的有效做法[32]。
訓練目標。我們的運動建模模塊的訓練過程類似于潛在擴散模型[22]。采樣的視頻數(shù)據(jù)首先通過預訓練的自動編碼器逐幀編碼到潛在代碼中。然后,使用定義的前向擴散時間策略對潛在碼進行噪聲化。使用我們的運動模塊膨脹的擴散網(wǎng)絡將噪聲潛在代碼和相應的文本提示作為輸入,并預測添加到潛在代碼中的噪聲強度,這是由 L2 損失項鼓勵的。我們運動建模模塊的最終訓練目標是:
?
?在優(yōu)化過程中,基礎 T2I 模型的預訓練權(quán)重將被凍結(jié),以保持其特征空間不變。
實驗
考慮到大多數(shù)公共個性化模型都基于此版本,我們選擇了 Stable Diffusion v1 作為訓練運動建模模塊的基礎模型。我們使用 WebVid-10M [1](一個文本-視頻對數(shù)據(jù)集)訓練了運動模塊。數(shù)據(jù)集中的視頻剪輯首先以 4 的步幅進行采樣,然后調(diào)整大小并居中裁剪為 256 × 256 的分辨率。我們的實驗表明,在 256 上訓練的模塊可以推廣到更高的分辨率。因此,我們選擇了 256 作為我們的訓練分辨率,因為它保持了訓練效率和視覺質(zhì)量的平衡。用于訓練的視頻剪輯的最終長度設置為 16 幀。在實驗過程中,我們發(fā)現(xiàn),使用與訓練基本 T2I 模型的原始時間表略有不同的擴散時間表有助于獲得更好的視覺質(zhì)量并避免低飽和度和閃爍等偽影。我們假設稍微修改原始計劃可以幫助模型更好地適應新任務(動畫)和新數(shù)據(jù)分布。因此,我們使用了線性 beta 計劃,其中 β= 0.00085,β= 0.012,只和原來的SD模型訓練稍有不同。
不足之處
?在我們的實驗中,我們觀察到大多數(shù)失敗案例出現(xiàn)在個性化 T2I 模型的領域遠非現(xiàn)實時,例如 2D 迪士尼卡通(圖 7)。在這些情況下,動畫結(jié)果具有明顯的偽影,無法產(chǎn)生適當?shù)倪\動。我們假設這是由于訓練視頻(現(xiàn)實)和個性化模型之間的分布差距很大。這個問題的一個可能的解決方案是在目標域中手動收集幾個視頻,并稍微微調(diào)運動建模模塊,我們把它留給未來的工作。
總結(jié)?
我們介紹了 AnimateDiff,這是一個實現(xiàn)個性化文本到圖像模型動畫的實用框架,旨在將大多數(shù)現(xiàn)有的個性化 T2I 模型一勞永逸地轉(zhuǎn)化為動畫生成器。我們證明了我們的框架,其中包括一個在基礎 T2I 上訓練的簡單設計的運動建模模塊,可以從大型視頻數(shù)據(jù)集中提取可泛化的運動先驗。經(jīng)過訓練后,我們的運動模塊可以插入到其他個性化模型中,以生成具有自然和適當運動的動畫圖像,同時忠實于相應的領域。對各種個性化T2I模型的廣泛評估也驗證了我們方法的有效性和通用性。因此,AnimateDiff 為個性化動畫提供了一個簡單而有效的基準,可能使廣泛的應用程序受益。?
?參考鏈接
https://arxiv.org/pdf/2307.04725.pdf文章來源:http://www.zghlxwxcb.cn/news/detail-823527.html
GitHub - guoyww/AnimateDiff: Official implementation of AnimateDiff.?文章來源地址http://www.zghlxwxcb.cn/news/detail-823527.html
到了這里,關于【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!