国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型

2年前作者：資料加載中分類：Toy博客閱讀(30)違法舉報

這篇具有很好參考價值的文章主要介紹了【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

?前言

Animatediff是一個有效的框架將文本到圖像模型擴展到動畫生成器中，無需針對特定模型進行調(diào)整。只要在大型視頻數(shù)據(jù)集中學習到運動先驗知識。AnimateDiff就可以插入到個性化的文生圖模型中，與Civitai和Huggingface的文生圖模型兼容，也可以與自己微調(diào)的大模型兼容。

【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型,深度學習,pytorch,AIGC,AnimateDiff

摘要?

?隨著文本到圖像模型（例如，Stable Diffusion [22]）和相應的個性化技術的進步DreamBooth [24] 和 LoRA [13] 等產(chǎn)品，每個人都可以以可承受的成本將他們的想象力體現(xiàn)成高質(zhì)量的圖像。因此，對圖像動畫技術的需求很大，可以進一步將生成的靜態(tài)圖像與運動動態(tài)相結(jié)合。在本報告中，我們提出了一個實用的框架，可以一勞永逸地為大多數(shù)現(xiàn)有的個性化文本到圖像模型制作動畫，從而節(jié)省特定于模型的調(diào)整工作。所提出的框架的核心是將新初始化的運動建模模塊插入到凍結(jié)的文本到圖像模型中，并在視頻剪輯上對其進行訓練，以提煉出合理的運動先驗。經(jīng)過訓練后，只需注入此運動建模模塊，從同一基礎 T2I 派生的所有個性化版本都很容易成為文本驅(qū)動的模型，從而生成多樣化和個性化的動畫圖像。我們對動漫圖片和逼真照片中的幾個具有公共代表性的個性化文本到圖像模型進行了評估，并證明了我們提出的框架有助于這些模型生成時間平滑的動畫剪輯，同時保留其輸出的域和多樣性。代碼和預訓練權(quán)重將在我們的項目頁面上公開提供。

引言?

?文本生成圖像領域廣受關注，幾種輕量級個性化方法，如DreamBooth [24]和LoRA [13]，以使用消費級設備（如帶有RTX3080的筆記本電腦）在小型數(shù)據(jù)集上對這些模型進行定制微調(diào)，然后這些模型可以生成質(zhì)量顯著提高的定制內(nèi)容。通過這種方式，用戶可以以非常低的成本將新概念或風格引入預訓練的 T2I 模型，從而產(chǎn)生藝術家和業(yè)余愛好者在模型共享平臺（如 CivitAI [4] 和 Huggingface [8] ）上貢獻的眾多個性化模型。

文生圖質(zhì)量很高，但都是靜態(tài)圖像，缺乏時間自由度。最近的通用文本到視頻生成方法[7,12,33]建議將時間建模合并到原始T2I模型中，并在視頻數(shù)據(jù)集上調(diào)整模型。然而，個性化 T2I 模型變得具有挑戰(zhàn)性，因為用戶通常負擔不起敏感的超參數(shù)調(diào)整、個性化視頻收集和密集的計算資源。

本文的做法將運動建模模塊引入到基礎T2I模型中，然后對大型視頻剪輯[1]進行微調(diào)，學習合理的運動先驗。值得注意的是，基本模型的參數(shù)保持不變。經(jīng)過微調(diào)后，我們證明了派生的個性化 T2I 也可以從學習良好的運動先驗中受益，從而產(chǎn)生流暢且吸引人的動畫。也就是說，運動建模模塊設法為所有相應的個性化 T2I 模型制作動畫，而無需進一步收集數(shù)據(jù)或進行自定義訓練。

相關工作?

?文生圖模型

GLIDE[17]將文本條件引入擴散模型，并證明分類器引導產(chǎn)生更令人愉悅的結(jié)果
DALLE-2 [21] 通過 CLIP [19] 聯(lián)合特征空間改進了文本-圖像對齊
Imagen[25]結(jié)合了在文本語料庫上預訓練的大型語言模型[20]和級聯(lián)擴散模型，以實現(xiàn)逼真的圖像生成。
Stable Diffusion[22]，即穩(wěn)定擴散，提出在自動編碼器的潛在空間中執(zhí)行去噪過程，有效地減少所需的計算資源，同時保持生成圖像的質(zhì)量和靈活性。

個性化的文生動畫?

?????????現(xiàn)有工作[7,12,15,28,31,33]更新了網(wǎng)絡中的全部參數(shù)，損害了原始T2I模型的領域知識。

?Tune-a-Video [31] 通過輕微的架構(gòu)修改和子網(wǎng)調(diào)優(yōu)解決了一次性視頻生成任務。
?Text2Video-Zero [15] 引入了一種免訓練方法，在給定預定義的仿射矩陣的情況下，通過潛在包裝對預訓練的 T2I 模型進行動畫處理。
Align-Your-Latents [3]，這是一種文本到視頻（T2V）模型，可在 T2I 模型中訓練單獨的時間層。

方法

預備知識?

文生圖生成器?

?SD基于潛在擴散模型（LDM）[22]，該模型在自動編碼器的潛在空間（即E（·）和D（·））中執(zhí)行去噪過程，在大型圖像數(shù)據(jù)集上預先訓練為VQ-GAN [14]或VQ-VAE [29]。這種設計在降低計算成本的同時保持高視覺質(zhì)量方面具有優(yōu)勢。在潛伏擴散網(wǎng)絡的訓練過程中，輸入圖像最初由凍結(jié)編碼器映射到潛伏空間，產(chǎn)生，然后被預定義的馬爾可夫過程擾動：

?

對于時間t=1,...,T，T表示前向擴散過程的步數(shù)。超參數(shù)決定了每一步的噪聲強度，上述的迭代公式可以被簡化為下面這個式子，

$【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型,深度學習,pytorch,AIGC,AnimateDiff$

.Stable Diffusion?采用DDPM[5]中提出的訓練目標函數(shù).

?y是對應的文字描述，是將字符串映射到向量序列的文本編碼器。

在SD中，使用一個UNet變體實現(xiàn)的[23],包括四個上采樣/下采樣模塊和一個中間模塊，使?jié)撛诳臻g發(fā)生四個分辨率級別的變化。每個分辨率級別都集成了2D卷積層以及自注意力和交叉注意力機制。文本模型是使用CLIP [19] ViT-L/14文本編碼器實現(xiàn)的。

個性化圖像生成?

?隨著時代進程的不斷推進，個性化圖像生成越來越受到重視。DreamBooth [24] 和 LoRA [13] 是兩種具有代表性且廣泛使用的個性化方法。要引入新域（新概念、風格等）對于預先訓練的 T2I 模型，一種簡單的方法是在該特定領域的圖像上對其進行微調(diào)。但是，在沒有正則化的情況下直接調(diào)整模型通常會導致過度擬合或災難性遺忘，尤其是當數(shù)據(jù)集較小時。為了克服這個問題，DreamBooth[24]使用一個罕見的字符串作為指示器來表示目標域，并通過添加原始T2I模型生成的圖像來增強數(shù)據(jù)集。這些正則化圖像是在沒有指示器的情況下生成的，因此允許模型在微調(diào)期間學習將稀有字符串與預期域相關聯(lián)。

另一方面，LoRA [13] 采用了一種不同的方法，試圖微調(diào)模型權(quán)重的殘差，即訓練 ?W 而不是 W 。微調(diào)后的權(quán)重計算為 W’ = W + α?W ，其中 α 是一個超參數(shù)，用于調(diào)整調(diào)整過程的影響，從而為用戶提供更大的自由度來控制生成的結(jié)果。為了進一步避免過擬合并降低計算成本，?W ∈ 分解為兩個低秩矩陣，即?W = ，其中A∈，B∈，r?m，n。在實踐中，僅對transformer模塊中的投影矩陣進行微調(diào)，進一步降低了 LoRA 模型的訓練和存儲成本.與訓練后存儲整個模型參數(shù)的 DreamBooth 相比，LoRA 模型在訓練和用戶之間共享的效率要高得多。

?

?個性化動畫

對個性化圖像模型進行動畫處理通常需要對相應的視頻集進行額外調(diào)整，?使其更具挑戰(zhàn)性。在本節(jié)中，我們以個性化動畫為目標，其正式表述為：給定一個個性化的 T2I 模式，例如，由用戶訓練或從 CivitAI [4] 或 Huggingface [8] 下載的 DreamBooth [24] 或 LoRA [13] 檢查點），目標是將其轉(zhuǎn)換為動畫生成器，只需很少或沒有培訓成本，同時保留其原始領域知識和質(zhì)量。例如，假設 T2I 模型針對特定的 2D 動漫風格進行了個性化設置。在這種情況下，相應的動畫生成器應該能夠生成具有適當動作的該風格的動畫剪輯，例如前景/背景分割、角色身體運動等。

為了實現(xiàn)這一點，一種樸素的方法是通過添加時間感知結(jié)構(gòu)并從大規(guī)模視頻數(shù)據(jù)集中學習合理的運動先驗來膨脹T2I模型[7,12,33]。但是，對于個性化域，收集足夠的個性化視頻成本很高。同時，有限的數(shù)據(jù)將導致源域的知識流失。因此，我們選擇單獨訓練一個可泛化的運動建模模塊，并在推理時將其插入到個性化的 T2I 中。通過這樣做，我們避免了對每個個性化模型的特定調(diào)整，并通過保持預先訓練的權(quán)重不變來保留他們的知識。這種方法的另一個關鍵優(yōu)點是，一旦模塊被訓練，它就可以插入到同一基礎模型上的任何個性化 T2I 中，而無需進行特定的調(diào)整，正如以下實驗所驗證的那樣。這是因為個性化過程幾乎沒有修改基礎 T2I 模型的特征空間，這也是Controlnet采用的方法。

【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型,深度學習,pytorch,AIGC,AnimateDiff

運動模塊的詳細信息。模塊插入（左）：我們的運動模塊插入到預訓練的圖像層之間。當數(shù)據(jù)批處理通過圖像層和我們的運動模塊時，其時間和空間軸將分別重塑為批處理軸。模塊設計（右）：我們的模塊是一個普通的臨時轉(zhuǎn)換器，具有零初始化的輸出項目層。

?運動建模模塊

?網(wǎng)絡膨脹。由于原始標清只能批量處理圖像數(shù)據(jù)，因此需要模型膨脹以使其與我們的運動建模模塊兼容，該模塊采用 5D 視頻張量批量×通道形狀的×幀數(shù)×高度×寬度作為輸入。為了實現(xiàn)這一點，我們采用了類似于視頻擴散模型[12]的解決方案。具體來說，我們通過將幀數(shù)軸重塑為批處理軸并允許網(wǎng)絡獨立處理每一幀，將原始圖像模型中的每個 2D 卷積和注意力層轉(zhuǎn)換為空間偽 3D 層。與上述不同的是，我們新插入的運動模塊在每批中跨幀操作，以實現(xiàn)動畫剪輯中的運動流暢性和內(nèi)容一致性。

模塊設計。對于運動建模模塊的網(wǎng)絡設計，我們的目標是實現(xiàn)跨幀的高效信息交換。為了實現(xiàn)這一點，我們選擇了普通的時態(tài)變壓器作為運動模塊的設計。值得注意的是，我們還對運動模塊的其他網(wǎng)絡設計進行了實驗，發(fā)現(xiàn)普通時間變換器足以對運動先驗進行建模。我們將尋找更好的運動模塊留給未來的工作。

原版時間transformer由幾個沿時間軸操作的自注意力塊組成。當通過我們的運動模塊時，特征圖z的空間維度高度和寬度將首先被重塑為批量維度，從而在幀的長度處產(chǎn)生批量×高度×寬度序列。然后，重塑的特征圖將被投影并經(jīng)過幾個自注意力塊，即

?是重塑特征圖的三個投影。此操作使模塊能夠捕獲跨時軸上同一位置的要素之間的時間依賴關系。為了擴大運動模塊的感受野，我們將其插入U形擴散網(wǎng)絡的每個分辨率水平。此外，我們在自注意力塊中添加了正弦位置編碼[30]，讓網(wǎng)絡知道動畫剪輯中當前幀的時間位置。為了在訓練過程中插入我們的模塊而不產(chǎn)生有害影響，我們將時態(tài)轉(zhuǎn)換器的輸出投影層初始化為零，這是ControlNet驗證的有效做法[32]。

訓練目標。我們的運動建模模塊的訓練過程類似于潛在擴散模型[22]。采樣的視頻數(shù)據(jù)首先通過預訓練的自動編碼器逐幀編碼到潛在代碼中。然后，使用定義的前向擴散時間策略 $【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型,深度學習,pytorch,AIGC,AnimateDiff$ 對潛在碼進行噪聲化。使用我們的運動模塊膨脹的擴散網(wǎng)絡將噪聲潛在代碼和相應的文本提示作為輸入，并預測添加到潛在代碼中的噪聲強度，這是由 L2 損失項鼓勵的。我們運動建模模塊的最終訓練目標是：

?

?在優(yōu)化過程中，基礎 T2I 模型的預訓練權(quán)重將被凍結(jié)，以保持其特征空間不變。

實驗

考慮到大多數(shù)公共個性化模型都基于此版本，我們選擇了 Stable Diffusion v1 作為訓練運動建模模塊的基礎模型。我們使用 WebVid-10M [1]（一個文本-視頻對數(shù)據(jù)集）訓練了運動模塊。數(shù)據(jù)集中的視頻剪輯首先以 4 的步幅進行采樣，然后調(diào)整大小并居中裁剪為 256 × 256 的分辨率。我們的實驗表明，在 256 上訓練的模塊可以推廣到更高的分辨率。因此，我們選擇了 256 作為我們的訓練分辨率，因為它保持了訓練效率和視覺質(zhì)量的平衡。用于訓練的視頻剪輯的最終長度設置為 16 幀。在實驗過程中，我們發(fā)現(xiàn)，使用與訓練基本 T2I 模型的原始時間表略有不同的擴散時間表有助于獲得更好的視覺質(zhì)量并避免低飽和度和閃爍等偽影。我們假設稍微修改原始計劃可以幫助模型更好地適應新任務（動畫）和新數(shù)據(jù)分布。因此，我們使用了線性 beta 計劃，其中 β= 0.00085，β= 0.012，只和原來的SD模型訓練稍有不同。

【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型,深度學習,pytorch,AIGC,AnimateDiff

不足之處

?在我們的實驗中，我們觀察到大多數(shù)失敗案例出現(xiàn)在個性化 T2I 模型的領域遠非現(xiàn)實時，例如 2D 迪士尼卡通（圖 7）。在這些情況下，動畫結(jié)果具有明顯的偽影，無法產(chǎn)生適當?shù)倪\動。我們假設這是由于訓練視頻（現(xiàn)實）和個性化模型之間的分布差距很大。這個問題的一個可能的解決方案是在目標域中手動收集幾個視頻，并稍微微調(diào)運動建模模塊，我們把它留給未來的工作。

總結(jié)?

我們介紹了 AnimateDiff，這是一個實現(xiàn)個性化文本到圖像模型動畫的實用框架，旨在將大多數(shù)現(xiàn)有的個性化 T2I 模型一勞永逸地轉(zhuǎn)化為動畫生成器。我們證明了我們的框架，其中包括一個在基礎 T2I 上訓練的簡單設計的運動建模模塊，可以從大型視頻數(shù)據(jù)集中提取可泛化的運動先驗。經(jīng)過訓練后，我們的運動模塊可以插入到其他個性化模型中，以生成具有自然和適當運動的動畫圖像，同時忠實于相應的領域。對各種個性化T2I模型的廣泛評估也驗證了我們方法的有效性和通用性。因此，AnimateDiff 為個性化動畫提供了一個簡單而有效的基準，可能使廣泛的應用程序受益。?

?參考鏈接

https://arxiv.org/pdf/2307.04725.pdf

GitHub - guoyww/AnimateDiff: Official implementation of AnimateDiff.?文章來源地址http://www.zghlxwxcb.cn/news/detail-823527.html

到了這里，關于【AIGC】AnimateDiff:無需定制化微調(diào)的動畫化個性化的文生圖模型的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

奧威BI數(shù)據(jù)可視化工具：個性化定制，打造獨特大屏
每個人都有自己獨特的審美，因此即使是做可視化大屏，也有很多人希望做出不一樣的報表，用以緩解審美疲勞的同時提高報表瀏覽效率。因此這也催生出了數(shù)據(jù)可視化工具的個性化可視化大屏制作需求。奧威BI數(shù)據(jù)可視化工具：個性化定制，打造獨特可視化大屏奧威BI數(shù)據(jù)
2024年02月12日
瀏覽(33)
服裝行業(yè)多模態(tài)算法個性化產(chǎn)品定制方案 | 京東云技術團隊
一、項目背景 AI賦能服裝設計師，設計好看、好穿、好賣的服裝傳統(tǒng)服裝行業(yè)痛點 ? 設計師無法準確捕捉市場趨勢，抓住中國潮流 ? 上新周期長，高庫存滯銷風險大 ? 基本款居多，難以滿足消費者個性化需求解決方案 ? GPT+數(shù)據(jù)洞察，快速反應市場時尚流行趨勢 ? 柔性
2024年02月14日
瀏覽(24)
基于ssm個性化旅游攻略定制系統(tǒng)設計與實現(xiàn)+jsp論文
在如今社會上，關于信息上面的處理，沒有任何一個企業(yè)或者個人會忽視，如何讓信息急速傳遞，并且歸檔儲存查詢，采用之前的紙張記錄模式已經(jīng)不符合當前使用要求了。所以，對個性化旅游攻略信息管理的提升，也為了對個性化旅游攻略信息進行更好的維護，個性化旅游
2024年02月03日
瀏覽(22)
三種風格：山海鯨可視化軟件模板的個性化定制之旅“
當我們談論數(shù)據(jù)可視化時，一個好的可視化組件套件模板至關重要。一個優(yōu)秀的模板不僅可以提高數(shù)據(jù)可視化的效果，還能讓用戶更加深入地探索和理解數(shù)據(jù)。作為山海鯨可視化軟件的開發(fā)者，在提供免費好用的產(chǎn)品同時我們也希望最大限度降低用戶設計難度，因此我們精
2024年01月22日
瀏覽(20)
三防平板定制服務：億道信息與個性化生產(chǎn)的緊密結(jié)合
在當今數(shù)字化時代，個性化定制已經(jīng)成為了市場的一大趨勢，而三防平板定制服務作為其中的一部分，展現(xiàn)了數(shù)字化技術與個性化需求之間的緊密結(jié)合。這種服務是通過億道信息所提供的技術支持，為用戶提供了滿足特定需求的定制化三防平板，從而使得產(chǎn)品更符合用戶的個
2024年04月09日
瀏覽(135)
個性化定制，提升運營效率：SAP二次開發(fā)引領企業(yè)數(shù)字化轉(zhuǎn)型
SAP二次開發(fā)引領企業(yè)數(shù)字化轉(zhuǎn)型隨著企業(yè)競爭的日益激烈，定制化管理方案成為企業(yè)實現(xiàn)差異化競爭的重要工具。SAP作為全球領先的企業(yè)管理軟件提供商，SAP二次開發(fā)服務應運而生，為企業(yè)提供個性定制的解決方案，助力其實現(xiàn)數(shù)字化轉(zhuǎn)型，提高運營效率，迎接不斷變化的業(yè)
2024年02月22日
瀏覽(23)
基于Android+Django+Python的服飾管理與個性化定制系統(tǒng)的設計與實現(xiàn)
資源下載地址：https://download.csdn.net/download/sheziqiong/87904742 資源下載地址：https://download.csdn.net/download/sheziqiong/87904742 一、選題的背景和意義 1、課題研究背景隨著移動終端技術和網(wǎng)絡技術的飛速發(fā)展，人們可以使用移動客戶端上網(wǎng)，隨時隨地從互聯(lián)網(wǎng)獲取信息和服務，解決吃
2024年03月13日
瀏覽(30)
個性化定制界面 VS 極簡版原裝界面：你更喜歡哪一個？為什么？
不管昨天、今天、明天，能豁然開朗就是最美好的一天。個性化定制界面和極簡版原裝界面，哪一個你用起來更加順手呢，相比之下你更喜歡哪一個？隨著移動互聯(lián)網(wǎng)技術的不斷發(fā)展，手機和電腦成為我們生活中必不可少的工具之一。而手機和電腦界面作為我們與手機交互
2024年02月11日
瀏覽(26)
【ChatGPT】Mr. Ranedeer：可定制個性化學習體驗的 GPT-4 AI 導師提示
Mr. Ranedeer AI Tutor 是一個可定制的提示，為具有不同需求和興趣的用戶提供個性化的學習體驗。它使用GPT-4來釋放AI的潛力，并允許您調(diào)整知識深度以匹配您的學習需求，自定義學習風格，溝通類型，語氣和推理框架。當您使用Mr. Ranedeer AI Tutor時，您可以選擇自己的學習風格
2024年02月11日
瀏覽(31)
企業(yè)版ChatGPT用戶激增至60萬；百度文心一言推出個性化聲音定制功能
?? AI新聞 ?? 企業(yè)版ChatGPT用戶激增至60萬摘要：OpenAI首席運營官Brad Lightcap在接受采訪時透露，企業(yè)版ChatGPT的注冊用戶已超60萬，相較2024年1月的15萬用戶，短短三個月內(nèi)增長了300%。這一版本自2023年8月推出，特別支持無限制訪問GPT-4模型并提供深入的數(shù)據(jù)分析，幫助企業(yè)更有
2024年04月09日
瀏覽(26)