人物AIGC:FaceChain人物寫真生成工業(yè)級開源項(xiàng)目,歡迎上github體驗(yàn)。
簡介:?隨著圖像生成領(lǐng)域的研究飛速發(fā)展,基于diffusion的生成式模型取得效果上的大突破。在圖像生成/編輯產(chǎn)品大爆發(fā)的今天,視頻生成/編輯技術(shù)也引起了學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。該分享主要介紹視頻生成/編輯的研究現(xiàn)狀,包括不同技術(shù)路線的優(yōu)劣勢,以及該領(lǐng)域當(dāng)下面臨的核心問題與挑戰(zhàn)。
摘要
隨著圖像生成領(lǐng)域的研究飛速發(fā)展,基于diffusion的生成式模型取得效果上的大突破。在圖像生成/編輯產(chǎn)品大爆發(fā)的今天,視頻生成/編輯技術(shù)也引起了學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。該分享主要介紹視頻生成/編輯的研究現(xiàn)狀,包括不同技術(shù)路線的優(yōu)劣勢,以及該領(lǐng)域當(dāng)下面臨的核心問題與挑戰(zhàn)。
1. 背景介紹
不少視頻生成/編輯模型都是基于圖像生成模型的預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,結(jié)構(gòu)也與圖像生成模型一脈相承,因此在介紹視頻生成/編輯模型之前有必要先介紹圖像生成/編輯模型。我們根據(jù)不同的技術(shù)路線將圖像生成/編輯模型分成四種類型,分別是使用編輯前后數(shù)據(jù)對進(jìn)行訓(xùn)練的模型、zero-shot模型、one-shot/few-shot模型以及解耦合模型。我們將視頻生成/編輯模型也分成四類,分別是large-data-driven模型、zero-shot模型、one-shot/few-shot模型和解耦合模型。接下來將分別介紹這幾種類型。
2. 圖像生成/編輯
2.1. 使用編輯前后數(shù)據(jù)對進(jìn)行訓(xùn)練
比較典型的工作是 InstructPix2Pix [1]。該方法通過構(gòu)造編輯前后的圖像數(shù)據(jù)對來生成訓(xùn)練數(shù)據(jù),使用這種數(shù)據(jù)進(jìn)行訓(xùn)練得到的模型無需 finetune 即可進(jìn)行圖像編輯。具體的構(gòu)造方式是利用 GPT3 生成編輯前后的 text prompt,再利用 stable diffusion + Prompt2Prompt 的方式進(jìn)行編輯得到編輯前后圖像對。
下圖是 InstructPix2Pix 的示意圖:
2.2. Zero-Shot 方法
比較具有代表性的工作是 Prompt-to-prompt [2] 和 MasaCtrl [3]。他們通過修改 cross attention 里的 attention maps 或 attention 機(jī)制的方式來實(shí)現(xiàn)無需 finetune 的圖像編輯。Prompt-to-prompt 的具體做法是,對于由給定 prompt 通過模型生成的圖像(若是真實(shí)場景圖像,則需要做精確的 inversion),保留其 cross attention 步驟中的 attention map,對于新 text prompt,將新的詞生成的 new attention 插入原 attention maps 中,并根據(jù)權(quán)重重新計(jì)算,生成編輯后的圖像。
下圖是 Prompt-to-prompt 的示意圖:
2.3. One-Shot/Few-Shot方法
該類方法分為兩類,一種是通過 finetune 來讓網(wǎng)絡(luò)學(xué)習(xí)到關(guān)于輸入圖像的 identifier,這樣編輯過程中就能保留原圖的內(nèi)容和結(jié)構(gòu);第二種是通過設(shè)計(jì)保留原圖內(nèi)容和結(jié)構(gòu)的 loss 來進(jìn)行 finetune。第一種的代表性方法包括 Dreambooth [4] 和 DreamArtist [5]。其中 Dreambooth 便是通過對描述輸入圖像的 text prompt 插入特征 tokenizer,然后在同一物體的少量數(shù)據(jù)上訓(xùn)練,讓網(wǎng)絡(luò)記住該物體與該特定 identifier 之間的對應(yīng)關(guān)系。接下來便能通過對 identifier 進(jìn)行修飾從而達(dá)到對該物體的圖像進(jìn)行編輯的目的。
下圖是 Dreambooth 的示意圖:
第二種的代表性方法是 Text2live [6]。對于一張輸入圖像以及 target text prompt,該方法對圖像和 text 分別做 augmentations 并生成數(shù)據(jù)集 internal dataset,然后在這個(gè) internal dataset 上對模型進(jìn)行finetune。模型的輸出是帶 alpha 通道的圖層,該圖層添加到原圖上構(gòu)成最終的輸出圖像。為了讓生成的圖像在保留原圖內(nèi)容和結(jié)構(gòu)不變的基礎(chǔ)上符合 target prompt 的描述,它使用了三種 loss:Composition Loss,Structure Loss 和 Screen Loss。Composition Loss 計(jì)算生成圖像與 target prompt 在 clip 空間的距離;Structure Loss 計(jì)算生成圖像與原圖在結(jié)構(gòu)和內(nèi)容上的距離;Screen Loss 計(jì)算將帶 alpha 通道的圖層與綠幕組合后的圖像與對該綠幕圖像的 text 描述之間的 clip 距離。
下圖是 Text2live 的示意圖:
2.4. 解耦合方法
這類方法將圖像要素解耦合成控制條件(如人體pose、edge map等)與圖像內(nèi)容/風(fēng)格/語義,通過訓(xùn)練顯式的編碼器對控制條件或圖像內(nèi)容/風(fēng)格/語義分別進(jìn)行編碼。推理階段,修改圖像內(nèi)容/風(fēng)格來生成符合控制條件的編輯后圖像,或是通過修改控制條件來生成相同內(nèi)容/風(fēng)格/語義的圖像。比較典型的方法如 DisCo [14] 和 Prompt-Free Diffusion [15]。其中 DisCo 是針對人物姿態(tài)轉(zhuǎn)換的模型,在第一階段的訓(xùn)練中,它將人物圖像進(jìn)一步拆解成前景(人物)和背景對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,第二階段在第一階段的基礎(chǔ)上加上對控制條件(人物姿態(tài)) 的編碼器進(jìn)行進(jìn)一步訓(xùn)練。DisCo 雖然在圖像數(shù)據(jù)集上訓(xùn)練,但它可以被用來進(jìn)行姿態(tài)引導(dǎo)的人物動態(tài)視頻的生成,只要對單幀分別處理即可。
下圖是 DisCo 的示意圖:
3. 視頻生成/編輯
3.1. Large-Data-Driven
這類方法在保持圖像生成模型權(quán)重不變的基礎(chǔ)之上,添加時(shí)序?qū)?,用大量的視頻或者視頻-文本數(shù)據(jù)對時(shí)序?qū)舆M(jìn)行訓(xùn)練,讓模型學(xué)習(xí)到視頻幀間連續(xù)性的同時(shí)盡可能保留原模型的圖像生成能力。這類方法包括 Make-A-Video [7],F(xiàn)ollow Your Pose [8],Control-A-Video [9],AnimateDiff [10],Align your Latents [11]。其中 Follow Your Pose 采取兩階段的訓(xùn)練方法,第一階段使用帶 pose 的 text-image 圖像數(shù)據(jù)對進(jìn)行訓(xùn)練,第二階段使用不帶 pose 的 text-video 數(shù)據(jù)對 temporal self-attention layer 和 cross-frame spatial attention layer 進(jìn)行訓(xùn)練。最終 inference 階段,使用 pose 和 text 共同控制視頻的生成。
下圖是 Follow Your Pose 的示意圖:
3.2. One-Shot/Few-Shot 方法
與圖像的方法類似,這類方法針對單個(gè)視頻進(jìn)行 finetune,使網(wǎng)絡(luò)學(xué)習(xí)到屬于該視頻的時(shí)域特征,比較典型的是Tune-A-Video [12] 和 ControlVideo [13]。Tune-A-Video 將圖像生成模型的權(quán)重固定不變,在單個(gè)視頻上使用 source text prompt 和 image 對時(shí)序?qū)舆M(jìn)行 finetune。在 inference 階段,先對輸入視頻進(jìn)行 DDIM inversion,然后使用新的 prompt 生成編輯后的視頻。ControlVideo 在 Tune-A-Video 的基礎(chǔ)之上,加入了如 edge map 等其他控制手段引導(dǎo)視頻的生成。
下圖是 ControlVideo 的示意圖:
3.3. Zero-Shot 方法
與圖像的方法類似,這類方法通過對視頻求精確的 inversion,然后修改 attention maps 或是 attention 機(jī)制來進(jìn)行無需訓(xùn)練的視頻編輯,典型的比如 Fatezero [16],Zero-shot video editing [17] 和 Video-p2p [18]。另一類方法根據(jù)視頻時(shí)域連續(xù)性的先驗(yàn)知識,有針對性地設(shè)計(jì)新的 cross attention 機(jī)制或 adapter 來控制采樣階段生成的幀序列在結(jié)構(gòu)、內(nèi)容和色彩上的連續(xù)性。典型的方法比如 ControlVideo [19] 和 Rerender A Video [20]。其中 Rerender A Video 利用視頻的光流信息,對采樣階段的隱空間特征進(jìn)行變換和引導(dǎo),同時(shí)輔以結(jié)構(gòu)和色彩 adapter,實(shí)現(xiàn)了對輸出視頻的時(shí)域連續(xù)性控制。
下圖為 Rerender A Video 的示意圖:
3.4. 解耦合方法
圖像編輯的解耦合方法也可以用來實(shí)現(xiàn)視頻編輯,例如 DisCo [14],這里我們主要介紹針對視頻的解耦合方法(考慮了時(shí)域特征)。與圖像解耦合思路類似,視頻也能被解耦合成控制條件幀序列(如人體pose、edge map等)與單幀圖像內(nèi)容/風(fēng)格/語義,通過訓(xùn)練顯式的編碼器對控制條件序列或單幀圖像內(nèi)容/風(fēng)格/語義進(jìn)行編碼,典型的方法如 DreamPose [21]。另一類解耦合方法,CoDeF [22],從視頻本身的特性出發(fā)將視頻拆解成 canonical content field 和 temporal deformation field 兩個(gè)元素。只要通過圖像編輯/生成模型對單幀圖像進(jìn)行編輯,生成新的 canonical content field, 再根據(jù)原視頻的 temporal deformation field 就能生成被編輯后的視頻。這一類方法的效果高度依賴解耦合思路的合理性以及模型的解耦合程度/能力。
下圖為 DreamPose 的示意圖:
4. 總結(jié)
視頻編輯/生成的核心難點(diǎn)是如何保證幀間的連續(xù)性,在內(nèi)容和結(jié)構(gòu)上獲得令人滿意的視覺效果。這四種方法本質(zhì)上均是試圖解決幀間內(nèi)容連續(xù)性的問題,只不過采用了四種不同的手段和技術(shù)路線。Large-Data-Driven 需要大量的優(yōu)質(zhì)視頻數(shù)據(jù)進(jìn)行訓(xùn)練,對存儲空間和算力資源的需求很大。One-Shot/Few-Shot 方法對資源的消耗較小,但每次需對單個(gè)視頻進(jìn)行 finetune,較為耗時(shí)。Zero-Shot 方法對資源消耗小且速度快,但囿于技術(shù)手段本身的局限性,所能實(shí)現(xiàn)的效果存在著天然的瓶頸,且對精心設(shè)計(jì)的時(shí)域控制手段的要求也很高。解耦合方法從視頻本身特性出發(fā),將視頻拆解成不同的要素,進(jìn)行針對性的訓(xùn)練以及再組合,但效果的好壞取決于解耦合的設(shè)計(jì)與模型解耦合的能力。探索出保證視頻幀間連續(xù)性的技術(shù)路線仍然是一個(gè)亟待解決的核心問題。
References
[1] InstructPix2Pix: Learning to Follow Image Editing Instructions.
[2] Prompt-to-prompt image editing with cross attention control.
[3] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing.
[4] Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.
[5] DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning.
[6] Text2live: Text-driven layered image and video editing.
[7] Make-A-Video: Text-to-Video Generation without Text-Video Data.
[8] Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos.
[9] Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models.
[10] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.
[11] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models.
[12] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.
[13] ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing.
[14] DisCo: Disentangled Control for Referring Human Dance Generation in Real World.
[15] Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models.
[16] Fatezero: Fusing attentions for zero-shot text-based video editing.
[17] Zero-shot video editing using off-the-shelf image diffusion models.
[18] Video-p2p: Video editing with cross-attention control.
[19] ControlVideo: Training-free Controllable Text-to-Video Generation.
[20] Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation.
[21] DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion.文章來源:http://www.zghlxwxcb.cn/news/detail-755771.html
[22] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing.文章來源地址http://www.zghlxwxcb.cn/news/detail-755771.html
到了這里,關(guān)于AIGC視頻生成/編輯技術(shù)調(diào)研報(bào)告的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!