【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!_嗶哩嗶哩_bilibili【Diffusion Models】新加坡國(guó)立大學(xué)、騰訊強(qiáng)強(qiáng)聯(lián)手Tune-A-Video:One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成!共計(jì)2條視頻,包括:[論文代碼閱讀]Tune-A-Video_ One-Shot微調(diào)圖像擴(kuò)散模型用于文本到圖像的生成新加坡國(guó)立大學(xué)、騰訊、3連等,UP主更多精彩視頻,請(qǐng)關(guān)注UP賬號(hào)。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22視頻生成和圖像生成最大的不同在于要保證視頻的連續(xù)性,運(yùn)動(dòng)主體不能變且運(yùn)動(dòng)主體的狀態(tài)背景等不能產(chǎn)生突變,因此視頻生成是一定要添加約束信息的,本文是在圖像生成的基礎(chǔ)上(T2I)通過(guò)特定設(shè)計(jì)的finetune來(lái)完成視頻生成(T2V),作者說(shuō)人類可以通過(guò)一個(gè)視頻就能學(xué)習(xí)到新的試卷概念,因此設(shè)計(jì)了one shot video generation。怎么做呢?首先作者升級(jí)了stable diffusion的架構(gòu)將2d卷積換成了3d卷積,并且將self-attention擴(kuò)展到時(shí)空域,但轉(zhuǎn)換之后的計(jì)算量會(huì)飆升,作者提出了sparse-causal attention,每一幀只和第一幀以及前一陣計(jì)算attention,可以極大減少計(jì)算量,在訓(xùn)練時(shí),通過(guò)一段視頻和相應(yīng)的text進(jìn)行微調(diào),在推理時(shí),要保證動(dòng)詞的一致性,可以更換背景和主題,依然能產(chǎn)生很好的連續(xù)性,one shot的視頻實(shí)際上就是讓T2I模型去學(xué)動(dòng)作的。
如上圖所示,第一行為原始的訓(xùn)練視頻,訓(xùn)練完成之后,第二、三、四行均為推理視頻,可見tune a video產(chǎn)生了主體一致性和動(dòng)作一致性。
abstract:在現(xiàn)實(shí)中沒有足夠的視頻文本對(duì)來(lái)訓(xùn)練T2V,人類可以從一個(gè)樣本中學(xué)習(xí)新的視覺概念,因此本文研究一個(gè)新的方向,one shot視頻生成,僅使用一個(gè)文本-視頻對(duì)來(lái)訓(xùn)練一個(gè)T2V,基于已有的T2I的擴(kuò)散的能力。有兩個(gè)關(guān)鍵點(diǎn),1.T2I模型能夠生成很好的與動(dòng)詞相對(duì)齊的圖像,2.擴(kuò)展T2I模型同時(shí)產(chǎn)生多個(gè)圖像有良好的一致性。為了進(jìn)一步學(xué)習(xí)連續(xù)運(yùn)動(dòng),采用定制的sparse-causal attention來(lái)微調(diào)模型。
1.introduction
視頻生成的關(guān)鍵是保持一致主體的連續(xù)運(yùn)動(dòng),motion and consistent object,如上圖所示,第一行,給定text,例如一個(gè)男人正在沙灘上跑步,T2I能夠很好的對(duì)齊動(dòng)詞信息,但是背景不同且不是一致的。但證明T2I可以通過(guò)cross-model attention來(lái)注意到動(dòng)詞。第二行作者采用了擴(kuò)展的T2I模型,將T2I模型的中self-attention從一張圖擴(kuò)展到多張圖保持跨幀時(shí)的內(nèi)容一致性,并行的生成幀時(shí)都和第一幀做attention,可以看到盡管動(dòng)作還不是連續(xù)的,但是主體背景等信息是一致的??赏普搒elf-attention層僅由spatial similarities驅(qū)動(dòng)而不是pixel positions(這塊的解釋可以從框架角度理解,因?yàn)樽罱K推理時(shí)是無(wú)法改變one shot時(shí)學(xué)習(xí)的動(dòng)作的,也就是說(shuō)模型最終學(xué)習(xí)到的還是一致的空間相似度)。
? ? ? ? tune a video對(duì)T2I在時(shí)間維度的簡(jiǎn)單膨脹,1.將3x3 conv換成1x3x3(unet中resnet卷積),2.將spatial self-attention 換成spatio-temporal cross-frame attention。提出了一個(gè)簡(jiǎn)單的tune策略,只更新attention block中的投影矩陣,從one-shot視頻中捕獲連續(xù)的運(yùn)動(dòng)狀態(tài),其余參數(shù)均被凍結(jié)。但是spatio-temporal cross-frame attention參數(shù)量很大,提出了一個(gè)新的變體,sparse-causal attention(SC-Attn),它只計(jì)算第一幀和前一幀,自回歸生成視頻。
2.method
上圖是本文的框架, 在fine-tune之前,現(xiàn)將T2I模型膨脹成T2V,其中T2V中的部分參數(shù)是從T2I中初始化的,然后采用一個(gè)視頻去fine-tune,推理時(shí),給定一個(gè)text即可生成視頻,但是視頻中動(dòng)作是不能變的,one shot的視頻就是一個(gè)動(dòng)作。
上圖是pipeline,首先輸入視頻和文本,在unet中有三attention,第一個(gè)是SC-Attn,第二個(gè)是cross-Attn(不同模態(tài)之間的attn),第三個(gè)是新增的Temp-Attn,黃色表示不斷更新的,灰色表示不更新的其中Q,query是不斷更新的,KV是不更新。右側(cè)是sparse-causal attention,計(jì)算第i幀,要取到第1幀和i-1幀,之后分別投影得到KV,再計(jì)算softmax。
上式可以看到Q是第i幀通過(guò)投影矩陣產(chǎn)生,但是K和V就不是了,常規(guī)操作,ldm中text conditional都是加在KV上的。這里,第一幀做attention能夠保證在生成內(nèi)容上的全局一致性,與前一幀計(jì)算attention能夠保持運(yùn)動(dòng)的一致性,連續(xù)性。
network inflation
普通的unet是由多層2d convolution residual blocks構(gòu)成,后續(xù)是attention,每一個(gè)attention是由一個(gè)self-attention、一個(gè)cross-attention和一個(gè)feed-forward network構(gòu)成,spatial self-attention利用特征圖上pixel locations來(lái)實(shí)現(xiàn)similar correlations,cross-attention則考慮pixel和conditional input(text)之間的相關(guān)性。
? ? ? ? 首先對(duì)輸入視頻使用1x3x3的卷積,可以將frame的1轉(zhuǎn)到batch處理,所以2d還是可以的。
sparse-casual attention
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-410085.html
如上圖所示,v表示幀,第一個(gè)是spatial attention,在單幀之間做attention,第二張圖是spatio-temporal attention,每一幀和所有幀之間計(jì)算attention,計(jì)算量是第一張圖的平方,第三張圖是causal attention,第i幀只會(huì)和所有的i-1幀計(jì)算attention,第四張圖就是本文使用的sparse-causal attention,第四幀只與第一幀和第三幀計(jì)算attention,是前一張圖的稀疏版本。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-410085.html
到了這里,關(guān)于tune a video:one-shot tuning of image diffusion models for text-to-video generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!