前段時間,我曾經(jīng)介紹過Imagen Video模型。它能夠在輸入一句話中,生成5~6秒的視頻。而且由于采用了“空間高分辨率模型”和“時域高分辨率模型”的級聯(lián)模型,它能夠清晰度在1280×768的高清視頻。具體的介紹可以回看我之前寫的文章:
短視頻模型Imagen Video:藝術(shù)和3D建模大師
雖然Imagen Video模型,能夠生成高清晰度的短視頻,但是僅僅只有5秒左右的時間,因此實際的用處并不到。為了克服這個缺點,谷歌也進一步發(fā)布了Phenaki模型。
Phenaki
這個模型不同點在于,它能夠根據(jù)200個詞語,生成2分鐘以上的視頻。
比如輸入文字:
一只逼真的泰迪熊正在舊金山的海里游泳
泰迪熊下水了
泰迪熊和五顏六色的魚在水下游泳
一只熊貓在水下游泳
或者輸入“泰迪熊在海洋中潛水”、“宇航員在火星上跳舞”等詞語,可以生成下面的短視頻:
同時該模型在修改prompt提示詞語的時候,也能夠生成不一樣的短視頻:
1.技術(shù)細節(jié)
谷歌新提出的Phenaki,主要是引入了一個新的causal model。這個模型從離散的tokens去壓縮視頻,使得模型能夠克服視頻長度的問題。
如下圖所示,它能夠根據(jù)超長的prompt去生成每一秒的視頻:
同時分詞器使用了causal attention,這使得它能夠處理可變長度的視頻。為了從文本生成視頻tokens,論文中使用了一個基于預(yù)先計算的文本標(biāo)記的雙向掩碼transformer。
生成的視頻tokens隨后被去標(biāo)記化以創(chuàng)建實際視頻。同時為了解決數(shù)據(jù)問題,論文中使用了大量圖像-文本對語料庫以及少量視頻-文本示例上進行聯(lián)合訓(xùn)練,從而實現(xiàn)超出視頻數(shù)據(jù)集可用范圍的泛化。
先來看一下具體的模型結(jié)構(gòu)
- C-ViViT Encoder:把輸入的視頻構(gòu)造成離散的embedding進行輸出
- Traning Transformer:使用了預(yù)訓(xùn)練模型T5X,把embedding翻譯成視頻tokens
- Video Generation:把視頻tokens轉(zhuǎn)換成視頻
1.1 Encoder-Decoder架構(gòu):C-VIVIT
在Phenaki中,由于目標(biāo)是生成可變長度的視頻,同時將視頻tokerns的數(shù)量保持在最小,以便在當(dāng)前的計算限制范圍內(nèi)使用transformer對其進行建模。
因此引入了C-ViViT,這是ViViT的一種casual結(jié)構(gòu),它可以在時間和空間維度上壓縮視頻,同時保持時間上的自回歸。這種能力允許任意長度生成視頻
casual attention如上所示。本質(zhì)上就是,每個時間步的tokens僅以自回歸方式觀察來自先前幀的空間標(biāo)記。這樣做的效果是第一幀可以完全獨立地編碼。這為文本到圖像訓(xùn)練自然嵌入到視頻模型中提供了可能性。第二個優(yōu)點是,我們可以根據(jù)起始幀的數(shù)量來調(diào)節(jié)視頻生成過程。
1.2 雙向Transformer
在這個任務(wù)里面,可以把文本到視頻當(dāng)作是一個seq-to-seq的任務(wù)。即可以從文本預(yù)測視頻tokerns。
同時對長視頻進行隨機采樣,這樣可以有效減少預(yù)測的時間步,提高計算效率。
對于訓(xùn)練來說,從0~1之間隨機選擇一個mask比率,把一定的時間步用[MASK]替換掉,然后在訓(xùn)練的時候則可以預(yù)測這些標(biāo)簽。
從實驗效果上看,可以生成不同風(fēng)格的視頻。
文本生成視頻所帶來的問題
視頻生成模型可以用來對社會產(chǎn)生積極影響,例如通過放大和增強人類的創(chuàng)造力。然而,這些生成模式也可能被濫用,例如生成虛假、仇恨、明確或有害的內(nèi)容。
同時,新的AI技術(shù)帶來的行業(yè)革新也在悄悄的發(fā)生。比如未來可以利用這些模型合成短視頻,發(fā)布的短視頻平臺上。到時候你看到的視頻,有可能已經(jīng)不是真人視頻了。文章來源:http://www.zghlxwxcb.cn/news/detail-405488.html
好了,本期就到這里了,我是leo,歡迎關(guān)注我的知乎/公眾號“算法一只狗”,我們下期再見~文章來源地址http://www.zghlxwxcb.cn/news/detail-405488.html
到了這里,關(guān)于一句話生成長視頻的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!