前言
前段時間,一款AI視頻應用及其創(chuàng)始人刷爆了科技圈,順便還帶火了自家公司的股票。這是一家名為pikaai的初創(chuàng)公司,他們的主打產(chǎn)品是一款文本生成視頻應用Pika 1.0。對于AI生成圖片大多數(shù)人已經(jīng)不陌生了,甚至已經(jīng)用的非常熟練,其中不乏常見的Stable Diffusion以及Midjourney等各種模型和產(chǎn)品。反觀文生視頻模型及其衍生產(chǎn)品卻進展遲緩,盡管幾家當紅的公司宣傳自己的產(chǎn)品非常厲害,但實際上都面臨或多或少的問題。
文生視頻的難點
- 可供訓練的有效數(shù)據(jù)少:對于任何深度學習模型來說,數(shù)據(jù)質(zhì)量和數(shù)量決定了它的性能上限。不同于語言模型或者視覺模型,這些模型訓練的數(shù)據(jù)很容易就能在開源社區(qū)找到,并且質(zhì)量和數(shù)量都較為可觀。而文生視頻模型訓練需要的文本-視頻對就沒那么容易找到了。
- 計算難度大: 視頻數(shù)據(jù)比圖片數(shù)據(jù)多了時間上的維度。假設已經(jīng)有一批文本-視頻對數(shù)據(jù),文生視頻模型的訓練也只能用非常短的視頻片段進行訓練,因為越長的視頻越難保證幀與幀之間的一致性和連貫性。
實現(xiàn)文生視頻的方法
早期的生成對抗網(wǎng)絡
文生視頻是個非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 來實現(xiàn)。如VideoGan,是一個雙通道模型,把視頻抽象分成前景和背景,分別通過這兩個通道把噪聲轉(zhuǎn)視頻幀再合并到一塊,是最早將GAN用于視頻生成的框架。
雖然這些工作為文生視頻奠定了基礎,但它們的應用范圍非常有限,僅限于低分辨率(大多都是128*128像素)以及視頻中目標單一的情況。
近期的擴散模型
而近兩年來,隨著擴散模型的發(fā)展以及在圖像領域取得的成就,一些研究者也逐漸把研究重心轉(zhuǎn)移到擴散模型上來。因為之前調(diào)研使用過Text2Video-Zero這個模型,接下來就簡要介紹一下這個模型及其效果。
顧名思義,Text2Video-Zero 是一種零樣本模型,即無需使用任何 文本 - 視頻對 數(shù)據(jù),就能把文生圖遷移到文生視頻,因此可以直接使用stable diffusion相關的模型,如sd-1.5或sdxl等 。
整體思路可以概述如下:
- 從第二幀開始每一幀都不進行隨機噪聲采樣,而是從前一幀變化來,通過一個運動向量疊加而成
- Unet的注意力機制修改為幀與幀之間的注意力機制
從論文中給出的例子來看,能夠生成一些簡單的視頻
我也嘗試生成一段簡單的視頻,效果還是有限的。細看會發(fā)現(xiàn)草的細節(jié)不夠好,存在畸變,而且河流是簡單的左右對稱。雖然調(diào)整了采樣率,但效果還是不太理想。文章來源:http://www.zghlxwxcb.cn/news/detail-808742.html
結(jié)論
從實際效果來看,目前的文生視頻效果尚未達到生成電影級視頻的能力。猜測接下來開源的一些模型可能聚焦用更好的方法捕捉視頻幀之間的關聯(lián),從圖像零樣本遷移到視頻,畢竟這才是真正的多模型大模型。而一批商業(yè)化的公司可能還會花費大量的人力財力去構(gòu)建私有的高質(zhì)量文本-視頻數(shù)據(jù),以提升視頻在細節(jié)方面的效果,從而拉開與別人的差距。文章來源地址http://www.zghlxwxcb.cn/news/detail-808742.html
到了這里,關于零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!