易觀:今年以來(lái),隨著人工智能技術(shù)不斷實(shí)現(xiàn)突破迭代,生成式AI的話題多次成為熱門,而人工智能內(nèi)容生成(AIGC)的產(chǎn)業(yè)發(fā)展、市場(chǎng)反應(yīng)與相應(yīng)監(jiān)管要求也受到了廣泛關(guān)注。為了更好地探尋其在各行業(yè)落地應(yīng)用的可行性和發(fā)展趨勢(shì),易觀對(duì)AIGC產(chǎn)業(yè)進(jìn)行了探索并將發(fā)布AIGC產(chǎn)業(yè)研究報(bào)告系列。
報(bào)告以內(nèi)容生成模態(tài)作為視角,涵蓋了AIGC在語(yǔ)言生成、圖像生成、音頻生成、視頻生成、三維生成、分子發(fā)現(xiàn)與電路設(shè)計(jì)(圖生成)等領(lǐng)域的技術(shù)發(fā)展、關(guān)鍵能力、典型應(yīng)用場(chǎng)景,我國(guó)AIGC產(chǎn)業(yè)在商業(yè)化落地過(guò)程所面臨的挑戰(zhàn)和對(duì)前景的展望。希望通過(guò)梳理和把握AIGC產(chǎn)業(yè)的發(fā)展脈絡(luò),為各領(lǐng)域的應(yīng)用開(kāi)發(fā)者和使用者提供參考。
在本期視頻生成篇中,報(bào)告梳理了視頻生成技術(shù)的發(fā)展階段和主流模型,分析了影響模型應(yīng)用能力的關(guān)鍵因素、市場(chǎng)上的主流產(chǎn)品及商業(yè)模式,并提出在進(jìn)行商業(yè)化落地時(shí),來(lái)自易用性、可控性、合規(guī)性三個(gè)方面的挑戰(zhàn)。
定義
視頻生成是指通過(guò)對(duì)人工智能的訓(xùn)練,使其能夠根據(jù)給定的文本、圖像、視頻等單模態(tài)或多模態(tài)數(shù)據(jù),自動(dòng)生成符合描述的、高保真的視頻內(nèi)容。
主要類型和應(yīng)用領(lǐng)域
基于應(yīng)用視角可以對(duì)視頻生成的方式做進(jìn)一步細(xì)分,包括剪輯生成、特效生成和內(nèi)容生成,三種方式的結(jié)合使用可以大量應(yīng)用在電影電視、游戲、短視頻、廣告等視覺(jué)制作領(lǐng)域,在工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)、教育培訓(xùn)等行業(yè)也可以提供更加直觀的演示效果。
?
技術(shù)發(fā)展的關(guān)鍵階段
視頻生成的技術(shù)發(fā)展可以大致分為圖像拼接生成、GAN/VAE/Flow-based生成、自回歸和擴(kuò)散模型生成幾個(gè)關(guān)鍵階段,隨著深度學(xué)習(xí)的發(fā)展,視頻生成無(wú)論在畫質(zhì)、長(zhǎng)度、連貫性等方面都有了很大提升。但由于視頻數(shù)據(jù)的復(fù)雜性高,相較于語(yǔ)言生成和圖像生成,視頻生成技術(shù)當(dāng)前仍處于探索期,各類算法和模型都存在一定的局限性。
?
● 圖像拼接生成階段:
在早期階段,視頻生成主要基于圖像-圖像技術(shù),通過(guò)將每一幀靜態(tài)圖像拼接成一個(gè)連續(xù)的視頻流。利用圖像拼接合成視頻的方法較為簡(jiǎn)單易用,但缺點(diǎn)是生成的視頻質(zhì)量低、連貫性較差。
● GAN/VAE/Flow-based生成階段:
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,生成對(duì)抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)以及基于流的模型(Flow-based model)開(kāi)始被用于視頻生成任務(wù),這個(gè)階段的發(fā)展主要集中在改進(jìn)模型訓(xùn)練和生成算法,由于對(duì)視頻直接建模的難度很高,一些模型通過(guò)將前景和背景解耦、運(yùn)動(dòng)和內(nèi)容分解等方式生成視頻,或是基于對(duì)圖像的翻譯來(lái)改進(jìn)生成效果,以加強(qiáng)連續(xù)幀之間的平滑過(guò)渡,但總體效果上生成視頻的質(zhì)量仍然較低,難以實(shí)際應(yīng)用。
● 自回歸和擴(kuò)散模型階段:
隨著Transformer、Stable Diffusion在語(yǔ)言生成、圖像生成領(lǐng)域取得的成功,基于自回歸模型和擴(kuò)散模型的視頻生成架構(gòu)逐漸成為主流,自回歸模型可以根據(jù)先前的幀來(lái)預(yù)測(cè)下一幀,視頻較為連貫自然,但存在生成效率低且錯(cuò)誤易積累的問(wèn)題。一些研究將擴(kuò)散模型在圖像生成研究成果成功遷移到了視頻生成中,通過(guò)對(duì)圖像生成架構(gòu)的改進(jìn)使其適應(yīng)視頻生成任務(wù),這種方法的優(yōu)點(diǎn)是生成的視頻具有高保真的效果,但相應(yīng)地也需要更多的訓(xùn)練數(shù)據(jù)、時(shí)間和計(jì)算資源。在這個(gè)階段,視頻仍然不可避免地出現(xiàn)跳幀現(xiàn)象,以及內(nèi)容表現(xiàn)的邏輯性欠缺等問(wèn)題。
主流模型實(shí)現(xiàn)原理及優(yōu)缺點(diǎn)
● 主流模型解析
Imagen-Video文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-496717.html
1、實(shí)現(xiàn)原理:Imagen-Video是在Imagen模型基礎(chǔ)上開(kāi)發(fā)的基于文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-496717.html
到了這里,關(guān)于AIGC產(chǎn)業(yè)研究報(bào)告2023——視頻生成篇的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!