国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)

這篇具有很好參考價值的文章主要介紹了零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

前段時間,一款AI視頻應用及其創(chuàng)始人刷爆了科技圈,順便還帶火了自家公司的股票。這是一家名為pikaai的初創(chuàng)公司,他們的主打產(chǎn)品是一款文本生成視頻應用Pika 1.0。對于AI生成圖片大多數(shù)人已經(jīng)不陌生了,甚至已經(jīng)用的非常熟練,其中不乏常見的Stable Diffusion以及Midjourney等各種模型和產(chǎn)品。反觀文生視頻模型及其衍生產(chǎn)品卻進展遲緩,盡管幾家當紅的公司宣傳自己的產(chǎn)品非常厲害,但實際上都面臨或多或少的問題。

文生視頻的難點

  • 可供訓練的有效數(shù)據(jù)少:對于任何深度學習模型來說,數(shù)據(jù)質(zhì)量和數(shù)量決定了它的性能上限。不同于語言模型或者視覺模型,這些模型訓練的數(shù)據(jù)很容易就能在開源社區(qū)找到,并且質(zhì)量和數(shù)量都較為可觀。而文生視頻模型訓練需要的文本-視頻對就沒那么容易找到了。
  • 計算難度大: 視頻數(shù)據(jù)比圖片數(shù)據(jù)多了時間上的維度。假設已經(jīng)有一批文本-視頻對數(shù)據(jù),文生視頻模型的訓練也只能用非常短的視頻片段進行訓練,因為越長的視頻越難保證幀與幀之間的一致性和連貫性。

實現(xiàn)文生視頻的方法

早期的生成對抗網(wǎng)絡

文生視頻是個非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 來實現(xiàn)。如VideoGan,是一個雙通道模型,把視頻抽象分成前景和背景,分別通過這兩個通道把噪聲轉(zhuǎn)視頻幀再合并到一塊,是最早將GAN用于視頻生成的框架。
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能

雖然這些工作為文生視頻奠定了基礎,但它們的應用范圍非常有限,僅限于低分辨率(大多都是128*128像素)以及視頻中目標單一的情況。

近期的擴散模型

而近兩年來,隨著擴散模型的發(fā)展以及在圖像領域取得的成就,一些研究者也逐漸把研究重心轉(zhuǎn)移到擴散模型上來。因為之前調(diào)研使用過Text2Video-Zero這個模型,接下來就簡要介紹一下這個模型及其效果。
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能

顧名思義,Text2Video-Zero 是一種零樣本模型,即無需使用任何 文本 - 視頻對 數(shù)據(jù),就能把文生圖遷移到文生視頻,因此可以直接使用stable diffusion相關的模型,如sd-1.5或sdxl等 。
整體思路可以概述如下:

  1. 從第二幀開始每一幀都不進行隨機噪聲采樣,而是從前一幀變化來,通過一個運動向量疊加而成
  2. Unet的注意力機制修改為幀與幀之間的注意力機制

從論文中給出的例子來看,能夠生成一些簡單的視頻
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
我也嘗試生成一段簡單的視頻,效果還是有限的。細看會發(fā)現(xiàn)草的細節(jié)不夠好,存在畸變,而且河流是簡單的左右對稱。雖然調(diào)整了采樣率,但效果還是不太理想。
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能
零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā),AIGC,音視頻,人工智能

結(jié)論

從實際效果來看,目前的文生視頻效果尚未達到生成電影級視頻的能力。猜測接下來開源的一些模型可能聚焦用更好的方法捕捉視頻幀之間的關聯(lián),從圖像零樣本遷移到視頻,畢竟這才是真正的多模型大模型。而一批商業(yè)化的公司可能還會花費大量的人力財力去構(gòu)建私有的高質(zhì)量文本-視頻數(shù)據(jù),以提升視頻在細節(jié)方面的效果,從而拉開與別人的差距。文章來源地址http://www.zghlxwxcb.cn/news/detail-808742.html

到了這里,關于零樣本從文本直接生成視頻:Text2video-zero的試用和啟發(fā)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 本地AI text2img生成工具【類似midjourney】

    本地AI text2img生成工具【類似midjourney】

    大家好,今天我要向大家推薦一款無需翻墻即可在本地生成圖片的軟件。這個軟件可以在GitHub上找到。 我們可以點擊code下載zip或者通過desktop進行下載。 下載完成后,它會生成一個目錄 我們需要在電腦上配置兩個環(huán)境才能運行這個腳本。 首先,我們需要下載Python 3.10.6,并配

    2024年02月16日
    瀏覽(23)
  • ChatGPT新增超強插件:文本直接生成視頻、海報,支持自定義修改!

    ChatGPT新增超強插件:文本直接生成視頻、海報,支持自定義修改!

    全球著名在線設計平臺Canva,在ChatGPT Plus(GPT-4)上推出了插件功能,用戶通過文本提示,幾秒鐘就能生成演示文稿、PPT插圖、電子書封面、宴會邀請函等各種精美設計海報,同時支持生成視頻。 該插件最強大的功能在于,用戶如果對自動生成的海報、視頻不滿意,可以點擊

    2024年02月09日
    瀏覽(17)
  • 【AIGC】阿里達摩院:文本生成視頻大模型-通用領域 (Text-to-video-synthesis Model in Open Domain)

    說實話,這篇破文章沒什么營養(yǎng),就是記錄一下 阿里達摩院的文章水平。 :多模態(tài) text2video generation diffusion model 文到視頻 文生視頻 文本生成視頻? 目錄 文本生成視頻大模型-通用領域 (Text-to-video-synthesis Model in Open Domain) 模型描述 (Model Description)

    2023年04月09日
    瀏覽(35)
  • 免費使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)

    免費使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)

    免費使用支持離線部署使用的 txt2video 文本生成視頻大模型(Text-to-Video-Synthesis Model)。 文本生成視頻大模型(Text-to-Video-Synthesis Model)是一種基于深度學習技術(shù)的人工智能模型,它可以將自然語言文本描述轉(zhuǎn)換為相應的視頻。即通過輸入文本描述,自動生成符合描述內(nèi)容的視頻。

    2024年02月22日
    瀏覽(17)
  • 【100個 Unity實用技能】?? | UGUI Text中加入超鏈接文本,可直接點擊跳轉(zhuǎn)

    【100個 Unity實用技能】?? | UGUI Text中加入超鏈接文本,可直接點擊跳轉(zhuǎn)

    老規(guī)矩,先介紹一下 Unity 的科普小知識: Unity 是 實時3D互動內(nèi)容創(chuàng)作和運營平臺 。 包括 游戲開發(fā) 、 美術(shù) 、 建筑 、 汽車設計 、 影視 在內(nèi)的所有創(chuàng)作者,借助 Unity 將創(chuàng)意變成現(xiàn)實。 Unity 平臺提供一整套完善的軟件解決方案,可用于創(chuàng)作、運營和變現(xiàn)任何實時互動的2D和

    2024年02月08日
    瀏覽(21)
  • stableDiffusionWebui text2imgapi并發(fā)作畫

    stableDiffusionWebui text2imgapi并發(fā)作畫

    AI繪畫火了兩年,自己也摸索了一段時間。分享一個知識點,基于開源框架實現(xiàn)并發(fā)作畫。 基于stableDiffusionWebui 1.0版本,修改以下代碼后可以達到并發(fā)效果。 在\\\"stable-diffusion-webuimodulesapiapi.py\\\" 文件中找到\\\"text2imgapi\\\"方法,將\\\"# with self.queue_lock:\\\"代碼注釋掉,即可讓text2imgapi實現(xiàn)

    2024年02月11日
    瀏覽(19)
  • Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡仍然是文本生成圖像的可行選擇

    Text to image論文精讀GigaGAN: 生成對抗網(wǎng)絡仍然是文本生成圖像的可行選擇

    GigaGAN是Adobe和卡內(nèi)基梅隆大學學者們提出的一種新的GAN架構(gòu),作者設計了一種新的GAN架構(gòu),推理速度、合成高分辨率、擴展性都極其有優(yōu)勢,其證明GAN仍然是文本生成圖像的可行選擇之一。 文章鏈接:https://arxiv.org/abs/2303.05511 項目地址:https://mingukkang.github.io/GigaGAN/ 最近,文

    2023年04月09日
    瀏覽(27)
  • LLM在text2sql上的應用

    目前,大模型的一個熱門應用方向text2sql它可以幫助用戶快速生成想要查詢的SQL語句。那對于用戶來說,大部分簡單的sql都是正確的,但對于一些復雜邏輯來說,需要用戶在產(chǎn)出SQL的基礎上進行簡單修改,Text2SQL應用主要還是幫助用戶去解決開發(fā)時間,減少開發(fā)成本。 Text to

    2024年02月08日
    瀏覽(22)
  • TEXT2SQL-頂峰:Vanna部署及介紹

    TEXT2SQL-頂峰:Vanna部署及介紹

    Vanna 是一款采用 MIT 許可的開源 Python RAG (檢索增強生成)框架,用于生成 SQL 語句和相關功能。 如何使用 Vanna Vanna 的使用分為兩個簡單步驟 - 在你的數(shù)據(jù)上訓練一個 RAG \\\"模型\\\",然后提出問題,該問題將返回可設置為自動在你的數(shù)據(jù)庫上運行的 SQL 查詢。 1. 在你的數(shù)據(jù)上訓練一

    2024年02月22日
    瀏覽(19)
  • 大模型LLM在 Text2SQL 上的應用實踐

    大模型LLM在 Text2SQL 上的應用實踐

    一、前言 目前,大模型的一個熱門應用方向Text2SQL,它可以幫助用戶快速生成想要查詢的SQL語句,再結(jié)合可視化技術(shù)可以降低使用數(shù)據(jù)的門檻,更便捷的支持決策。本文將從以下四個方面介紹LLM在Text2SQL應用上的基礎實踐。 · Text2SQL概述 · LangChain基礎知識 · 基于SQLDatabaseCha

    2024年01月16日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包