国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC下一站:期待、警惕充斥著AI剪輯師的世界

這篇具有很好參考價值的文章主要介紹了AIGC下一站:期待、警惕充斥著AI剪輯師的世界。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

上月底,名為“chaindrop”的 Reddit 用戶,在 r/StableDiffusion subreddit 上分享了一個由人工智能生成的視頻,在業(yè)內(nèi)引起了不小的爭議。

視頻中,一個由 AI 生成的丑陋畸形的 “威爾·史密斯”,以一種可怕的熱情將一把意大利面條鏟進(jìn)嘴里。這一 “地獄般” 的視頻迅速傳播到其他形式的社交媒體,數(shù)字媒體和廣播公司 Vice 表示該視頻將 “伴隨你的余生”,美國娛樂網(wǎng)刊 The A.V. Club 稱其為 “AI 開發(fā)的自然終點(diǎn)”。僅在 Twitter 上,這一視頻的觀看次數(shù)就超過了 800 萬。

下面這段動圖是其中的部分內(nèi)容。每一幀都以不同的角度展示了模擬的威爾·史密斯狼吞虎咽地吃著意大利面的場景。

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC

自從威爾·史密斯吃意大利面的視頻瘋狂傳播后,互聯(lián)網(wǎng)上就出現(xiàn)了斯嘉麗·約翰遜和喬·拜登吃意大利面等后續(xù)報道,甚至還有史密斯吃肉丸子的視頻。盡管這些可怕的視頻正在成為互聯(lián)網(wǎng)中完美且 “恐懼” 模因素材,但就像之前的文生圖以及每一種 AI 生成的內(nèi)容一樣,文生視頻(Text2Video)正加速走進(jìn)我們的生活

一、文生視頻:你寫腳本,我做視頻

“威爾·史密斯吃意大利面”的視頻出自開源 AI 工具 ModelScope 模型,創(chuàng)建這一視頻的工作流程相當(dāng)簡單:僅需給出“Will Smith eating spaghetti”的提示,并以每秒 24 幀(FPS)的速度生成。

據(jù)了解,ModelScope 是一種 “文生視頻” 擴(kuò)散模型,經(jīng)過訓(xùn)練可以通過分析收集到 LAION5B、ImageNet 和 Webvid 數(shù)據(jù)集中的數(shù)百萬張圖像和數(shù)千個視頻,根據(jù)用戶的提示來創(chuàng)建新視頻。這包括來自 Shutterstock 的視頻,因此在其輸出上有幽靈般的 “Shutterstock” 水印,就像視頻中所展示的那樣。

目前,在文生視頻這一賽道,國內(nèi)外大廠和研究機(jī)構(gòu)也在悄然競爭。早在去年 9 月 29 日,Meta 就發(fā)布了 Make-A-Video,在最初的公告頁面上,Meta 展示了基于文本生成的示例視頻,包括 “一對年輕夫婦在大雨中行走” 和 “一只正在畫肖像的泰迪熊”。

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC

同時,Make-A-Video 具備拍攝靜態(tài)源圖像并將其動畫化的能力。例如,一張海龜?shù)撵o止照片,一旦通過 AI 模型處理,就可以看起來像是在游泳。

僅僅在 Meta 推出 Make-A-Video 不到一周后,Google 便發(fā)布了 Imagen Video,它能夠根據(jù)書面提示以每秒 24 幀的速度生成 1280×768 的高清晰視頻。Imagen Video 包括幾個顯著的風(fēng)格能力,例如根據(jù)著名畫家的作品(如梵高的畫作)生成視頻,生成 3D 旋轉(zhuǎn)對象同時保留對象結(jié)構(gòu),以及渲染文本多種動畫風(fēng)格。Google 希望,這一視頻合成模型能夠 “顯著降低高質(zhì)量內(nèi)容生成的難度”。

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC

隨后,Google 推出了另一個文生視頻模型 Phenaki。區(qū)別于 Imagen Video 主打視頻品質(zhì),Phenaki 主要挑戰(zhàn)視頻長度。它可以根據(jù)詳細(xì)提示創(chuàng)建更長的視頻,實(shí)現(xiàn) “有故事、有長度”。它生成任意時間長度的視頻能力來源于其新編解碼器 CViVIT——該模型建立在 Google 早期文生圖系統(tǒng) Imagen 中磨練的技術(shù)之上,但在其中加入了一堆新組件,從而可以將靜態(tài)幀轉(zhuǎn)換為流暢的運(yùn)動。

今年 2 月 6 日,Stable Diffusion 背后的原始創(chuàng)業(yè)公司 Runway 推出了視頻生成 AI——Gen-1 模型,可以通過使用文本提示或者參考圖像所指定的任意風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為新視頻,改變其視覺風(fēng)格。3 月 21 日,Runway 發(fā)布 Gen-2 模型,專注于從零開始生成視頻,通過將圖像或文本提示的構(gòu)圖和樣式應(yīng)用于源視頻的結(jié)構(gòu)(視頻到視頻),或者,只使用文字(文生視頻)。

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC

二、踩在"文生圖"的肩膀上

Make-A-Video 等文生視頻模型背后的關(guān)鍵技術(shù)——以及為什么它比一些專家預(yù)期得更早到來——是因?yàn)樗仍诹恕拔纳鷪D”技術(shù)巨人的肩膀上。

據(jù) Meta 介紹,他們不是在標(biāo)記的視頻數(shù)據(jù)(例如,描述的動作的字幕描述)上訓(xùn)練 Make-A-Video 模型,而是采用圖像合成數(shù)據(jù)(用字幕訓(xùn)練的靜止圖像)并應(yīng)用未標(biāo)記的視頻訓(xùn)練數(shù)據(jù),以便模型學(xué)習(xí)文本或圖像提示在時間和空間中可能存在的位置的感覺。然后,它可以預(yù)測圖像之后會發(fā)生什么,并在短時間內(nèi)顯示動態(tài)場景。

從 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生圖模型已經(jīng)變得非常流行,并被更廣泛的受眾使用。隨著對多模態(tài)模型的不斷拓展以及生成式 AI 的研究,業(yè)內(nèi)近期的工作試圖通過在視頻領(lǐng)域重用文本到圖像的擴(kuò)散模型,將其成功擴(kuò)展到文本到視頻的生成和編輯任務(wù)中,使得用戶能夠僅僅給出提示便能得到想要的完整視頻。

早期的文生圖方法依賴于基于模板的生成和特征匹配等方法。然而,這些方法生成逼真和多樣化圖像的能力有限。在 GAN 獲得成功之后,還提出了其他幾種基于深度學(xué)習(xí)的文生圖方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它們通過引入新的架構(gòu)和增強(qiáng)機(jī)制進(jìn)一步提高了圖像質(zhì)量和多樣性。

后來,隨著 Transformer 的進(jìn)步,出現(xiàn)了新的文生圖方法。例如,DALL·E-2 是一個 120 億參數(shù)的變換器模型:首先,它生成圖像令牌,然后將其與文本令牌組合,用于自回歸模型的聯(lián)合訓(xùn)練。之后,Parti 提出了一種生成具有多個對象的內(nèi)容豐富的圖像的方法。Make-a-Scene 則通過文生圖生成的分割掩碼實(shí)現(xiàn)控制機(jī)制?,F(xiàn)在的方法建立在擴(kuò)散模型的基礎(chǔ)上,從而將文生圖的合成質(zhì)量提升到一個新的水平。GLIDE 通過添加無分類器引導(dǎo)改進(jìn)了 DALL·E。后來,DALL·E-2 利用了對比模型 CLIP:通過擴(kuò)散過程,從 CLIP 文本編碼到圖像編碼的映射,以及獲得 CLIP 解碼器……

這些模型能夠生成具有高質(zhì)量的圖像,因此研究者將目光對準(zhǔn)了開發(fā)能夠生成視頻的文生圖模型。然而,文生視頻現(xiàn)在還是一個相對較新的研究方向?,F(xiàn)有方法嘗試?yán)米曰貧w變換器和擴(kuò)散過程進(jìn)行生成

例如,NUWA 引入了一個 3D 變換器編碼器-解碼器框架,支持文本到圖像和文本到視頻的生成。Phenaki 引入了一個雙向掩蔽變換器和因果關(guān)注機(jī)制,允許從文本提示序列生成任意長度的視頻;CogVideo 則通過使用多幀速率分層訓(xùn)練策略來調(diào)整 CogView 2 文生圖模型,以更好地對齊文本和視頻剪輯;VDM 則聯(lián)合訓(xùn)練圖像和視頻數(shù)據(jù)自然地?cái)U(kuò)展了文生圖擴(kuò)散模型。

前面展示的 Imagen Video 構(gòu)建了一系列視頻擴(kuò)散模型,并利用空間和時間超分辨率模型生成高分辨率時間一致性視頻。Make-A-Video 在文本到圖像合成模型的基礎(chǔ)上,以無監(jiān)督的方式利用了視頻數(shù)據(jù)。Gen-1 則是擴(kuò)展了 Stable Diffusion 并提出了一種基于所需輸出的視覺或文本描述的結(jié)構(gòu)和內(nèi)容引導(dǎo)的視頻編輯方法。

如今,越來越多的文生視頻模型不斷迭代,我們可以看到,2023 年似乎將要成為 “文生視頻” 的一年。

三、生成式AI下一站:需要改進(jìn),需要警惕

盡管復(fù)用了文生圖的技術(shù)與訓(xùn)練集,但在視頻領(lǐng)域應(yīng)用擴(kuò)散模型并不簡單,尤其是由于它們的概率生成過程,很難確保時間一致性。即主要主體往往在幀與幀之間看起來略有不同,背景也不一致,這使得完成的視頻看起來一切都在不斷運(yùn)動,缺乏真實(shí)感。同時,大多數(shù)方法都需要大量的標(biāo)記數(shù)據(jù)并進(jìn)行大量的訓(xùn)練,這是極其昂貴并難以負(fù)擔(dān)的。

近日,由 Picsart AI Resarch(PAIR)團(tuán)隊(duì)介紹的一種新穎的零樣本的文本到視頻生成任務(wù),提出了一種低成本的方法,通過利用現(xiàn)有的文本到圖像合成方法(如 Stable Diffusion),將其應(yīng)用于視頻領(lǐng)域。該研究主要進(jìn)行了兩個關(guān)鍵修改:一是為生成幀的潛在代碼添加動態(tài)運(yùn)動信息,以保持全局場景和背景時間的一致性;二是使用新的跨幀注意力機(jī)制,對每個幀在第一幀的關(guān)注,重新編程幀級自注意力,以保持前景對象的上下文、外觀和身份。

AIGC下一站:期待、警惕充斥著AI剪輯師的世界,人工智能那些事兒,人工智能,AIGC
圖|Text2Video-Zero使用(i)文本提示(見第1、2行)、(ii)結(jié)合姿勢或邊緣指導(dǎo)的提示(見右下角)和(iii)視頻指令-Pix2Pix,即指令引導(dǎo)視頻編輯(見左下角),實(shí)現(xiàn)零樣本視頻生成。結(jié)果在時間上是一致的,并嚴(yán)格遵循指導(dǎo)和文本提示。

這個方法的意義在于它具有低開銷,同時能生成高質(zhì)量且相當(dāng)一致的視頻。此外,這種方法不僅適用于文本到視頻合成,還適用于其他任務(wù),如條件和內(nèi)容專用視頻生成,以及視頻指導(dǎo)下的圖像到圖像翻譯。

實(shí)驗(yàn)證明,這種方法在性能上可與最近的方法相媲美,甚至在某些情況下優(yōu)于它們,盡管它沒有在額外的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。這項(xiàng)技術(shù)可以用于創(chuàng)作動畫、廣告和短片,節(jié)省成本和時間。此外,它還可以在教育領(lǐng)域提供可視化材料,使學(xué)習(xí)變得更加生動有趣。

然而,隨著不斷的技術(shù)迭代,這些文生視頻 AI 模型將變得更加精確、逼真和可控。就像是恐怖的 “史密斯吃意大利面” 視頻一樣,這些工具很可能被用來生成虛假、仇恨、露骨或有害的內(nèi)容,信任與安全等問題也逐漸涌現(xiàn)。

谷歌稱,Google Imagen Video 的訓(xùn)練數(shù)據(jù)來自公開可用的 LAION-400M 圖像文本數(shù)據(jù)集和 “1400 萬個視頻文本對和 6000 萬個圖像文本對”。盡管它已經(jīng)接受了谷歌過濾的 “有問題的數(shù)據(jù)” 的訓(xùn)練,但仍然可能包含色情和暴力內(nèi)容——以及社會刻板印象和文化偏見。

Meta 也承認(rèn),按需制作逼真的視頻會帶來一定的社會危害。在公告頁面的底部,Meta 表示,所有來自 Make-A-Video 的人工智能生成的視頻內(nèi)容都包含一個水印,以 “幫助確保觀眾知道視頻是用人工智能生成的,而不是捕獲的視頻”。但是,競爭性的開源文生視頻模型可能會隨之而來,這可能會使 Meta 的水印保護(hù)變得無關(guān)緊要。

美國麻省理工學(xué)院人工智能教授菲利普·伊索拉就表示,**如果看到高分辨率的視頻,人們很可能會相信它。也有專家指出,隨著人工智能語音匹配的出現(xiàn),以及逐漸擁有改變和創(chuàng)建幾乎觸手可及的逼真視頻的能力,偽造公眾人物和社會大眾的言行可能會造成不可估量的傷害。但是,“潘多拉的魔盒已經(jīng)打開”,**作為生成式 AI 的下一站,文生視頻的技術(shù)需要不斷改進(jìn),與此同時,依然需要警惕安全與倫理風(fēng)險。文章來源地址http://www.zghlxwxcb.cn/news/detail-561895.html

到了這里,關(guān)于AIGC下一站:期待、警惕充斥著AI剪輯師的世界的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大模型的下一站是通用人工智能(AGI)嗎?

    目錄 大模型的下一站

    2024年02月06日
    瀏覽(28)
  • 探工業(yè)互聯(lián)網(wǎng)的下一站!騰訊云助力智造升級

    探工業(yè)互聯(lián)網(wǎng)的下一站!騰訊云助力智造升級

    數(shù)字化浪潮正深刻影響著傳統(tǒng)工業(yè)形態(tài)。作為第四次工業(yè)革命的重要基石,工業(yè)互聯(lián)網(wǎng)憑借其獨(dú)特的價值快速崛起,引領(lǐng)和推動著產(chǎn)業(yè)變革方向。面對數(shù)字化時代給產(chǎn)業(yè)帶來的機(jī)遇與挑戰(zhàn),如何推動工業(yè)互聯(lián)網(wǎng)的規(guī)?;涞?,加速數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)的深度融合,已成為全行

    2024年02月11日
    瀏覽(28)
  • OpenAI再出新作,AIGC時代,3D建模師的飯碗危險了!

    OpenAI再出新作,AIGC時代,3D建模師的飯碗危險了!

    大家好,我是千與千尋,也可以叫我千尋哥,說起來,自從ChatGPT發(fā)布之后,我就開始焦慮,擔(dān)心自己程序員的飯碗會不會哪天就被AIGC取代了。 有人說我是過度焦慮了,但是我總覺有點(diǎn)危機(jī)感肯定沒有壞處。(結(jié)尾反轉(zhuǎn),hhh,希望你看下去?。?不過好家伙,還沒等AIGC大模型

    2024年02月09日
    瀏覽(16)
  • 警惕!當(dāng)心AI詐騙!

    警惕!當(dāng)心AI詐騙!

    鄂爾多斯新聞公眾號、澎湃新聞網(wǎng)、搜孤新聞、騰訊網(wǎng)等 事例一: 近期 “AI換臉”新型詐騙頻發(fā)和你視頻對話的可能不是本人! 近日,東勝市民李女士遭遇了冒充熟人的詐騙,被騙30萬元。詐騙分子冒充李女士的同學(xué)“賈某”,偽造微信賬號添加李女士后,主動提出視頻聊

    2024年02月06日
    瀏覽(18)
  • 美攝云剪輯3.0:融合AIGC,實(shí)現(xiàn)效率提升

    美攝云剪輯3.0:融合AIGC,實(shí)現(xiàn)效率提升

    數(shù)字人視頻一鍵生成 本地素材剪輯無需等待上傳 支持Lottie動畫導(dǎo)入 伴隨元宇宙技術(shù)的發(fā)展和產(chǎn)業(yè)數(shù)字化升級,數(shù)字人正在成為下一代互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施。與此同時,AI的應(yīng)用場景也愈加豐富。人工智能生產(chǎn)數(shù)字內(nèi)容(AIGC)風(fēng)潮漸盛,應(yīng)用前景廣闊,具有內(nèi)容生產(chǎn)能力的數(shù)字

    2024年02月11日
    瀏覽(15)
  • 警惕AI換臉技術(shù):近期詐騙事件揭示的驚人真相

    警惕AI換臉技術(shù):近期詐騙事件揭示的驚人真相

    大家好,我是可夫小子,《小白玩轉(zhuǎn)ChatGPT》專欄作者,關(guān)注AIGC、讀書和自媒體。 目錄 1. deepswap 2. faceswap 3. swapface 總結(jié) ??通知 近日,包頭警方公布了一起用AI進(jìn)行電信詐騙的案件,其中福州科技公司代表郭先生,在10分鐘內(nèi)損失了430萬元。事件發(fā)生在4月20日,郭先生接到假

    2024年02月06日
    瀏覽(18)
  • 被稱為下一代風(fēng)口的AIGC到底是什么?

    被稱為下一代風(fēng)口的AIGC到底是什么?

    近期,短視頻平臺上“AI繪畫”的概念爆火,ChatGPT這一詞條也刷爆了科技圈,而這些概念同屬于一個領(lǐng)域——AIGC。2022年12月,Science雜志發(fā)布的2022年度科學(xué)十大突破中,AIGC入選。 那么,被稱之為是AI下一代風(fēng)口的AIGC到底是什么? AIGC全稱為AI-Generated Content,即 利用人工智能技

    2024年01月16日
    瀏覽(101)
  • 智能存儲:多媒體實(shí)驗(yàn)室AIGC能力助力數(shù)據(jù)萬象開啟智能剪輯大門

    智能存儲:多媒體實(shí)驗(yàn)室AIGC能力助力數(shù)據(jù)萬象開啟智能剪輯大門

    AIGC正從效率、質(zhì)量、創(chuàng)意、多樣性各方面革新內(nèi)容生產(chǎn)流程,伴隨firely、midjourney等現(xiàn)象級的產(chǎn)品出現(xiàn),AIGC將逐步 廣泛服務(wù)于內(nèi)容生產(chǎn)的各類場景與內(nèi)容生產(chǎn)者,隨著AIGC在內(nèi)容生產(chǎn)的需求場景不斷增加,多媒體實(shí)驗(yàn)室也在AIGC領(lǐng)域持續(xù)發(fā)力,并通過數(shù)據(jù)萬象將 能力成功應(yīng)用到

    2024年02月10日
    瀏覽(21)
  • AIGC技術(shù)研究與應(yīng)用 ---- 下一代人工智能:新范式!新生產(chǎn)力?。? - AIGC 未來展望)

    據(jù)預(yù)測,未來五年10%-30%的圖片內(nèi)容由AI參與生成,考慮到下一代互聯(lián)網(wǎng)對內(nèi)容需求的迅速提升,2030年AIGC市場規(guī)模將達(dá)到1100億美元 任務(wù)分解替代概率模型 (Task Decomposition Replacement Probability Model) :AI替代某個工作主要取 決于以下要素——任務(wù)重復(fù)性、 標(biāo)準(zhǔn)化程度、 創(chuàng)新和判斷

    2024年02月12日
    瀏覽(90)
  • AI時代項(xiàng)目經(jīng)理與架構(gòu)師的成長之道:ChatGPT讓你插上翅膀

    AI時代項(xiàng)目經(jīng)理與架構(gòu)師的成長之道:ChatGPT讓你插上翅膀

    ?? 個人網(wǎng)站:【工具大全】【游戲大全】【神級源碼資源網(wǎng)】 ?? 前端學(xué)習(xí)課程:??【28個案例趣學(xué)前端】【400個JS面試題】 ?? 尋找學(xué)習(xí)交流、摸魚劃水的小伙伴,請點(diǎn)擊【摸魚學(xué)習(xí)交流群】 在AI時代,項(xiàng)目經(jīng)理和架構(gòu)師的角色變得越發(fā)關(guān)鍵,他們需要不斷學(xué)習(xí)和適應(yīng)新技

    2024年02月04日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包