国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【譯】Lumiere,谷歌令人驚嘆的視頻突破

這篇具有很好參考價值的文章主要介紹了【譯】Lumiere,谷歌令人驚嘆的視頻突破。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

原作:伊格納西奧·德格雷戈里奧

引言:文本到視頻的新境界

著名商學(xué)教授斯科特·加洛韋 (Scott Galloway) 打賭,2024 年將是谷歌的人工智能年。

現(xiàn)在看起來似乎正在成為現(xiàn)實。

今天,谷歌推出了 Lumiere,這是文本到視頻領(lǐng)域的巨大突破,是當(dāng)今生成人工智能中最艱巨的任務(wù)之一。而且就其實現(xiàn)的影響而言,可能是迄今為止尚未達到的最重要里程碑,因為一旦實現(xiàn),它將永久改變像好萊塢、YouTube或CGI 這樣的行業(yè)

現(xiàn)在,谷歌已經(jīng)讓我們更進一步,因為它對于人工智能視頻合成的方法不僅是革命性的,而且展示了令人難以置信的視頻質(zhì)量和各種令人驚嘆的技巧,如視頻修補、圖像動畫和視頻風(fēng)格化,使其成為該領(lǐng)域的新標準。

但它是如何生成視頻的呢?

看起來像魔法,但事實并非如此。讓我們揭開它的秘密。

?永恒的難題

在所有數(shù)據(jù)模式中,視頻無疑是最難用人工智能生成的。

然而,考慮到視頻只是圖像(稱為幀)的串聯(lián),以每秒一定的幀速率顯示(fps 越高,視頻越平滑),構(gòu)建文本到視頻(T2V)系統(tǒng)的合理路徑是從一個文本到圖像模型(T2I)出發(fā),比如DALL-eStable Diffusion

然而,T2V增加了一個額外的復(fù)雜維度:時間。

也就是說,僅僅生成多個幀還不夠(你可以使用T2I模型生成所需數(shù)量的幀),它們必須隨著時間的推移保持一致。

換一種說法,如果您要生成有關(guān)獅子的視頻,則必須確保獅子在所有幀上看起來都相似。

事實證明,這是一個巨大的難題,因為在多個幀之間保持結(jié)構(gòu)的復(fù)雜性使得人工智能視頻變得非常短,并且它們往往會展示出瑕疵,例如下面這個由人工智能生成的視頻中突然出現(xiàn)的橙色斑點。

?資料來源:英偉達

這些不一致的原因在于這些模型的構(gòu)建方式,我們很快將解釋Lumiere如何徹底改變這種方法。

?來源:谷歌

最初,視頻合成過程涉及三個步驟:

  1. 文本到圖像(T2I)模型生成了一組關(guān)鍵幀,這些幀覆蓋了整個視頻的完整持續(xù)時間。
  2. 接下來,幾個 TSR(時間超分辨率)模型用一組新幀“填充”了關(guān)鍵幀之間的間隙。例如,如果兩個關(guān)鍵幀分別是一個認真的人和同一個人微笑著,那么TSR模型將生成完整的中間幀,產(chǎn)生微笑的動作。
  3. 然后,一組 SSR(空間超分辨率)將獲取低分辨率幀并對其進行升級以提高視頻質(zhì)量,因為大多數(shù)文本到視頻模型在低分辨率像素空間(或者在某些情況下,在矢量空間,如Stable Diffusion)中工作,這樣可以實現(xiàn)更高效和更便宜的處理過程。
  4. 最后,將SSR的輸出進行“拼接”,從而得到視頻。

最重要的是,人工智能視頻只是采用圖像生成器并對其進行訓(xùn)練,使其隨時間批量生成某種程度一致的圖像,并將它們拼湊在一起。

這確實有效……但也存在一些問題。

就像在拍攝一個演員的片段過程中,他突然脫離角色,你試圖通過強迫他保持特定的姿勢來完成剩下的片段,避免失去前半部分一樣,無論你如何編輯,裁剪是會可見的。

此外,由于該過程涉及使用幾種不同類型的模型,這些模型并不總是共享相同的經(jīng)驗和表征(即它們對概念的理解方式),這使得它極易出錯。

考慮到這些限制,視頻生成似乎還不夠完善。但是通過谷歌的Lumiere項目,我們可能正在見證一項重大進展的開始。

空間、時間和多重擴散

就像圖像生成器一樣,文本到視頻(T2V)模型主要是擴散模型。

擴散模型是一種通過去噪過程學(xué)習(xí)將嘈雜的數(shù)據(jù)分布映射到目標分布的AI系統(tǒng)。

通俗地說,他們采用噪聲圖像和文本條件(即你期望的最終結(jié)果),然后逐漸去除圖像中的噪聲,直到得到所需的結(jié)果。

“貓的肖像”。資料來源:英偉達

可以將擴散過程類比為將一個大理石塊,就像米開朗基羅一樣,逐漸雕刻出多余的大理石,從而“挖掘”出雕像。

將擴散過程想象為取出一塊大理石塊,就像米開朗基羅一樣,雕刻出多余的大理石以“挖掘”雕像。

然而,Google 沒有遵循我們之前描述的標準程序,而是通過創(chuàng)建 STUnet 找到了替代方案。

那么STUnet是什么呢?

?來源:谷歌

UNet是一種架構(gòu),它對圖像進行下采樣、處理并生成一組新的圖像。

換句話說,它接收一組噪聲樣本(如上圖中顯示的模糊圖像)并生成一組新的高質(zhì)量圖像,這些圖像也彼此一致連貫以生成視頻。

為了做到這一點,在處理圖像時應(yīng)用卷積(以理解圖像所見內(nèi)容)的同時,還能對圖像進行下采樣(使其變?。?/span>

一旦壓縮足夠,就會對其應(yīng)用注意力機制(就像ChatGPT在文本序列上應(yīng)用注意力那樣,但是應(yīng)用在圖像的壓縮表示上,以更好地把握圖像中出現(xiàn)的概念,比如熊貓),然后將它們恢復(fù)成像素空間,從而得到期望的圖像。

然而,STUnet還包括時間卷積和注意力機制,這意味著它壓縮了時間。

換句話說,雖然空間卷積和注意力機制專注于處理和確保生成的圖像符合用戶的要求,但是時間卷積和注意力機制確保整個圖像集在時間上是一致的。

這聽起來很抽象,但STUnet基本上不僅理解每幀代表什么,而且還理解不同幀之間的關(guān)系。

換句話說,不僅要捕捉畫面中描繪的熊貓,還要捕捉熊貓隨著時間的推移應(yīng)該做什么動作。

事實上,生成過程是“時間感知”的,Lumiere 可以一次性創(chuàng)建視頻中的所有幀(而不是我們之前討論的通常的關(guān)鍵幀 + 級聯(lián)幀填充),因此STUnet只需要專注于捕捉幀的語義并將其放大到實際的視頻中。

?來源:谷歌

然而,由于內(nèi)存限制,您仍然需要許多 SSR 模型來放大圖像,這意味著最后仍然需要進行一些“拼接”。

因此,為了避免每個 SSR 的放大輸出之間的不一致,他們應(yīng)用了 MultiDiffusion(Bar-Tal 等人,2023)。

這樣做的目的是通過使用MultiDiffuser確保在不同生成的幀批次之間的一致性。

簡而言之,MultiDiffuser允許同時在一幀上進行多個圖像生成過程。

例如,您可以創(chuàng)建一個“模糊圖像”,同時對圖像的某些區(qū)域應(yīng)用并行生成,比如在圖像的特定部分繪制“一只老鼠”或“一堆書”。

關(guān)鍵的直覺是,MultiDiffuser確保無論你通過單獨的擴散過程在圖像的那些片段中生成什么,它們都與整體作品一致

技術(shù)提示:這是通過在標準一代“之上”應(yīng)用額外的生成步驟來實現(xiàn)的,并且這些生成步驟必須符合一個額外的目標函數(shù),該函數(shù)測量了并行生成的數(shù)據(jù)分布之間的“差異”。

換句話說,MultiDiffuser 允許您在原始內(nèi)容上“繪制”新內(nèi)容,同時盡可能保留原始結(jié)構(gòu)。

因此,該組件確保對于需要拼接的視頻的多個幀批次,您可以重新創(chuàng)建不同SSR模型輸出之間的邊界,以使它們保持一致,從而確保片段之間的平滑過渡。

您可以將MultiDiffuser想象成使用Photoshop在SSR模型放大的不同補丁之間“平滑處理”邊界,就像視頻編輯器希望確保在批次之間不會出現(xiàn)任何切割一樣。

它可以使圖像的某些部分動起來,

修復(fù)新的對象和概念:

除此之外,您還可以在這里查看其他令人驚嘆的功能:查看由Lumiere生成的視頻。

視頻新時代

借助 Lumiere,我們可以清楚地看到視頻生成、編輯和動畫等領(lǐng)域的未來方向。

很快,任何人都能夠在短時間內(nèi)從零開始創(chuàng)建令人印象深刻的視頻,從而創(chuàng)造一個充滿可能性的新世界。

盡管取得了令人印象深刻的成果,但感覺我們只看到了冰山一角。文章來源地址http://www.zghlxwxcb.cn/news/detail-825319.html

到了這里,關(guān)于【譯】Lumiere,谷歌令人驚嘆的視頻突破的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • CSS動畫屬性關(guān)鍵幀Keyframes詳解:創(chuàng)建令人驚嘆的動畫效果

    CSS中的關(guān)鍵幀(Keyframes)是一種強大的工具,可用于創(chuàng)建各種動畫效果,從簡單的漸變到復(fù)雜的運動路徑。通過定義關(guān)鍵幀的屬性值和時間軸上的位置,我們可以實現(xiàn)令人驚嘆的視覺效果。本文將詳細介紹CSS動畫屬性關(guān)鍵幀Keyframes的使用方法,并提供相應(yīng)的源代碼示例。 關(guān)鍵

    2024年01月23日
    瀏覽(23)
  • 使用Three.js創(chuàng)建令人驚嘆的WebGL 3D可視化

    WebGL?可視化?3D?繪圖是一項新興技術(shù),具有廣闊的應(yīng)用前景。它允許開發(fā)人員在?Web?瀏覽器中創(chuàng)建和渲染?3D?圖形,而無需安裝額外的插件或軟件。 本博客將介紹?Three.js,Three.js?是一個功能強大的?WebGL?框架,提供了豐富的?API?用于創(chuàng)建和渲染?3D?圖形,接下來讓我們通

    2024年01月19日
    瀏覽(98)
  • ??創(chuàng)意網(wǎng)頁:使用CSS和HTML創(chuàng)建令人驚嘆的3D立方體

    ??創(chuàng)意網(wǎng)頁:使用CSS和HTML創(chuàng)建令人驚嘆的3D立方體

    ? 博主: 命運之光 ? ?? 專欄: Python星辰秘典 ?? 專欄: web開發(fā)(簡單好用又好看) ?? 專欄: Java經(jīng)典程序設(shè)計 ?? 博主的其他文章: 點擊進入博主的主頁 前言: 歡迎踏入我的Web項目專欄,一段神奇而令人陶醉的數(shù)字世界! ?? 在這里,我將帶您穿越時空,揭開屬于

    2024年02月12日
    瀏覽(36)
  • 【AI繪畫--七夕篇】:如何訓(xùn)練Lora模型打造令人驚嘆的AI繪畫

    【AI繪畫--七夕篇】:如何訓(xùn)練Lora模型打造令人驚嘆的AI繪畫

    在數(shù)字時代的今天,人工智能(AI)技術(shù)正不斷改變著我們的生活,也給藝術(shù)領(lǐng)域帶來了前所未有的革新。AI繪畫模型,作為其中的一顆明星,讓計算機能夠像藝術(shù)家一樣創(chuàng)作繪畫作品,引發(fā)了廣泛關(guān)注。然而,AI繪畫模型的訓(xùn)練對計算資源和時間的要求較高,這對于大部分人

    2024年02月12日
    瀏覽(19)
  • 藝術(shù)創(chuàng)作的新紀元:如何訓(xùn)練Lora模型打造令人驚嘆的AI繪畫

    藝術(shù)創(chuàng)作的新紀元:如何訓(xùn)練Lora模型打造令人驚嘆的AI繪畫

    在數(shù)字時代的今天,人工智能(AI)技術(shù)正不斷改變著我們的生活,也給藝術(shù)領(lǐng)域帶來了前所未有的革新。AI繪畫模型,作為其中的一顆明星,讓計算機能夠像藝術(shù)家一樣創(chuàng)作繪畫作品,引發(fā)了廣泛關(guān)注。然而,AI繪畫模型的訓(xùn)練對計算資源和時間的要求較高,這對于大部分人

    2024年02月13日
    瀏覽(22)
  • 華為余承東表示「鴻蒙 HarmonyOS 2 升級用戶數(shù)突破 1 億」,意味著谷歌已被嚇得瑟瑟發(fā)抖...

    華為余承東表示「鴻蒙 HarmonyOS 2 升級用戶數(shù)突破 1 億」,意味著谷歌已被嚇得瑟瑟發(fā)抖...

    本來全球手機市場有超過八成的份額為安卓占有,而蘋果占有一成多。蘋果每年的手機銷量大約在2億多部,如果鴻蒙系統(tǒng)每年增加2億用戶,那么鴻蒙系統(tǒng)就將如蘋果iOS系統(tǒng)一樣占有一成多的市場份額,這一成多市場份額正是從谷歌手里奪取的,那就代表著谷歌的安卓占有的

    2024年02月11日
    瀏覽(40)
  • 視頻號掛公眾號鏈接突破綁定公眾號限制,突破10000閱讀量限制,隨便加

    想必玩視頻號綁定公眾號鏈接的應(yīng)該清楚了,8月初,視頻號再次對公眾號做出了限制,以前是直接放在視頻上 方,后來又把鏈接放在評論區(qū)頂部,在評論區(qū)頂部活的時間還挺長,持續(xù)了估計有一年左右,接著視頻號再次放出 大招,直接做出限制,要求視頻號必須綁定公眾號

    2024年02月10日
    瀏覽(16)
  • AI 視頻 | HiDream.ai 支持長視頻,突破 4 秒限制!

    AI 視頻 | HiDream.ai 支持長視頻,突破 4 秒限制!

    2024 年,AI 視頻領(lǐng)域大有可為。那么想卷 AI 視頻領(lǐng)域,首先得掌握幾個 AI 視頻的工具。 之前的文章已經(jīng)分享了一些常用的 AI 視頻工具,比如 Pika、Runway Gen-2、Moonvalley、NeverEnds、DomoAI 以及 Stable Video Diffusion。 這些「往期 AI 視頻的教程」,在文末都附上了,感興趣的可以看看

    2024年01月16日
    瀏覽(16)
  • 突破性創(chuàng)新:OpenAI推出Sora視頻模型,預(yù)示視頻制作技術(shù)的未來已到來!

    突破性創(chuàng)新:OpenAI推出Sora視頻模型,預(yù)示視頻制作技術(shù)的未來已到來!

    此頁面上的所有視頻均由 Sora 直接生成,未經(jīng)修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 發(fā)布 AI 視頻模型 Sora,60 秒的一鏡到底,驚艷的效果生成。AI 視頻生成可能要變天? 能力 OpenAI 正在教授 AI 理解和模擬運

    2024年02月21日
    瀏覽(33)
  • GANs在視頻生成與分析中的突破性進展

    視頻生成和分析是計算機視覺和人工智能領(lǐng)域的重要研究方向之一,它涉及到許多實際應(yīng)用,如視頻壓縮、視頻質(zhì)量評估、視頻生成、視頻增強、視頻編輯、視頻檢索等。在過去的幾年里,深度學(xué)習(xí)技術(shù)尤其是生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)在視頻生成和分析

    2024年02月01日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包