本文首發(fā)于公眾號:機器感知
高保真度與流暢度MagicVideo-V2視頻生成模型;3D人形虛擬角色;微調(diào)量化的擴散模型;自動給視頻配音;非自回歸音頻生成
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
本文提出了MagicVideo-V2視頻生成模型,該模型將文生圖模型、視頻運動生成器、參考圖像embedding模塊和幀插值模塊集成到端到端視頻生成管道中,MagicVideo-V2能夠生成逼真度與流暢度都較高的高分辨率視頻,并顯著優(yōu)于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等領(lǐng)先的文生視頻模型。
Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation
本文提出將3D morphable模型集成到多視圖一致擴散方法中,提高了生成可控性和人形虛擬角色的質(zhì)量。這種方法能準(zhǔn)確地將面部表情和身體姿態(tài)控制納入生成過程,是首個從單個未見過的人像中創(chuàng)建出完全3D一致、可動畫且逼真的人形虛擬角色的擴散模型。
Memory-Efficient Personalization using Quantized Diffusion Model
本文研究了微調(diào)量化的擴散模型這一領(lǐng)域,并通過定制三個模型(PEQA用于微調(diào)量化參數(shù),Q-Diffusion用于后訓(xùn)練量化,DreamBooth用于個性化),建立了強大的基線模型。分析顯示,基線模型在主體和提示保真度之間存在顯著的權(quán)衡。為了解決這些問題,作者提出了兩種策略:a.優(yōu)化選定時間步長的參數(shù)集,b.創(chuàng)建多組專用的微調(diào)參數(shù)集,每個參數(shù)集針對不同的時間步長。該方法不僅增強了個性化,而且保持了提示保真度和圖像質(zhì)量,在質(zhì)量和數(shù)量上都顯著優(yōu)于基線。
SonicVisionLM: Playing Sound with Vision Language Models
本文提出了一種名為SonicVisionLM的新框架,通過利用視覺語言模型來生成各種聲音效果。該方法首先使用視覺語言模型識別視頻中的事件,然后根據(jù)視頻內(nèi)容推薦可能的聲音。這種方法將圖像和音頻的匹配任務(wù)轉(zhuǎn)化為更易研究的圖像到文本和文本到音頻的匹配任務(wù)。為了提高音頻推薦的質(zhì)量,作者收集了一個大規(guī)模數(shù)據(jù)集,將文本描述映射到特定的聲音效果,并開發(fā)了時間控制的音頻適配器。該方法在將視頻轉(zhuǎn)換為音頻方面超越了當(dāng)前SOTA方法,提高了視頻與音頻的同步性,并改善了音頻和視頻元素之間的對齊。
Masked Audio Generation using a Single Non-Autoregressive Transformer
文章來源:http://www.zghlxwxcb.cn/news/detail-814901.html
本文提出了MAGNeT,一種直接在音頻標(biāo)記流上操作的掩碼生成序列建模方法,它由一個單階段、非自回歸transformer組成。在訓(xùn)練期間,預(yù)測從掩碼調(diào)度器獲得的掩碼標(biāo)記的范圍,而在推理期間,使用多個解碼步驟逐步構(gòu)建輸出序列。為了進一步提高生成的音頻質(zhì)量,引入了一種新的評分方法。最后,作者探索了MAGNeT的混合版本,其中以自回歸方式將自回歸和非自回歸模型融合在一起,以生成序列的前幾秒,而其余的序列則并行解碼。這種方法與所評估的基線模型相當(dāng),但速度要快7倍。文章來源地址http://www.zghlxwxcb.cn/news/detail-814901.html
到了這里,關(guān)于高保真度與流暢度MagicVideo-V2視頻生成模型;3D人形虛擬角色;微調(diào)量化的擴散模型;自動給視頻配音;非自回歸音頻生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!