只要一張照片加上音頻,就能讓你說話唱歌,阿里做到了。
最近,阿里新上線了一款A(yù)I圖片-音頻-視頻模型技術(shù)EMO,用戶只需要提供一張照片和一段任意音頻文件,EMO即可生成會(huì)說話唱歌的AI視頻。以及實(shí)現(xiàn)無縫對接的動(dòng)態(tài)小視頻,最長時(shí)間可達(dá)1分30秒左右。
阿里研究團(tuán)隊(duì)表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時(shí),其可以根據(jù)輸入視頻的長度生成任意持續(xù)時(shí)間的視頻。
你可以想象一下,用蒙娜麗莎的畫像就可以生成唱歌的視頻,或者說用一張高啟強(qiáng)的肖像就可以讓強(qiáng)哥變身刑法教授在線授課。還可以讓坤坤變成真正的rapper!值得一提的是,生成的視頻中人物表情非常到位,口型、語速也都能完全匹配。
阿里EMO:輸入圖片和音頻就可生成視頻,強(qiáng)哥也能上刑法課了!
論文解讀
github鏈接:https://github.com/HumanAIGC/EMO
論文鏈接:https://github.com/HumanAIGC/EMO
摘要
????????我們提出了EMO,一個(gè)富有表現(xiàn)力的音頻驅(qū)動(dòng)的人像視頻生成框架。輸入單個(gè)參考圖像和語音音頻,例如說話和唱歌,我們的方法可以生成具有豐富面部表情和各種頭部姿勢的語音化身視頻,同時(shí)我們可以根據(jù)輸入視頻的長度生成任意時(shí)長的視頻。
方法
提出的方法概述:框架主要由兩個(gè)階段構(gòu)成。在初始階段,稱為幀編碼,使用ReferenceNet從參考圖像和運(yùn)動(dòng)幀中提取特征。隨后,在擴(kuò)散處理階段,預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入。人臉區(qū)域掩模與多幀噪聲相結(jié)合,控制人臉圖像的生成。其次是利用骨干網(wǎng)來簡化去噪操作。在骨干網(wǎng)中,采用了兩種形式的注意機(jī)制:參考注意和聲音注意。這些機(jī)制對于保留角色的身份和調(diào)節(jié)角色的動(dòng)作是必不可少的。另外,利用時(shí)間模塊來控制時(shí)間維度,調(diào)整運(yùn)動(dòng)速度。文章來源:http://www.zghlxwxcb.cn/news/detail-840616.html
????????感謝你看到這里,也歡迎點(diǎn)擊關(guān)注下方公眾號(hào),一個(gè)有趣有AI的AIGC公眾號(hào):關(guān)注AI、深度學(xué)習(xí)、計(jì)算機(jī)視覺、AIGC、Stable Diffusion、Sora等相關(guān)技術(shù),歡迎一起交流學(xué)習(xí)??~文章來源地址http://www.zghlxwxcb.cn/news/detail-840616.html
到了這里,關(guān)于阿里最新EMO:只需要提供一張照片和一段音頻,即可生成會(huì)說話唱歌的AI視頻的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!