SadTalker:使用一張圖片和一段語音來生成口型和頭、面部視頻.
西安交通大學(xué)開源了人工智能SadTalker模型,通過從音頻中學(xué)習(xí)生成3D運(yùn)動(dòng)系數(shù),使用全新的3D面部渲染器來生成頭部運(yùn)動(dòng),可以實(shí)現(xiàn)圖片+音頻就能生成高質(zhì)量的視頻。
論文地址:Learning Realistic 3D Motion Coefficients
整體來說 Talking head 就是用語音驅(qū)動(dòng)每一幀圖片的表情(眼睛、嘴巴等)和頭部(head motion)運(yùn)動(dòng),并重建人臉以生成視頻。表情運(yùn)動(dòng)是局部的,頭部運(yùn)動(dòng)是全局的,且表情跟聲音的關(guān)系比較強(qiáng),頭部姿態(tài)跟聲音的關(guān)系比較弱,將這兩個(gè)系數(shù)解耦開可以減少人臉扭曲。
sadtalker的原理基于深度學(xué)習(xí)技術(shù),主要包括兩個(gè)關(guān)鍵步驟:情感分類和文本生成。
安裝Python 3.8并選中“將Python添加到PATH”。
手動(dòng)安裝 git 或使用 Scoop:scoop install git。
按照本教程或使用 scoop 安裝 ffmpeg:scoop install ffmpeg。
通過運(yùn)行
git clone?文章來源地址http://www.zghlxwxcb.cn/news/detail-834170.html
文章來源:http://www.zghlxwxcb.cn/news/detail-834170.html
到了這里,關(guān)于讓圖片說話SadTalker的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!