SadTalker是一款先進的人工智能模型,它通過從音頻中學習生成3D運動系數(shù),并使用全新的三維面部渲染器來生成頭部運動,只需傳入一張照片和一段音頻,就能生成高質(zhì)量的AI數(shù)字人視頻
工作原理
1、顯式地對音頻和不同類型的運動系數(shù)之間的聯(lián)系進行單獨建模
2、通過蒸餾系數(shù)和3D渲染的臉部,從音頻中學習準確的面部表情
3、通過條件VAE設計PoseVAE來合成不同風格的頭部運動
4、使用生成的三維運動系數(shù)映射到人臉渲染的無監(jiān)督三維關(guān)鍵點空間,合成最終視頻
?文章來源地址http://www.zghlxwxcb.cn/news/detail-837701.html
SadTalker生成后的人物頭部運動規(guī)律,面部表情自然,口型也和音頻的內(nèi)容保持一致(小姐姐還會眨眼睛?。?/p>
?
最新中文版:
百度網(wǎng)盤:https://pan.baidu.com/s/1AMInL9l_LxfQ0g3j1TrWQA?pwd=8r4f
?
使用方法
1、上傳人物圖片和音頻(音頻可以是英文、中文、歌曲)
2、設置參數(shù)(下面會詳細介紹)
3、點擊“生成”按鈕
參數(shù)說明
· 姿式風格:調(diào)節(jié)頭部運動風格,默認0
· 表達量表:人物表情豐富程度,默認1
· 生成中的批量大?。荷梢曨l的速度,默認1,顯卡好可以適當拉大
?
· 預處理
crop:從圖片中截取頭部做視頻
resize:拉伸圖片,人物被壓縮選擇此項
full:全身照做視頻
extcrop:加強版crop,主要聚焦頭部
extfull:加強版全身
?
· 面部渲染:兩種模式可自由嘗試
· GFPGAN:讓面部高清化
?
在控制臺可以查看當前的處理進度,程序執(zhí)行完畢會輸出信息The generated video is named
生成的視頻保存在SadTalker\results路徑下,也可以在網(wǎng)頁端下載
在操作界面下方的Examples中提供了部分圖片和音頻,請點擊“圖片源”選擇使用
?
注意事項
①項目安裝路徑不要包含中文
②推薦使用GTX1060以上顯存運行此項目
③使用過程中若不慎關(guān)閉軟件后臺,請重新打開,并刷新網(wǎng)頁文章來源:http://www.zghlxwxcb.cn/news/detail-837701.html
?
到了這里,關(guān)于照片也能說話了?嘴型表情全同步,AI數(shù)字人時代要來了的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!