本文詳細(xì)介紹了安裝過程和使用教程。
功能說明
github 項(xiàng)目SadTalker 可以根據(jù)一張圖片、一段音頻,合成面部說這段語音的視頻。圖片需要真人或者接近真人。目前項(xiàng)目已經(jīng)支持stable diffusion webui
,可以SD出圖后,結(jié)合一段音頻合成面部說話的視頻(抖音常見的數(shù)字人)
SadTalker安裝過程
內(nèi)訪問速度比較慢,使用ghproxy加速,格式https://ghproxy.com/{github url}
https://ghproxy.com/https://github.com/OpenTalker/SadTalker
如圖在extensions
中填入地址,和下載后的目錄名稱,下載的文件將存放在{project你的項(xiàng)目}/stable-diffusion-webui/extensions
,并且文件夾的文字和頁面輸入的一致SadTalker
上一步插件安裝完成后,還需要繼續(xù)補(bǔ)充兩個(gè)壓縮包文件,分別放到對應(yīng)目錄
根據(jù)倉庫代碼 download_models得知下載地址,手動(dòng)下載,主要是兩個(gè)目錄文件
checkpoints
和gfpgan
也可以百度云盤:
模型checkpoints, 提取碼: sadt.
gfpgan, 提取碼: sadt.
checkpoints
:整個(gè)checkpoints放在 {project}/stable-diffusion-webui/extensions/SadTalker擴(kuò)展目錄下;
gfpgan
: 解壓搓來的4個(gè)文件alignment_WFLW_4HG.pth detection_Resnet50_Final.pth GFPGANv1.4.pth parsing_parsenet.pth需要放在 {project}/stable-diffusion-webui/models/GFPGAN
繼續(xù)下一步環(huán)境配置ffmpeg
:視頻生成需要用到(根據(jù)環(huán)境不同選擇適合自己的方式),以下是centos8安裝方式
dnf install epel-release yum config-manager --set-enabled PowerTools yum-config-manager --add-repo=https://negativo17.org/repos/epel-multimedia.repo dnf install ffmpeg ffmpeg ffmpeg -version
重新啟動(dòng)程序python3 launch.py --enable-insecure-extension-access --xformers --server-name 0.0.0.0
使用教程(一)linux下部署sdwebui,安裝模型和插件的圖片來試試效果,關(guān)于參數(shù)說明
圖片,最好是大頭,不然會(huì)顯得不自然
音頻文件,用SadTalker示例的音頻測試
圖片處理方式氛圍,crop(剪裁), resize(重置大?。? full(原圖),其中
crop
根據(jù)面部關(guān)鍵點(diǎn)生成的表情和動(dòng)畫相對逼真,前提是不要全圖,看起來會(huì)很怪Remove head motion (works better with preprocess full) 這個(gè)選項(xiàng)在原圖的時(shí)候很有必要,優(yōu)化人物頭部運(yùn)動(dòng),生成的視頻更加自然;這里因?yàn)橛昧思舨?,所以就不選擇打開了
Face enhancement,勾選上, 可以獲得更好的面部質(zhì)量
視頻被CSDN處理過,看起來有些不自然,實(shí)際效果還是不錯(cuò)的
文章來源:http://www.zghlxwxcb.cn/news/detail-482024.html
文本生成語音涉及太多非技術(shù)問題,就不展開了,自行看TTS-Vue項(xiàng)目文章來源地址http://www.zghlxwxcb.cn/news/detail-482024.html
到了這里,關(guān)于SadTalker:讓stable diffusion人物說話的創(chuàng)新工具的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!