目錄
感謝B站UP羽毛布團(tuán)
演示視頻
稻香——東雪蓮
虛擬——東雪蓮
反方向的鐘——東雪蓮
晴天+龍卷風(fēng)——東雪蓮
ZOOD——東雪蓮
DDSP-SVC?3.0?(D3SP)?是什么?
下載資源:
解壓整合包
準(zhǔn)備數(shù)據(jù)集
智能音頻切片?
數(shù)據(jù)集準(zhǔn)備
填寫訓(xùn)練設(shè)置和超參數(shù)
?開始訓(xùn)練
推理模型
感謝B站UP羽毛布團(tuán)
羽毛布団的個(gè)人空間_嗶哩嗶哩_bilibilihttps://space.bilibili.com/3493141443250876/?spm_id_from=333.999.0.0
演示視頻
稻香——東雪蓮
稻香——冬雪蓮
虛擬——東雪蓮
虛擬——冬雪蓮
反方向的鐘——東雪蓮
反方向的鐘——冬雪蓮
晴天+龍卷風(fēng)——東雪蓮
晴天+龍卷風(fēng)——冬雪蓮
ZOOD——東雪蓮
ZOOD-----東雪蓮
DDSP-SVC?3.0?(D3SP)?是什么?
DDSP-SVC?是一個(gè)相對(duì)年輕的音聲轉(zhuǎn)換項(xiàng)目,相較于常用的So-VITS和更早的Diff-SVC,DDSP在訓(xùn)練推理速度和配置要求上都可以說是全面優(yōu)于前兩個(gè)項(xiàng)目,一般來說只要有一張2G以上顯存的N卡,花上一兩個(gè)小時(shí)就可以訓(xùn)練完成,大大降低了AI變聲的門檻。當(dāng)然,帶來的犧牲就是其原本的轉(zhuǎn)換效果是不太盡人意的。
但是最近DDSP項(xiàng)目迭代到了3.0版本,在原有的基礎(chǔ)上加入了淺擴(kuò)散機(jī)制,將DDSP輸出的質(zhì)量較低的音頻梅爾譜圖輸入擴(kuò)散模型進(jìn)行淺擴(kuò)散處理,輸出梅爾譜圖并通過聲碼器轉(zhuǎn)換為高質(zhì)量音頻,使得轉(zhuǎn)換效果大幅提升,在部分?jǐn)?shù)據(jù)集上可以達(dá)到媲美So-VITS的效果。因此DDSP-SVC?3.0也可以稱為D3SP(DDSP?with?Diffusion,?DDDSP,?帶帶大澀批)。DDSP-SVC?是一個(gè)相對(duì)年輕的音聲轉(zhuǎn)換項(xiàng)目,相較于常用的So-VITS和更早的Diff-SVC,DDSP在訓(xùn)練推理速度和配置要求上都可以說是全面優(yōu)于前兩個(gè)項(xiàng)目,一般來說只要有一張2G以上顯存的N卡,花上一兩個(gè)小時(shí)就可以訓(xùn)練完成,大大降低了AI變聲的門檻。當(dāng)然,帶來的犧牲就是其原本的轉(zhuǎn)換效果是不太盡人意的。
但是最近DDSP項(xiàng)目迭代到了3.0版本,在原有的基礎(chǔ)上加入了淺擴(kuò)散機(jī)制,將DDSP輸出的質(zhì)量較低的音頻梅爾譜圖輸入擴(kuò)散模型進(jìn)行淺擴(kuò)散處理,輸出梅爾譜圖并通過聲碼器轉(zhuǎn)換為高質(zhì)量音頻,使得轉(zhuǎn)換效果大幅提升,在部分?jǐn)?shù)據(jù)集上可以達(dá)到媲美So-VITS的效果。因此DDSP-SVC?3.0也可以稱為D3SP(DDSP?with?Diffusion,?DDDSP,?帶帶大澀批)。
下載資源:
提取碼:g8n4?
百度網(wǎng)盤 請(qǐng)輸入提取碼百度網(wǎng)盤為您提供文件的網(wǎng)絡(luò)備份、同步和分享服務(wù)??臻g大、速度快、安全穩(wěn)固,支持教育網(wǎng)加速,支持手機(jī)端。注冊(cè)使用百度網(wǎng)盤即可享受免費(fèi)存儲(chǔ)空間https://pan.baidu.com/share/init?surl=2u_LDyb5KSOfvjJ9LVwCIQ&pwd=g8n4
解壓整合包
將整合包解壓到電腦硬盤中(路徑中盡量不要包含中文),整合包內(nèi)已經(jīng)搭建好了運(yùn)行所需的所有環(huán)境依賴,你無需自己手動(dòng)搭建環(huán)境。
準(zhǔn)備數(shù)據(jù)集
轉(zhuǎn)化數(shù)據(jù)格式為wav
?用uvr5獲得原聲,去除雜音和背景音效
智能音頻切片?
音頻長(zhǎng)度時(shí)間最好在30~60min左右
數(shù)據(jù)集準(zhǔn)備
將切片后的數(shù)據(jù)集放置在data/train/audio文件夾下,在數(shù)據(jù)集中按訓(xùn)練集:驗(yàn)證集=100:1的比例挑選驗(yàn)證集音頻放置到data/val/audio文件夾中
單說話人模型,直接將所有wav文件放置到對(duì)應(yīng)的audio文件夾下即可。如果是訓(xùn)練多說話人模型,需要在訓(xùn)練集和驗(yàn)證集的"audio"文件夾下新建不同說話人的目錄,只能以純數(shù)字命名,以1開始
如果你不想手動(dòng)挑選驗(yàn)證集,在數(shù)據(jù)集放置到data/train/audio后也可以點(diǎn)擊下面的一鍵劃分?jǐn)?shù)據(jù)集完成操作。
驗(yàn)證集的條數(shù)最好不要超過10條,否則訓(xùn)練驗(yàn)證會(huì)變得很慢。驗(yàn)證集的音頻質(zhì)量越高越好。
?確認(rèn)訓(xùn)練集和驗(yàn)證集正確放置后請(qǐng)選擇訓(xùn)練編碼器和f0提取算法
編碼器:hubertsoft: 咬字較為清晰 |?contentvec(768l12): 音色更為還原
f0算法:crepe: 抗噪能力較強(qiáng)但預(yù)處理速度慢 |?parselmouth: 抗噪能力較弱但預(yù)處理速度快
注意,不同編碼器訓(xùn)練出來的模型不通用,并且對(duì)應(yīng)不同的配置文件,在推理時(shí)選擇不匹配的配置文件會(huì)導(dǎo)致錯(cuò)誤
填寫訓(xùn)練設(shè)置和超參數(shù)
D3SP的完整推理過程需要訓(xùn)練2個(gè)模型,分別是DDSP模型和擴(kuò)散模型。因此你需要在下面設(shè)置2份配置文件的超參數(shù)。
?開始訓(xùn)練
D3SP的完整推理過程需要訓(xùn)練2個(gè)模型。
首先選擇訓(xùn)練進(jìn)度,從頭開始訓(xùn)練將會(huì)將exp文件夾中的對(duì)應(yīng)模型進(jìn)度保存?zhèn)浞葜?strong>models_backup文件夾,如果是訓(xùn)練擴(kuò)散模型,會(huì)自動(dòng)裝載對(duì)應(yīng)編碼器的預(yù)訓(xùn)練底模。
兩個(gè)模型的訓(xùn)練是獨(dú)立的,你可以以任意順序訓(xùn)練兩個(gè)模型。訓(xùn)練前請(qǐng)先在上方選擇預(yù)處理對(duì)應(yīng)的編碼器。
文章來源:http://www.zghlxwxcb.cn/news/detail-461268.html
推理模型
文章來源地址http://www.zghlxwxcb.cn/news/detail-461268.html
到了這里,關(guān)于AI孫燕姿 ?AI東雪蓮 !—— 本地部署DDSP-SVC一鍵包,智能音頻切片,本地訓(xùn)練,模型推理,為你喜歡的角色訓(xùn)練AI語音模型小教程的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!