小白也能聽懂的ai音聲制作:低配置,易入門
最近看到網(wǎng)上有很多懶羊羊唱歌的視頻,略感興趣,于是就學習了一番,并選出來一個配置最低和最容易入門的項目教給大家,…(以后有空會寫其他的)
當當?。?!
音聲轉(zhuǎn)換項目DDSP的介紹和使用
ddsp-3.0是一款ai合成音頻的開源項目,與之前的sovits,rvc,diff-svc不同,DDSP在訓練推理速度和配置要求上都可以說是全面優(yōu)于前面幾個項目,并且訓練效果有sovits4.0的80~90%,效果還是很不錯的,只需要一張2G以上顯存的N卡,花上一兩個小時就可以訓練完成,大大降低了ai變聲門檻。
雖然ddsp4.0更新了,但實際體驗和3.0并未太大差別,而且由于網(wǎng)上還沒有大佬制作一鍵包,不利于小白入門,所以以3.0為首選項。
下面就介紹ddsp-3.0的用法,首先下載b站up主[羽毛布団]的整合包DDSP-SVC 3.0 一站式整合包使用教程 (qq.com),該整合包使用圖形化界面進行訓練和推理,以及配備了urv5,au,自動切片工具等,老少皆宜,讓我們先感謝賽博佛祖!
下載完畢后解壓至電腦文件夾,先解壓urv5,按照提示,把urv5模型解壓到models文件夾,為以后處理數(shù)據(jù)集做準備
然后進入ddsp文件夾
下拉,點擊
啟動項目(注意,啟動時最好不要開梯子,不然以后可能會打不開)
預處理
進入這樣的界面,由于第一次進入需要先進行模型訓練,你需要事先準備半小時到2小時的干凈人聲(可以到b站搜原神任務語音數(shù)據(jù)集,有很多)拿來練手,點擊智能音頻切片,將你人聲所在文件夾目錄復制到第一個空位:
點擊文件夾目錄ctrl+c就能復制,選定自己想要輸出到的目錄,再點擊切片就可以自動把半小時的語音切成10~15秒的短音頻
訓練
接下來就可以開始訓練工作了
將你切好的音頻全部復制到ddsp的data/train/audio下
并挑出幾條效果較好的語音片段復制到
下,數(shù)據(jù)集中按訓練集:驗證集=100:1的比例挑選,經(jīng)測試,前者較少時,后者比例大些也可以,但不能超出太多,下一步,預處理配置可以自己選擇,都有提示
訓練設置和超參數(shù)盡量都不改,可以根據(jù)電腦配置適當更改批大?。?/p>
最后的fp32,fp16,bf16可以按下邊的來:
-
FP32/BF16/FP16 有什么差別 1. FP32(單精度浮點數(shù)):它使用 32 位來表示一個浮點數(shù),其中 1 位用于符號位,8 位用于 指數(shù)部分,23 位用于尾數(shù)部分。FP32 提供了較高的精度和動態(tài)范圍,適用于大多數(shù)深度學 習任務和一般計算需求。(除了慢一些沒啥不好的) 2.BF16(BFloat16):它使用 16 位來表示一個浮點數(shù),其中 1 位用于符號位,8 位用于指數(shù) 部分,7 位用于尾數(shù)部分。BF16 可以看作是 FP32 的一種截斷形式,減少了存儲空間和內(nèi)存 帶寬的消耗,同時仍具備較高的動態(tài)范圍,適用于訓練和推理任務。(only Nvidia 30/40 series)(相比 FP16 沒那么容易 NaN,同時又比 FP32 快,但是損失精度) 2. FP16(半精度浮點數(shù)):它使用 16 位來表示一個浮點數(shù),其中 1 位用于符號位,5 位用于 指數(shù)部分,10 位用于尾數(shù)部分。FP16 相比于 FP32 和 BF16,減少了存儲空間和內(nèi)存帶寬的 需求,但犧牲了精度和動態(tài)范圍。因此,F(xiàn)P16 通常用于對模型進行加速或壓縮時,例如在 移動設備或低功耗設備上的推理過程中。(相比 FP32/BF16 更容易 NaN,但是精度比 BF16 高,對比 FP32 也損失不多,理論上來說,30/40 系跑 BF16/FP16 運算速度一樣) PS:顯卡屬于哪一系列: A 開頭的屬于 Ampere 架構(gòu),與 30 系同架構(gòu),理解成 30 系就好,例:A5000,A100,A10。 T 開頭的屬于 Turing 架構(gòu),與 20 系同架構(gòu),常見的就是 T4,理解成 20 系就好。 V 開頭(或含 V)的屬于 Volta 架構(gòu),僅出現(xiàn)在商用領域,接近 20 系,理解成不支持 int4 運算 的 20 系就好,包含 V100,Titan V。 P 開頭(或含 P)的屬于 pascal 架構(gòu),與 10 系同架構(gòu),常見的就是 P100,Titan Xp PS: 30/40 系建議優(yōu)先 BF16,尤其是 A100,盡量不要選 FP32 20 系建議降低一點點 learningrate 然后選 FP16,因為比 FP32 快上不少( 16 系選 FP32,因為 FP16 大概率炸(玄學 10 系隨意,看心情
不想看沒關(guān)系,顯存小的默認就行,顯存大的選后兩個,
(測試3060-6g選后兩個在訓練時會卡主,自行選擇)
之后點擊從頭開始訓練,需要兩個模型都訓練,之后會大開兩個黑窗口,
點擊下方監(jiān)控訓練狀態(tài)可以查看訓練情況,對于ddsp模型,當顯示
最后趨于穩(wěn)定就可以收手了,如果線條亂跳就說明模型炸了,重新開始吧
后者擴散模型
如果坐標軸右側(cè)大致呈下降趨勢到底,就可以停了
主要是訓練ddsp模型,注意
不改設置時,每2000步才會保存一次存檔,每10000步保存一次存檔并刪除2000次的臨時存檔,所以我們停止訓練時,盡量選剛超過2000的倍數(shù),停止后會把我們訓練的結(jié)果放到
下,這時我們就可以測試是否推理是否成功了
點擊推理頁:
推理
(注意:當我們開著梯子時,有時是無法找到配置文件的,關(guān)了梯子,并重新打開webui.bat?。。?/p>
下一步上傳推理的數(shù)據(jù):(需要干凈無噪聲,并且只有單人聲,以自己訓練的模型為準)
這一頁設置按需更改,一般只用調(diào)第一個變調(diào)嗎,意思是
當模型為女聲,推理數(shù)據(jù)為男聲,需要升調(diào),例如可以先升至12,看結(jié)果如果聲音很尖,說明高了,降調(diào)。同理推理數(shù)據(jù)為女聲可以先為0,看效果,如果聲音太尖,可以降為負數(shù)試試,如果聲音像男聲,可以調(diào)高;
當模型為男聲,推力數(shù)據(jù)為女聲,需要降調(diào),降為12先看效果,同上;
再往下:
f0提取算法正常選第一個,提示都有,第四個算法更適合推低音‘相應閾值是為了應對數(shù)據(jù)集如果沒請干凈,可以拉高,將很低的聲音一刀切掉;采樣不要變;淺擴散步數(shù)越大,聲音越接近模型聲音,但時間也會成比例增加;正常100就不要變。加速倍數(shù)不變。
至此,對于單個訓練流程我們已經(jīng)走完了;
注意點
再提幾個注意點:
urv5的使用
如果是使用整合包自帶的urv5:
導入模型后使用
該連招可以清除人聲和混響
需要處理兩次
第二次處理要更改輸入源;
但是,URV5有新版本了!?。]錯,你白學了,嘿嘿,URV5.6有了新的連招,相較于舊版本效果直線上升,具體可以看bfloat16的動態(tài)UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com),賽博佛祖,受小兒一拜!??!
提幾個要點,新模型是需要自己去下載的,點自帶的小扳手即使連了梯子也可能會不成功,如果實在找不到文中的幾個模型可以私信我:,下圖是最新連招,需要處理三次,效果杠杠滴!
制作好的模型以及更換模型
當制作好后,emp文件中會有目前使用模型的模型文件
在models_backup文件夾下也會有一份存檔
該存檔會把兩個模型分開存放,并且有時不會保存,還沒搞清楚什么時候會保存,最好不要相信自動存檔,
最好的做法是把訓練好的模型在該文件夾下新建文件夾并復制進去,以后用的時候直接復制到emp文件夾中。想要發(fā)給別人就壓縮emp文件夾發(fā)送就行了。
推理出的結(jié)果存放位置
在ddsp下output文件夾下,保存的是wav格式’
合成成品
進入au或者剪映,將推理出的wav和之前分離的背景wav一起放進去就可以合成啦,你還可以再用剪映添加背景圖片各種操作或者使用ae添加背景和特效。
小技巧
有時候不管怎么推我們的效果總是和預想的有些出入;
有時候一首歌前半段像,后半段又不像,歌詞平緩的時候像,高潮的時候又不像;
其實這是這首歌跨調(diào)太大,但是ai推理出的音樂只能在一個范圍內(nèi)的調(diào)變動,程序上目前只能等作者更新出識別歌曲變調(diào)功能,但是我們可以在推理時選幾個不同的變調(diào),再用au把每首歌像的地方截到一起,操作起來還是很方便的。
12.7 更新
好久沒有玩了,學習繁忙阿!~!,不過之前發(fā)現(xiàn)的數(shù)據(jù)集問題還是提一嘴把,數(shù)據(jù)集影響了之后這個模型推理的所有東西,拿原神為例,數(shù)據(jù)只有語音,沒高音,沒低音,怎么辦呢,經(jīng)過我的深度探究,知道了幾種方法,不過較為好用的算是在未訓練前將部分數(shù)據(jù)集進行降調(diào)和升調(diào)處理,具體操作為在au中定義并收藏一個升調(diào)的方法,批量將語音進行升調(diào)和降調(diào)處理,要注意,不能太過頭,容易失真,具體網(wǎng)上搜吧
有什么想問的可以在評論區(qū)或者私信我,不定時更新;
######################################
參考:
羽毛布団的個人空間-羽毛布団個人主頁-嗶哩嗶哩視頻 (bilibili.com)
DDSP-SVC 3.0 一站式整合包使用教程 (qq.com)
UVR5使用教程和最新連招 - 嗶哩嗶哩 (bilibili.com)文章來源:http://www.zghlxwxcb.cn/news/detail-766728.html
https://github.com/yxlllc/DDSP-SVC文章來源地址http://www.zghlxwxcb.cn/news/detail-766728.html
到了這里,關(guān)于小白也能聽懂的ai音聲制作入門教程了?。。〉奈恼戮徒榻B完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!