今天給大家分享一個聲音克隆的項目。我們只要上傳一分鐘的語音,就可以完美復(fù)刻任意角色的語音語氣、語調(diào),實現(xiàn)聲音情感的真實復(fù)刻,而且它還支持中日英等多個語種。我為大家制作了Windows版本和Mac版本的整合包(文章末尾自?。?/strong>
首先聽下我用了四位朋友的一分鐘的語音素材來訓(xùn)練的音頻效果。
聲音演示
下面我分享制作流程,篇幅較長,多圖,但是步驟很簡單。
安裝與啟動
Win:
Windows用戶將下載好的壓縮包解壓到本地目錄,雙擊啟動器.exe
即可。
耐心等待一會兒,會自動打開一個網(wǎng)頁。這就是程序的主界面。
Mac:
Mac用戶由于權(quán)限設(shè)置會比Windows相對麻煩些,首先解壓壓縮包,來到項目路徑下,我們看到這兩個文件是文稿形式,這時我們需要開啟下文件權(quán)限才可以使用。
回到最外層文件夾,也就是你解壓包所在的目錄。
打開終端
。
輸入指令sudo chmod -R 777
,然后將文件夾拖拽進終端
內(nèi)。
完整命令,別忘了777后有個空格
之后按下回車。這時需要輸入屏幕密碼,我們輸入密碼后按回車。(輸入的時候密碼不會顯示)
執(zhí)行完畢,我們可以將終端
窗口關(guān)閉。
再次回到項目目錄內(nèi),可以看到剛才的兩個文件已經(jīng)變成Unix可執(zhí)行文件
的格式。這就代表成功了,如果這兩個文件沒變成Unix可執(zhí)行文件
的格式,你需要檢查下上一步是否正確執(zhí)行。
接下來,Mac用戶還需要開啟允許任何來源APP
的權(quán)限才可以完全使用。如果你不知道你的電腦是否開啟了這個選項,你可以進入系統(tǒng)設(shè)置--隱私與安全性--安全性,查看是否是任何來源
選項。
如果你已經(jīng)開啟,請忽略下面的步驟,如果不是任何來源
選項,根據(jù)下面步驟開啟。
雙擊來源開啟。
選擇打開。
提示需要輸入鎖屏密碼。輸入完畢后按回車。
顯示開啟成功,可以將終端
窗口關(guān)掉。
到這里為止,Mac用戶使用前的權(quán)限都開啟了。后續(xù)使用無需重復(fù)執(zhí)行以上步驟,直接點擊啟動器
啟動即可。
雙擊啟動器
。彈出的詢問框點擊打開。
耐心等待一會兒,會自動打開一個網(wǎng)頁。這就是程序的主界面。
開始操作
從這里開始,Windows用戶和Mac用戶的操作步驟是一樣的。
分三大步驟:
-
數(shù)據(jù)集處理。
-
模型訓(xùn)練。
-
推理模型。
數(shù)據(jù)集處理
請認真準備數(shù)據(jù)集!以免后面出現(xiàn)各種報錯,和煉出不理想的模型!好的數(shù)據(jù)集是煉出好的模型的基礎(chǔ)!
首先我們需要準備一段音頻文件,準備一段人物說話的音頻即可。
音頻標準:
-
音頻里不要有嘈雜的環(huán)境音、噪音、背景音樂等。
-
音頻長度30s-60s。
-
音頻格式為wav。
下面是我用的音頻,可以參考下:
原音頻參考
如果你的音頻里有背景音樂等雜音,需要執(zhí)行下面步驟進行處理,如果沒有請忽略。
音頻處理
勾選此選項,然后會自動進入聲音處理界面。
第一步拖拽需要處理的音頻。第二步根據(jù)說明來選擇對應(yīng)的模型,一般選擇HP3就足夠了。第三步選擇導(dǎo)出文件格式為WAV
。
然后點擊轉(zhuǎn)換,耐心等待一會兒。
當輸出信息這一欄有Success字樣就完成了音頻的處理。
可以在項目路徑下:output
--uvr5_opt
文件夾下找到處理的兩個音頻文件。一個是伴奏,一個是人聲。我們訓(xùn)練需要用到人聲部分。
處理完畢后我們來到主界面將這個選項關(guān)閉。
音頻切分
這里填入準備好的音頻路徑。然后點擊開啟語音切割
。
切分好的音頻在GPT-SoVITS-main/output/slicer_opt
文件夾內(nèi)。
音頻降噪
這一步根據(jù)你的音頻質(zhì)量來,如果噪音不大,此步驟可以忽略不執(zhí)行。
這里填入上一步切分好的音頻路徑。點擊開啟語音降噪
。
降噪完成。
降噪完成的音頻文件在GPT-SoVITS-main/output/denoise_opt
文件夾內(nèi)。
音頻打標
這一步只需要填寫輸入文件夾路徑
。如果你音頻降噪過,那么是GPT-SoVITS-main/output/denoise_opt
文件夾,如果你切分了沒有降噪,那么是GPT-SoVITS-main/output/slicer_opt
文件夾。其他選項保持默認,然后點擊開啟離線批量ASR
。
補充:這里模型選項默認是中文,如果你想訓(xùn)練中英混合的模型、日文、韓文等其他語言。你需要在ASR模型選項選擇Faster Whisper (多語種)
,ASR語言設(shè)置選擇auto
。
校對標注
這一步比較費時間,如果不追求極致效果,可以忽略這一步。
填入標注文件的路徑。GPT-SoVITS-main/output/asr_opt/denoise_opt.list
勾選是否開啟打標WebUI
然后會跳轉(zhuǎn)到打標網(wǎng)頁,紅框區(qū)域是根據(jù)音頻生成對應(yīng)的文字。黃框區(qū)域是對應(yīng)的音頻。這一步要做的是試聽,然后根據(jù)音頻來修改前面的文字和斷句。
比如我們根據(jù)音頻在句子中增加,
來斷句。
修改前:
修改后:
修改完后需要點擊Submit Text
和Save File
來保存。
如果你的音頻文件很長,你需要進行翻頁操作對每句話進行校對,Previous Index
和 Next Index
是上一頁和下一頁。
當你校對完成后,記得保存,隨后關(guān)閉這個頁面就可以了?;氐街鹘缑?,關(guān)閉勾選。
output目錄文件夾介紹。沒執(zhí)行過降噪或者是音頻處理就不會有denoise_opt
、uvr5_opt
文件夾。
模型訓(xùn)練
訓(xùn)練集格式化
接下來開始訓(xùn)練模型,點擊GPT-SoVITS-TTS
進入新的界面。
選擇訓(xùn)練格式化工具
這一欄。在訓(xùn)練模型前我們需要對數(shù)據(jù)集進行修改操作。
這里填寫標注文件的路徑GPT-SoVITS-main/output/asr_opt/denoise_opt.list
點擊一鍵三連
。其他開啟文本獲取
、開啟ssl提取
、開啟語義token提取
選項不用執(zhí)行。一鍵三連會自動執(zhí)行上述步驟。
執(zhí)行完畢后我們可以看到GPT-SoVITS-main/logs
文件夾下會生成一個跟模型名一樣的文件夾。(模型名稱可以修改,不要用中文)
微調(diào)訓(xùn)練
進入微調(diào)訓(xùn)練
這一欄
這里需要調(diào)整SoVITS訓(xùn)練參數(shù)和GPT訓(xùn)練參數(shù),每張顯卡的batch_size
和總訓(xùn)練輪數(shù)
我這里設(shè)置的是15,總訓(xùn)練輪數(shù)一般設(shè)置成10。這兩個參數(shù)根據(jù)電腦配置來自行調(diào)整。訓(xùn)練輪數(shù)
千萬不能高于20。學(xué)習(xí)率
保持默認值。保存頻率設(shè)置為5。其他選項為默認。
然后先點開啟SoVITS訓(xùn)練
,訓(xùn)練完后再點開啟GPT訓(xùn)練
,不可以一起訓(xùn)練(除非你有兩張卡)!如果中途中斷了,直接再點開始訓(xùn)練就好了,會從最近的保存點開始訓(xùn)練。
兩個訓(xùn)練都完成后我們可以去模型文件夾確認下。兩個訓(xùn)練生成的模型分別在GPT-SoVITS-main/SoVITS_weights
和 GPT-SoVITS-main/GPT_weights
文件夾內(nèi)。
模型推理
來到推理界面
點擊刷新模型路徑
。
選擇對應(yīng)的模型,e代表輪數(shù),s代表步數(shù)。不是輪數(shù)越高越好,這里我選擇了最低的輪數(shù)5進行推理。如果你選擇輪數(shù)為5的推理后的音頻效果不理想,可以選擇更高輪數(shù)的模型。
勾選打開推理界面。
推理界面
確認下模型是否跟我們剛才選的一樣。
然后上傳一段參考音頻,建議是數(shù)據(jù)集中的音頻。最好5秒。參考音頻很重要!會學(xué)習(xí)語速和語氣,請認真選擇。
這里我選擇的是降噪切分后的音頻。
參考音頻的文本是參考音頻說什么就填什么,語種也要對應(yīng)。
接著就是輸入要合成的文本了,注意語種要對應(yīng)。切分選擇湊50字一切
,沒超過50字的不會切。然后點擊合成語音。
生成的語音
生成音頻
如果你要合成的文本中有英文,你需要選擇對應(yīng)的語種。
如果你發(fā)現(xiàn)選擇中英混合或者其他語種推理的音頻效果不太理想,你的準備音頻可以是中英混合的,中文摻雜著英文,然后生成標注的時候就選擇多語種。
至此,我們訓(xùn)練好了一個聲音模型并可以用它生成任何音頻。
整合包獲取
關(guān)注公眾號,發(fā)送0301關(guān)鍵字獲取整合包
常見問題:
如何訓(xùn)練第二個模型?
將以下幾個路徑下的文件移走或者刪除。否則第二次訓(xùn)練的時候會造成數(shù)據(jù)混淆。
標注文件夾GPT-SoVITS-main/output/asr_opt
噪音音頻切分文件夾GPT-SoVITS-main/output/denoise_opt
音頻切分文件夾GPT-SoVITS-main/output/slicer_opt
如果你第二次不修改模型名字,那你需要將GPT-SoVITS-main/logs/
文件夾內(nèi)的模型同名文件夾移走或刪除。也可以直接修改模型名字。
如何分享我訓(xùn)練的模型?
將下面這兩個路徑下的文件粘貼到別人的同樣的目錄下即可。
GPT-SoVITS-main/SoVITS_weights
GPT-SoVITS-main/GPT_weights
怎么樣才算訓(xùn)練好一個模型?
這個問題其實沒有一個準確答案,模型的訓(xùn)練取決于你的數(shù)據(jù)集質(zhì)量、時長,輪數(shù),等因素。每次訓(xùn)練完成后聽下看看是否滿足你的心里預(yù)期。如果你的模型推理出來的效果一直不理想,你應(yīng)該重點關(guān)注下你的數(shù)據(jù)集是否有問題。
感謝
本次的分享結(jié)束啦,最后感謝櫻子老師、陽光老師、貝貝老師、翅膀同學(xué)提供的音頻素材。
本文出現(xiàn)的所有音頻僅供參考,未經(jīng)授權(quán)禁止商用。文章來源:http://www.zghlxwxcb.cn/news/detail-844532.html
如果本文對您有幫助,還請點個贊,感謝您的閱讀。文章來源地址http://www.zghlxwxcb.cn/news/detail-844532.html
到了這里,關(guān)于【AI聲音克隆】教你如何“奪取“別人的聲音!GPT-SoVITS整合包發(fā)布(WIN/MAC)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!