国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="pucp1"><div id="pucp1"><small id="pucp1"></small></div></thead>

<del id="pucp1"></del>

<del id="pucp1"><pre id="pucp1"></pre></del>

<del id="pucp1"><thead id="pucp1"></thead></del>

【AI聲音克隆】教你如何“奪取“別人的聲音!GPT-SoVITS整合包發(fā)布(WIN/MAC)

1年前作者：嘟嘟實驗室分類：Toy博客閱讀(31)違法舉報

這篇具有很好參考價值的文章主要介紹了【AI聲音克隆】教你如何“奪取“別人的聲音!GPT-SoVITS整合包發(fā)布(WIN/MAC)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

今天給大家分享一個聲音克隆的項目。我們只要上傳一分鐘的語音，就可以完美復(fù)刻任意角色的語音語氣、語調(diào)，實現(xiàn)聲音情感的真實復(fù)刻，而且它還支持中日英等多個語種。我為大家制作了Windows版本和Mac版本的整合包（文章末尾自?。?/strong>

首先聽下我用了四位朋友的一分鐘的語音素材來訓(xùn)練的音頻效果。

聲音演示

下面我分享制作流程，篇幅較長，多圖，但是步驟很簡單。

安裝與啟動

Win：

Windows用戶將下載好的壓縮包解壓到本地目錄，雙擊啟動器.exe即可。

耐心等待一會兒，會自動打開一個網(wǎng)頁。這就是程序的主界面。

Mac：

Mac用戶由于權(quán)限設(shè)置會比Windows相對麻煩些，首先解壓壓縮包，來到項目路徑下，我們看到這兩個文件是文稿形式，這時我們需要開啟下文件權(quán)限才可以使用。

回到最外層文件夾，也就是你解壓包所在的目錄。

打開終端。

輸入指令sudo chmod -R 777 ，然后將文件夾拖拽進終端內(nèi)。

完整命令，別忘了777后有個空格

之后按下回車。這時需要輸入屏幕密碼，我們輸入密碼后按回車。（輸入的時候密碼不會顯示）

執(zhí)行完畢，我們可以將終端窗口關(guān)閉。

再次回到項目目錄內(nèi)，可以看到剛才的兩個文件已經(jīng)變成Unix可執(zhí)行文件的格式。這就代表成功了，如果這兩個文件沒變成Unix可執(zhí)行文件的格式，你需要檢查下上一步是否正確執(zhí)行。

接下來，Mac用戶還需要開啟允許任何來源APP的權(quán)限才可以完全使用。如果你不知道你的電腦是否開啟了這個選項，你可以進入系統(tǒng)設(shè)置--隱私與安全性--安全性，查看是否是任何來源選項。

如果你已經(jīng)開啟，請忽略下面的步驟，如果不是任何來源選項，根據(jù)下面步驟開啟。

雙擊來源開啟。

選擇打開。

提示需要輸入鎖屏密碼。輸入完畢后按回車。

顯示開啟成功，可以將終端窗口關(guān)掉。

到這里為止，Mac用戶使用前的權(quán)限都開啟了。后續(xù)使用無需重復(fù)執(zhí)行以上步驟，直接點擊啟動器啟動即可。

雙擊啟動器。彈出的詢問框點擊打開。

耐心等待一會兒，會自動打開一個網(wǎng)頁。這就是程序的主界面。

開始操作

從這里開始，Windows用戶和Mac用戶的操作步驟是一樣的。

分三大步驟：

數(shù)據(jù)集處理。

模型訓(xùn)練。

推理模型。

數(shù)據(jù)集處理

請認真準備數(shù)據(jù)集！以免后面出現(xiàn)各種報錯，和煉出不理想的模型！好的數(shù)據(jù)集是煉出好的模型的基礎(chǔ)！

首先我們需要準備一段音頻文件，準備一段人物說話的音頻即可。

音頻標準：

音頻里不要有嘈雜的環(huán)境音、噪音、背景音樂等。

音頻長度30s-60s。

音頻格式為wav。

下面是我用的音頻，可以參考下：

原音頻參考

如果你的音頻里有背景音樂等雜音，需要執(zhí)行下面步驟進行處理，如果沒有請忽略。

音頻處理

勾選此選項，然后會自動進入聲音處理界面。

第一步拖拽需要處理的音頻。第二步根據(jù)說明來選擇對應(yīng)的模型，一般選擇HP3就足夠了。第三步選擇導(dǎo)出文件格式為WAV。

然后點擊轉(zhuǎn)換，耐心等待一會兒。

當輸出信息這一欄有Success字樣就完成了音頻的處理。

可以在項目路徑下：output--uvr5_opt文件夾下找到處理的兩個音頻文件。一個是伴奏，一個是人聲。我們訓(xùn)練需要用到人聲部分。

處理完畢后我們來到主界面將這個選項關(guān)閉。

音頻切分

這里填入準備好的音頻路徑。然后點擊開啟語音切割。

切分好的音頻在GPT-SoVITS-main/output/slicer_opt文件夾內(nèi)。

音頻降噪

這一步根據(jù)你的音頻質(zhì)量來，如果噪音不大，此步驟可以忽略不執(zhí)行。

這里填入上一步切分好的音頻路徑。點擊開啟語音降噪。

降噪完成。

降噪完成的音頻文件在GPT-SoVITS-main/output/denoise_opt文件夾內(nèi)。

音頻打標

這一步只需要填寫輸入文件夾路徑。如果你音頻降噪過，那么是GPT-SoVITS-main/output/denoise_opt文件夾，如果你切分了沒有降噪，那么是GPT-SoVITS-main/output/slicer_opt文件夾。其他選項保持默認，然后點擊開啟離線批量ASR。

補充：這里模型選項默認是中文，如果你想訓(xùn)練中英混合的模型、日文、韓文等其他語言。你需要在ASR模型選項選擇Faster Whisper (多語種)，ASR語言設(shè)置選擇auto。

校對標注

這一步比較費時間，如果不追求極致效果，可以忽略這一步。

填入標注文件的路徑。GPT-SoVITS-main/output/asr_opt/denoise_opt.list

勾選是否開啟打標WebUI

然后會跳轉(zhuǎn)到打標網(wǎng)頁，紅框區(qū)域是根據(jù)音頻生成對應(yīng)的文字。黃框區(qū)域是對應(yīng)的音頻。這一步要做的是試聽，然后根據(jù)音頻來修改前面的文字和斷句。

比如我們根據(jù)音頻在句子中增加，來斷句。

修改前：

修改后：

修改完后需要點擊Submit Text和Save File來保存。

如果你的音頻文件很長，你需要進行翻頁操作對每句話進行校對，Previous Index 和 Next Index是上一頁和下一頁。

當你校對完成后，記得保存，隨后關(guān)閉這個頁面就可以了?；氐街鹘缑?，關(guān)閉勾選。

output目錄文件夾介紹。沒執(zhí)行過降噪或者是音頻處理就不會有denoise_opt、uvr5_opt文件夾。

模型訓(xùn)練

訓(xùn)練集格式化

接下來開始訓(xùn)練模型，點擊GPT-SoVITS-TTS進入新的界面。

選擇訓(xùn)練格式化工具這一欄。在訓(xùn)練模型前我們需要對數(shù)據(jù)集進行修改操作。

這里填寫標注文件的路徑GPT-SoVITS-main/output/asr_opt/denoise_opt.list

點擊一鍵三連。其他開啟文本獲取、開啟ssl提取、開啟語義token提取選項不用執(zhí)行。一鍵三連會自動執(zhí)行上述步驟。

執(zhí)行完畢后我們可以看到GPT-SoVITS-main/logs文件夾下會生成一個跟模型名一樣的文件夾。（模型名稱可以修改，不要用中文）

微調(diào)訓(xùn)練

進入微調(diào)訓(xùn)練這一欄

這里需要調(diào)整SoVITS訓(xùn)練參數(shù)和GPT訓(xùn)練參數(shù)，每張顯卡的batch_size和總訓(xùn)練輪數(shù)我這里設(shè)置的是15，總訓(xùn)練輪數(shù)一般設(shè)置成10。這兩個參數(shù)根據(jù)電腦配置來自行調(diào)整。訓(xùn)練輪數(shù)千萬不能高于20。學(xué)習(xí)率保持默認值。保存頻率設(shè)置為5。其他選項為默認。

然后先點開啟SoVITS訓(xùn)練，訓(xùn)練完后再點開啟GPT訓(xùn)練，不可以一起訓(xùn)練（除非你有兩張卡）！如果中途中斷了，直接再點開始訓(xùn)練就好了，會從最近的保存點開始訓(xùn)練。

兩個訓(xùn)練都完成后我們可以去模型文件夾確認下。兩個訓(xùn)練生成的模型分別在GPT-SoVITS-main/SoVITS_weights 和 GPT-SoVITS-main/GPT_weights文件夾內(nèi)。

模型推理

來到推理界面

點擊刷新模型路徑。

選擇對應(yīng)的模型，e代表輪數(shù)，s代表步數(shù)。不是輪數(shù)越高越好，這里我選擇了最低的輪數(shù)5進行推理。如果你選擇輪數(shù)為5的推理后的音頻效果不理想，可以選擇更高輪數(shù)的模型。

勾選打開推理界面。

推理界面

確認下模型是否跟我們剛才選的一樣。

然后上傳一段參考音頻，建議是數(shù)據(jù)集中的音頻。最好5秒。參考音頻很重要！會學(xué)習(xí)語速和語氣，請認真選擇。

這里我選擇的是降噪切分后的音頻。

參考音頻的文本是參考音頻說什么就填什么，語種也要對應(yīng)。

接著就是輸入要合成的文本了，注意語種要對應(yīng)。切分選擇湊50字一切，沒超過50字的不會切。然后點擊合成語音。

生成的語音

生成音頻

如果你要合成的文本中有英文，你需要選擇對應(yīng)的語種。

如果你發(fā)現(xiàn)選擇中英混合或者其他語種推理的音頻效果不太理想，你的準備音頻可以是中英混合的，中文摻雜著英文，然后生成標注的時候就選擇多語種。

至此，我們訓(xùn)練好了一個聲音模型并可以用它生成任何音頻。

整合包獲取

關(guān)注公眾號,發(fā)送0301關(guān)鍵字獲取整合包

常見問題：

如何訓(xùn)練第二個模型？

將以下幾個路徑下的文件移走或者刪除。否則第二次訓(xùn)練的時候會造成數(shù)據(jù)混淆。

標注文件夾GPT-SoVITS-main/output/asr_opt

噪音音頻切分文件夾GPT-SoVITS-main/output/denoise_opt

音頻切分文件夾GPT-SoVITS-main/output/slicer_opt

如果你第二次不修改模型名字，那你需要將GPT-SoVITS-main/logs/文件夾內(nèi)的模型同名文件夾移走或刪除。也可以直接修改模型名字。

如何分享我訓(xùn)練的模型？

將下面這兩個路徑下的文件粘貼到別人的同樣的目錄下即可。

GPT-SoVITS-main/SoVITS_weights

GPT-SoVITS-main/GPT_weights

怎么樣才算訓(xùn)練好一個模型？

這個問題其實沒有一個準確答案，模型的訓(xùn)練取決于你的數(shù)據(jù)集質(zhì)量、時長，輪數(shù)，等因素。每次訓(xùn)練完成后聽下看看是否滿足你的心里預(yù)期。如果你的模型推理出來的效果一直不理想，你應(yīng)該重點關(guān)注下你的數(shù)據(jù)集是否有問題。

感謝

本次的分享結(jié)束啦，最后感謝櫻子老師、陽光老師、貝貝老師、翅膀同學(xué)提供的音頻素材。

本文出現(xiàn)的所有音頻僅供參考，未經(jīng)授權(quán)禁止商用。

如果本文對您有幫助，還請點個贊，感謝您的閱讀。文章來源地址http://www.zghlxwxcb.cn/news/detail-844532.html

到了這里，關(guān)于【AI聲音克隆】教你如何“奪取“別人的聲音!GPT-SoVITS整合包發(fā)布(WIN/MAC)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

GPT-SoVITS-WebUI 克隆聲音 macos搭建
激活環(huán)境 conda activate GPTSoVits 停用 conda deactivate 強大的少樣本語音轉(zhuǎn)換與語音合成Web用戶界面 GPT-SoVITS指南
2024年02月21日
瀏覽(23)
手把手教你聲音克隆（so-vits-svc）
隨著ChatGPT的爆火，AIGC（人工智能生成內(nèi)容）再一次走到人們眼前。尤其是在文本、圖像生成領(lǐng)域，通過GPT-4、Midjourney等應(yīng)用生成各種令人驚嘆定的文本和圖片。但 AI 在生成方面的能力，可遠非如此如此。我用長約一個小時的音頻數(shù)據(jù)，訓(xùn)練了一個 AI 音色轉(zhuǎn)換模型，生成了
2024年02月03日
瀏覽(84)
GPT-SoVITS教程,接入酒館AI,SillyTavern-1.11.5,讓AI女友聲若幽蘭
本次分享一下如何將GPT-SoVITS接入SillyTavern-1.11.5項目，讓讓AI女友聲若幽蘭，首先明確一下，SillyTavern-1.11.5只是一個前端項目，它沒有任何大模型文本生成能力，所以后端必須有一個api服務(wù)來流式生成對話文本，這里選擇koboldcpp。首先看一下簡單的項目運行架構(gòu)圖：這里Sill
2024年04月25日
瀏覽(25)
五音不全？手把手教你用自己聲音唱任何歌；最詳細的Auto-GPT整理；4月AI繪畫模型推薦；HayoAI平臺簡直太酷了 | ShowMeAI日報
?? 日報周刊合集 | ?? 生產(chǎn)力工具與行業(yè)應(yīng)用大全 | ?? 點贊關(guān)注評論拜托啦！ OpenAI 近期面向部分用戶發(fā)放了 Code Interpreter (代碼解釋器) 插件使用權(quán)限，推上目前滿屏驚訝臉 ?? 拿到權(quán)限的用戶，展示了使用 Code Interpreter插件進行的諸多嘗試： 1 . 處理圖片。輸出動態(tài)二維碼
2024年02月09日
瀏覽(26)
[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容
隨著人工智能技術(shù)的不斷發(fā)展，語音克隆技術(shù)也得到了越來越多的關(guān)注和研究。目前，AI語音克隆技術(shù)已經(jīng)可以實現(xiàn)讓機器模擬出一個人的聲音，甚至可以讓機器模擬出一個人的語言習(xí)慣和表情。然而，AI語音克隆技術(shù)仍然面臨著許多難點和痛點。首先，現(xiàn)有的語音克隆技術(shù)
2024年02月08日
瀏覽(19)
如何制作正能量勵志語錄短視頻保姆級教程： AIGC生成腳本+ elevenlabs AI聲音克隆+AI生圖+PikaLabs生短視頻+Pexels素材+剪映視頻剪輯實操全流程演示
課程場景：適合口才不好，文筆不好，不愿意出鏡的相關(guān)人員學(xué)習(xí)，經(jīng)常演講但是沒有時間做口播做錄制的老板、講師和專家，學(xué)完本課，不管您是誰，您都將輕松簡單的可以開始您的Vlog或者自媒體賬號的IP打造之路。您將學(xué)到如何找爆款對標賬號。您將學(xué)到如何通過AIGC以
2024年02月02日
瀏覽(56)
用Python實現(xiàn)AI聲音克隆的原理和代碼示例
聲音克隆是一種利用機器學(xué)習(xí)技術(shù)學(xué)習(xí)特定人說話的聲音特征，并以此生成合成音頻的技術(shù)，通常在語音合成和人機交互等領(lǐng)域有廣泛的應(yīng)用。下面是一個簡單的Python實現(xiàn)示例： 1.數(shù)據(jù)收集首先，需要從多個不同說話人的語音數(shù)據(jù)集中收集原始音頻數(shù)據(jù)，并將其分為訓(xùn)練集和
2024年02月12日
瀏覽(27)
2023.05.09-使用AI克隆孫燕姿的聲音來進行唱歌
如果我們想要克隆孫燕姿的聲音，整體的思路很簡單，首先找一些孫燕姿唱歌時沒有伴奏的人聲，然后把這個聲音放到模型中進行訓(xùn)練擬合，讓AI學(xué)習(xí)說話的這種聲線風(fēng)格，最后使用這個訓(xùn)練出來的模型進行推理和風(fēng)格遷移，這樣一首孫燕姿唱其他人歌曲的音頻就制作出來了
2024年02月05日
瀏覽(16)
AI聲音克隆模型常見問題匯總筆記（附解決方法，可評論區(qū)留言問題技術(shù)交流
聲明：源碼非原創(chuàng)，轉(zhuǎn)載自小破站UP主Jack-Cui，文章部分內(nèi)容來源網(wǎng)路，本文只用于技術(shù)分享，模型訓(xùn)練與語音輸出已測試成功。硬件配置工具及運行環(huán)境名詞解釋： batch_size ：計算效率和內(nèi)存容量之間的平衡參數(shù)。若為高性能GPU，可以設(shè)置更大的batch_size值 epochs ：所有樣本
2024年02月01日
瀏覽(22)
【git】Fork或者git clone克隆了別人項目，如何保持與原項目同步更新
Workspace：工作區(qū) Index / Stage：暫存區(qū) Repository：倉庫區(qū)（或本地倉庫） Remote：遠程倉庫# 一、網(wǎng)頁/服務(wù)端Fork別人的項目到你的Github 如何在 Github 網(wǎng)頁端同步更新？進入你自己的 fork 過來的倉庫。點擊 “Pull requests” ，如何點擊右側(cè)綠色的 “New pull request”。Github 首先會比較
2024年02月08日
瀏覽(13)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区