国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容

2年前作者：小虎AI實驗室分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

隨著人工智能技術(shù)的不斷發(fā)展，語音克隆技術(shù)也得到了越來越多的關(guān)注和研究。目前，AI語音克隆技術(shù)已經(jīng)可以實現(xiàn)讓機器模擬出一個人的聲音，甚至可以讓機器模擬出一個人的語言習(xí)慣和表情。

然而，AI語音克隆技術(shù)仍然面臨著許多難點和痛點。首先，現(xiàn)有的語音克隆技術(shù)仍然存在著語音質(zhì)量不夠高、語音還原度不夠高等問題，難以達到真正的“以假亂真”效果。

針對這些難點和痛點，我們團隊基于開源項目MockingBird提出了一種新的AI語音克隆方案MockingVoice，通過采用更加先進的語音合成技術(shù)和更加嚴格的隱私保護措施，實現(xiàn)了更高質(zhì)量的語音克隆效果和更加安全可靠的使用體驗。我們相信，這種新的AI語音克隆技術(shù)將有助于為人們帶來更加智能、便捷、安全的語音交互體驗，為人們的生活和工作帶來更多可能性。

本篇文章，我們主要聚焦在MockingBird介紹及使用上，詳細介紹如何借助現(xiàn)有的開源項目，實現(xiàn)聲音克隆。

MockingBird開源項目介紹

[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容
MockingBird是一款先進的TTS（文本到語音）項目，使用深度學(xué)習(xí)模型生成高質(zhì)量的合成語音。它由一組熱衷于自然語言處理和語音技術(shù)的研究人員和工程師開發(fā)。
關(guān)鍵特點：對普通話的支持。
使用多個中文數(shù)據(jù)集進行訓(xùn)練，包括aidatatang_200zh、magicdata、aishell3、biaobei、MozillaCommonVoice和data_aishell，以確保生成的語音聽起來自然流暢，可用于各種應(yīng)用，包括語音助手、有聲書和語言學(xué)習(xí)工具。
深度學(xué)習(xí)框架：Pytorch
使用PyTorch作為其主要深度學(xué)習(xí)框架，并已在2021年8月發(fā)布的最新版本PyTorch 1.9.0上進行了測試。它支持Tesla T4和GTX 2060 GPU，可以實現(xiàn)更快的訓(xùn)練和推理時間。
擴展性：易于使用和定制
提供了一個預(yù)訓(xùn)練的合成器，可立即使用，或者訓(xùn)練自己的合成器以生成符合您特定需求的語音。此外，您可以使用預(yù)訓(xùn)練的編碼器和聲碼器，或使用實時的HiFi-GAN作為聲碼器來生成高質(zhì)量的語音。
服務(wù)化：遠程調(diào)用
Mocking Bird 支持Web服務(wù)，這意味著您可以輕松地將其部署在Web服務(wù)器上，并將其用于遠程生成語音。這對于需要實時語音合成的應(yīng)用程序或無法訪問高端硬件的用戶特別有用。

快速開始

一、環(huán)境安裝

本文測試環(huán)境：Mac M1芯片 macos Monterey
Step 1 下載代碼
下載git代碼，https://github.com/babysor/MockingBird
Step 2 安裝anaconda
可以從以下鏡像站中：https://repo.anaconda.com/archive/ 找到適合你機器版本的鏡像，下載安裝。
安裝完成后如圖所示：
快速開始
一、環(huán)境安裝
本文測試環(huán)境：Mac M1芯片 macos Monterey
Step 1 下載代碼
下載git代碼，https://github.com/babysor/MockingBird
Step 2 安裝anaconda
可以從以下鏡像站中：https://repo.anaconda.com/archive/ 找到適合你機器版本的鏡像，下載安裝。
安裝完成后如圖所示：
[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容
Step 3 構(gòu)建虛擬python環(huán)境
注：由于原git項目代碼中依賴了不同版本的第三方庫，有些庫對python版本還有要求，因此建議按照本文給的版本進行安裝，目前在M1上是測試通過的。
運行命令：conda create -n mock_voice python=3.9
激活虛擬環(huán)境 mock_voice：conda activate mock_voice
Step 4 安裝第三方依賴庫
直接運行命令：pip install -r requirements.txt
基本上按照本文提供的git，下載安裝沒有問題。在安裝過程中，如果遇到安裝不了的，大家自行g(shù)oogle。

二、下載預(yù)訓(xùn)練模型

這邊我們可以直接下載社區(qū)開發(fā)者訓(xùn)練好的模型，直接拿來使用，下載地址如下：

下載鏈接	信息
https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g 百度盤鏈接 4j5d	75k steps 用3個開源數(shù)據(jù)集混合訓(xùn)練
https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw 百度盤鏈接提取碼：om7f	25k steps 用3個開源數(shù)據(jù)集混合訓(xùn)練, 切換到tag v0.0.1使用
https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing 百度盤鏈接提取碼：1024	200k steps 臺灣口音需切換到tag v0.0.1使用
https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ 提取碼：2021	150k steps 注意：根據(jù)issue修復(fù) 并切換到tag v0.0.1使用
我們下載第一個模型，將文件放置在地址：data/ckpt/synthesizer/pretrained-11-7-21_75k.pt

三、運行工具箱

Step 1 使用Audacity錄音
如果我們使用MockingBird自帶的工具箱進行錄音的話，最終克隆出來的聲音往往效果不好。我們需要借助專業(yè)工具來錄制自己的聲音，并對聲音進行去噪處理。
下載軟件：Audacity https://www.audacityteam.org/ 并安裝

[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容
打開audacity，點擊聲音錄制，并對錄制完的聲音進行降噪處理。

最后將錄制的聲音personal_test.wav導(dǎo)出到本地。

Step 2 運行工具箱
輸入命令 python demo_toolbox.py
此時會加載出一個界面
[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容
Step 3 加載錄音

Step 4 Synthesize only
輸入你想要測試的中文文本，并點擊按鈕Synthesize only
Step 5 Vocode only
點擊按鈕Vocode only

最后將生成的聲音進行播放。

分析及總結(jié)

錄制聲音時長

最好將要克隆的音頻長度限定在3-8秒之間。這與許多人的想法不同，他們認為輸入語音越長，音色被捕捉的準(zhǔn)確性就越高。然而，由于模型特性，提取音色特征的容量是有限的。對于比較長的音頻，模型只會映射到一個相對較小的模型中，這并沒有提高準(zhǔn)確性。在訓(xùn)練過程中，通常喂入110秒的語音，因此長音頻中的一些不尋常的停頓可能導(dǎo)致推理過于發(fā)散。因此，建議輸入音頻的最佳長度為3~8秒，而不是越長越好。

輸入音頻去除明顯背景聲/底噪

盡管經(jīng)過一些優(yōu)化，特別是在引入GST之后，最新的代碼庫可以在說話人編碼器部分提取并分離一部分噪音特征，減少噪音的影響，因此即使存在一些底噪，也可以正常地進行克隆合成。但是，原始模型仍然容易因底噪而失去音色的提取。為了獲得更好的克隆效果，我們建議使用專業(yè)的音頻工具或者像使用開源工具Audacity這樣的工具對輸入音頻進行預(yù)處理，去除明顯的噪音。這樣可以大大提高克隆效果。

輸入音頻確保只有一個人聲

經(jīng)過實測，當(dāng)輸入的音頻包含超過一個人的聲音時，克隆出來的聲音會變得難以辨認（有時甚至像幽靈聲音），而且往往無法正常生成符合質(zhì)量要求的音頻，并且容易出現(xiàn)丟字現(xiàn)象。

輸入音頻的說話聲最好是平調(diào)

在克隆的過程中，歌聲和激動的聲音往往難以獲得準(zhǔn)確的音色特征。因此，為了獲得更好的效果，建議輸入音頻中的說話聲是正常的語調(diào)。

邊合成（synthesize）邊看mel spectrogram

合成過程中會加入一定的隨機值，因此可以嘗試只進行合成（synthesize）操作，查看合成推理輸出的Mel頻譜圖，直到獲得滿意的結(jié)果后再進行vocoder輸出。下面是一個比較好的Mel頻譜圖供參考：
[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容

展望未來

本文我們主要講述了如何使用預(yù)訓(xùn)練好的模型進行聲音克隆的方法，那么如何自己構(gòu)造數(shù)據(jù)集自己訓(xùn)練模型，或者說基于大模型進行微調(diào)從而達到更好的聲音克隆效果呢，期待我們下次再見??。文章來源地址http://www.zghlxwxcb.cn/news/detail-482475.html

到了這里，關(guān)于[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

基于達摩院modelscope語音模型，實現(xiàn)20句話聲音克隆合成
基于達摩院modelscope語音模型，實現(xiàn)20句話聲音克隆合成
2024年02月06日
瀏覽(13)
如何制作正能量勵志語錄短視頻保姆級教程： AIGC生成腳本+ elevenlabs AI聲音克隆+AI生圖+PikaLabs生短視頻+Pexels素材+剪映視頻剪輯實操全流程演示
課程場景：適合口才不好，文筆不好，不愿意出鏡的相關(guān)人員學(xué)習(xí)，經(jīng)常演講但是沒有時間做口播做錄制的老板、講師和專家，學(xué)完本課，不管您是誰，您都將輕松簡單的可以開始您的Vlog或者自媒體賬號的IP打造之路。您將學(xué)到如何找爆款對標(biāo)賬號。您將學(xué)到如何通過AIGC以
2024年02月02日
瀏覽(56)
批量生成,本地推理，人工智能聲音克隆框架PaddleSpeech本地批量克隆實踐(Python3.10)
云端煉丹固然是極好的，但不能否認的是，成本要比本地高得多，同時考慮到深度學(xué)習(xí)的訓(xùn)練相對于推理來說成本也更高，這主要是因為它需要大量的數(shù)據(jù)、計算資源和時間等資源，并且對超參數(shù)的調(diào)整也要求較高，更適合在云端進行。在推理階段，模型的權(quán)重和參數(shù)不再調(diào)
2024年02月09日
瀏覽(26)
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓(xùn)練集分割、中文自動語音識別(ASR)和文本標(biāo)注
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓(xùn)練集分割、中文自動語音識別(ASR)和文本標(biāo)注。查看我們的介紹視頻 demo video 中國地區(qū)用戶可使用 AutoDL 云端鏡像進行體驗：https://www.codewithgpu.com/i/RVC-
2024年02月20日
瀏覽(28)
【離線文本轉(zhuǎn)語音文件】java spring boot jacob實現(xiàn)文字轉(zhuǎn)語音文件，離線文本轉(zhuǎn)化語音，中英文生成語音，文字朗讀，中文生成聲音，文字生成聲音文件，文字轉(zhuǎn)語音文件，文字變聲音。
輸入文字（支持中英文），點擊轉(zhuǎn)換生成***.wav文件，點擊下載到本地就可。 ?生成后的音頻文件播放,時長1分8秒 ? ? ? ? ?這次采用jacob實現(xiàn)，相比百度AI需要聯(lián)網(wǎng)，本項目定位內(nèi)網(wǎng)環(huán)境實現(xiàn)。所以最終采jacob。 1.環(huán)境配置：本次采用版本jacob-1.19，我們需要下載jacob.jar和dll
2024年02月16日
瀏覽(26)
用Python實現(xiàn)AI聲音克隆的原理和代碼示例
聲音克隆是一種利用機器學(xué)習(xí)技術(shù)學(xué)習(xí)特定人說話的聲音特征，并以此生成合成音頻的技術(shù)，通常在語音合成和人機交互等領(lǐng)域有廣泛的應(yīng)用。下面是一個簡單的Python實現(xiàn)示例： 1.數(shù)據(jù)收集首先，需要從多個不同說話人的語音數(shù)據(jù)集中收集原始音頻數(shù)據(jù)，并將其分為訓(xùn)練集和
2024年02月12日
瀏覽(27)
2023.05.09-使用AI克隆孫燕姿的聲音來進行唱歌
如果我們想要克隆孫燕姿的聲音，整體的思路很簡單，首先找一些孫燕姿唱歌時沒有伴奏的人聲，然后把這個聲音放到模型中進行訓(xùn)練擬合，讓AI學(xué)習(xí)說話的這種聲線風(fēng)格，最后使用這個訓(xùn)練出來的模型進行推理和風(fēng)格遷移，這樣一首孫燕姿唱其他人歌曲的音頻就制作出來了
2024年02月05日
瀏覽(16)
【AI聲音克隆】教你如何“奪取“別人的聲音!GPT-SoVITS整合包發(fā)布(WIN/MAC)
今天給大家分享一個聲音克隆的項目。我們只要上傳一分鐘的語音，就可以完美復(fù)刻任意角色的語音語氣、語調(diào)，實現(xiàn)聲音情感的真實復(fù)刻，而且它還支持中日英等多個語種。我為大家制作了 Windows 版本和 Mac 版本的整合包（文章末尾自?。?首先聽下我用了四位朋友的一分鐘
2024年04月08日
瀏覽(31)
GPT-SoVITS-WebUI可以中文聲音克隆開源AI工具簡介
引言： ????????近年來，隨著人工智能技術(shù)的不斷發(fā)展，語音技術(shù)已經(jīng)成為了熱門領(lǐng)域。盡管已有不少技術(shù)實現(xiàn)了一定程度的成功，但傳統(tǒng)語音合成技術(shù)的問題依然存在。傳統(tǒng)方法對于訓(xùn)練數(shù)據(jù)的需求量大、效果受到聲音質(zhì)量和口音差異的影響。因此，在語音技術(shù)領(lǐng)域中
2024年04月13日
瀏覽(22)
AI聲音克隆模型常見問題匯總筆記（附解決方法，可評論區(qū)留言問題技術(shù)交流
聲明：源碼非原創(chuàng)，轉(zhuǎn)載自小破站UP主Jack-Cui，文章部分內(nèi)容來源網(wǎng)路，本文只用于技術(shù)分享，模型訓(xùn)練與語音輸出已測試成功。硬件配置工具及運行環(huán)境名詞解釋： batch_size ：計算效率和內(nèi)存容量之間的平衡參數(shù)。若為高性能GPU，可以設(shè)置更大的batch_size值 epochs ：所有樣本
2024年02月01日
瀏覽(22)