前言
隨著人工智能技術(shù)的不斷發(fā)展,語音克隆技術(shù)也得到了越來越多的關(guān)注和研究。目前,AI語音克隆技術(shù)已經(jīng)可以實現(xiàn)讓機器模擬出一個人的聲音,甚至可以讓機器模擬出一個人的語言習(xí)慣和表情。
然而,AI語音克隆技術(shù)仍然面臨著許多難點和痛點。首先,現(xiàn)有的語音克隆技術(shù)仍然存在著語音質(zhì)量不夠高、語音還原度不夠高等問題,難以達到真正的“以假亂真”效果。
針對這些難點和痛點,我們團隊基于開源項目MockingBird提出了一種新的AI語音克隆方案MockingVoice,通過采用更加先進的語音合成技術(shù)和更加嚴格的隱私保護措施,實現(xiàn)了更高質(zhì)量的語音克隆效果和更加安全可靠的使用體驗。我們相信,這種新的AI語音克隆技術(shù)將有助于為人們帶來更加智能、便捷、安全的語音交互體驗,為人們的生活和工作帶來更多可能性。
本篇文章,我們主要聚焦在MockingBird介紹及使用上,詳細介紹如何借助現(xiàn)有的開源項目,實現(xiàn)聲音克隆。
MockingBird開源項目介紹
MockingBird是一款先進的TTS(文本到語音)項目,使用深度學(xué)習(xí)模型生成高質(zhì)量的合成語音。它由一組熱衷于自然語言處理和語音技術(shù)的研究人員和工程師開發(fā)。
關(guān)鍵特點:對普通話的支持。
使用多個中文數(shù)據(jù)集進行訓(xùn)練,包括aidatatang_200zh、magicdata、aishell3、biaobei、MozillaCommonVoice和data_aishell,以確保生成的語音聽起來自然流暢,可用于各種應(yīng)用,包括語音助手、有聲書和語言學(xué)習(xí)工具。
深度學(xué)習(xí)框架:Pytorch
使用PyTorch作為其主要深度學(xué)習(xí)框架,并已在2021年8月發(fā)布的最新版本PyTorch 1.9.0上進行了測試。它支持Tesla T4和GTX 2060 GPU,可以實現(xiàn)更快的訓(xùn)練和推理時間。
擴展性:易于使用和定制
提供了一個預(yù)訓(xùn)練的合成器,可立即使用,或者訓(xùn)練自己的合成器以生成符合您特定需求的語音。此外,您可以使用預(yù)訓(xùn)練的編碼器和聲碼器,或使用實時的HiFi-GAN作為聲碼器來生成高質(zhì)量的語音。
服務(wù)化:遠程調(diào)用
Mocking Bird 支持Web服務(wù),這意味著您可以輕松地將其部署在Web服務(wù)器上,并將其用于遠程生成語音。這對于需要實時語音合成的應(yīng)用程序或無法訪問高端硬件的用戶特別有用。
快速開始
一、環(huán)境安裝
本文測試環(huán)境:Mac M1芯片 macos Monterey
Step 1 下載代碼
下載git代碼,https://github.com/babysor/MockingBird
Step 2 安裝anaconda
可以從以下鏡像站中:https://repo.anaconda.com/archive/ 找到適合你機器版本的鏡像,下載安裝。
安裝完成后如圖所示:
快速開始
一、環(huán)境安裝
本文測試環(huán)境:Mac M1芯片 macos Monterey
Step 1 下載代碼
下載git代碼,https://github.com/babysor/MockingBird
Step 2 安裝anaconda
可以從以下鏡像站中:https://repo.anaconda.com/archive/ 找到適合你機器版本的鏡像,下載安裝。
安裝完成后如圖所示:
Step 3 構(gòu)建虛擬python環(huán)境注:由于原git項目代碼中依賴了不同版本的第三方庫,有些庫對python版本還有要求,因此建議按照本文給的版本進行安裝,目前在M1上是測試通過的。
運行命令:conda create -n mock_voice python=3.9
激活虛擬環(huán)境 mock_voice:conda activate mock_voice
Step 4 安裝第三方依賴庫
直接運行命令:pip install -r requirements.txt
基本上按照本文提供的git,下載安裝沒有問題。在安裝過程中,如果遇到安裝不了的,大家自行g(shù)oogle。
二、下載預(yù)訓(xùn)練模型
這邊我們可以直接下載社區(qū)開發(fā)者訓(xùn)練好的模型,直接拿來使用,下載地址如下:
下載鏈接 | 信息 |
---|---|
https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g 百度盤鏈接 4j5d | 75k steps 用3個開源數(shù)據(jù)集混合訓(xùn)練 |
https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw 百度盤鏈接 提取碼:om7f | 25k steps 用3個開源數(shù)據(jù)集混合訓(xùn)練, 切換到tag v0.0.1使用 |
https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing 百度盤鏈接 提取碼:1024 | 200k steps 臺灣口音需切換到tag v0.0.1使用 |
https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ 提取碼:2021 | 150k steps 注意:根據(jù)issue修復(fù) 并切換到tag v0.0.1使用 |
我們下載第一個模型,將文件放置在地址:data/ckpt/synthesizer/pretrained-11-7-21_75k.pt |
三、運行工具箱
Step 1 使用Audacity錄音
如果我們使用MockingBird自帶的工具箱進行錄音的話,最終克隆出來的聲音往往效果不好。我們需要借助專業(yè)工具來錄制自己的聲音,并對聲音進行去噪處理。
下載軟件:Audacity https://www.audacityteam.org/ 并安裝
打開audacity,點擊聲音錄制,并對錄制完的聲音進行降噪處理。
最后將錄制的聲音personal_test.wav導(dǎo)出到本地。
Step 2 運行工具箱
輸入命令 python demo_toolbox.py
此時會加載出一個界面
Step 3 加載錄音
Step 4 Synthesize only
輸入你想要測試的中文文本,并點擊按鈕Synthesize only
Step 5 Vocode only
點擊按鈕Vocode only
最后將生成的聲音進行播放。
分析及總結(jié)
錄制聲音時長
最好將要克隆的音頻長度限定在3-8秒之間。這與許多人的想法不同,他們認為輸入語音越長,音色被捕捉的準(zhǔn)確性就越高。然而,由于模型特性,提取音色特征的容量是有限的。對于比較長的音頻,模型只會映射到一個相對較小的模型中,這并沒有提高準(zhǔn)確性。在訓(xùn)練過程中,通常喂入110秒的語音,因此長音頻中的一些不尋常的停頓可能導(dǎo)致推理過于發(fā)散。因此,建議輸入音頻的最佳長度為3~8秒,而不是越長越好。
輸入音頻去除明顯背景聲/底噪
盡管經(jīng)過一些優(yōu)化,特別是在引入GST之后,最新的代碼庫可以在說話人編碼器部分提取并分離一部分噪音特征,減少噪音的影響,因此即使存在一些底噪,也可以正常地進行克隆合成。但是,原始模型仍然容易因底噪而失去音色的提取。為了獲得更好的克隆效果,我們建議使用專業(yè)的音頻工具或者像使用開源工具Audacity這樣的工具對輸入音頻進行預(yù)處理,去除明顯的噪音。這樣可以大大提高克隆效果。
輸入音頻確保只有一個人聲
經(jīng)過實測,當(dāng)輸入的音頻包含超過一個人的聲音時,克隆出來的聲音會變得難以辨認(有時甚至像幽靈聲音),而且往往無法正常生成符合質(zhì)量要求的音頻,并且容易出現(xiàn)丟字現(xiàn)象。
輸入音頻的說話聲最好是平調(diào)
在克隆的過程中,歌聲和激動的聲音往往難以獲得準(zhǔn)確的音色特征。因此,為了獲得更好的效果,建議輸入音頻中的說話聲是正常的語調(diào)。
邊合成(synthesize)邊看mel spectrogram
合成過程中會加入一定的隨機值,因此可以嘗試只進行合成(synthesize)操作,查看合成推理輸出的Mel頻譜圖,直到獲得滿意的結(jié)果后再進行vocoder輸出。下面是一個比較好的Mel頻譜圖供參考:文章來源:http://www.zghlxwxcb.cn/news/detail-482475.html
展望未來
本文我們主要講述了如何使用預(yù)訓(xùn)練好的模型進行聲音克隆的方法,那么如何自己構(gòu)造數(shù)據(jù)集自己訓(xùn)練模型,或者說基于大模型進行微調(diào)從而達到更好的聲音克隆效果呢,期待我們下次再見??。文章來源地址http://www.zghlxwxcb.cn/news/detail-482475.html
到了這里,關(guān)于[AI語音克隆] 5秒內(nèi)克隆您的聲音并生成任意語音內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!