一周前,RVC變聲器創(chuàng)始人(GitHub昵稱:RVC-Boss)發(fā)布了一款新項目,名為GPT-SoVITS。這個項目一上線就受到了互聯(lián)網大佬和博主的好評推薦,僅僅在不到一周的時間里,就已經在GitHub上積累了4.1k Star。
據說,該項目是RVC-Boss與Rcell(AI音色轉換技術Sovits的開發(fā)者)共同研究,歷時半年,期間克服了許多困難,最終推出了這款全新的低成本易用的音色克隆工具。
接下來,讓我們一起來看看這款新型音色克隆工具RVC-Boss有何特別之處吧!
項目介紹
GPT-SoVITS 是一款強大的支持少量語音轉換、文本到語音的音色克隆模型。支持中文、英文、日文的語音推理。
據開發(fā)者及各大博主測驗,僅需提供 5 秒語音樣本即可體驗達到 80%~95% 像的聲音克隆。若提供 1 分鐘語音樣本可以逼近真人的效果,且訓練出高質量的 TTS 模型!
項目地址:https://github.com/RVC-Boss/GPT-SoVITS
目前已獲得 4.1k Star,看到很多人對其評價為目前最強中文語音克隆工具。
功能:
零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
少樣本TTS: 僅需1分鐘的訓練數(shù)據即可微調模型,提升聲音相似度和真實感。
跨語言支持: 支持與訓練數(shù)據集不同語言的推理,目前支持英語、日語和中文。
WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協(xié)助初學者創(chuàng)建訓練數(shù)據集和GPT/SoVITS模型。
環(huán)境準備
如果你是Windows用戶(已在win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓后雙擊go-webui.bat即可啟動GPT-SoVITS-WebUI。
雙擊后就會自動彈出網頁
Python和PyTorch版本
已在Python 3.9、PyTorch 2.0.1和CUDA 11上測試。
使用Conda快速安裝
conda create -n GPTSoVits python=3.9conda activate GPTSoVitsbash install.sh
手動安裝包
Pip包
pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet
額外要求
如果你需要中文自動語音識別(由FunASR支持),請安裝:
pip install modelscope torchaudio sentencepiece funasr
FFmpeg
Conda 使用者
conda install ffmpeg
Ubuntu/Debian 使用者
sudo apt install ffmpegsudo apt install libsox-dev conda install -c conda-forge 'ffmpeg<7'
MacOS 使用者
brew install ffmpeg
Windows 使用者
下載并將 ffmpeg.exe 和 ffprobe.exe 放置在 GPT-SoVITS 根目錄下。
預訓練模型
從 GPT-SoVITS Models 下載預訓練模型,并將它們放置在 GPT_SoVITS\pretrained_models
中。
對于中文自動語音識別(另外),從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型,并將它們放置在 tools/damo_asr/models
中。
對于UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,并將它們放置在 tools/uvr5/uvr5_weights
中。
數(shù)據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
‘zh’: Chinese
‘ja’: Japanese
‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
待辦事項清單
高優(yōu)先級:
日語和英語的本地化。
用戶指南。
日語和英語數(shù)據集微調訓練。
Features:
零樣本聲音轉換(5秒)/ 少樣本聲音轉換(1分鐘)。
TTS語速控制。
增強的TTS情感控制。
嘗試將SoVITS令牌輸入更改為詞匯的概率分布。
改進英語和日語文本前端。
開發(fā)體積小和更大的TTS模型。
Colab腳本。
擴展訓練數(shù)據集(從2k小時到10k小時)。
更好的sovits基礎模型(增強的音頻質量)。
模型混合。
總結
GPT-SoVITS 支持跨語言,集成了聲音伴奏分離、自動訓練集分割、中文ASR和文本標注等輔助工具。
僅需1分鐘的訓練數(shù)據,即可微調模型,提高語音相似性和真實感。文章來源:http://www.zghlxwxcb.cn/news/detail-824860.html
整體的體驗還想相當不錯的,希望未來應用的領域會越來越多,更新迭代會越來越完善。文章來源地址http://www.zghlxwxcb.cn/news/detail-824860.html
到了這里,關于GPT-SoVITS:開源跨語言音色克隆模型,支持TTS和跨語言推理的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!