国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI數(shù)字人:基于VITS模型的中文語音生成訓(xùn)練

這篇具有很好參考價(jià)值的文章主要介紹了AI數(shù)字人:基于VITS模型的中文語音生成訓(xùn)練。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1 VITS模型介紹

????????VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一種結(jié)合變分推理(variational inference)、標(biāo)準(zhǔn)化流(normalizing flows)和對(duì)抗訓(xùn)練的高表現(xiàn)力語音合成模型。

??????? VITS模型是韓國科學(xué)院在2021年6月提出的,VITS通過隱變量而非頻譜串聯(lián)起來語音合成中的聲學(xué)模型和聲碼器,在隱變量上進(jìn)行隨機(jī)建模并利用隨機(jī)時(shí)長預(yù)測器,提高了合成語音的多樣性,輸入同樣的文本,能夠合成不同聲調(diào)和韻律的語音。

??????? 論文地址:VITS論文

2 VITS模型結(jié)構(gòu)

AI數(shù)字人:基于VITS模型的中文語音生成訓(xùn)練

2.1 總體結(jié)構(gòu)

  • 先驗(yàn)編碼器:TextEncoder由多層的transformer encoder組成,預(yù)測的結(jié)果輸出均值與方差。

  • 后驗(yàn)編碼器:由conv1d+WN網(wǎng)絡(luò)組成+conv1d組成。輸出得到均值與方差,并且使用FLOW得到復(fù)雜分布z_p。通過flow后的復(fù)雜分布z_p與先驗(yàn)編碼器后的分布進(jìn)行對(duì)MAS對(duì)齊估計(jì)。得到attn硬對(duì)齊矩陣。

  • MAS對(duì)齊估計(jì):通過mas(monotonic align search)硬對(duì)齊算法,將文本feature和序列幀feature進(jìn)行一個(gè)硬對(duì)齊,拿到對(duì)齊矩陣Attn。MAS使用DP算法,假設(shè)一個(gè)文本feature其對(duì)應(yīng)的幀序列符合一個(gè)高斯分布,通過DP算法做優(yōu)化,計(jì)算出文本和序列的最優(yōu)對(duì)齊矩陣。

  • 解碼器:實(shí)際就是聲碼器HiFi-GAN V1的生成器。應(yīng)用于多人模型時(shí),在說話人嵌入向量之后添加一個(gè)線性層,拼接到的輸出隱變量。

  • 判別器:增加了一個(gè)HiFi-GAN的多周期判別器,僅在訓(xùn)練的時(shí)候才起作用,用于對(duì)抗generator的訓(xùn)練。

2.2 VITS的好處及問題

  • VAE 擅長捕捉句子整體的韻律特征,而Flow擅長重建音頻的細(xì)節(jié)特征;將兩者整合,進(jìn)行多任務(wù)訓(xùn)練,實(shí)現(xiàn)參數(shù)與優(yōu)勢(shì)共享。

  • VITS 直接合成音頻,實(shí)現(xiàn)真正意義的端到端語音合成,而不是two-stage階段的序列到序列的合成;從而消除兩個(gè)模型帶來的Gap。

  • 傳統(tǒng)兩個(gè)模型的TTS系統(tǒng),GAN 訓(xùn)練通常只應(yīng)用與聲碼器,而VITS 中的 GAN 訓(xùn)練是全局的、對(duì)每個(gè)模塊都有效。

  • vits雖然通過sdp解決了one-to-many的問題,但是從合成結(jié)果來看,因?yàn)閷?duì)韻律,語調(diào)等feature是統(tǒng)一建模的,沒有進(jìn)行拆分細(xì)粒度,因此針對(duì)英文這種語調(diào)豐富的語言,其語調(diào)建模的學(xué)習(xí)的比較平均化,針對(duì)風(fēng)格發(fā)音人來說,整體合成效果來看無法得到較好的語調(diào),比較單一,語調(diào)較平。

2.3 VITS主要包括3塊

  • 條件變分自編碼器(Variational AutoEncoder,VAE)

VAE(Variational Autoencoder)是一種深度生成模型,同時(shí)也被視為一種自編碼器。它的結(jié)構(gòu)包含兩部分:編碼器和解碼器。

編碼器的功能是將輸入數(shù)據(jù)轉(zhuǎn)換為一組潛在空間的高維向量。這些潛在向量通常被稱為“隱變量”或“l(fā)atent vectors”。

解碼器則是利用編碼器產(chǎn)生的潛在向量來重建原始輸入數(shù)據(jù)。這個(gè)過程涉及到從潛在空間中采樣,以及根據(jù)采樣到的潛在向量合成新數(shù)據(jù)。

VAE的核心原理是利用變分推斷(variational inference),這是一種統(tǒng)計(jì)學(xué)方法,旨在找到一個(gè)簡單且接近真實(shí)分布的概率密度函數(shù)。在這個(gè)框架下,VAE試圖學(xué)習(xí)數(shù)據(jù)的內(nèi)在分布,而不是直接優(yōu)化對(duì)數(shù)似然函數(shù)。這允許VAE在不完全了解數(shù)據(jù)分布的情況下進(jìn)行有效的數(shù)據(jù)生成和學(xué)習(xí)。

在VAE的訓(xùn)練過程中,首先通過編碼器提取輸入數(shù)據(jù)的潛在向量,然后從中生成樣本來計(jì)算與原始輸入的重構(gòu)誤差。這個(gè)誤差作為損失函數(shù)的一部分,通過反向傳播算法更新網(wǎng)絡(luò)權(quán)重和偏置,以最小化損失。這樣,VAE能夠?qū)W習(xí)到數(shù)據(jù)的潛在表示,并且在實(shí)際應(yīng)用中表現(xiàn)出良好的泛化能力和性能。

總結(jié)來說,VAE的學(xué)習(xí)目標(biāo)是在不完美地知道數(shù)據(jù)分布的情況下,通過學(xué)習(xí)數(shù)據(jù)的內(nèi)在分布來生成新的數(shù)據(jù),同時(shí)在一定程度上保持原有數(shù)據(jù)的特性。這種架構(gòu)不僅適用于圖像、聲音等傳統(tǒng)領(lǐng)域,而且在降維和特征提取方面也表現(xiàn)出了優(yōu)勢(shì)。

  • 從變分推斷中產(chǎn)生的對(duì)齊估計(jì)
  • 生成對(duì)抗訓(xùn)練

2.4 語音合成里程碑

VITS 語音合成完全端到端TTS的里程碑,主要突破點(diǎn)如下:

  • 首個(gè)自然度超過2-stage架構(gòu)SOTA的完全E2E模型。MOS4.43, 僅低于GT錄音0.03。聲稱目前公開系統(tǒng)最好效果。

  • 得益于圖像領(lǐng)域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE應(yīng)用到了完全E2E的TTS任務(wù)中。

  • 訓(xùn)練非常簡便,完全E2E。不需要像Fastspeech系列模型需要額外提pitch, energy等特征,也不像多數(shù)2-stage架構(gòu)需要根據(jù)聲學(xué)模型的輸出來finetune聲碼器以達(dá)到最佳效果。

  • 擺脫了預(yù)設(shè)的聲學(xué)譜作為鏈接聲學(xué)模型和聲碼器的特征,成功的應(yīng)用來VAE去E2E的學(xué)習(xí)隱性表示來鏈接兩個(gè)模塊

  • 多說話人模型自然度不下降,不像其他模型趨于持平GT錄音MOS分

3 使用vits模型進(jìn)行中文語音合成訓(xùn)練

3.1 github項(xiàng)目下載:

git clone https://github.com/PlayVoice/vits_chinese

3.2 運(yùn)行環(huán)境搭建

annoconda環(huán)境搭建詳見:annoconda安裝與使用

conda create -n vits pyton=3.9

conda activate vits

cd vits_chinese

pip install -r requirements.txt

cd monotonic_align

python setup.py build_ext --inplace

3.3 數(shù)據(jù)集下載

下載標(biāo)貝男聲數(shù)據(jù)集,采樣頻率為22050,下載地址如下:

標(biāo)貝男聲數(shù)據(jù)集(第一個(gè)包)

標(biāo)貝男聲數(shù)據(jù)集(第二個(gè)包)

標(biāo)貝男聲數(shù)據(jù)集標(biāo)注數(shù)據(jù)

下載完成后,將數(shù)據(jù)集解壓縮后放到“vits_chinese/data/waves”目錄下,標(biāo)注數(shù)據(jù)放到

“vits_chinese/data”目錄下

3.4 預(yù)訓(xùn)練模型下載

韻律模型下載:韻律模型

下載完成后,移動(dòng)到“vits_chinese/bert/”目錄下

3.5 數(shù)據(jù)預(yù)處理

修改配置文件:vi config/bert_vits.json

    "max_wav_value": 32768.0,
    "sampling_rate": 22050,
    "filter_length": 1024,
python vits_prepare.py -c ./configs/bert_vits.json

3.6 啟動(dòng)訓(xùn)練

python train.py -c configs/bert_vits.json -m bert_vits

3.7 訓(xùn)練后推理

python vits_infer.py --config ./configs/bert_vits.json --model logs/bert_vits/G_700000.pth

其中G_700000.pth為訓(xùn)練后的模型,根據(jù)訓(xùn)練實(shí)際情況指定訓(xùn)練模型進(jìn)行推理

AI數(shù)字人:基于VITS模型的中文語音生成訓(xùn)練

?4 訓(xùn)練結(jié)果展示

經(jīng)過1000個(gè)epoch訓(xùn)練后的語音生成效果如下:

https://download.csdn.net/download/lsb2002/87832170d

?5 預(yù)訓(xùn)練模型

使用標(biāo)貝男聲數(shù)據(jù),使用Tasla-v100GPU,經(jīng)過70萬epochs訓(xùn)練后模型,新speaker可以在此模型上二次訓(xùn)練,達(dá)到快速收斂的效果。預(yù)訓(xùn)練模型下載地址

下載后,將模型存儲(chǔ)到/vits_chinese/logs/bert_vits/目錄下,啟動(dòng)二次訓(xùn)練

????????文章來源地址http://www.zghlxwxcb.cn/news/detail-515123.html

到了這里,關(guān)于AI數(shù)字人:基于VITS模型的中文語音生成訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 如何快速部署本地訓(xùn)練的 Bert-VITS2 語音模型到 Hugging Face

    如何快速部署本地訓(xùn)練的 Bert-VITS2 語音模型到 Hugging Face

    Hugging Face是一個(gè)機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)科學(xué)平臺(tái)和社區(qū),幫助用戶構(gòu)建、部署和訓(xùn)練機(jī)器學(xué)習(xí)模型。它提供基礎(chǔ)設(shè)施,用于在實(shí)時(shí)應(yīng)用中演示、運(yùn)行和部署人工智能(AI)。用戶還可以瀏覽其他用戶上傳的模型和數(shù)據(jù)集。Hugging Face通常被稱為機(jī)器學(xué)習(xí)界的GitHub,因?yàn)樗岄_發(fā)人

    2024年02月01日
    瀏覽(27)
  • 全套解決方案:基于pytorch、transformers的中文NLP訓(xùn)練框架,支持大模型訓(xùn)練和文本生成,快速上手,海量訓(xùn)練數(shù)據(jù)!

    全套解決方案:基于pytorch、transformers的中文NLP訓(xùn)練框架,支持大模型訓(xùn)練和文本生成,快速上手,海量訓(xùn)練數(shù)據(jù)!

    目標(biāo) :基于 pytorch 、 transformers 做中文領(lǐng)域的nlp開箱即用的訓(xùn)練框架,提供全套的訓(xùn)練、微調(diào)模型(包括大模型、文本轉(zhuǎn)向量、文本生成、多模態(tài)等模型)的解決方案; 數(shù)據(jù) : 從開源社區(qū),整理了海量的訓(xùn)練數(shù)據(jù),幫助用戶可以快速上手; 同時(shí)也開放訓(xùn)練數(shù)據(jù)模版,可以快

    2024年02月11日
    瀏覽(23)
  • 本地訓(xùn)練,立等可取,30秒音頻素材復(fù)刻霉霉講中文音色基于Bert-VITS2V2.0.2

    本地訓(xùn)練,立等可取,30秒音頻素材復(fù)刻霉霉講中文音色基于Bert-VITS2V2.0.2

    之前我們使用Bert-VITS2V2.0.2版本對(duì)現(xiàn)有的原神數(shù)據(jù)集進(jìn)行了本地訓(xùn)練,但如果克隆對(duì)象脫離了原神角色,我們就需要自己構(gòu)建數(shù)據(jù)集了,事實(shí)上,深度學(xué)習(xí)模型的性能和泛化能力都依托于所使用的數(shù)據(jù)集的質(zhì)量和多樣性,本次我們?cè)诒镜乩肂ert-VITS2V2.0.2對(duì)霉霉講中文的音色進(jìn)

    2024年02月05日
    瀏覽(19)
  • 【AI項(xiàng)目實(shí)戰(zhàn)】某語言模型-stable diffusion-vits-cqhttp 實(shí)現(xiàn)能對(duì)話能語音能繪畫的Q群機(jī)器人

    【AI項(xiàng)目實(shí)戰(zhàn)】某語言模型-stable diffusion-vits-cqhttp 實(shí)現(xiàn)能對(duì)話能語音能繪畫的Q群機(jī)器人

    好久沒寫文章了,終于想起來我有個(gè)博客賬號(hào)系列。。 項(xiàng)目已開源在github上。 文章已濾敏,一切涉及語言模型名字的內(nèi)容都以某語言模型代替 提示:AI繪畫部分建議6G顯存以上。 用于接收群友消息,并回復(fù)消息。 基于這種對(duì)話式的語言模型,可以對(duì)用戶的聊天進(jìn)行響應(yīng)。

    2024年02月10日
    瀏覽(28)
  • Python - Bert-VITS2 自定義訓(xùn)練語音

    Python - Bert-VITS2 自定義訓(xùn)練語音

    目錄 一.引言 二.前期準(zhǔn)備 1.Conda 環(huán)境搭建 2.Bert 模型下載 3.預(yù)訓(xùn)練模型下載? 三.數(shù)據(jù)準(zhǔn)備 1.音頻文件批量處理 2.訓(xùn)練文件地址生成 3.模型訓(xùn)練配置生成 4.訓(xùn)練文件重采樣 5.Tensor pt 文件生成 四.模型訓(xùn)練 1.預(yù)訓(xùn)練模型 2.模型訓(xùn)練 3.模型收菜 五.總結(jié) 前面我們通過視頻 OCR 技術(shù)識(shí)

    2024年01月20日
    瀏覽(25)
  • so-vits-svc3.0 中文詳細(xì)安裝、訓(xùn)練、推理使用教程

    2023-3-12文檔更新說明: 由于特殊原因,本項(xiàng)目文檔將停止更新,詳情請(qǐng)見原作者首頁,感謝各位的支持! 本文檔的Github項(xiàng)目地址 點(diǎn)擊前往 本幫助文檔為項(xiàng)目 so-vits-svc補(bǔ)檔 的詳細(xì)中文安裝、調(diào)試、推理教程,您也可以直接選擇官方README文檔 撰寫:Sucial 點(diǎn)擊跳轉(zhuǎn)B站主頁 本項(xiàng)

    2024年01月21日
    瀏覽(50)
  • so-vits-svc4.0 中文詳細(xì)安裝、訓(xùn)練、推理使用教程

    本幫助文檔為項(xiàng)目 so-vits-svc 的詳細(xì)中文安裝、調(diào)試、推理教程,您也可以直接選擇官方README文檔 撰寫:Sucial 點(diǎn)擊跳轉(zhuǎn)B站主頁 本項(xiàng)目需要的環(huán)境: NVIDIA-CUDA Python = 3.10 Pytorch FFmpeg - Cuda 在cmd控制臺(tái)里輸入 nvidia-smi.exe 以查看顯卡驅(qū)動(dòng)版本和對(duì)應(yīng)的cuda版本 前往 NVIDIA-Developer 官網(wǎng)

    2024年02月05日
    瀏覽(14)
  • AI孫燕姿 ?AI東雪蓮 !—— 本地部署DDSP-SVC一鍵包,智能音頻切片,本地訓(xùn)練,模型推理,為你喜歡的角色訓(xùn)練AI語音模型小教程

    AI孫燕姿 ?AI東雪蓮 !—— 本地部署DDSP-SVC一鍵包,智能音頻切片,本地訓(xùn)練,模型推理,為你喜歡的角色訓(xùn)練AI語音模型小教程

    目錄 感謝B站UP羽毛布團(tuán) 演示視頻 稻香——東雪蓮 虛擬——東雪蓮 反方向的鐘——東雪蓮 晴天+龍卷風(fēng)——東雪蓮 ZOOD——東雪蓮 DDSP-SVC?3.0?(D3SP)?是什么? 下載資源: 解壓整合包 準(zhǔn)備數(shù)據(jù)集 智能音頻切片? 數(shù)據(jù)集準(zhǔn)備 填寫訓(xùn)練設(shè)置和超參數(shù) ?開始訓(xùn)練 推理模型 羽毛布団

    2024年02月06日
    瀏覽(23)
  • AIGC:語音克隆模型Bert-VITS2-2.3部署與實(shí)戰(zhàn)

    AIGC:語音克隆模型Bert-VITS2-2.3部署與實(shí)戰(zhàn)

    單階段文本到語音模型最近被積極研究,其結(jié)果優(yōu)于兩階段管道系統(tǒng)。以往的單階段模型雖然取得了較大的進(jìn)展,但在間歇性非自然性、計(jì)算效率、對(duì)音素轉(zhuǎn)換依賴性強(qiáng)等方面仍有改進(jìn)的空間。本文提出VITS2,一種單階段的文本到語音模型,通過改進(jìn)之前工作的幾個(gè)方面,有

    2024年04月17日
    瀏覽(28)
  • 基于飛槳paddlespeech訓(xùn)練中文喚醒詞模型

    基于飛槳paddlespeech訓(xùn)練中文喚醒詞模型

    飛槳Paddlespeech中的語音喚醒是基于hey_snips數(shù)據(jù)集做的。Hey_snips數(shù)據(jù)集是英文喚醒詞,對(duì)于中國人來說,最好是中文喚醒詞。經(jīng)過一番嘗試,我發(fā)現(xiàn)它也能訓(xùn)練中文喚醒詞,于是我決定訓(xùn)練一個(gè)中文喚醒詞模型。 ? 要訓(xùn)練中文喚醒詞模型,主要有如下工作要做:找數(shù)據(jù)集,做數(shù)

    2024年02月08日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包