国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<fieldset id="bfeon"><ruby id="bfeon"></ruby></fieldset>

TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）

2年前作者：Bryce1010_賢哉回也分類：Toy博客閱讀(30)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1. 介紹

摘要：
介紹了一個以文本作為條件，生成高保真、長時間片的音樂音頻。比如文本為“由扭曲的吉他重復(fù)段伴奏的平靜的小提琴旋律”，MusicLM可以可以根據(jù)文本條件，生成24kHz采樣率，分鐘級別的連續(xù)音樂音頻。
TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC
從摘要中可以得知，這篇文章解決的根本問題其實(shí)可以非常簡單的形容，就是：

文本 -> 音樂

如果加上一些限制條件，那么這個問題可以補(bǔ)充為：

豐富的文本描述 -> 高保真的，長時間連續(xù)的音頻

假如將這個問題交給普通人來解決，相信很多沒有基本樂理知識的人，都很難根據(jù)特定的文本，創(chuàng)作出一段長達(dá)幾分鐘的樂曲。

算法模型與人相同的是，它也很難學(xué)會樂理知識；但是算法模型比人類強(qiáng)大的地方，在于強(qiáng)大的模仿能力，它可以通過大量的數(shù)據(jù)，模仿文本和對應(yīng)音樂的關(guān)聯(lián)。

從文章里面可以了解到，雖然可以設(shè)計(jì)模仿能力突出的算法模型，但是解決這個問題依然充滿了挑戰(zhàn)，主要集中在以下兩方面：

當(dāng)前學(xué)術(shù)界的研究只能生成簡單場景的短片段語音，因此將單文本轉(zhuǎn)化為高保真和長時間連續(xù)的音樂片段具有很強(qiáng)的挑戰(zhàn)
缺乏豐富的“音樂-文本”結(jié)對的數(shù)據(jù)集

2. 背景

2.1 MuLan model

TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC
MuLanModel通過AudioEmbeding編碼音頻，通過TextEmbedding編碼文本，將audio和text拉齊到同一維度空間，最后計(jì)算對比損失函數(shù)比較兩者在同一維度空間的差別。

2.2 AudioLM

TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC
AudioLM使用SoundStream生成Acoustic tokens，用來合成高質(zhì)量音頻；
使用w2v-BERT生成Semantic tokens，用來維護(hù)音頻的長期連續(xù)性。

TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC
分成3個階段漸進(jìn)式的合成聲音：第1各階段僅使用semantic tokens；第2個階段使用semantic tokens + 粗糙的acoustic tokens合成音頻；第3個音頻使用semantic tokens + fine acoustic tokens合成音頻。

3. 方法

針對上面兩個問題，作者首先制作了包含5千多條“音樂-文本“對應(yīng)的MusicCaps數(shù)據(jù)集；然后通過下圖的方式使用3個預(yù)訓(xùn)練模型，利用SoundStream保證高保真，w2v保證長時間連續(xù)，利用MuLan將文本和音頻編碼到同一個維度空間，使得二者具有可對比性。
TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC

作者設(shè)計(jì)的模型如下圖所示，模型結(jié)構(gòu)分為兩個階段：
第一階段是語義模型階段，音頻通過MuLan模型生成MuLan tokens，然后通過語義模型映射為w2v-BERT的Semantic tokens；
第二階段是聲學(xué)模型階段，將MuLan tokens和Semantic token一起輸入聲學(xué)模型，并映射為SoundStream的Acoustic tokens，為了保證長時間連續(xù)音頻生成，生成過程是一個類似audioLM的coarse-to-fine階段。
TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）,# 3.11 語音時序,人工智能,語音合成,AIGC 文章來源地址http://www.zghlxwxcb.cn/news/detail-519108.html

4. 結(jié)果

兩階段建模的模型都是transformer-decoder only，24 layers， 16 attention heads，
MuLan使用的開源模型，使用 Free Music Archive (FMA) dataset 訓(xùn)練SoundStream and w2v-BERT；
AudioLM兩階段模型訓(xùn)練：five million audio clips（～280k hours）。semantic stage，隨機(jī)裁剪30s音頻；acoustic stage，隨機(jī)裁剪10s音頻；AudioLM細(xì)粒度的建?；?s音頻。

5. 評價(jià)

沒開源代碼，無法論證真實(shí)性能和效果
只是demo，和ChatGPT相比，距離商業(yè)化還有很大差距
現(xiàn)在就差text-2-video了
- ~~AI text-2-essay~~
- ~~AI test-2-code~~
- ~~AI text-2-image~~
- ~~AI text-2-music~~
- AI text-2-video

6. 參考

MusicLM demo page

到了這里，關(guān)于TTS算法筆記：MusicLM- Generating Music From Text（AI生成音樂）的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Prompt2Model: Generating Deployable Models from Natural Language Instructions
本文是LLM系列文章，針對《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻譯。大型語言模型（LLM）使今天的系統(tǒng)構(gòu)建者能夠通過提示創(chuàng)建有能力的NLP系統(tǒng)，他們只需要用自然語言描述任務(wù)并提供幾個例子。然而，在其他方面，LLM是傳統(tǒng)的專用NLP模型的倒退
2024年02月10日
瀏覽(35)
PyTorch翻譯官網(wǎng)教程-NLP FROM SCRATCH: GENERATING NAMES WITH A CHARACTER-LEVEL RNN
NLP From Scratch: Generating Names with a Character-Level RNN — PyTorch Tutorials 2.0.1+cu117 documentation 這是我們關(guān)于“NLP From Scratch”的三篇教程中的第二篇。在第一個教程中 /intermediate/char_rnn_classification_tutorial 我們使用RNN將名字按其原始語言進(jìn)行分類。這一次，我們將通過語言中生成名字。
2024年02月13日
瀏覽(20)
本地AI text2img生成工具【類似midjourney】
大家好，今天我要向大家推薦一款無需翻墻即可在本地生成圖片的軟件。這個軟件可以在GitHub上找到。我們可以點(diǎn)擊code下載zip或者通過desktop進(jìn)行下載。下載完成后，它會生成一個目錄我們需要在電腦上配置兩個環(huán)境才能運(yùn)行這個腳本。首先，我們需要下載Python 3.10.6，并配
2024年02月16日
瀏覽(22)
【Flutter】flutter_tts 語音播放文本 Text-to-Speech
在移動應(yīng)用開發(fā)中，文本到語音（Text-to-Speech，簡稱 TTS）的功能越來越常見。它可以幫助我們實(shí)現(xiàn)語音播報(bào)、語音提示等功能，極大地豐富了應(yīng)用的交互方式。本文將介紹如何在 Flutter 中實(shí)現(xiàn) TTS 功能，我們將使用一個名為 flutter_tts 的插件來完成這個任務(wù)。本文的重點(diǎn)包括
2024年02月08日
瀏覽(81)
AIGC for code(text-to-codeAIGC/AI生成代碼/生成式AI之代碼生成/AI編程工具/自動編程/自動生成代碼/智能編程工具/智能編程系統(tǒng))
AIGC，Artificial Intelligence Generated Content，人工智能生成內(nèi)容 AIGC for code，AI生成代碼 Copilot是由微軟的子公司Github與openAI共同開發(fā)的人工智能（AI）驅(qū)動的編程助手。它能夠直接在你的編輯器中，為你提供代碼片段或者整個函數(shù)的建議，以幫助你更快地編寫和完成代碼。這個工具
2024年02月15日
瀏覽(28)
口播神器,基于Edge,微軟TTS(text-to-speech)文字轉(zhuǎn)語音免費(fèi)開源庫edge-tts實(shí)踐(Python3.10)
不能否認(rèn)，微軟Azure在TTS(text-to-speech文字轉(zhuǎn)語音)這個人工智能細(xì)分領(lǐng)域的影響力是統(tǒng)治級的，一如ChatGPT在NLP領(lǐng)域的隨心所欲，予取予求。君不見幾乎所有的抖音營銷號口播均采用微軟的語音合成技術(shù)，其影響力由此可見一斑，僅有的白璧微瑕之處就是價(jià)格略高，雖然國內(nèi)也可
2024年02月02日
瀏覽(27)
DOA算法之DBF、CAPON、MUSIC、ROOT-MUSIC、ESPRIT、DML算法對比
陣列信號處理算法應(yīng)用領(lǐng)域涉及雷達(dá)、聲納、衛(wèi)星通信等眾多領(lǐng)域，其主要目的就是對天線陣列接收到的信號進(jìn)行處理，增強(qiáng)有用信號，抑制無用信號，以達(dá)到空域?yàn)V波的目的，最后提取回波信號中所包含的角度等信息。 DOA估計(jì)意思是波達(dá)角度估計(jì)，是指電磁波到達(dá)天線陣
2024年02月06日
瀏覽(55)
unitary MUSIC 算法
??論文 A Unitary Transformation Method for Angle-of-Arrival Estimation 中提出了 unitary MUSIC 的算法，直譯就是酉 MUSIC 算法，即酉變換 MUSIC 算法。該算法的目的是簡化計(jì)算復(fù)雜度，將傳統(tǒng) MUSIC 算法中的復(fù)數(shù) SVD 和復(fù)數(shù)網(wǎng)格搜索計(jì)算轉(zhuǎn)化為實(shí)數(shù)計(jì)算。在學(xué)習(xí) unitary MUSIC 之前需要理解 Hermiti
2024年02月20日
瀏覽(20)
【精選論文 | Capon算法與MUSIC算法性能的比較與分析】
本文編輯：調(diào)皮哥的小助理【正文】首先說結(jié)論：當(dāng)信噪比（SNR）足夠大時，Capon算法和MUSIC算法的空間譜非常相似，因此在SNR比較大時它們的性能幾乎一樣，當(dāng)不同信號源的入射角度比較接近時，MUSIC算法的性能優(yōu)于Capon，這也是MUSIC算法（或者說子空間類算法）被稱為高分
2024年02月11日
瀏覽(32)
DoA 估計(jì)：多重信號分類 MUSIC 算法（附 MATLAB 代碼）
本文首次在公眾號【零妖閣】上發(fā)表，為了方便閱讀和分享，我們將在其他平臺進(jìn)行自動同步。由于不同平臺的排版格式可能存在差異，為了避免影響閱讀體驗(yàn)，建議如有排版問題，可前往公眾號查看原文。感謝您的閱讀和支持！ DoA 估計(jì) 是指根據(jù)天線陣列的接收信號估計(jì)出
2024年02月03日
瀏覽(21)

<b id="fmy32"></b>