国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂)

這篇具有很好參考價(jià)值的文章主要介紹了TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1. 介紹

摘要:
介紹了一個以文本作為條件,生成高保真、長時間片的音樂音頻。比如文本為“由扭曲的吉他重復(fù)段伴奏的平靜的小提琴旋律”,MusicLM可以可以根據(jù)文本條件,生成24kHz采樣率,分鐘級別的連續(xù)音樂音頻。
TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC
從摘要中可以得知,這篇文章解決的根本問題其實(shí)可以非常簡單的形容,就是:

文本 -> 音樂

如果加上一些限制條件,那么這個問題可以補(bǔ)充為:

豐富的文本描述 -> 高保真的,長時間連續(xù)的音頻

假如將這個問題交給普通人來解決,相信很多沒有基本樂理知識的人,都很難根據(jù)特定的文本,創(chuàng)作出一段長達(dá)幾分鐘的樂曲。

算法模型與人相同的是,它也很難學(xué)會樂理知識;但是算法模型比人類強(qiáng)大的地方,在于強(qiáng)大的模仿能力,它可以通過大量的數(shù)據(jù),模仿文本和對應(yīng)音樂的關(guān)聯(lián)。

從文章里面可以了解到,雖然可以設(shè)計(jì)模仿能力突出的算法模型,但是解決這個問題依然充滿了挑戰(zhàn),主要集中在以下兩方面:

  • 當(dāng)前學(xué)術(shù)界的研究只能生成簡單場景的短片段語音,因此將單文本轉(zhuǎn)化為高保真和長時間連續(xù)的音樂片段具有很強(qiáng)的挑戰(zhàn)
  • 缺乏豐富的“音樂-文本”結(jié)對的數(shù)據(jù)集

2. 背景

2.1 MuLan model

TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC
MuLanModel通過AudioEmbeding編碼音頻,通過TextEmbedding編碼文本,將audio和text拉齊到同一維度空間,最后計(jì)算對比損失函數(shù)比較兩者在同一維度空間的差別。

2.2 AudioLM

TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC
AudioLM使用SoundStream生成Acoustic tokens,用來合成高質(zhì)量音頻;
使用w2v-BERT生成Semantic tokens,用來維護(hù)音頻的長期連續(xù)性。

TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC
分成3個階段漸進(jìn)式的合成聲音:第1各階段僅使用semantic tokens;第2個階段使用semantic tokens + 粗糙的acoustic tokens合成音頻; 第3個音頻使用semantic tokens + fine acoustic tokens合成音頻。

3. 方法

針對上面兩個問題,作者首先制作了包含5千多條“音樂-文本“對應(yīng)的MusicCaps數(shù)據(jù)集;然后通過下圖的方式使用3個預(yù)訓(xùn)練模型,利用SoundStream保證高保真,w2v保證長時間連續(xù),利用MuLan將文本和音頻編碼到同一個維度空間,使得二者具有可對比性。
TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC

作者設(shè)計(jì)的模型如下圖所示,模型結(jié)構(gòu)分為兩個階段:
第一階段是語義模型階段,音頻通過MuLan模型生成MuLan tokens, 然后通過語義模型映射為w2v-BERT的Semantic tokens;
第二階段是聲學(xué)模型階段,將MuLan tokens和Semantic token一起輸入聲學(xué)模型,并映射為SoundStream的Acoustic tokens,為了保證長時間連續(xù)音頻生成,生成過程是一個類似audioLM的coarse-to-fine階段。
TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂),# 3.11 語音時序,人工智能,語音合成,AIGC文章來源地址http://www.zghlxwxcb.cn/news/detail-519108.html

4. 結(jié)果

  • 兩階段建模的模型都是transformer-decoder only,24 layers, 16 attention heads,
  • MuLan使用的開源模型,使用 Free Music Archive (FMA) dataset 訓(xùn)練SoundStream and w2v-BERT;
  • AudioLM兩階段模型訓(xùn)練:five million audio clips(~280k hours)。semantic stage,隨機(jī)裁剪30s音頻;acoustic stage,隨機(jī)裁剪10s音頻;AudioLM細(xì)粒度的建?;?s音頻。

5. 評價(jià)

  • 沒開源代碼,無法論證真實(shí)性能和效果
  • 只是demo,和ChatGPT相比,距離商業(yè)化還有很大差距
  • 現(xiàn)在就差text-2-video了
    • AI text-2-essay
    • AI test-2-code
    • AI text-2-image
    • AI text-2-music
    • AI text-2-video

6. 參考

  • MusicLM demo page

到了這里,關(guān)于TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Prompt2Model: Generating Deployable Models from Natural Language Instructions

    本文是LLM系列文章,針對《 Prompt2Model: Generating Deployable Models from Natural Language Instructions》的翻譯。 大型語言模型(LLM)使今天的系統(tǒng)構(gòu)建者能夠通過提示創(chuàng)建有能力的NLP系統(tǒng),他們只需要用自然語言描述任務(wù)并提供幾個例子。然而,在其他方面,LLM是傳統(tǒng)的專用NLP模型的倒退

    2024年02月10日
    瀏覽(35)
  • PyTorch翻譯官網(wǎng)教程-NLP FROM SCRATCH: GENERATING NAMES WITH A CHARACTER-LEVEL RNN

    PyTorch翻譯官網(wǎng)教程-NLP FROM SCRATCH: GENERATING NAMES WITH A CHARACTER-LEVEL RNN

    NLP From Scratch: Generating Names with a Character-Level RNN — PyTorch Tutorials 2.0.1+cu117 documentation 這是我們關(guān)于“NLP From Scratch”的三篇教程中的第二篇。在第一個教程中 /intermediate/char_rnn_classification_tutorial 我們使用RNN將名字按其原始語言進(jìn)行分類。這一次,我們將通過語言中生成名字。

    2024年02月13日
    瀏覽(20)
  • 本地AI text2img生成工具【類似midjourney】

    本地AI text2img生成工具【類似midjourney】

    大家好,今天我要向大家推薦一款無需翻墻即可在本地生成圖片的軟件。這個軟件可以在GitHub上找到。 我們可以點(diǎn)擊code下載zip或者通過desktop進(jìn)行下載。 下載完成后,它會生成一個目錄 我們需要在電腦上配置兩個環(huán)境才能運(yùn)行這個腳本。 首先,我們需要下載Python 3.10.6,并配

    2024年02月16日
    瀏覽(22)
  • 【Flutter】flutter_tts 語音播放文本 Text-to-Speech

    在移動應(yīng)用開發(fā)中,文本到語音(Text-to-Speech,簡稱 TTS)的功能越來越常見。它可以幫助我們實(shí)現(xiàn)語音播報(bào)、語音提示等功能,極大地豐富了應(yīng)用的交互方式。 本文將介紹如何在 Flutter 中實(shí)現(xiàn) TTS 功能,我們將使用一個名為 flutter_tts 的插件來完成這個任務(wù)。 本文的重點(diǎn)包括

    2024年02月08日
    瀏覽(81)
  • AIGC for code(text-to-codeAIGC/AI生成代碼/生成式AI之代碼生成/AI編程工具/自動編程/自動生成代碼/智能編程工具/智能編程系統(tǒng))

    AIGC for code(text-to-codeAIGC/AI生成代碼/生成式AI之代碼生成/AI編程工具/自動編程/自動生成代碼/智能編程工具/智能編程系統(tǒng))

    AIGC,Artificial Intelligence Generated Content,人工智能生成內(nèi)容 AIGC for code,AI生成代碼 Copilot是由微軟的子公司Github與openAI共同開發(fā)的人工智能(AI)驅(qū)動的編程助手。它能夠直接在你的編輯器中,為你提供代碼片段或者整個函數(shù)的建議,以幫助你更快地編寫和完成代碼。這個工具

    2024年02月15日
    瀏覽(28)
  • 口播神器,基于Edge,微軟TTS(text-to-speech)文字轉(zhuǎn)語音免費(fèi)開源庫edge-tts實(shí)踐(Python3.10)

    不能否認(rèn),微軟Azure在TTS(text-to-speech文字轉(zhuǎn)語音)這個人工智能細(xì)分領(lǐng)域的影響力是統(tǒng)治級的,一如ChatGPT在NLP領(lǐng)域的隨心所欲,予取予求。君不見幾乎所有的抖音營銷號口播均采用微軟的語音合成技術(shù),其影響力由此可見一斑,僅有的白璧微瑕之處就是價(jià)格略高,雖然國內(nèi)也可

    2024年02月02日
    瀏覽(27)
  • DOA算法之DBF、CAPON、MUSIC、ROOT-MUSIC、ESPRIT、DML算法對比

    DOA算法之DBF、CAPON、MUSIC、ROOT-MUSIC、ESPRIT、DML算法對比

    陣列信號處理算法應(yīng)用領(lǐng)域涉及雷達(dá)、聲納、衛(wèi)星通信等眾多領(lǐng)域,其 主要目的就是對天線陣列接收到的信號進(jìn)行處理,增強(qiáng)有用信號,抑制無用信號,以達(dá)到空域?yàn)V波的目的 ,最后提取回波信號中所包含的角度等信息。 DOA估計(jì)意思是波達(dá)角度估計(jì),是指電磁波到達(dá)天線陣

    2024年02月06日
    瀏覽(55)
  • unitary MUSIC 算法

    ??論文 A Unitary Transformation Method for Angle-of-Arrival Estimation 中提出了 unitary MUSIC 的算法,直譯就是酉 MUSIC 算法,即酉變換 MUSIC 算法。該算法的目的是簡化計(jì)算復(fù)雜度,將傳統(tǒng) MUSIC 算法中的復(fù)數(shù) SVD 和復(fù)數(shù)網(wǎng)格搜索計(jì)算轉(zhuǎn)化為實(shí)數(shù)計(jì)算。在學(xué)習(xí) unitary MUSIC 之前需要理解 Hermiti

    2024年02月20日
    瀏覽(20)
  • 【精選論文 | Capon算法與MUSIC算法性能的比較與分析】

    【精選論文 | Capon算法與MUSIC算法性能的比較與分析】

    本文編輯:調(diào)皮哥的小助理 【正文】 首先說結(jié)論: 當(dāng)信噪比(SNR)足夠大時,Capon算法和MUSIC算法的空間譜非常相似,因此在SNR比較大時它們的性能幾乎一樣,當(dāng)不同信號源的入射角度比較接近時,MUSIC算法的性能優(yōu)于Capon,這也是MUSIC算法(或者說子空間類算法)被稱為高分

    2024年02月11日
    瀏覽(32)
  • DoA 估計(jì):多重信號分類 MUSIC 算法(附 MATLAB 代碼)

    DoA 估計(jì):多重信號分類 MUSIC 算法(附 MATLAB 代碼)

    本文首次在公眾號【零妖閣】上發(fā)表,為了方便閱讀和分享,我們將在其他平臺進(jìn)行自動同步。由于不同平臺的排版格式可能存在差異,為了避免影響閱讀體驗(yàn),建議如有排版問題,可前往公眾號查看原文。感謝您的閱讀和支持! DoA 估計(jì) 是指根據(jù)天線陣列的接收信號估計(jì)出

    2024年02月03日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包