1. 介紹
摘要:
介紹了一個以文本作為條件,生成高保真、長時間片的音樂音頻。比如文本為“由扭曲的吉他重復(fù)段伴奏的平靜的小提琴旋律”,MusicLM可以可以根據(jù)文本條件,生成24kHz采樣率,分鐘級別的連續(xù)音樂音頻。
從摘要中可以得知,這篇文章解決的根本問題其實(shí)可以非常簡單的形容,就是:
文本 -> 音樂
如果加上一些限制條件,那么這個問題可以補(bǔ)充為:
豐富的文本描述 -> 高保真的,長時間連續(xù)的音頻
假如將這個問題交給普通人來解決,相信很多沒有基本樂理知識的人,都很難根據(jù)特定的文本,創(chuàng)作出一段長達(dá)幾分鐘的樂曲。
算法模型與人相同的是,它也很難學(xué)會樂理知識;但是算法模型比人類強(qiáng)大的地方,在于強(qiáng)大的模仿能力,它可以通過大量的數(shù)據(jù),模仿文本和對應(yīng)音樂的關(guān)聯(lián)。
從文章里面可以了解到,雖然可以設(shè)計(jì)模仿能力突出的算法模型,但是解決這個問題依然充滿了挑戰(zhàn),主要集中在以下兩方面:
- 當(dāng)前學(xué)術(shù)界的研究只能生成簡單場景的短片段語音,因此將單文本轉(zhuǎn)化為高保真和長時間連續(xù)的音樂片段具有很強(qiáng)的挑戰(zhàn)
- 缺乏豐富的“音樂-文本”結(jié)對的數(shù)據(jù)集
2. 背景
2.1 MuLan model
MuLanModel通過AudioEmbeding編碼音頻,通過TextEmbedding編碼文本,將audio和text拉齊到同一維度空間,最后計(jì)算對比損失函數(shù)比較兩者在同一維度空間的差別。
2.2 AudioLM
AudioLM使用SoundStream生成Acoustic tokens,用來合成高質(zhì)量音頻;
使用w2v-BERT生成Semantic tokens,用來維護(hù)音頻的長期連續(xù)性。
分成3個階段漸進(jìn)式的合成聲音:第1各階段僅使用semantic tokens;第2個階段使用semantic tokens + 粗糙的acoustic tokens合成音頻; 第3個音頻使用semantic tokens + fine acoustic tokens合成音頻。
3. 方法
針對上面兩個問題,作者首先制作了包含5千多條“音樂-文本“對應(yīng)的MusicCaps數(shù)據(jù)集;然后通過下圖的方式使用3個預(yù)訓(xùn)練模型,利用SoundStream保證高保真,w2v保證長時間連續(xù),利用MuLan將文本和音頻編碼到同一個維度空間,使得二者具有可對比性。文章來源:http://www.zghlxwxcb.cn/news/detail-519108.html
作者設(shè)計(jì)的模型如下圖所示,模型結(jié)構(gòu)分為兩個階段:
第一階段是語義模型階段,音頻通過MuLan模型生成MuLan tokens, 然后通過語義模型映射為w2v-BERT的Semantic tokens;
第二階段是聲學(xué)模型階段,將MuLan tokens和Semantic token一起輸入聲學(xué)模型,并映射為SoundStream的Acoustic tokens,為了保證長時間連續(xù)音頻生成,生成過程是一個類似audioLM的coarse-to-fine階段。文章來源地址http://www.zghlxwxcb.cn/news/detail-519108.html
4. 結(jié)果
- 兩階段建模的模型都是transformer-decoder only,24 layers, 16 attention heads,
- MuLan使用的開源模型,使用 Free Music Archive (FMA) dataset 訓(xùn)練SoundStream and w2v-BERT;
- AudioLM兩階段模型訓(xùn)練:five million audio clips(~280k hours)。semantic stage,隨機(jī)裁剪30s音頻;acoustic stage,隨機(jī)裁剪10s音頻;AudioLM細(xì)粒度的建?;?s音頻。
5. 評價(jià)
- 沒開源代碼,無法論證真實(shí)性能和效果
- 只是demo,和ChatGPT相比,距離商業(yè)化還有很大差距
- 現(xiàn)在就差text-2-video了
AI text-2-essayAI test-2-codeAI text-2-imageAI text-2-music- AI text-2-video
6. 參考
- MusicLM demo page
到了這里,關(guān)于TTS算法筆記:MusicLM- Generating Music From Text(AI生成音樂)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!