今天跟大家分享一個(gè)文本轉(zhuǎn)語(yǔ)音的開(kāi)源模型:Bark
Bark 是由Suno創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流,如大笑、嘆息和哭泣。
該項(xiàng)目剛開(kāi)源不久, GitHub Star 數(shù)也達(dá)到了 4500+,估計(jì)很快就破萬(wàn)了。現(xiàn)在詳細(xì)介紹下該項(xiàng)目的功用吧。
功能概況:
- 非常真實(shí)自然的語(yǔ)音
- 英文效果最佳,其他語(yǔ)言還欠佳
- 支持通過(guò)文本生成歌曲
- 支持生成背景噪音、簡(jiǎn)單的音效
- 支持大笑、嘆息、哭泣
??安裝
pip install git+https://github.com/suno-ai/bark.git
或者
git clone https://github.com/suno-ai/bark
cd bark && pip install .
???硬件和推理速度
Bark 經(jīng)過(guò)測(cè)試,可在 CPU 和 GPU(pytorch 2.0+
、CUDA 11.7 和 CUDA 12.0)上運(yùn)行。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上,Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上,推理時(shí)間可能會(huì)慢 10-100 倍。
支持的語(yǔ)言
語(yǔ)言 | 地位 |
---|---|
英語(yǔ) (zh) | ? |
德語(yǔ) (de) | ? |
西班牙語(yǔ) | ? |
法語(yǔ) (fr) | ? |
印地語(yǔ)(嗨) | ? |
意大利語(yǔ)(它) | ? |
日語(yǔ) (ja) | ? |
韓文 (ko) | ? |
波蘭語(yǔ)(復(fù)數(shù)) | ? |
葡萄牙語(yǔ) (pt) | ? |
俄語(yǔ) (ru) | ? |
土耳其語(yǔ) (tr) | ? |
簡(jiǎn)體中文 (zh) | ? |
??用法
from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)
要保存audio_array
為 WAV 文件:
from scipy.io.wavfile import write as write_wav
write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)
Bark 支持開(kāi)箱即用的各種語(yǔ)言,并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)出現(xiàn)代碼轉(zhuǎn)換文本提示時(shí),Bark 將嘗試使用相應(yīng)語(yǔ)言的本地口音。英語(yǔ)質(zhì)量目前是最好的。
text_prompt = """
Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo.
But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)
??音樂(lè)
Bark 可以生成所有類型的音頻,并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè),可以通過(guò)在歌詞周圍添加音符來(lái)幫助它。
text_prompt = """
? In the jungle, the mighty jungle, the lion barks tonight ?
"""
audio_array = generate_audio(text_prompt)
??揚(yáng)聲器提示
您可以提供特定的演講者提示,例如旁白、男人、女人等。請(qǐng)注意,這些提示并不總是得到尊重,尤其是在給出沖突的音頻歷史提示時(shí)。
text_prompt = """
WOMAN: I would like an oatmilk latte please.
MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)
注意:使用Python執(zhí)行代碼時(shí),會(huì)默認(rèn)識(shí)別電腦上有無(wú)GPU,如果沒(méi)有GPU則會(huì)下載可用于CPU的訓(xùn)練模型,默認(rèn)模型文件下載地址為當(dāng)前用戶目錄.cache文件夾下,可以通過(guò)配置XDG_CACHE_HOME環(huán)境變量指定模型下載位置文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-439339.html
趕快給你的同行朋友們安利一波,一起體驗(yàn)一下它的神奇功用吧。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-439339.html
到了這里,關(guān)于GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!