国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單

這篇具有很好參考價(jià)值的文章主要介紹了GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天跟大家分享一個(gè)文本轉(zhuǎn)語(yǔ)音的開(kāi)源模型:Bark

Bark 是由Suno創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流,如大笑、嘆息和哭泣。

GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單

該項(xiàng)目剛開(kāi)源不久, GitHub Star 數(shù)也達(dá)到了 4500+,估計(jì)很快就破萬(wàn)了。現(xiàn)在詳細(xì)介紹下該項(xiàng)目的功用吧。

功能概況:

  • 非常真實(shí)自然的語(yǔ)音
  • 英文效果最佳,其他語(yǔ)言還欠佳
  • 支持通過(guò)文本生成歌曲
  • 支持生成背景噪音、簡(jiǎn)單的音效
  • 支持大笑、嘆息、哭泣

??安裝

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install . 

???硬件和推理速度

Bark 經(jīng)過(guò)測(cè)試,可在 CPU 和 GPU(pytorch 2.0+、CUDA 11.7 和 CUDA 12.0)上運(yùn)行。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上,Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上,推理時(shí)間可能會(huì)慢 10-100 倍。

支持的語(yǔ)言

語(yǔ)言 地位
英語(yǔ) (zh) ?
德語(yǔ) (de) ?
西班牙語(yǔ) ?
法語(yǔ) (fr) ?
印地語(yǔ)(嗨) ?
意大利語(yǔ)(它) ?
日語(yǔ) (ja) ?
韓文 (ko) ?
波蘭語(yǔ)(復(fù)數(shù)) ?
葡萄牙語(yǔ) (pt) ?
俄語(yǔ) (ru) ?
土耳其語(yǔ) (tr) ?
簡(jiǎn)體中文 (zh) ?

??用法

from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio

text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)

要保存audio_array為 WAV 文件:

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

Bark 支持開(kāi)箱即用的各種語(yǔ)言,并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)出現(xiàn)代碼轉(zhuǎn)換文本提示時(shí),Bark 將嘗試使用相應(yīng)語(yǔ)言的本地口音。英語(yǔ)質(zhì)量目前是最好的。

text_prompt = """
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)

??音樂(lè)

Bark 可以生成所有類型的音頻,并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè),可以通過(guò)在歌詞周圍添加音符來(lái)幫助它。

text_prompt = """
    ? In the jungle, the mighty jungle, the lion barks tonight ?
"""
audio_array = generate_audio(text_prompt)

??揚(yáng)聲器提示

您可以提供特定的演講者提示,例如旁白、男人、女人等。請(qǐng)注意,這些提示并不總是得到尊重,尤其是在給出沖突的音頻歷史提示時(shí)。

text_prompt = """
    WOMAN: I would like an oatmilk latte please.
    MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)

注意:使用Python執(zhí)行代碼時(shí),會(huì)默認(rèn)識(shí)別電腦上有無(wú)GPU,如果沒(méi)有GPU則會(huì)下載可用于CPU的訓(xùn)練模型,默認(rèn)模型文件下載地址為當(dāng)前用戶目錄.cache文件夾下,可以通過(guò)配置XDG_CACHE_HOME環(huán)境變量指定模型下載位置

趕快給你的同行朋友們安利一波,一起體驗(yàn)一下它的神奇功用吧。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-439339.html

到了這里,關(guān)于GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 開(kāi)源(離線)中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理

    開(kāi)源(離線)中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理 Open AI在2022年9月21日開(kāi)源了號(hào)稱其英文語(yǔ)音辨識(shí)能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻

    2024年02月13日
    瀏覽(102)
  • 免費(fèi)的語(yǔ)音識(shí)別 API:簡(jiǎn)單實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本功能

    語(yǔ)音識(shí)別技術(shù)在現(xiàn)代信息處理和人機(jī)交互中扮演著重要角色。如果您正在尋找免費(fèi)的語(yǔ)音識(shí)別 API,那么您來(lái)對(duì)地方了!本文將向您介紹一個(gè)簡(jiǎn)單的方法來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本的功能,并提供相應(yīng)的源代碼供參考。 首先,您需要使用 Python 編程語(yǔ)言來(lái)實(shí)現(xiàn)這個(gè)功能。Python 提供了許

    2024年02月03日
    瀏覽(12)
  • Github 打不開(kāi)官網(wǎng)不能使用命令,現(xiàn)在一款簡(jiǎn)單又實(shí)用的免費(fèi) GitHub 加速神器介紹給你!

    Github 打不開(kāi)官網(wǎng)不能使用命令,現(xiàn)在一款簡(jiǎn)單又實(shí)用的免費(fèi) GitHub 加速神器介紹給你!

    今天給繼續(xù)大家推薦一個(gè)堪稱 GitHub 加速神器的開(kāi)源項(xiàng)目。 這個(gè)開(kāi)源項(xiàng)目就是: FastGitHub ,它主要解決 GitHub 打不開(kāi)、用戶頭像無(wú)法加載、releases 無(wú)法上傳下載、git-clone、git-pull、git-push 失敗等問(wèn)題。 該項(xiàng)目的好處就是專門(mén)針對(duì) GitHub 訪問(wèn)速度慢的問(wèn)題,具有合法性,可靠性,

    2024年02月03日
    瀏覽(24)
  • 6款支持中文語(yǔ)音識(shí)別開(kāi)源軟件的簡(jiǎn)單使用

    6款支持中文語(yǔ)音識(shí)別開(kāi)源軟件的簡(jiǎn)單使用

    摘自百度百科 語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含

    2024年02月12日
    瀏覽(23)
  • 口播神器,基于Edge,微軟TTS(text-to-speech)文字轉(zhuǎn)語(yǔ)音免費(fèi)開(kāi)源庫(kù)edge-tts實(shí)踐(Python3.10)

    不能否認(rèn),微軟Azure在TTS(text-to-speech文字轉(zhuǎn)語(yǔ)音)這個(gè)人工智能細(xì)分領(lǐng)域的影響力是統(tǒng)治級(jí)的,一如ChatGPT在NLP領(lǐng)域的隨心所欲,予取予求。君不見(jiàn)幾乎所有的抖音營(yíng)銷號(hào)口播均采用微軟的語(yǔ)音合成技術(shù),其影響力由此可見(jiàn)一斑,僅有的白璧微瑕之處就是價(jià)格略高,雖然國(guó)內(nèi)也可

    2024年02月02日
    瀏覽(27)
  • 語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(三)

    語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(三)

    參考: 語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析(一) 語(yǔ)音識(shí)別系列︱paddlehub的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試(二) 上一篇paddlehub是一些預(yù)訓(xùn)練模型,paddlespeech也有,所以本篇就是更新paddlespeech里面的模型。 參考:PaddleSpeech 一鍵預(yù)測(cè),快速上手Speech開(kāi)發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語(yǔ)

    2024年02月05日
    瀏覽(21)
  • 新一代開(kāi)源語(yǔ)音庫(kù)CoQui TTS沖到了GitHub 20.5k Star

    新一代開(kāi)源語(yǔ)音庫(kù)CoQui TTS沖到了GitHub 20.5k Star

    Coqui TTS 項(xiàng)目介紹 Coqui 文本轉(zhuǎn)語(yǔ)音(Text-to-Speech,TTS)是新一代基于深度學(xué)習(xí)的低資源零樣本文本轉(zhuǎn)語(yǔ)音模型,具有合成多種語(yǔ)言語(yǔ)音的能力。該模型能夠利用共同學(xué)習(xí)技術(shù),從各語(yǔ)言的訓(xùn)練資料集轉(zhuǎn)換知識(shí),來(lái)有效降低需要的訓(xùn)練資料量。 這個(gè)模型庫(kù)現(xiàn)在已經(jīng)在GitHub上開(kāi)源

    2024年02月07日
    瀏覽(22)
  • Whisper OpenAI開(kāi)源語(yǔ)音識(shí)別模型

    Whisper 是一個(gè)自動(dòng)語(yǔ)音識(shí)別(ASR,Automatic Speech Recognition)系統(tǒng),OpenAI 通過(guò)從網(wǎng)絡(luò)上收集了 68 萬(wàn)小時(shí)的多語(yǔ)言(98 種語(yǔ)言)和多任務(wù)(multitask)監(jiān)督數(shù)據(jù)對(duì) Whisper 進(jìn)行了訓(xùn)練。OpenAI 認(rèn)為使用這樣一個(gè)龐大而多樣的數(shù)據(jù)集,可以提高對(duì)口音、背景噪音和技術(shù)術(shù)語(yǔ)的識(shí)別能力。除

    2024年02月16日
    瀏覽(95)
  • .Net 使用OpenAI開(kāi)源語(yǔ)音識(shí)別模型Whisper

    .Net 使用OpenAI開(kāi)源語(yǔ)音識(shí)別模型Whisper

    .Net 使用OpenAI開(kāi)源語(yǔ)音識(shí)別模型 Whisper Open AI在2022年9月21日開(kāi)源了號(hào)稱其英文語(yǔ)音辨識(shí)能力已達(dá)到人類水準(zhǔn)的 Whisper 神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的

    2024年02月08日
    瀏覽(85)
  • suno有了新對(duì)手udio炸裂音樂(lè)圈;又一個(gè)開(kāi)源AI Devin 程序員;完全開(kāi)源輕量級(jí)的文本到語(yǔ)音可生成特定說(shuō)話者的風(fēng)格

    suno有了新對(duì)手udio炸裂音樂(lè)圈;又一個(gè)開(kāi)源AI Devin 程序員;完全開(kāi)源輕量級(jí)的文本到語(yǔ)音可生成特定說(shuō)話者的風(fēng)格

    ? 1: udio 由音樂(lè)和科技界重量級(jí)人物支持的強(qiáng)大 AI 音樂(lè)生成器,被稱為音樂(lè)界的另一個(gè) ChatGPT。 Udio 由前 Google DeepMind的研究院和工程師創(chuàng)立,得到了a16z的支持,總部在倫敦和紐約。 目前是一個(gè)免費(fèi)的V1測(cè)試版產(chǎn)品,每個(gè)人每個(gè)月可以生成最多 1200 首歌曲。 Udio是一個(gè)強(qiáng)大的

    2024年04月26日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包