国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單

2年前作者：沒(méi)了對(duì)象省了流量ii分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

今天跟大家分享一個(gè)文本轉(zhuǎn)語(yǔ)音的開(kāi)源模型：Bark

Bark 是由Suno創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流，如大笑、嘆息和哭泣。

GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單

該項(xiàng)目剛開(kāi)源不久， GitHub Star 數(shù)也達(dá)到了 4500+，估計(jì)很快就破萬(wàn)了。現(xiàn)在詳細(xì)介紹下該項(xiàng)目的功用吧。

功能概況：

非常真實(shí)自然的語(yǔ)音
英文效果最佳，其他語(yǔ)言還欠佳
支持通過(guò)文本生成歌曲
支持生成背景噪音、簡(jiǎn)單的音效
支持大笑、嘆息、哭泣

??安裝

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install .

???硬件和推理速度

Bark 經(jīng)過(guò)測(cè)試，可在 CPU 和 GPU（pytorch 2.0+、CUDA 11.7 和 CUDA 12.0）上運(yùn)行。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上，Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上，推理時(shí)間可能會(huì)慢 10-100 倍。

支持的語(yǔ)言

語(yǔ)言	地位
英語(yǔ) (zh)	?
德語(yǔ) (de)	?
西班牙語(yǔ)	?
法語(yǔ) (fr)	?
印地語(yǔ)（嗨）	?
意大利語(yǔ)（它）	?
日語(yǔ) (ja)	?
韓文 (ko)	?
波蘭語(yǔ)（復(fù)數(shù)）	?
葡萄牙語(yǔ) (pt)	?
俄語(yǔ) (ru)	?
土耳其語(yǔ) (tr)	?
簡(jiǎn)體中文 (zh)	?

??用法

from bark import SAMPLE_RATE, generate_audio
from IPython.display import Audio

text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
Audio(audio_array, rate=SAMPLE_RATE)

要保存audio_array為 WAV 文件：

from scipy.io.wavfile import write as write_wav

write_wav("/path/to/audio.wav", SAMPLE_RATE, audio_array)

Bark 支持開(kāi)箱即用的各種語(yǔ)言，并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)出現(xiàn)代碼轉(zhuǎn)換文本提示時(shí)，Bark 將嘗試使用相應(yīng)語(yǔ)言的本地口音。英語(yǔ)質(zhì)量目前是最好的。

text_prompt = """
    Buenos días Miguel. Tu colega piensa que tu alemán es extremadamente malo. 
    But I suppose your english isn't terrible.
"""
audio_array = generate_audio(text_prompt)

??音樂(lè)

Bark 可以生成所有類型的音頻，并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè)，可以通過(guò)在歌詞周圍添加音符來(lái)幫助它。

text_prompt = """
    ? In the jungle, the mighty jungle, the lion barks tonight ?
"""
audio_array = generate_audio(text_prompt)

??揚(yáng)聲器提示

您可以提供特定的演講者提示，例如旁白、男人、女人等。請(qǐng)注意，這些提示并不總是得到尊重，尤其是在給出沖突的音頻歷史提示時(shí)。

text_prompt = """
    WOMAN: I would like an oatmilk latte please.
    MAN: Wow, that's expensive!
"""
audio_array = generate_audio(text_prompt)

注意：使用Python執(zhí)行代碼時(shí)，會(huì)默認(rèn)識(shí)別電腦上有無(wú)GPU，如果沒(méi)有GPU則會(huì)下載可用于CPU的訓(xùn)練模型，默認(rèn)模型文件下載地址為當(dāng)前用戶目錄.cache文件夾下，可以通過(guò)配置XDG_CACHE_HOME環(huán)境變量指定模型下載位置

趕快給你的同行朋友們安利一波，一起體驗(yàn)一下它的神奇功用吧。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-439339.html

到了這里，關(guān)于GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

開(kāi)源(離線)中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理
開(kāi)源(離線)中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理 Open AI在2022年9月21日開(kāi)源了號(hào)稱其英文語(yǔ)音辨識(shí)能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò)，且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)（Automatic Speech Recognition，ASR）模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻
2024年02月13日
瀏覽(102)
免費(fèi)的語(yǔ)音識(shí)別 API：簡(jiǎn)單實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本功能
語(yǔ)音識(shí)別技術(shù)在現(xiàn)代信息處理和人機(jī)交互中扮演著重要角色。如果您正在尋找免費(fèi)的語(yǔ)音識(shí)別 API，那么您來(lái)對(duì)地方了！本文將向您介紹一個(gè)簡(jiǎn)單的方法來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本的功能，并提供相應(yīng)的源代碼供參考。首先，您需要使用 Python 編程語(yǔ)言來(lái)實(shí)現(xiàn)這個(gè)功能。Python 提供了許
2024年02月03日
瀏覽(12)
Github 打不開(kāi)官網(wǎng)不能使用命令，現(xiàn)在一款簡(jiǎn)單又實(shí)用的免費(fèi) GitHub 加速神器介紹給你！
今天給繼續(xù)大家推薦一個(gè)堪稱 GitHub 加速神器的開(kāi)源項(xiàng)目。這個(gè)開(kāi)源項(xiàng)目就是： FastGitHub ，它主要解決 GitHub 打不開(kāi)、用戶頭像無(wú)法加載、releases 無(wú)法上傳下載、git-clone、git-pull、git-push 失敗等問(wèn)題。該項(xiàng)目的好處就是專門(mén)針對(duì) GitHub 訪問(wèn)速度慢的問(wèn)題，具有合法性，可靠性，
2024年02月03日
瀏覽(24)
6款支持中文語(yǔ)音識(shí)別開(kāi)源軟件的簡(jiǎn)單使用
摘自百度百科語(yǔ)音識(shí)別技術(shù)，也被稱為自動(dòng)語(yǔ)音識(shí)別（Automatic Speech Recognition，ASR)，其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同，后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含
2024年02月12日
瀏覽(23)
口播神器,基于Edge,微軟TTS(text-to-speech)文字轉(zhuǎn)語(yǔ)音免費(fèi)開(kāi)源庫(kù)edge-tts實(shí)踐(Python3.10)
不能否認(rèn)，微軟Azure在TTS(text-to-speech文字轉(zhuǎn)語(yǔ)音)這個(gè)人工智能細(xì)分領(lǐng)域的影響力是統(tǒng)治級(jí)的，一如ChatGPT在NLP領(lǐng)域的隨心所欲，予取予求。君不見(jiàn)幾乎所有的抖音營(yíng)銷號(hào)口播均采用微軟的語(yǔ)音合成技術(shù)，其影響力由此可見(jiàn)一斑，僅有的白璧微瑕之處就是價(jià)格略高，雖然國(guó)內(nèi)也可
2024年02月02日
瀏覽(27)
語(yǔ)音識(shí)別系列︱paddlespeech的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試（三）
參考：語(yǔ)音識(shí)別系列︱用python進(jìn)行音頻解析（一）語(yǔ)音識(shí)別系列︱paddlehub的開(kāi)源語(yǔ)音識(shí)別模型測(cè)試（二）上一篇paddlehub是一些預(yù)訓(xùn)練模型，paddlespeech也有，所以本篇就是更新paddlespeech里面的模型。參考：PaddleSpeech 一鍵預(yù)測(cè)，快速上手Speech開(kāi)發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語(yǔ)
2024年02月05日
瀏覽(21)
新一代開(kāi)源語(yǔ)音庫(kù)CoQui TTS沖到了GitHub 20.5k Star
Coqui TTS 項(xiàng)目介紹 Coqui 文本轉(zhuǎn)語(yǔ)音（Text-to-Speech，TTS）是新一代基于深度學(xué)習(xí)的低資源零樣本文本轉(zhuǎn)語(yǔ)音模型，具有合成多種語(yǔ)言語(yǔ)音的能力。該模型能夠利用共同學(xué)習(xí)技術(shù)，從各語(yǔ)言的訓(xùn)練資料集轉(zhuǎn)換知識(shí)，來(lái)有效降低需要的訓(xùn)練資料量。這個(gè)模型庫(kù)現(xiàn)在已經(jīng)在GitHub上開(kāi)源
2024年02月07日
瀏覽(22)
Whisper OpenAI開(kāi)源語(yǔ)音識(shí)別模型
Whisper 是一個(gè)自動(dòng)語(yǔ)音識(shí)別（ASR，Automatic Speech Recognition）系統(tǒng)，OpenAI 通過(guò)從網(wǎng)絡(luò)上收集了 68 萬(wàn)小時(shí)的多語(yǔ)言（98 種語(yǔ)言）和多任務(wù)（multitask）監(jiān)督數(shù)據(jù)對(duì) Whisper 進(jìn)行了訓(xùn)練。OpenAI 認(rèn)為使用這樣一個(gè)龐大而多樣的數(shù)據(jù)集，可以提高對(duì)口音、背景噪音和技術(shù)術(shù)語(yǔ)的識(shí)別能力。除
2024年02月16日
瀏覽(95)
.Net 使用OpenAI開(kāi)源語(yǔ)音識(shí)別模型Whisper
.Net 使用OpenAI開(kāi)源語(yǔ)音識(shí)別模型 Whisper Open AI在2022年9月21日開(kāi)源了號(hào)稱其英文語(yǔ)音辨識(shí)能力已達(dá)到人類水準(zhǔn)的 Whisper 神經(jīng)網(wǎng)絡(luò)，且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)（Automatic Speech Recognition，ASR）模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的
2024年02月08日
瀏覽(85)
suno有了新對(duì)手udio炸裂音樂(lè)圈；又一個(gè)開(kāi)源AI Devin 程序員；完全開(kāi)源輕量級(jí)的文本到語(yǔ)音可生成特定說(shuō)話者的風(fēng)格
? 1: udio 由音樂(lè)和科技界重量級(jí)人物支持的強(qiáng)大 AI 音樂(lè)生成器，被稱為音樂(lè)界的另一個(gè) ChatGPT。 Udio 由前 Google DeepMind的研究院和工程師創(chuàng)立，得到了a16z的支持，總部在倫敦和紐約。目前是一個(gè)免費(fèi)的V1測(cè)試版產(chǎn)品，每個(gè)人每個(gè)月可以生成最多 1200 首歌曲。 Udio是一個(gè)強(qiáng)大的
2024年04月26日
瀏覽(22)