国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<i id="0stp7"></i>

<span id="0stp7"><label id="0stp7"></label></span>

深度學(xué)習(xí)應(yīng)用-WeNet語音識別實戰(zhàn)01

2年前作者：xiaozoom分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了深度學(xué)習(xí)應(yīng)用-WeNet語音識別實戰(zhàn)01。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

概括

? ? ? ? 本文對WeNet聲音識別網(wǎng)絡(luò)的Python API上介紹的Non-Streaming Usage和 Streaming-Usage分別做了測試，兩者本質(zhì)相同。API對應(yīng)采樣的聲音幀率、聲道都做了限制。效果還可以，但是部分吐字不清晰、有歧義的地方仍然不能識別清晰。

項目地址：

GitHub - wenet-e2e/wenet: Production First and Production Ready End-to-End Speech Recognition Toolkit

安裝：

pip3 install wenetruntime

根據(jù)項目要求，python版本必須3.6+，這里為3.8.3, 因此沒有問題

應(yīng)用案例：

官方文檔上分為非流式和流式兩種，本次先演示非流式應(yīng)用：

非流式：

第一步：壓縮wav文件，根據(jù)測試，api使用wave庫打開文件。且僅支持單聲道、固定幀率。

import wave
with wave.open(wav_file, 'rb') as fin:
    assert fin.getnchannels() == 1
    assert fin.getsampwidth() == 2
    assert fin.getframerate() == 16000

第二步：我準(zhǔn)備用來識別的《起風(fēng)了》wav格式顯然不符合要求，使用pydub來壓縮幀率、合并為單聲道。同時，文件太長也不行。例如全歌一起識別會報錯，因此我這里切割，每次取十分之一的歌詞內(nèi)容（約28秒的內(nèi)容）

# 壓縮文件
from pydub import AudioSegment
sound = AudioSegment.from_wav("/root/jupyterprojects/data/起風(fēng)了.wav")

# 雙聲道變?yōu)閱温暤?sound = sound.set_channels(1)

# 壓縮幀率
sound = sound.set_frame_rate(16000)

# 長度太長了可能會塞爆，每次取十分之一
musicLen = len(sound) 
unitLen = musicLen / 10

for i in range(10):
    _sound = sound[unitLen*i:unitLen*(i+1)]
    _sound.export("/root/jupyterprojects/data/起風(fēng)了-sub%s.wav" % i, format="wav")

第三步：加載模型、識別。如果不提供model_dir參數(shù)，則默認(rèn)會從github上下載。包比較大，建議提前下載好。

import sys
import torch
import wenetruntime as wenet
# 下載https://github.com/wenet-e2e/wenet/releases/download/v2.0.1/chs.tar.gz
# 并解壓縮到/root/.wenet/chs目錄下
decoder = wenet.Decoder(model_dir="/root/.wenet/chs/chs/",lang='chs')

第四步：識別。

decoder.decode_wav函數(shù)返回一個可以轉(zhuǎn)換為字典的字符串。

import glob
files = glob.glob("/root/jupyterprojects/data/起風(fēng)了-sub?.wav")
for idx,file in enumerate(files):
    ans=eval(decoder.decode_wav(file))
    print(idx,": ", ans["nbest"][0]["sentence"])

深度學(xué)習(xí)應(yīng)用-WeNet語音識別實戰(zhàn)01,Python,深度學(xué)習(xí)應(yīng)用,語音識別,人工智能

?正確的歌詞：

我曾將青春翻涌成她
也曾指尖彈出盛夏
心之所動且就隨緣去吧

這一路上走走停停
順著少年漂流的痕跡
邁出車站的前一刻
竟有些猶豫
不禁笑這近鄉(xiāng)情怯
仍無可避免
而長野的天
依舊那么暖
風(fēng)吹起了從前
從前初識這世間

萬般流連
看著天邊似在眼前
也甘愿赴湯蹈火去走它一遍
如今走過這世間
萬般流連
翻過歲月不同側(cè)臉
措不及防闖入你的笑顏
我曾難自拔于世界之大
也沉溺于其中夢話
不得真假不做掙扎不懼笑話
我曾將青春翻涌成她
也曾指尖彈出盛夏
心之所動且就隨緣去吧
逆著光行走任風(fēng)吹雨打
短短的路走走停停
也有了幾分的距離
不知撫摸的是故事還是段心情
也許期待的不過是與時間為敵
再次看到你
微涼晨光里
笑得很甜蜜
從前初識這世間
萬般流連
看著天邊似在眼前
也甘愿赴湯蹈火去走它一遍
如今走過這世間
萬般流連
翻過歲月不同側(cè)臉
措不及防闖入你的笑顏
我曾難自拔于世界之大
也沉溺于其中夢話
不得真假不做掙扎不懼笑話
我曾將青春翻涌成她
也曾指尖彈出盛夏
心之所動且就隨緣去吧
晚風(fēng)吹起你鬢間的白發(fā)
撫平回憶留下的疤
你的眼中明暗交雜一笑生花
暮色遮住你蹣跚的步伐
走進(jìn)床頭藏起的畫
畫中的你低著頭說話
我仍感嘆于世界之大
也沉醉于兒時情話
不剩真假不做掙扎無謂笑話
我終將青春還給了她
連同指尖彈出的盛夏
心之所動就隨風(fēng)去了
以愛之名你還愿意嗎

其實還可以，有些歌詞吐字本身就不是很清晰。

流式應(yīng)用（Streaming Usage）

這是官方文檔給出的應(yīng)用案例，看起來我這里的切割歌曲法并沒有什么異同，略。

import sys
import torch
import wave
import wenetruntime as wenet

test_wav = sys.argv[1]

with wave.open(test_wav, 'rb') as fin:
    assert fin.getnchannels() == 1
    wav = fin.readframes(fin.getnframes())

decoder = wenet.Decoder(lang='chs')
# We suppose the wav is 16k, 16bits, and decode every 0.5 seconds
interval = int(0.5 * 16000) * 2
for i in range(0, len(wav), interval):
    last = False if i + interval < len(wav) else True
    chunk_wav = wav[i: min(i + interval, len(wav))]
    ans = decoder.decode(chunk_wav, last)
    print(ans)

為了確定兩者本質(zhì)沒有區(qū)別，這里查看API源代碼. 可以看到decode_wav 就是相當(dāng)于幫你用wave庫打開wav文件并傳遞給decode方法。

深度學(xué)習(xí)應(yīng)用-WeNet語音識別實戰(zhàn)01,Python,深度學(xué)習(xí)應(yīng)用,語音識別,人工智能

?文章來源地址http://www.zghlxwxcb.cn/news/detail-518780.html

到了這里，關(guān)于深度學(xué)習(xí)應(yīng)用-WeNet語音識別實戰(zhàn)01的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【語音識別】WeNet：面向工業(yè)落地的E2E語音識別工具
1、參考資料 wenet-e2e/wenet Mozilla DeepSpeech yeyupiaoling/PaddlePaddle-DeepSpeech 2、快速搭建WeNet平臺參考 WeNet中文文檔下載官方提供的預(yù)訓(xùn)練模型，并啟動 docker 服務(wù)，加載模型，提供 websocket 協(xié)議的語音識別服務(wù)。 Note ：這里的 $PWD = \\\"/home/wenet/model\\\" 。一定要保證預(yù)訓(xùn)練模型文件的存
2024年02月06日
瀏覽(24)
基于百度語音識別API智能語音識別和字幕推薦系統(tǒng)——深度學(xué)習(xí)算法應(yīng)用（含全部工程源碼）+測試數(shù)據(jù)集
本項目基于百度語音識別API，結(jié)合了語音識別、視頻轉(zhuǎn)換音頻識別以及語句停頓分割識別等多種技術(shù)，從而實現(xiàn)了高效的視頻字幕生成。首先，我們采用百度語音識別API，通過對語音內(nèi)容進(jìn)行分析，將音頻轉(zhuǎn)換成文本。這個步驟使得我們能夠從語音中提取出有意義的文本信息
2024年02月13日
瀏覽(28)
libtorch+GPU部署wenet語音識別（gRPC通信）
業(yè)務(wù)App中部分功能需要通過ASR識別5-7秒的語音命令，App本身不支持流式協(xié)議，需錄音完成后傳輸至服務(wù)端進(jìn)行識別及后續(xù)的NLP。根據(jù)實際情況僅對語音模型進(jìn)行增強(qiáng)，使用libtorch+GPU方式部署，gRPC方式調(diào)用，由于并發(fā)不大，使用flask+gunicorn部署API。拉取 nvidia官方的cuda11.3 run
2024年02月10日
瀏覽(19)
Python吳恩達(dá)深度學(xué)習(xí)作業(yè)24 -- 語音識別關(guān)鍵字
在本周的視頻中，你學(xué)習(xí)了如何將深度學(xué)習(xí)應(yīng)用于語音識別。在此作業(yè)中，你將構(gòu)建語音數(shù)據(jù)集并實現(xiàn)用于檢測（有時也稱為喚醒詞或觸發(fā)詞檢測）的算法。識別是一項技術(shù)，可讓諸如Amazon Alexa，Google Home，Apple Siri和Baidu DuerOS之類的設(shè)備在聽到某個特定單詞時回
2024年02月11日
瀏覽(21)
基于Python+百度語音的智能語音ChatGPT聊天機(jī)器人（機(jī)器學(xué)習(xí)+深度學(xué)習(xí)+語義識別）含全部工程源碼適合個人二次開發(fā)
本項目基于機(jī)器學(xué)習(xí)和語義識別技術(shù)，讓機(jī)器人理解文本并進(jìn)行合適的答復(fù)?；锇閭兛梢酝ㄟ^該工程源碼，進(jìn)行個人二次開發(fā)，比如使用語音與機(jī)器人交流，實現(xiàn)智能問答、智能音箱及智能機(jī)器寵物等等。當(dāng)然針對現(xiàn)在最火爆的 ChatGPT等通用大語言模型，伙伴們可以直接將其
2024年02月07日
瀏覽(29)
西工大 ASLP 實驗室在 WeNet 中開源基于 CPPN 的神經(jīng)網(wǎng)絡(luò)熱詞增強(qiáng)語音識別方案
語境偏置（Contextual biasing）旨在將語境知識集成到語音識別（ASR）系統(tǒng)中，以提高在相關(guān)領(lǐng)域詞匯（俗稱“ 熱詞 ”）上的識別準(zhǔn)確率。在許多ASR場景中，待識別語音中可能會包含訓(xùn)練數(shù)據(jù)中數(shù)量很少或完全沒出現(xiàn)的短語，例如一些領(lǐng)域?qū)Ｓ忻~、用戶通訊錄中的人名等，這
2024年02月07日
瀏覽(27)
人臉識別實戰(zhàn)：使用Python OpenCV 和深度學(xué)習(xí)進(jìn)行人臉識別
首先簡要討論基于深度學(xué)習(xí)的面部識別的工作原理，包括“深度度量學(xué)習(xí)”的概念。然后，我將幫助您安裝實際執(zhí)行人臉識別所需的庫。最后，我們將為靜止圖像和視頻流實現(xiàn)人臉識別。安裝人臉識別庫 ================================================================== 為了使用 Python 和
2024年04月09日
瀏覽(94)
Python人工智能應(yīng)用--圖像識別&&深度學(xué)習(xí)
像素(縮寫為px)是圖像中的最小單位，由一個個小方格組成。這些小方格都有一個固定的位置和顏色，共同決定了圖像所呈現(xiàn)出來的樣子。這些小方格的行數(shù)與列數(shù)又被叫做分辨率。我們常說的某幅圖像的分辨率是1280×720，指的就是這張圖中的每一行都有1280個像素，每一列都
2024年04月09日
瀏覽(91)
(九)人工智能應(yīng)用--深度學(xué)習(xí)原理與實戰(zhàn)--前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn)MNST手寫數(shù)字識別
目標(biāo): 識別手寫體的數(shù)字，如圖所示: 學(xué)習(xí)內(nèi)容: 1、掌握MNIST數(shù)據(jù)集的加載和查看方法 2、熟練掌握Keras建立前饋神經(jīng)網(wǎng)絡(luò)的步驟【重點】 3、掌握模型的編譯及擬合方法的使用，理解參數(shù)含義【重點】 4、掌握模型的評估方法 5、掌握模型的預(yù)測方法 6、掌握自定義圖片的處理與
2024年02月13日
瀏覽(39)
目標(biāo)檢測YOLO實戰(zhàn)應(yīng)用案例100講-基于深度學(xué)習(xí)的交通標(biāo)志小目標(biāo)檢測與識別研究
目錄前言目標(biāo)檢測算法相關(guān)理論? 2.1 深度學(xué)習(xí)理論基礎(chǔ)? 2.1.2卷積神經(jīng)網(wǎng)絡(luò)?
2024年02月11日
瀏覽(23)

<tr id="ofntf"><blockquote id="ofntf"><rt id="ofntf"></rt></blockquote></tr>

<pre id="ofntf"><legend id="ofntf"></legend></pre>