国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strike id="6ofqt"><strike id="6ofqt"></strike></strike>

飛槳paddlespeech 語音喚醒初探

2年前作者：david_tym分類：Toy博客閱讀(13)違法舉報

這篇具有很好參考價值的文章主要介紹了飛槳paddlespeech 語音喚醒初探。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

PaddleSpeech提供了MDTC模型（paper: The NPU System for the 2020 Personalized Voice Trigger Challenge）在Hey Snips數(shù)據(jù)集上的語音喚醒(KWS)的實現(xiàn)。這篇論文是用空洞時間卷積網(wǎng)絡(luò)（dilated temporal convolution network, DTCN）的方法來做的，曾獲the 2020 personalized voice trigger challenge (PVTC2020)的第二名，可見這個方案是比較優(yōu)秀的。想看看到底是怎么做的，于是我對其做了一番初探。

1，模型理解

論文是用空洞時間卷積網(wǎng)絡(luò)（DTCN）的方法來實現(xiàn)的。為了減少參數(shù)量，用了depthwise & pointwise 一維卷積。一維卷積以及BatchNormal、relu等組成1個DTCNBlock, 4個DTCNBlock組成一個DTCNStack。實現(xiàn)的模型跟論文里的有一些差異。論文里的模型具體見論文，實現(xiàn)的模型框圖見下圖：

飛槳paddlespeech 語音喚醒初探

模型有PreProcess、DTCNStack(3個， DTCN：空洞時間卷積網(wǎng)絡(luò))、FCN（全連接網(wǎng)絡(luò)）、sigmoid這些模塊。PreProcess是做前處理，主要是由3個一維卷積(1個depthwise和兩個pointwise)組成。每個DTCNStack由4個DTCNBlock組成，DTCNBlock跟preprocess模塊相似，唯一的區(qū)別是多了殘差模塊（圖中畫紅線的）。

這個模型的參數(shù)個數(shù)不到37K，見下圖：

飛槳paddlespeech 語音喚醒初探

參數(shù)個數(shù)是比較少的，相對論文里的也少了不少。剛開始我不太相信，后來我對網(wǎng)絡(luò)中的模型每層都算了參數(shù)個數(shù)，的確是這么多。想了一下，對比paper里的模型，參數(shù)變少主要有兩點：一是少了一些模塊，二是FCN由linear替代（linear替代FCN會少不少參數(shù)）。

模型用的特征是80維的mel-filter bank，即每幀的特征是一個80維的數(shù)據(jù)。把一個utterance的這些幀的特征作為模型的輸入，輸出是每一幀的后驗概率，如果有一幀的后驗概率大于threshold，就認(rèn)為這一utterance是關(guān)鍵詞，從而喚醒設(shè)備。舉例來說，一個utterance有158幀，模型的輸入就是158*80的矩陣（158是幀數(shù)，80是特征的維度），輸出是158*1的矩陣，即158個后驗概率。假設(shè)threshold設(shè)為0.8，這158個后驗概率中只要有一個達(dá)到0.8，這個utterance就認(rèn)為是關(guān)鍵詞。

2，環(huán)境搭建

PaddleSpeech相關(guān)的文檔里講了如何搭建環(huán)境(Ubuntu下的)，這里簡述一下：

1）創(chuàng)建conda環(huán)境以及激活這個conda環(huán)境等：

conda create --name paddletry python=3.7

conda activate paddletry

2）安裝 paddelpaddle (paddlespeech 是基于paddelpaddle的)

pip install paddlepaddle

3）clone 以及編譯paddlespeech 代碼

git clone https://github.com/PaddlePaddle/PaddleSpeech.git

pip install .

3，數(shù)據(jù)集準(zhǔn)備

數(shù)據(jù)集用的是sonos公司的”hey snips”。我?guī)滋靸?nèi)用三個不同的郵箱去注冊申請，均沒給下載鏈接，難道是跟目前在科技領(lǐng)域緊張的中美關(guān)系有關(guān)？后來聯(lián)系到了這篇paper的作者，他愿意分享數(shù)據(jù)集。在此謝謝他，真是個熱心人！他用百度網(wǎng)盤分享了兩次數(shù)據(jù)集，下載后均是tar包解壓出錯，估計是傳輸過程中出了問題。在走投無路的情況下嘗試去修復(fù)壞的tar包。找到了tar包修復(fù)工具gzrt，運氣不錯，能修復(fù)大部分，關(guān)鍵是定義train/dev/test集的json文件能修復(fù)出來。如果自己寫json文件太耗時耗力了。Json中一個wav文件數(shù)據(jù)格式大致如下：

{

"duration": 4.86,

"worker_id": "0007cc59899fa13a8e0af4ed4b8046c6",

"audio_file_path": "audio_files/41dac4fb-3e69-4fd0-a8fc-9590d30e84b4.wav",

"id": "41dac4fb-3e69-4fd0-a8fc-9590d30e84b4",

"is_hotword": 0

},

數(shù)據(jù)集中原有wav文件96396個，修復(fù)了81401個。寫python把在json中出現(xiàn)的但是audio_files目錄中沒有的去掉，形成新的json文件。原始的以及新的數(shù)據(jù)集中train/dev/test wav數(shù)如下：

飛槳paddlespeech 語音喚醒初探

從上表可以看出新的數(shù)據(jù)集在train/dev/test上基本都是原先的84%左右。

4，訓(xùn)練和評估

在PaddleSpeech/examples/hey_snips/kws0下做訓(xùn)練。訓(xùn)練前要把這個目錄下conf/mdtc.yaml里的數(shù)據(jù)集的路徑改成自己放數(shù)據(jù)集的地方。由于我用CPU訓(xùn)練，相應(yīng)的命令就是./run.sh conf/mdtc.yaml 。訓(xùn)練50個epoch(默認(rèn)配置)后，在驗證集下的準(zhǔn)確率為99.79%（見下圖），還是不錯的，就沒再訓(xùn)練下去。

飛槳paddlespeech 語音喚醒初探

評估出的DET圖如下：

飛槳paddlespeech 語音喚醒初探

Paddlespeech也提供了KWS推理命令: paddlespeech kws。需要研究一下這個命令是怎么用的，看相關(guān)代碼。--input 后面既可以是一個具體的wav文件（這時只能評估一個文件），也可以是一個txt文件，把要評估的文件名都寫在里面，具體格式如下圖：

飛槳paddlespeech 語音喚醒初探

--ckpt_path是模型的路徑，--config是設(shè)置配置文件，也就是mdtc.yaml。因為要對整個測試集做評估，所以--input要寫成txt的形式。Hey Snips數(shù)據(jù)集wav文件都在audio_files目錄下，需要寫腳本把測試集的wav文件取出來放在一個目錄下（我的是heytest）, 還要寫腳本把這次測試文件的文件名以及路徑寫到上圖所示的txt文件里。同時還要在paddlespeech 里加些代碼看推理出的值是否跟期望值一致，做些統(tǒng)計。把這些都弄好后就開始做運行了，具體命令如下圖：

飛槳paddlespeech 語音喚醒初探

最終測試集下的結(jié)果，見下圖：

飛槳paddlespeech 語音喚醒初探

共19442個文件，跟期望一致的（圖中correct的）是19410個，準(zhǔn)確率為99.84%。與驗證集下的大體相當(dāng)。文章來源地址http://www.zghlxwxcb.cn/news/detail-450493.html

到了這里，關(guān)于飛槳paddlespeech 語音喚醒初探的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

百度飛槳paddlespeech實現(xiàn)小程序?qū)崟r語音流識別
前言：哈哈，這是我2023年4月份的公司作業(yè)。如果僅僅是簡單的語音識別倒也沒什么難度，wav文件直接走模型輸出結(jié)果的事?？墒亲⒁鈽?biāo)題，流式識別、實時！那么不得不說一下流式的優(yōu)點了。 1、解決內(nèi)存溢出的煩惱。 2、打算做成無文件生成，接收語音流直接走模型，減
2023年04月21日
瀏覽(31)
百度飛槳PaddleSpeech的簡單使用
PaddleSpeech?是基于飛槳?PaddlePaddle?的語音方向的開源模型庫，用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā)，包含大量基于深度學(xué)習(xí)前沿和有影響力的模型，一些典型的應(yīng)用示例如下：語音識別、語音翻譯 (英譯中)、語音合成、標(biāo)點恢復(fù)等。我只用到了語音識別(語音轉(zhuǎn)文字)、語
2024年02月03日
瀏覽(38)
語音識別系列︱paddlespeech的開源語音識別模型測試（三）
參考：語音識別系列︱用python進(jìn)行音頻解析（一）語音識別系列︱paddlehub的開源語音識別模型測試（二）上一篇paddlehub是一些預(yù)訓(xùn)練模型，paddlespeech也有，所以本篇就是更新paddlespeech里面的模型。參考：PaddleSpeech 一鍵預(yù)測，快速上手Speech開發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語
2024年02月05日
瀏覽(21)
Python使用PaddleSpeech實現(xiàn)語音識別（ASR）、語音合成（TTS）
目錄安裝語音識別補(bǔ)全標(biāo)點語音合成參考 PaddleSpeech是百度飛槳開發(fā)的語音工具注意，PaddleSpeech不支持過高版本的Python，因為在高版本的Python中，飛槳不再提供paddle.fluid API。這里面我用的是Python3.7 需要通過3個pip命令安裝PaddleSpeech：在使用的時候，urllib3庫可能會報錯，因
2024年04月25日
瀏覽(29)
人工智能-語音識別技術(shù)paddlespeech的搭建和使用
PaddleSpeech是百度飛槳（PaddlePaddle）開源深度學(xué)習(xí)平臺的其中一個項目，它基于飛槳的語音方向模型庫，用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā)，包含大量基于深度學(xué)習(xí)前沿和有影響力的模型。PaddleSpeech支持語音識別、語音翻譯（英譯中）、語音合成、標(biāo)點恢復(fù)等應(yīng)用示例。
2024年02月02日
瀏覽(27)
部署paddleSpeech
docker pull ubuntu:18.04 docker run -itd --name pd_base ubuntu:18.04 2.1 不安裝conda 2.2 安裝python3.10 https://blog.csdn.net/weixin_43935402/article/details/121416812 2.2.1 apt update 2.2.2安裝依賴 apt install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev libsqlite3-dev wget libbz2-dev 2.2.
2023年04月23日
瀏覽(11)
paddlespeech 安裝和測試教程
項目地址 https://github.com/PaddlePaddle/PaddleSpeech 環(huán)境要求 paddlepaddle = 2.3.1 python3.7 pip版本為20.2.2或更高版本? python -m pip --version 別的環(huán)境不太確定，就把自己的環(huán)境寫一下，供參考首先要建立python 3.9的環(huán)境在壞境中配置因為出現(xiàn)過一些安裝問題，所以用這種方法安裝如果沒有
2024年02月06日
瀏覽(8)
安裝PaddleSpeech
python: 3.8.10
2024年01月21日
瀏覽(6)
paddlespeech on centos7
paddlespeech是百度飛槳平臺的開源工具包，主要用于語音和音頻的分析處理，其中包含多個可選模型，提供語音識別、語音合成、說話人驗證、識別、音頻分類和語音翻譯等功能。 paddlespeech整體是比較簡單易用的，但是安裝部署依然有很多坑，本文為探坑而寫。 centos
2024年02月09日
瀏覽(11)
PaddleSpeech 的環(huán)境搭建與使用（windows）
一、環(huán)境搭建準(zhǔn)備安裝Anaconda 下載地址：https://www.anaconda.com/download#downloads 進(jìn)入后根據(jù)自己的電腦系統(tǒng)下載，這是python 3.10版本下載地址，如果想要下載其它版本可進(jìn)入此鏈接（https://www.python.org/downloads/）下載完成后點擊進(jìn)行安裝點擊下一步，到這一步時，可以選擇將Anaco
2024年02月07日
瀏覽(9)

<dfn id="gh4ye"><button id="gh4ye"></button></dfn>