国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

飛槳paddlespeech 語音喚醒初探

這篇具有很好參考價值的文章主要介紹了飛槳paddlespeech 語音喚醒初探。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

PaddleSpeech提供了MDTC模型(paper: The NPU System for the 2020 Personalized Voice Trigger Challenge)在Hey Snips數(shù)據(jù)集上的語音喚醒(KWS)的實現(xiàn)。這篇論文是用空洞時間卷積網(wǎng)絡(luò)(dilated temporal convolution network, DTCN)的方法來做的,曾獲the 2020 personalized voice trigger challenge (PVTC2020)的第二名,可見這個方案是比較優(yōu)秀的。想看看到底是怎么做的,于是我對其做了一番初探。

1,模型理解

論文是用空洞時間卷積網(wǎng)絡(luò)(DTCN)的方法來實現(xiàn)的。為了減少參數(shù)量,用了depthwise & pointwise 一維卷積。一維卷積以及BatchNormal、relu等組成1個DTCNBlock, 4個DTCNBlock組成一個DTCNStack。實現(xiàn)的模型跟論文里的有一些差異。論文里的模型具體見論文,實現(xiàn)的模型框圖見下圖:

飛槳paddlespeech 語音喚醒初探

模型有PreProcess、DTCNStack(3個, DTCN:空洞時間卷積網(wǎng)絡(luò))、FCN(全連接網(wǎng)絡(luò))、sigmoid這些模塊。PreProcess是做前處理,主要是由3個一維卷積(1個depthwise和兩個pointwise)組成。每個DTCNStack由4個DTCNBlock組成,DTCNBlock跟preprocess模塊相似,唯一的區(qū)別是多了殘差模塊(圖中畫紅線的)。

這個模型的參數(shù)個數(shù)不到37K,見下圖:

飛槳paddlespeech 語音喚醒初探

參數(shù)個數(shù)是比較少的,相對論文里的也少了不少。剛開始我不太相信,后來我對網(wǎng)絡(luò)中的模型每層都算了參數(shù)個數(shù),的確是這么多。想了一下,對比paper里的模型,參數(shù)變少主要有兩點:一是少了一些模塊,二是FCN由linear替代(linear替代FCN會少不少參數(shù))。

模型用的特征是80維的mel-filter bank,即每幀的特征是一個80維的數(shù)據(jù)。把一個utterance的這些幀的特征作為模型的輸入,輸出是每一幀的后驗概率,如果有一幀的后驗概率大于threshold,就認(rèn)為這一utterance是關(guān)鍵詞,從而喚醒設(shè)備。舉例來說,一個utterance有158幀,模型的輸入就是158*80的矩陣(158是幀數(shù),80是特征的維度),輸出是158*1的矩陣,即158個后驗概率。假設(shè)threshold設(shè)為0.8,這158個后驗概率中只要有一個達(dá)到0.8,這個utterance就認(rèn)為是關(guān)鍵詞。

2,環(huán)境搭建

PaddleSpeech相關(guān)的文檔里講了如何搭建環(huán)境(Ubuntu下的),這里簡述一下:

1)創(chuàng)建conda環(huán)境以及激活這個conda環(huán)境等:

conda create --name paddletry python=3.7

conda activate paddletry

2)安裝 paddelpaddle (paddlespeech 是基于paddelpaddle的)

pip install paddlepaddle

3)clone 以及編譯paddlespeech 代碼

git clone https://github.com/PaddlePaddle/PaddleSpeech.git

pip install .

3,數(shù)據(jù)集準(zhǔn)備

數(shù)據(jù)集用的是sonos公司的”hey snips”。我?guī)滋靸?nèi)用三個不同的郵箱去注冊申請,均沒給下載鏈接,難道是跟目前在科技領(lǐng)域緊張的中美關(guān)系有關(guān)?后來聯(lián)系到了這篇paper的作者, 他愿意分享數(shù)據(jù)集。在此謝謝他,真是個熱心人!他用百度網(wǎng)盤分享了兩次數(shù)據(jù)集,下載后均是tar包解壓出錯,估計是傳輸過程中出了問題。在走投無路的情況下嘗試去修復(fù)壞的tar包。找到了tar包修復(fù)工具gzrt,運氣不錯,能修復(fù)大部分,關(guān)鍵是定義train/dev/test集的json文件能修復(fù)出來。如果自己寫json文件太耗時耗力了。Json中一個wav文件數(shù)據(jù)格式大致如下:

{

"duration": 4.86,

"worker_id": "0007cc59899fa13a8e0af4ed4b8046c6",

"audio_file_path": "audio_files/41dac4fb-3e69-4fd0-a8fc-9590d30e84b4.wav",

"id": "41dac4fb-3e69-4fd0-a8fc-9590d30e84b4",

"is_hotword": 0

},

數(shù)據(jù)集中原有wav文件96396個,修復(fù)了81401個。寫python把在json中出現(xiàn)的但是audio_files目錄中沒有的去掉,形成新的json文件。原始的以及新的數(shù)據(jù)集中train/dev/test wav數(shù)如下:

飛槳paddlespeech 語音喚醒初探

從上表可以看出新的數(shù)據(jù)集在train/dev/test上基本都是原先的84%左右。

4,訓(xùn)練和評估

在PaddleSpeech/examples/hey_snips/kws0下做訓(xùn)練。訓(xùn)練前要把這個目錄下conf/mdtc.yaml里的數(shù)據(jù)集的路徑改成自己放數(shù)據(jù)集的地方。由于我用CPU訓(xùn)練,相應(yīng)的命令就是./run.sh conf/mdtc.yaml 。 訓(xùn)練50個epoch(默認(rèn)配置)后,在驗證集下的準(zhǔn)確率為99.79%(見下圖),還是不錯的,就沒再訓(xùn)練下去。

飛槳paddlespeech 語音喚醒初探

評估出的DET圖如下:

飛槳paddlespeech 語音喚醒初探

Paddlespeech也提供了KWS推理命令: paddlespeech kws。需要研究一下這個命令是怎么用的,看相關(guān)代碼。--input 后面既可以是一個具體的wav文件(這時只能評估一個文件),也可以是一個txt文件,把要評估的文件名都寫在里面,具體格式如下圖:

飛槳paddlespeech 語音喚醒初探

--ckpt_path是模型的路徑,--config是設(shè)置配置文件,也就是mdtc.yaml。因為要對整個測試集做評估,所以--input要寫成txt的形式。Hey Snips數(shù)據(jù)集wav文件都在audio_files目錄下,需要寫腳本把測試集的wav文件取出來放在一個目錄下(我的是heytest), 還要寫腳本把這次測試文件的文件名以及路徑寫到上圖所示的txt文件里。同時還要在paddlespeech 里加些代碼看推理出的值是否跟期望值一致,做些統(tǒng)計。把這些都弄好后就開始做運行了,具體命令如下圖:

飛槳paddlespeech 語音喚醒初探

最終測試集下的結(jié)果,見下圖:

飛槳paddlespeech 語音喚醒初探

共19442個文件,跟期望一致的(圖中correct的)是19410個,準(zhǔn)確率為99.84%。與驗證集下的大體相當(dāng)。文章來源地址http://www.zghlxwxcb.cn/news/detail-450493.html

到了這里,關(guān)于飛槳paddlespeech 語音喚醒初探的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 百度飛槳paddlespeech實現(xiàn)小程序?qū)崟r語音流識別

    百度飛槳paddlespeech實現(xiàn)小程序?qū)崟r語音流識別

    前言: 哈哈,這是我2023年4月份的公司作業(yè)。如果僅僅是簡單的語音識別倒也沒什么難度,wav文件直接走模型輸出結(jié)果的事??墒亲⒁鈽?biāo)題,流式識別、實時! 那么不得不說一下流式的優(yōu)點了。 1、解決內(nèi)存溢出的煩惱。 2、打算做成無文件生成,接收語音流直接走模型,減

    2023年04月21日
    瀏覽(31)
  • 百度飛槳PaddleSpeech的簡單使用

    百度飛槳PaddleSpeech的簡單使用

    PaddleSpeech?是基于飛槳?PaddlePaddle?的語音方向的開源模型庫,用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型,一些典型的應(yīng)用示例如下:語音識別、語音翻譯 (英譯中)、語音合成、標(biāo)點恢復(fù)等。 我只用到了語音識別(語音轉(zhuǎn)文字)、語

    2024年02月03日
    瀏覽(38)
  • 語音識別系列︱paddlespeech的開源語音識別模型測試(三)

    語音識別系列︱paddlespeech的開源語音識別模型測試(三)

    參考: 語音識別系列︱用python進(jìn)行音頻解析(一) 語音識別系列︱paddlehub的開源語音識別模型測試(二) 上一篇paddlehub是一些預(yù)訓(xùn)練模型,paddlespeech也有,所以本篇就是更新paddlespeech里面的模型。 參考:PaddleSpeech 一鍵預(yù)測,快速上手Speech開發(fā)任務(wù) PaddleSpeech 是 all-in-one 的語

    2024年02月05日
    瀏覽(21)
  • Python使用PaddleSpeech實現(xiàn)語音識別(ASR)、語音合成(TTS)

    Python使用PaddleSpeech實現(xiàn)語音識別(ASR)、語音合成(TTS)

    目錄 安裝 語音識別 補(bǔ)全標(biāo)點 語音合成 參考 PaddleSpeech是百度飛槳開發(fā)的語音工具 注意,PaddleSpeech不支持過高版本的Python,因為在高版本的Python中,飛槳不再提供paddle.fluid API。這里面我用的是Python3.7 需要通過3個pip命令安裝PaddleSpeech: 在使用的時候,urllib3庫可能會報錯,因

    2024年04月25日
    瀏覽(29)
  • 人工智能-語音識別技術(shù)paddlespeech的搭建和使用

    PaddleSpeech是百度飛槳(PaddlePaddle)開源深度學(xué)習(xí)平臺的其中一個項目,它基于飛槳的語音方向模型庫,用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型。PaddleSpeech支持語音識別、語音翻譯(英譯中)、語音合成、標(biāo)點恢復(fù)等應(yīng)用示例。

    2024年02月02日
    瀏覽(27)
  • 部署paddleSpeech

    docker pull ubuntu:18.04 docker run -itd --name pd_base ubuntu:18.04 2.1 不安裝conda 2.2 安裝python3.10 https://blog.csdn.net/weixin_43935402/article/details/121416812 2.2.1 apt update 2.2.2安裝依賴 apt install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev libsqlite3-dev wget libbz2-dev 2.2.

    2023年04月23日
    瀏覽(11)
  • paddlespeech 安裝和測試教程

    項目地址 https://github.com/PaddlePaddle/PaddleSpeech 環(huán)境要求 paddlepaddle = 2.3.1 python3.7 pip版本為20.2.2或更高版本? python -m pip --version 別的環(huán)境不太確定,就把自己的環(huán)境寫一下,供參考 首先要建立python 3.9的環(huán)境 在壞境中配置 因為出現(xiàn)過一些安裝問題,所以用這種方法安裝 如果沒有

    2024年02月06日
    瀏覽(8)
  • 安裝PaddleSpeech

    python: 3.8.10

    2024年01月21日
    瀏覽(6)
  • paddlespeech on centos7

    paddlespeech on centos7

    paddlespeech是百度飛槳平臺的開源工具包,主要用于語音和音頻的分析處理,其中包含多個可選模型,提供語音識別、語音合成、說話人驗證、識別、音頻分類和語音翻譯等功能。 paddlespeech整體是比較簡單易用的,但是安裝部署依然有很多坑,本文為探坑而寫。 centos

    2024年02月09日
    瀏覽(11)
  • PaddleSpeech 的環(huán)境搭建與使用(windows)

    PaddleSpeech 的環(huán)境搭建與使用(windows)

    一、環(huán)境搭建準(zhǔn)備 安裝Anaconda 下載地址:https://www.anaconda.com/download#downloads 進(jìn)入后根據(jù)自己的電腦系統(tǒng)下載,這是python 3.10版本下載地址,如果想要下載其它版本可進(jìn)入此鏈接(https://www.python.org/downloads/) 下載完成后點擊進(jìn)行安裝 點擊下一步,到這一步時,可以選擇將Anaco

    2024年02月07日
    瀏覽(9)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包