国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<acronym id="sg38d"></acronym>

<del id="sg38d"></del>

6款支持中文語音識別開源軟件的簡單使用

2年前作者：aabond分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了6款支持中文語音識別開源軟件的簡單使用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

摘自百度百科

語音識別技術(shù)，也被稱為自動語音識別（Automatic Speech Recognition，ASR)，其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同，后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識別是深度學(xué)習(xí)領(lǐng)域之一, 在 github 上也有很多項目實現(xiàn) ASR, 支持中文 ASR 的部分項目如下，下面會演示簡單使用

https://github.com/PaddlePaddle/PaddleSpeech
https://github.com/nl8590687/ASRT_SpeechRecognition
https://github.com/nobody132/masr
https://github.com/espnet/espnet
https://github.com/wenet-e2e/wenet
https://github.com/mozilla/DeepSpeech

一、PaddleSpeech

PaddleSpeech 是基于飛槳 PaddlePaddle 的語音方向的開源模型庫，用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā)，包含大量基于深度學(xué)習(xí)前沿和有影響力的模型。

PaddleSpeech 榮獲 NAACL2022 Best Demo Award, 請訪問 Arxiv 論文。

1.1 安裝

根據(jù)官方文檔安裝即可：https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md#%E5%AE%89%E8%A3%85

官方強烈建議用戶在 Linux 環(huán)境下，3.7 以上版本的 python 上安裝 PaddleSpeech。

但是我電腦是 windows , 而且 python 版本為 3.6.5。選擇在windows 下安裝 python 3.7.0 版本：https://www.python.org/downloads/windows/，安裝過程中報以下錯誤

pip install paddlespeech

問題一：paddlespeech-ctcdecoders 版本錯誤

 Could not find a version that satisfies the requirement paddlespeech-ctcdecoders (from paddlespeech) (from versions: )
No matching distribution found for paddlespeech-ctcdecoders (from paddlespeech)

發(fā)現(xiàn) paddlespeech-ctcdecoders 并沒有 windows 版本，而且發(fā)現(xiàn)已經(jīng)有人編譯windows 版本了，初次編譯paddlespeech-ctcdecoders的windows版本，不過官方提示：paddlespeech-ctcdecoders 沒有安裝成功不要緊，這個包不是必須的。

問題二：gbk 編碼錯誤

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 5365: illegal multibyte sequence

這個問題等我再次運行就消失了

1.2 運行

報找不到文件錯誤：

FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。

打開 Python\Python37\lib\subprocess.py 文件，在684行將 shell=False 改為 shell=True

    _child_created = False  # Set here since __del__ checks it

    def __init__(self, args, bufsize=-1, executable=None,
                 stdin=None, stdout=None, stderr=None,
                 preexec_fn=None, close_fds=True,
                 shell=True, cwd=None, env=None, universal_newlines=None,
                 startupinfo=None, creationflags=0,
                 restore_signals=True, start_new_session=False,
                 pass_fds=(), *, encoding=None, errors=None, text=None):

使用官方的例子測試：

paddlespeech asr --lang zh --input C:\Users\supre\Desktop\sound\PaddleSpeech-develop\zh.wav

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音的兩個例子測試，發(fā)現(xiàn)很精確。

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

1.3 更多功能

除了語音識別，還支持更多功能

聲音分類

paddlespeech cls --input input.wav

聲紋識別

paddlespeech vector --task spk --input input_16k.wav

語音翻譯（英-中）(暫不支持 Windows 系統(tǒng))

paddlespeech st --input input_16k.wav

語音合成

paddlespeech tts --input "你好，歡迎使用百度飛槳深度學(xué)習(xí)框架！" --output output.wav

發(fā)現(xiàn) “你好，aabond, 歡迎使用百度飛槳” 其中 aabond 并沒有語音，猜測并不能合成英文，可能需要提供其它參數(shù)
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

標(biāo)點恢復(fù)

paddlespeech text --task punc --input 今天的天氣真不錯啊你下午有空嗎我想約你一起去吃飯

二、ASRT

ASRT 是一個基于深度學(xué)習(xí)的中文語音識別系統(tǒng)，使用 tensorFlow.keras 基于深度卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶神經(jīng)網(wǎng)絡(luò)、注意力機制以及CTC 實現(xiàn)。

2.1 安裝

下載服務(wù)端，安裝依賴

$ pip install tensorflow==2.5.2
$ pip install wave
$ pip install matplotlib
$ pip install requests
$ pip install scipy
$ pip install flask
$ pip install waitress

下載客戶端

2.2 運行

python asrserver_http.py

使用百度demo 作為例子，能夠正確顯示

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音作為例子，“說話的藝術(shù)”被識別為“上”，并不能正確顯示，難道是因為我說話太快？應(yīng)該需要訓(xùn)練數(shù)據(jù)

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

還可以實時語音識別，發(fā)現(xiàn)精確度一般
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

三、MASR

MASR 是一個基于端到端的深度神經(jīng)網(wǎng)絡(luò)的中文普通話語音識別項目.

MASR 使用的是門控卷積神經(jīng)網(wǎng)絡(luò)（Gated Convolutional Network），網(wǎng)絡(luò)結(jié)構(gòu)類似于 Facebook 在2016年提出的 Wav2letter 。但是使用的激活函數(shù)不是 ReLU 或者是 HardTanh，而是GLU（門控線性單元）。因此稱作門控卷積網(wǎng)絡(luò)。根據(jù)我的實驗，使用GLU的收斂速度比 HardTanh 要快。如果你想要研究卷積網(wǎng)絡(luò)用于語音識別的效果，這個項目可以作為一個參考。

3.1 安裝

下載源碼，下載預(yù)訓(xùn)練模型數(shù)據(jù)，在源碼目錄下新建一個 pretrained 目錄，并將模型文件放入其中

3.2 運行

python examples/demo-record-recognize.py

識別結(jié)果：

“說話的藝術(shù)” 識別為 “說化和一數(shù)”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

“只因你太美” 識別為 “只因里派云”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

四、ESPnet

ESPnet：端到端語音處理工具包，涵蓋了端到端語音識別、文本到語音、語音翻譯、語音增強、說話者二值化、口語理解等。ESPnet 使用 pytorch 作為深度學(xué)習(xí)引擎，并遵循 Kaldi 風(fēng)格的數(shù)據(jù)處理、特征提取/格式和配方，為各種語音處理實驗提供一個完整的設(shè)置。

4.1 安裝

pip install espnet
pip install espnet_model_zoo
pip install kenlm

4.2 運行

運行下面代碼，可能下載速度太慢，可手動下載中文模型數(shù)據(jù)，放在Python安裝路徑 Python36\Lib\site-packages\espnet_model_zoo\a1dd2b872b48358daa6e136d4a5ab08b下面，加快速度

import soundfile
from espnet_model_zoo.downloader import ModelDownloader
from espnet2.bin.asr_inference import Speech2Text
d = ModelDownloader()
speech2text = Speech2Text(
**d.download_and_unpack("kamo-naoyuki/aishell_conformer"),
    # Decoding parameters are not included in the model file
    maxlenratio=0.0,
    minlenratio=0.0,
    beam_size=20,
    ctc_weight=0.3,
    lm_weight=0.5,
    penalty=0.0,
    nbest=1
)
audio, rate = soundfile.read("zh.wav")
nbests = speech2text(audio)
text, *_ = nbests[0]
print(text)

可發(fā)現(xiàn)百度demo 能夠正確識別

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

測試自己錄音demo, “說話的藝術(shù)” 識別為 “說話的約束”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

五、WeNet

Wenet是出門問問語音團隊聯(lián)合西工大語音實驗室開源的一款面向工業(yè)落地應(yīng)用的語音識別工具包，該工具用一套簡潔的方案提供了語音識別從訓(xùn)練到部署的一條龍服務(wù)，其主要特點如下：

使用 conformer 網(wǎng)絡(luò)結(jié)構(gòu)和 CTC/attention loss 聯(lián)合優(yōu)化方法，具有業(yè)界一流的識別效果。
提供云上和端上直接部署的方案，最小化模型訓(xùn)練和產(chǎn)品落地之間的工程工作。
框架簡潔，模型訓(xùn)練部分完全基于pytorch生態(tài)，不依賴于kaldi等安裝復(fù)雜的工具。
詳細的注釋和文檔，十分適合用于學(xué)習(xí)端到端語音識別的基礎(chǔ)知識和實現(xiàn)細節(jié)。

5.1 安裝

pip install wenetruntime

5.2 運行

import sys
import wenetruntime as wenet

wav_file = sys.argv[1]
decoder = wenet.Decoder(lang='chs')
ans = decoder.decode_wav(wav_file)
print(ans)

如果下載文件太慢，可通過手動下載文件到 C:\Users\supre\.wenet\chs 目錄下，記住要解壓 chs.tar.gz，而不要再解壓 final.zip。

使用百度demo測試，很精確

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音聲音測試，報錯如下：

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

應(yīng)該是只能輸入單聲道，而我錄音的是雙聲道。解決方法：使用 Audacity 錄音，并將聲道改為單聲道，并將采樣頻率修改為 16000 HZ，編碼器默認不變，否則會出現(xiàn)下面的錯誤
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

最終結(jié)果，還是很精確的。

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

六、DeepSpeech

DeepSpech 是一個開源的語音到文本( Speech-To-Text, STT )引擎，使用了基于百度深度語音研究論文的機器學(xué)習(xí)技術(shù)訓(xùn)練的模型。深度語音項目使用谷歌的Tensorflow，使實現(xiàn)更容易。

6.1 安裝

pip install deepspeech

6.2 運行

下載中文模型：deepspeech-0.9.3-models-zh-CN.pbmm，deepspeech-0.9.3-models-zh-CN.scorer

deepspeech --model deepspeech-0.9.3-models-zh-CN.pbmm --scorer deepspeech-0.9.3-models-zh-CN.scorer --audio zh.wav

使用百度 demo 測試，有誤差

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音，“說話的藝術(shù)” 識別為 “蘭花的一杯”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用 deepspeech 自帶數(shù)據(jù)測試 “他有兩個哥哥” 識別為 “會有兩個哥哥”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech 文章來源地址http://www.zghlxwxcb.cn/news/detail-522483.html

參考

import paddle 遇到錯誤
教你如何使用ASRT部署中文語音識別API服務(wù)器
Wenet - 面向工業(yè)落地的E2E語音識別工具

到了這里，關(guān)于6款支持中文語音識別開源軟件的簡單使用的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

本地化部署離線開源免費語音識別API，支持多模態(tài)AI能力引擎
思通數(shù)科作為一家專注于多模態(tài)AI能力開源引擎平臺，其技術(shù)產(chǎn)品涵蓋了自然語言處理、情感分析、實體識別、圖像識別與分類、OCR識別以及語音識別等多個領(lǐng)域。在語音識別這一細分市場，思通數(shù)科的技術(shù)產(chǎn)品中的音頻文件轉(zhuǎn)寫服務(wù)有著相似的應(yīng)用場景和功能特點。思通數(shù)
2024年04月12日
瀏覽(33)
python使用VOSK實現(xiàn)離線語音識別（中文普通話）
目標(biāo)：一個代碼簡單，離線，可直接使用，常用語句準(zhǔn)確率還不錯，免費的，普通話語音轉(zhuǎn)文本的工具幾番對比下來，VSOK基本滿足我的需求，記錄一下。環(huán)境 windows 10 / python3.8.10 s1 安裝 vosk s2 下載模型兩個模型，一個很小，文件名中帶有small字樣，另一個就很大了，就我自
2024年02月11日
瀏覽(22)
語音識別之百度語音試用和OpenAiGPT開源Whisper使用
0.前言: 本文作者親自使用了百度云語音識別,騰訊云,java的SpeechRecognition語言識別包和OpenAI近期免費開源的語言識別Whisper(真香警告)介紹了常見的語言識別實現(xiàn)原理 1.NLP 自然語言處理(人類語言處理) 你好不同人說出來是不同的信號表示圖 a a1 2.處理的類別 3.深度學(xué)習(xí)帶來語言
2024年02月03日
瀏覽(15)
openai開源的whisper在huggingface中使用例子（語音轉(zhuǎn)文字中文）
openai開源的語音轉(zhuǎn)文字支持多語言在huggingface中使用例子。目前發(fā)現(xiàn)多語言模型large-v2支持中文是繁體，因此需要繁體轉(zhuǎn)簡體。后續(xù)編寫微調(diào)訓(xùn)練例子 GitHub地址： https://github.com/openai/whisper
2024年02月11日
瀏覽(22)
.Net 使用OpenAI開源語音識別模型Whisper
.Net 使用OpenAI開源語音識別模型 Whisper Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準(zhǔn)的 Whisper 神經(jīng)網(wǎng)絡(luò)，且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識（Automatic Speech Recognition，ASR）模型是被訓(xùn)練來運行語音辨識與翻譯任務(wù)的
2024年02月08日
瀏覽(83)
開源C++智能語音識別庫whisper.cpp開發(fā)使用入門
whisper.cpp是一個C++編寫的輕量級開源智能語音識別庫，是基于openai的開源python智能語音模型whisper的移植版本，依賴項少，內(nèi)存占用低，性能更優(yōu)，方便作為依賴庫集成的到應(yīng)用程序中提供語音識別功能。以下基于whisper.cpp的源碼利用C++ api來開發(fā)實例demo演示讀取本地音頻文件
2024年02月20日
瀏覽(22)
開源中文分詞Ansj的簡單使用
ANSJ是由孫健（ansjsun）開源的一個中文分詞器，為ICTLAS的Java版本，也采用了Bigram + HMM分詞模型：在Bigram分詞的基礎(chǔ)上，識別未登錄詞，以提高分詞準(zhǔn)確度。雖然基本分詞原理與ICTLAS的一樣，但是Ansj做了一些工程上的優(yōu)化，比如：用DAT高效地實現(xiàn)檢索詞典、鄰接表實現(xiàn)分詞D
2024年02月14日
瀏覽(16)
使用 PyAudio、語音識別、pyttsx3 和 SerpApi 構(gòu)建簡單的基于 CLI 的語音助手
德米特里·祖布??
2024年02月06日
瀏覽(17)
中文語音標(biāo)注工具FunASR（語音識別）
全稱? A Fundamental End-to-End Speech Recognition Toolkit （一個語音識別工具）可能大家用過 whisper （openAi），它【標(biāo)注英語的確很完美】，【但中文會出現(xiàn)標(biāo)注錯誤】或搞了個沒說的詞替換上去，所以要人工核對，麻煩。 FunASR作用 :能【準(zhǔn)確】識別語音，并轉(zhuǎn)成【文字、標(biāo)出聲調(diào)】
2024年02月04日
瀏覽(19)
【語音識別】HMM中文語音識別【含GUI Matlab源碼 1385期】
獲取代碼方式1：完整代碼已上傳我的資源：【語音識別】基于matlab GUI HMM中文語音識別【含Matlab源碼 1385期】點擊上面藍色字體，直接付費下載，即可。獲取代碼方式2：付費專欄Matlab語音處理（初級版）備注：點擊上面藍色字體付費專欄Matlab語音處理（初級版），掃描
2024年02月20日
瀏覽(22)

<strong id="o2g3o"><form id="o2g3o"></form></strong>

<dd id="o2g3o"><dl id="o2g3o"></dl></dd>