国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

6款支持中文語音識別開源軟件的簡單使用

這篇具有很好參考價值的文章主要介紹了6款支持中文語音識別開源軟件的簡單使用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前言

摘自百度百科

語音識別技術(shù),也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識別是深度學(xué)習(xí)領(lǐng)域之一, 在 github 上也有很多項目實現(xiàn) ASR, 支持中文 ASR 的部分項目如下,下面會演示簡單使用

  1. https://github.com/PaddlePaddle/PaddleSpeech
  2. https://github.com/nl8590687/ASRT_SpeechRecognition
  3. https://github.com/nobody132/masr
  4. https://github.com/espnet/espnet
  5. https://github.com/wenet-e2e/wenet
  6. https://github.com/mozilla/DeepSpeech

一、PaddleSpeech

PaddleSpeech 是基于飛槳 PaddlePaddle 的語音方向的開源模型庫,用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型。

PaddleSpeech 榮獲 NAACL2022 Best Demo Award, 請訪問 Arxiv 論文。

1.1 安裝

根據(jù)官方文檔安裝即可:https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/README_cn.md#%E5%AE%89%E8%A3%85

官方強烈建議用戶在 Linux 環(huán)境下,3.7 以上版本的 python 上安裝 PaddleSpeech。

但是我電腦是 windows , 而且 python 版本為 3.6.5。選擇在windows 下安裝 python 3.7.0 版本:https://www.python.org/downloads/windows/,安裝過程中報以下錯誤

pip install paddlespeech

問題一:paddlespeech-ctcdecoders 版本錯誤

 Could not find a version that satisfies the requirement paddlespeech-ctcdecoders (from paddlespeech) (from versions: )
No matching distribution found for paddlespeech-ctcdecoders (from paddlespeech)

發(fā)現(xiàn) paddlespeech-ctcdecoders 并沒有 windows 版本,而且發(fā)現(xiàn)已經(jīng)有人編譯windows 版本了,初次編譯paddlespeech-ctcdecoders的windows版本,不過官方提示:paddlespeech-ctcdecoders 沒有安裝成功不要緊,這個包不是必須的。

問題二:gbk 編碼錯誤

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 5365: illegal multibyte sequence

這個問題等我再次運行就消失了

1.2 運行

報找不到文件錯誤:

FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。

打開 Python\Python37\lib\subprocess.py 文件,在684行將 shell=False 改為 shell=True

    _child_created = False  # Set here since __del__ checks it

    def __init__(self, args, bufsize=-1, executable=None,
                 stdin=None, stdout=None, stderr=None,
                 preexec_fn=None, close_fds=True,
                 shell=True, cwd=None, env=None, universal_newlines=None,
                 startupinfo=None, creationflags=0,
                 restore_signals=True, start_new_session=False,
                 pass_fds=(), *, encoding=None, errors=None, text=None):

使用官方的例子測試:

paddlespeech asr --lang zh --input C:\Users\supre\Desktop\sound\PaddleSpeech-develop\zh.wav

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音的兩個例子測試,發(fā)現(xiàn)很精確。

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

1.3 更多功能

除了語音識別,還支持更多功能

  1. 聲音分類
paddlespeech cls --input input.wav
  1. 聲紋識別
paddlespeech vector --task spk --input input_16k.wav
  1. 語音翻譯(英-中)(暫不支持 Windows 系統(tǒng))
paddlespeech st --input input_16k.wav
  1. 語音合成
paddlespeech tts --input "你好,歡迎使用百度飛槳深度學(xué)習(xí)框架!" --output output.wav

發(fā)現(xiàn) “你好,aabond, 歡迎使用百度飛槳” 其中 aabond 并沒有語音,猜測并不能合成英文,可能需要提供其它參數(shù)
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

  1. 標(biāo)點恢復(fù)
paddlespeech text --task punc --input 今天的天氣真不錯啊你下午有空嗎我想約你一起去吃飯

二、ASRT

ASRT 是一個基于深度學(xué)習(xí)的中文語音識別系統(tǒng),使用 tensorFlow.keras 基于深度卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶神經(jīng)網(wǎng)絡(luò)、注意力機制以及CTC 實現(xiàn)。

2.1 安裝

下載服務(wù)端,安裝依賴

$ pip install tensorflow==2.5.2
$ pip install wave
$ pip install matplotlib
$ pip install requests
$ pip install scipy
$ pip install flask
$ pip install waitress

下載客戶端

2.2 運行

python asrserver_http.py

使用百度demo 作為例子,能夠正確顯示

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音作為例子,“說話的藝術(shù)”被識別為“上”,并不能正確顯示,難道是因為我說話太快?應(yīng)該需要訓(xùn)練數(shù)據(jù)

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

還可以實時語音識別,發(fā)現(xiàn)精確度一般
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

三、MASR

MASR 是一個基于端到端的深度神經(jīng)網(wǎng)絡(luò)中文普通話語音識別項目.

MASR 使用的是門控卷積神經(jīng)網(wǎng)絡(luò)(Gated Convolutional Network),網(wǎng)絡(luò)結(jié)構(gòu)類似于 Facebook 在2016年提出的 Wav2letter 。但是使用的激活函數(shù)不是 ReLU 或者是 HardTanh,而是GLU(門控線性單元)。因此稱作門控卷積網(wǎng)絡(luò)。根據(jù)我的實驗,使用GLU的收斂速度比 HardTanh 要快。如果你想要研究卷積網(wǎng)絡(luò)用于語音識別的效果,這個項目可以作為一個參考。

3.1 安裝

下載源碼,下載預(yù)訓(xùn)練模型數(shù)據(jù),在源碼目錄下新建一個 pretrained 目錄, 并將模型文件放入其中

3.2 運行

python examples/demo-record-recognize.py

識別結(jié)果:

“說話的藝術(shù)” 識別為 “說化和一數(shù)”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

“只因你太美” 識別為 “只因里派云”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

四、ESPnet

ESPnet:端到端語音處理工具包,涵蓋了端到端語音識別、文本到語音、語音翻譯、語音增強、說話者二值化、口語理解等。ESPnet 使用 pytorch 作為深度學(xué)習(xí)引擎,并遵循 Kaldi 風(fēng)格的數(shù)據(jù)處理、特征提取/格式和配方,為各種語音處理實驗提供一個完整的設(shè)置。

4.1 安裝

pip install espnet
pip install espnet_model_zoo
pip install kenlm

4.2 運行

運行下面代碼,可能下載速度太慢,可手動下載中文模型數(shù)據(jù),放在Python安裝路徑 Python36\Lib\site-packages\espnet_model_zoo\a1dd2b872b48358daa6e136d4a5ab08b下面,加快速度

import soundfile
from espnet_model_zoo.downloader import ModelDownloader
from espnet2.bin.asr_inference import Speech2Text
d = ModelDownloader()
speech2text = Speech2Text(
**d.download_and_unpack("kamo-naoyuki/aishell_conformer"),
    # Decoding parameters are not included in the model file
    maxlenratio=0.0,
    minlenratio=0.0,
    beam_size=20,
    ctc_weight=0.3,
    lm_weight=0.5,
    penalty=0.0,
    nbest=1
)
audio, rate = soundfile.read("zh.wav")
nbests = speech2text(audio)
text, *_ = nbests[0]
print(text)

可發(fā)現(xiàn)百度demo 能夠正確識別

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

測試自己錄音demo, “說話的藝術(shù)” 識別為 “說話的約束”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

五、WeNet

Wenet是出門問問語音團隊聯(lián)合西工大語音實驗室開源的一款面向工業(yè)落地應(yīng)用的語音識別工具包,該工具用一套簡潔的方案提供了語音識別從訓(xùn)練到部署的一條龍服務(wù),其主要特點如下:

  • 使用 conformer 網(wǎng)絡(luò)結(jié)構(gòu)和 CTC/attention loss 聯(lián)合優(yōu)化方法,具有業(yè)界一流的識別效果。
  • 提供云上和端上直接部署的方案,最小化模型訓(xùn)練和產(chǎn)品落地之間的工程工作。
  • 框架簡潔,模型訓(xùn)練部分完全基于pytorch生態(tài),不依賴于kaldi等安裝復(fù)雜的工具。
  • 詳細的注釋和文檔,十分適合用于學(xué)習(xí)端到端語音識別的基礎(chǔ)知識和實現(xiàn)細節(jié)。

5.1 安裝

pip install wenetruntime

5.2 運行

import sys
import wenetruntime as wenet

wav_file = sys.argv[1]
decoder = wenet.Decoder(lang='chs')
ans = decoder.decode_wav(wav_file)
print(ans)

如果下載文件太慢,可通過手動下載 文件到 C:\Users\supre\.wenet\chs 目錄下,記住要解壓 chs.tar.gz,而不要再解壓 final.zip。

使用百度demo測試,很精確

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音聲音測試,報錯如下:

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

應(yīng)該是只能輸入單聲道,而我錄音的是雙聲道。解決方法:使用 Audacity 錄音,并將聲道改為單聲道,并將采樣頻率修改為 16000 HZ,編碼器默認不變,否則會出現(xiàn)下面的錯誤
開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

最終結(jié)果,還是很精確的。

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

六、DeepSpeech

DeepSpech 是一個開源的語音到文本( Speech-To-Text, STT )引擎,使用了基于百度深度語音研究論文的機器學(xué)習(xí)技術(shù)訓(xùn)練的模型。深度語音項目使用谷歌的Tensorflow,使實現(xiàn)更容易。

6.1 安裝

pip install deepspeech

6.2 運行

下載中文模型:deepspeech-0.9.3-models-zh-CN.pbmm,deepspeech-0.9.3-models-zh-CN.scorer

deepspeech --model deepspeech-0.9.3-models-zh-CN.pbmm --scorer deepspeech-0.9.3-models-zh-CN.scorer --audio zh.wav

使用 百度 demo 測試,有誤差

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用自己錄音,“說話的藝術(shù)” 識別為 “蘭花的一杯”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech

使用 deepspeech 自帶數(shù)據(jù)測試 “他有兩個哥哥” 識別為 “會有兩個哥哥”

開源中文語音識別,github,python,software,語音識別,開源軟件,人工智能,python,paddlespeech文章來源地址http://www.zghlxwxcb.cn/news/detail-522483.html

參考

  1. import paddle 遇到錯誤
  2. 教你如何使用ASRT部署中文語音識別API服務(wù)器
  3. Wenet - 面向工業(yè)落地的E2E語音識別工具

到了這里,關(guān)于6款支持中文語音識別開源軟件的簡單使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 本地化部署離線開源免費語音識別API,支持多模態(tài)AI能力引擎

    本地化部署離線開源免費語音識別API,支持多模態(tài)AI能力引擎

    思通數(shù)科作為一家專注于多模態(tài)AI能力開源引擎平臺,其技術(shù)產(chǎn)品涵蓋了自然語言處理、情感分析、實體識別、圖像識別與分類、OCR識別以及語音識別等多個領(lǐng)域。在語音識別這一細分市場,思通數(shù)科的技術(shù)產(chǎn)品中的音頻文件轉(zhuǎn)寫服務(wù)有著相似的應(yīng)用場景和功能特點。 思通數(shù)

    2024年04月12日
    瀏覽(33)
  • python使用VOSK實現(xiàn)離線語音識別(中文普通話)

    python使用VOSK實現(xiàn)離線語音識別(中文普通話)

    目標(biāo):一個代碼簡單,離線,可直接使用,常用語句準(zhǔn)確率還不錯,免費的,普通話語音轉(zhuǎn)文本的工具 幾番對比下來,VSOK基本滿足我的需求,記錄一下。 環(huán)境 windows 10 / python3.8.10 s1 安裝 vosk s2 下載模型 兩個模型,一個很小,文件名中帶有small字樣,另一個就很大了,就我自

    2024年02月11日
    瀏覽(22)
  • 語音識別之百度語音試用和OpenAiGPT開源Whisper使用

    語音識別之百度語音試用和OpenAiGPT開源Whisper使用

    0.前言: 本文作者親自使用了百度云語音識別,騰訊云,java的SpeechRecognition語言識別包 和OpenAI近期免費開源的語言識別Whisper(真香警告)介紹了常見的語言識別實現(xiàn)原理 1.NLP 自然語言處理(人類語言處理) 你好不同人說出來是不同的信號表示 圖 a a1 2.處理的類別 3.深度學(xué)習(xí)帶來語言

    2024年02月03日
    瀏覽(15)
  • openai開源的whisper在huggingface中使用例子(語音轉(zhuǎn)文字中文)

    openai開源的whisper在huggingface中使用例子(語音轉(zhuǎn)文字中文)

    openai開源的語音轉(zhuǎn)文字支持多語言在huggingface中使用例子。 目前發(fā)現(xiàn)多語言模型large-v2支持中文是繁體,因此需要繁體轉(zhuǎn)簡體。 后續(xù)編寫微調(diào)訓(xùn)練例子 GitHub地址: https://github.com/openai/whisper

    2024年02月11日
    瀏覽(22)
  • .Net 使用OpenAI開源語音識別模型Whisper

    .Net 使用OpenAI開源語音識別模型Whisper

    .Net 使用OpenAI開源語音識別模型 Whisper Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準(zhǔn)的 Whisper 神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來運行語音辨識與翻譯任務(wù)的

    2024年02月08日
    瀏覽(83)
  • 開源C++智能語音識別庫whisper.cpp開發(fā)使用入門

    whisper.cpp是一個C++編寫的輕量級開源智能語音識別庫,是基于openai的開源python智能語音模型whisper的移植版本,依賴項少,內(nèi)存占用低,性能更優(yōu),方便作為依賴庫集成的到應(yīng)用程序中提供語音識別功能。 以下基于whisper.cpp的源碼利用C++ api來開發(fā)實例demo演示讀取本地音頻文件

    2024年02月20日
    瀏覽(22)
  • 開源中文分詞Ansj的簡單使用

    ANSJ是由孫健(ansjsun)開源的一個中文分詞器,為ICTLAS的Java版本,也采用了Bigram + HMM分詞模型:在Bigram分詞的基礎(chǔ)上,識別未登錄詞,以提高分詞準(zhǔn)確度。 雖然基本分詞原理與ICTLAS的一樣,但是Ansj做了一些工程上的優(yōu)化,比如:用DAT高效地實現(xiàn)檢索詞典、鄰接表實現(xiàn)分詞D

    2024年02月14日
    瀏覽(16)
  • 使用 PyAudio、語音識別、pyttsx3 和 SerpApi 構(gòu)建簡單的基于 CLI 的語音助手
  • 中文語音標(biāo)注工具FunASR(語音識別)

    中文語音標(biāo)注工具FunASR(語音識別)

    全稱? A Fundamental End-to-End Speech Recognition Toolkit (一個語音識別工具) 可能大家用過 whisper (openAi),它【標(biāo)注英語的確很完美】,【但中文會出現(xiàn)標(biāo)注錯誤】或搞了個沒說的詞替換上去,所以要人工核對,麻煩。 FunASR作用 :能【準(zhǔn)確】識別語音,并轉(zhuǎn)成【文字、標(biāo)出聲調(diào)】

    2024年02月04日
    瀏覽(19)
  • 【語音識別】HMM中文語音識別【含GUI Matlab源碼 1385期】

    【語音識別】HMM中文語音識別【含GUI Matlab源碼 1385期】

    獲取代碼方式1: 完整代碼已上傳我的資源:【語音識別】基于matlab GUI HMM中文語音識別【含Matlab源碼 1385期】 點擊上面藍色字體,直接付費下載,即可。 獲取代碼方式2: 付費專欄Matlab語音處理(初級版) 備注: 點擊上面藍色字體 付費專欄Matlab語音處理(初級版) ,掃描

    2024年02月20日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包