国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python使用VOSK實現(xiàn)離線語音識別(中文普通話)

這篇具有很好參考價值的文章主要介紹了python使用VOSK實現(xiàn)離線語音識別(中文普通話)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目標:一個代碼簡單,離線,可直接使用,常用語句準確率還不錯,免費的,普通話語音轉(zhuǎn)文本的工具

幾番對比下來,VSOK基本滿足我的需求,記錄一下。

環(huán)境

windows 10 / python3.8.10


s1 安裝 vosk

> pip install vosk

s2 下載模型

兩個模型,一個很小,文件名中帶有small字樣,另一個就很大了,就我自己測試起來,small也夠用

官網(wǎng)下載地址:

https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip         41.87 M
https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip                1.67 G

s3 下載 示例代碼

代碼位置:

https://github.com/alphacep/vosk-api

其實只用到其中的python部分

s4 測試

s4.1 把 s2下載的 model 解壓,記住路徑
s4.2 修改示例代碼 vosk-api/python/example/test_simple.py
import wave
import sys
import json

from vosk import Model, KaldiRecognizer, SetLogLevel

# You can set log level to -1 to disable debug messages
SetLogLevel(-1)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")

    sys.exit(1)

# model = Model(lang="en-us")
# You can also init model by name or with a folder path
# model = Model(model_name="vosk-model-en-us-0.21")
# 設(shè)置模型所在路徑,剛剛4.1中解壓出來的路徑   《《《《
# model = Model("model") 
model = Model("model-small")

rec = KaldiRecognizer(model, wf.getframerate())
rec.SetWords(True)
# rec.SetPartialWords(True)   # 注釋這行   《《《《

str_ret = ""

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        result = rec.Result()
        # print(result)

        result = json.loads(result)
        if 'text' in result:
            str_ret += result['text'] + ' '
    # else:
    #     print(rec.PartialResult())

# print(rec.FinalResult())
result = json.loads(rec.FinalResult())
if 'text' in result:
    str_ret += result['text']

print(str_ret)
s4.3 跑一下代碼
> python .\test_simple.py cn2.wav
床前明月光

測試用到的 cn2.wav 是使用系統(tǒng)的錄音機錄的,再用格式工廠轉(zhuǎn)為wav格式,這里需要注意的是wav必須是單聲道的,否則沒法識別的。
vosk使用,筆記,語音識別,python,人工智能

結(jié)論

準確率還是不錯的,就是耗時比較大,就上面的一行詩得3秒左右,不知道是不是跟電腦配置也有關(guān)系文章來源地址http://www.zghlxwxcb.cn/news/detail-516468.html

到了這里,關(guān)于python使用VOSK實現(xiàn)離線語音識別(中文普通話)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【FunASR】Paraformer語音識別-中文-通用-16k-離線-large-onnx

    【FunASR】Paraformer語音識別-中文-通用-16k-離線-large-onnx

    模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch Paraformer-large長音頻模型集成VAD、ASR、標點與時間戳功能,可直接對時長為數(shù)小時音頻進行識別,并輸出帶標點文字與時間戳: ASR模型:Parformer-large模型結(jié)構(gòu)為非自回歸語音識別模型,多個中文公開數(shù)據(jù)集

    2024年02月03日
    瀏覽(13)
  • Vosk 揚聲器內(nèi)錄語音識別轉(zhuǎn)文字 最簡潔的C#代碼

    Vosk 揚聲器內(nèi)錄語音識別轉(zhuǎn)文字 最簡潔的C#代碼

    最近在看小眾西語電影,但苦于沒字幕,只能自己想辦法弄實時語音識別。然而網(wǎng)上給出的很多相關(guān)代碼,大部分是基于已有的wav文件或者麥克風外錄的方式實現(xiàn)的。我這里就稍微改進了一下,可以在內(nèi)錄(英文資料說的的是loopback audio recording)的情況下進行語音轉(zhuǎn)文字。這里

    2024年02月14日
    瀏覽(25)
  • 【語音識別】落地實現(xiàn)--離線智能語音助手

    【語音識別】落地實現(xiàn)--離線智能語音助手

    參考:基于python和深度學習(語音識別、NLP)實現(xiàn)本地離線智能語音控制終端(帶聊天功能和家居控制功能) 基于V3S的語音助手(三)移植pocketsphnix喚醒 基于V3S的語音助手(二)移植pyaudio到開發(fā)板 基于V3S的語音助手(一)python3的編譯和安裝(該版本解決zlib readline可

    2024年03月09日
    瀏覽(27)
  • Java 離線語音識別實現(xiàn)語音轉(zhuǎn)文字

    Java 離線語音識別實現(xiàn)語音轉(zhuǎn)文字

    model下載 我們需要實現(xiàn)離線語音識別,那么就得將模型下載到本地電腦。下載地址為官網(wǎng)的 Models 模塊: https://alphacephei.com/vosk/models 我們直接找到 Chinese 分類,這里有 2 個模型 將下載的語言模型包,在下面代碼中引入 代碼 CommonUtils 注意:以上代碼只支持.wav格式的音頻文件

    2024年02月05日
    瀏覽(92)
  • 免費離線語音識別軟件開發(fā)工具包(SDK):實現(xiàn)高效準確的語音識別

    語音識別技術(shù)在當今信息時代扮演著重要的角色,為用戶提供了更加便捷和自然的交互方式。然而,傳統(tǒng)的語音識別方案通常需要依賴云服務(wù)器進行語音數(shù)據(jù)的處理,這可能會涉及到隱私問題和網(wǎng)絡(luò)延遲。為了解決這些問題,免費離線語音識別軟件開發(fā)工具包(SDK)應(yīng)運而生

    2024年02月04日
    瀏覽(25)
  • 使用python實現(xiàn)語音識別

    使用python實現(xiàn)語音識別

    語音識別技術(shù),也被稱為自動語音識別,目標是以電腦自動將以人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字和文字轉(zhuǎn)換為語音。 一. 文本轉(zhuǎn)換為語音 1.1 使用pyttsx 使用名為pyttsx的python包,可以將文本轉(zhuǎn)換為語音。 安裝pyttsx包 示例 運行之后可以播放語音。 1.2 使用SAPI 在python 中,也可

    2024年02月04日
    瀏覽(24)
  • 【離線文本轉(zhuǎn)語音文件】java spring boot jacob實現(xiàn)文字轉(zhuǎn)語音文件,離線文本轉(zhuǎn)化語音,中英文生成語音,文字朗讀,中文生成聲音,文字生成聲音文件,文字轉(zhuǎn)語音文件,文字變聲音。

    【離線文本轉(zhuǎn)語音文件】java spring boot jacob實現(xiàn)文字轉(zhuǎn)語音文件,離線文本轉(zhuǎn)化語音,中英文生成語音,文字朗讀,中文生成聲音,文字生成聲音文件,文字轉(zhuǎn)語音文件,文字變聲音。

    輸入文字(支持中英文),點擊轉(zhuǎn)換生成***.wav文件,點擊下載到本地就可。 ?生成后的音頻文件播放,時長1分8秒 ? ? ? ? ?這次采用jacob實現(xiàn),相比百度AI需要聯(lián)網(wǎng),本項目定位內(nèi)網(wǎng)環(huán)境實現(xiàn)。所以最終采jacob。 1.環(huán)境配置: 本次采用版本jacob-1.19,我們需要下載jacob.jar和dll

    2024年02月16日
    瀏覽(25)
  • Python使用PaddleSpeech實現(xiàn)語音識別(ASR)、語音合成(TTS)

    Python使用PaddleSpeech實現(xiàn)語音識別(ASR)、語音合成(TTS)

    目錄 安裝 語音識別 補全標點 語音合成 參考 PaddleSpeech是百度飛槳開發(fā)的語音工具 注意,PaddleSpeech不支持過高版本的Python,因為在高版本的Python中,飛槳不再提供paddle.fluid API。這里面我用的是Python3.7 需要通過3個pip命令安裝PaddleSpeech: 在使用的時候,urllib3庫可能會報錯,因

    2024年04月25日
    瀏覽(28)
  • Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)

    Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)

    阿里的FunAsr對Whisper中文領(lǐng)域的轉(zhuǎn)寫能力造成了一定的挑戰(zhàn),但實際上,Whisper的使用者完全可以針對中文的語音做一些優(yōu)化的措施,換句話說,Whisper的“默認”形態(tài)可能在中文領(lǐng)域斗不過FunAsr,但是經(jīng)過中文特殊優(yōu)化的Whisper就未必了。 Whisper經(jīng)常被人詬病的一點是對中文語音

    2024年01月25日
    瀏覽(18)
  • Python使用whisper實現(xiàn)語音識別(ASR)

    目錄 Whisper的安裝 Whisper的基本使用 識別結(jié)果轉(zhuǎn)簡體中文 斷句 Whisper是OpenAI的一個強大的語音識別庫,支持離線的語音識別。在使用之前,需要先安裝它的庫: 使用whisper,還需安裝setuptools-rust: 但是,whisper安裝時,自帶的pytorch可能有些bug,因此需要卸載重裝: 卸載: 重裝

    2024年03月20日
    瀏覽(99)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包