国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python使用VOSK實現(xiàn)離線語音識別（中文普通話）

2年前作者：svyee分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了python使用VOSK實現(xiàn)離線語音識別（中文普通話）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

目標：一個代碼簡單，離線，可直接使用，常用語句準確率還不錯，免費的，普通話語音轉(zhuǎn)文本的工具

幾番對比下來，VSOK基本滿足我的需求，記錄一下。

環(huán)境

windows 10 / python3.8.10

s1 安裝 vosk

> pip install vosk

s2 下載模型

兩個模型，一個很小，文件名中帶有small字樣，另一個就很大了，就我自己測試起來，small也夠用

官網(wǎng)下載地址：

https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip         41.87 M
https://alphacephei.com/vosk/models/vosk-model-cn-0.15.zip                1.67 G

s3 下載示例代碼

代碼位置：

https://github.com/alphacep/vosk-api

其實只用到其中的python部分

s4 測試

s4.1 把 s2下載的 model 解壓，記住路徑

s4.2 修改示例代碼 vosk-api/python/example/test_simple.py

import wave
import sys
import json

from vosk import Model, KaldiRecognizer, SetLogLevel

# You can set log level to -1 to disable debug messages
SetLogLevel(-1)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")

    sys.exit(1)

# model = Model(lang="en-us")
# You can also init model by name or with a folder path
# model = Model(model_name="vosk-model-en-us-0.21")
# 設(shè)置模型所在路徑，剛剛4.1中解壓出來的路徑   《《《《
# model = Model("model") 
model = Model("model-small")

rec = KaldiRecognizer(model, wf.getframerate())
rec.SetWords(True)
# rec.SetPartialWords(True)   # 注釋這行   《《《《

str_ret = ""

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        result = rec.Result()
        # print(result)

        result = json.loads(result)
        if 'text' in result:
            str_ret += result['text'] + ' '
    # else:
    #     print(rec.PartialResult())

# print(rec.FinalResult())
result = json.loads(rec.FinalResult())
if 'text' in result:
    str_ret += result['text']

print(str_ret)

s4.3 跑一下代碼

> python .\test_simple.py cn2.wav
床前明月光

測試用到的 cn2.wav 是使用系統(tǒng)的錄音機錄的，再用格式工廠轉(zhuǎn)為wav格式，這里需要注意的是wav必須是單聲道的，否則沒法識別的。
vosk使用,筆記,語音識別,python,人工智能

結(jié)論

準確率還是不錯的，就是耗時比較大，就上面的一行詩得3秒左右，不知道是不是跟電腦配置也有關(guān)系文章來源地址http://www.zghlxwxcb.cn/news/detail-516468.html

到了這里，關(guān)于python使用VOSK實現(xiàn)離線語音識別（中文普通話）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【FunASR】Paraformer語音識別-中文-通用-16k-離線-large-onnx
模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch Paraformer-large長音頻模型集成VAD、ASR、標點與時間戳功能，可直接對時長為數(shù)小時音頻進行識別，并輸出帶標點文字與時間戳： ASR模型：Parformer-large模型結(jié)構(gòu)為非自回歸語音識別模型，多個中文公開數(shù)據(jù)集
2024年02月03日
瀏覽(13)
Vosk 揚聲器內(nèi)錄語音識別轉(zhuǎn)文字最簡潔的C#代碼
最近在看小眾西語電影，但苦于沒字幕，只能自己想辦法弄實時語音識別。然而網(wǎng)上給出的很多相關(guān)代碼，大部分是基于已有的wav文件或者麥克風外錄的方式實現(xiàn)的。我這里就稍微改進了一下，可以在內(nèi)錄(英文資料說的的是loopback audio recording)的情況下進行語音轉(zhuǎn)文字。這里
2024年02月14日
瀏覽(25)
【語音識別】落地實現(xiàn)--離線智能語音助手
參考：基于python和深度學習（語音識別、NLP）實現(xiàn)本地離線智能語音控制終端（帶聊天功能和家居控制功能）基于V3S的語音助手（三）移植pocketsphnix喚醒基于V3S的語音助手（二）移植pyaudio到開發(fā)板基于V3S的語音助手（一）python3的編譯和安裝（該版本解決zlib readline可
2024年03月09日
瀏覽(27)
Java 離線語音識別實現(xiàn)語音轉(zhuǎn)文字
model下載我們需要實現(xiàn)離線語音識別，那么就得將模型下載到本地電腦。下載地址為官網(wǎng)的 Models 模塊： https://alphacephei.com/vosk/models 我們直接找到 Chinese 分類，這里有 2 個模型將下載的語言模型包，在下面代碼中引入代碼 CommonUtils 注意：以上代碼只支持.wav格式的音頻文件
2024年02月05日
瀏覽(92)
免費離線語音識別軟件開發(fā)工具包（SDK）：實現(xiàn)高效準確的語音識別
語音識別技術(shù)在當今信息時代扮演著重要的角色，為用戶提供了更加便捷和自然的交互方式。然而，傳統(tǒng)的語音識別方案通常需要依賴云服務(wù)器進行語音數(shù)據(jù)的處理，這可能會涉及到隱私問題和網(wǎng)絡(luò)延遲。為了解決這些問題，免費離線語音識別軟件開發(fā)工具包（SDK）應(yīng)運而生
2024年02月04日
瀏覽(25)
使用python實現(xiàn)語音識別
語音識別技術(shù)，也被稱為自動語音識別，目標是以電腦自動將以人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字和文字轉(zhuǎn)換為語音。一. 文本轉(zhuǎn)換為語音 1.1 使用pyttsx 使用名為pyttsx的python包，可以將文本轉(zhuǎn)換為語音。安裝pyttsx包示例運行之后可以播放語音。 1.2 使用SAPI 在python 中，也可
2024年02月04日
瀏覽(24)
【離線文本轉(zhuǎn)語音文件】java spring boot jacob實現(xiàn)文字轉(zhuǎn)語音文件，離線文本轉(zhuǎn)化語音，中英文生成語音，文字朗讀，中文生成聲音，文字生成聲音文件，文字轉(zhuǎn)語音文件，文字變聲音。
輸入文字（支持中英文），點擊轉(zhuǎn)換生成***.wav文件，點擊下載到本地就可。 ?生成后的音頻文件播放,時長1分8秒 ? ? ? ? ?這次采用jacob實現(xiàn)，相比百度AI需要聯(lián)網(wǎng)，本項目定位內(nèi)網(wǎng)環(huán)境實現(xiàn)。所以最終采jacob。 1.環(huán)境配置：本次采用版本jacob-1.19，我們需要下載jacob.jar和dll
2024年02月16日
瀏覽(25)
Python使用PaddleSpeech實現(xiàn)語音識別（ASR）、語音合成（TTS）
目錄安裝語音識別補全標點語音合成參考 PaddleSpeech是百度飛槳開發(fā)的語音工具注意，PaddleSpeech不支持過高版本的Python，因為在高版本的Python中，飛槳不再提供paddle.fluid API。這里面我用的是Python3.7 需要通過3個pip命令安裝PaddleSpeech：在使用的時候，urllib3庫可能會報錯，因
2024年04月25日
瀏覽(28)
Whisper對于中文語音識別與轉(zhuǎn)寫中文文本優(yōu)化的實踐(Python3.10)
阿里的FunAsr對Whisper中文領(lǐng)域的轉(zhuǎn)寫能力造成了一定的挑戰(zhàn)，但實際上，Whisper的使用者完全可以針對中文的語音做一些優(yōu)化的措施，換句話說，Whisper的“默認”形態(tài)可能在中文領(lǐng)域斗不過FunAsr，但是經(jīng)過中文特殊優(yōu)化的Whisper就未必了。 Whisper經(jīng)常被人詬病的一點是對中文語音
2024年01月25日
瀏覽(18)
Python使用whisper實現(xiàn)語音識別（ASR）
目錄 Whisper的安裝 Whisper的基本使用識別結(jié)果轉(zhuǎn)簡體中文斷句 Whisper是OpenAI的一個強大的語音識別庫，支持離線的語音識別。在使用之前，需要先安裝它的庫：使用whisper，還需安裝setuptools-rust：但是，whisper安裝時，自帶的pytorch可能有些bug，因此需要卸載重裝：卸載：重裝
2024年03月20日
瀏覽(99)