介紹
Whisper是OpenAI于2022年9月份開源的通用的語音識別模型。它是在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的模型,也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。
論文鏈接:https://arxiv.org/abs/2212.04356
github鏈接:https://github.com/openai/whisper
安裝
Whisper主要是基于Pytorch實現(xiàn),所以需要在安裝有pytorch的環(huán)境中使用。
1、安裝Whisper
pip install -U openai-whisper
或者
pip install git+https://github.com/openai/whisper.git
安裝好之后,打開cmd界面,執(zhí)行whisper,出現(xiàn)如下提示說明安裝成功
2、安裝FFmpeg
FFmpeg是一款音視頻編解碼工具。Whisper需要使用FFmpeg工具提取聲音數(shù)據(jù),所以需要安裝配置FFmpeg。
參考博客:https://blog.csdn.net/weixin_45487348/article/details/130722161
安裝好之后,,打開cmd界面,執(zhí)行ffmpeg,出現(xiàn)如下提示說明安裝成功
3、安裝Rust
網(wǎng)上很多步驟說,需要安裝Rust,用于實現(xiàn)快速分詞,因為我暫時沒用到這個,所以大家按需下載~
pip install setuptools-rust
使用
命令行方式
# 幫助信息
whisper --help
# 根據(jù)官網(wǎng)使用教程可以有以下常用方式
whisper music.mp3 --model tiny --language Chinese --device cuda:0 --initial_prompt "以下是普通話的句子"
Python代碼
import whisper
model = whisper.load_model("base", "cpu")
mps_path = r"music.mp3"
result = model.transcribe(mps_path, fp16=False, language='Chinese')
print(result["text"])
說明:如果你的機器有GPU,那這里的**“fp16=False”**不是必須的。因為筆者本地測試機器沒有GPU,只用用CPU進行測試,所以這里我設(shè)置了這個參數(shù)。
whisper模型
報錯信息
以下是筆者調(diào)試過程中遇到的錯誤記錄:
Error 1
FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。
解決辦法:
找到External Libraries —> Python 3.8 —> Libs —> subprocess.py —> Ctrl+F 查找“class POpen” ,將shell=False,改為 shell=True。
參考鏈接:https://blog.csdn.net/qq_24118527/article/details/90579328文章來源:http://www.zghlxwxcb.cn/news/detail-715783.html
Error 2
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 9: invalid start byte
解決辦法:
這個問題表面上就是ffmpeg造成的,好像在讀取文件的時候某個位置的編碼有問題。實際上是由于上面的代碼修改后,需要重新啟動(在windows系統(tǒng)有這個問題)。
如果重新啟動之后,還是出現(xiàn)上述錯誤,可以按照如下方式重新設(shè)置:Pycharm setting —> Tools —> Terminal —> 找到 shell path,將其修改為本地cmd。文章來源地址http://www.zghlxwxcb.cn/news/detail-715783.html
到了這里,關(guān)于語音識別whisper的介紹、安裝、錯誤記錄的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!