1、Whisper內(nèi)容簡單介紹
OpenAI的語音識別模型Whisper,Whisper 是一個(gè)自動(dòng)語音識別(ASR,Automatic Speech Recognition)系統(tǒng),OpenAI 通過從網(wǎng)絡(luò)上收集了 68 萬小時(shí)的多語言(98 種語言)和多任務(wù)(multitask)監(jiān)督數(shù)據(jù)對 Whisper 進(jìn)行了訓(xùn)練。OpenAI 認(rèn)為使用這樣一個(gè)龐大而多樣的數(shù)據(jù)集,可以提高對口音、背景噪音和技術(shù)術(shù)語的識別能力。除了可以用于語音識別,Whisper 還能實(shí)現(xiàn)多種語言的轉(zhuǎn)錄,以及將這些語言翻譯成英語。Open AI 強(qiáng)調(diào) Whisper 的語音識別能力已達(dá)到人類水準(zhǔn)。
左:輸入的音頻被分割成 30 秒的小段、轉(zhuǎn)換為 log-Mel 頻譜圖,然后傳遞到編碼器。
右:解碼器經(jīng)過訓(xùn)練以預(yù)測相應(yīng)的文字說明,并與特殊的標(biāo)記進(jìn)行混合,這些標(biāo)記指導(dǎo)單一模型執(zhí)行諸如語言識別、短語級別的時(shí)間戳、多語言語音轉(zhuǎn)錄和語音翻譯等任務(wù)。
2、Whisper模型實(shí)戰(zhàn)
Whisper模型GitHub代碼地址
部署步驟如下:(注意使用的是Windows系統(tǒng))文章來源:http://www.zghlxwxcb.cn/news/detail-460246.html
# 新建chatglm環(huán)境
conda create -n whisper python==3.8
# 激活chatglm環(huán)境
conda activate chatglm
# 安裝PyTorch環(huán)境
pip --trusted-host pypi.tuna.tsinghua.edu.cn install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html
# 一鍵安裝依賴包
pip install -U openai-whisper
#執(zhí)行tiny demo
whisper D:/11.mp4 --model tiny --language Chinese
model tiny運(yùn)行結(jié)果
model base運(yùn)行結(jié)果
可以看出base model識別效果還是挺不錯(cuò)的,但由于追求速度,某些音相近的會(huì)被識別錯(cuò)誤。
例如:
應(yīng)供–因公
乘凱–陳凱
試驗(yàn)–誓言
逛該意目–灌溉億畝文章來源地址http://www.zghlxwxcb.cn/news/detail-460246.html
到了這里,關(guān)于學(xué)習(xí)實(shí)踐-Whisper語音識別模型實(shí)戰(zhàn)(部署+運(yùn)行)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!