#教程
主要參考開源免費離線語音識別神器whisper如何安裝,
OpenAI開源模型Whisper——音頻轉(zhuǎn)文字
Whisper是一個開源的自動語音識別系統(tǒng),它在網(wǎng)絡(luò)上收集了680,000小時的多語種和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,使得它可以將多種語言的音頻轉(zhuǎn)文字。
Whisper的好處是開源免費、支持多語種(包括中文),有不同模型可供選擇,最終的效果比市面上很多音頻轉(zhuǎn)文字的效果都要好。
Whisper目前有5個模型,隨著參數(shù)的變多,轉(zhuǎn)文字的理解性和準(zhǔn)確性會提高,但相應(yīng)速度會變慢:
這篇文章會介紹怎樣安裝和使用Whisper進(jìn)行音頻轉(zhuǎn)文字。
系統(tǒng)環(huán)境
官方說他們使用的是Python 3.9.9 and PyTorch 1.10.1來訓(xùn)練和檢驗的程序,但預(yù)計兼容python 3.7以后的版本和pytorch近期更新版本。 大家在安裝whisper的時候請盡量保證python版本與官方一致或更新版本,或者至少是3.7版本以后,這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯誤。 本文測試系統(tǒng)為windows1064位、python版本3.9.13和windows10 64位、python3.7.5版本.
安裝步驟
它還需要一些依賴。比如ffmpeg、pytorch等。本文沒涉及python的安裝,默認(rèn)讀者是已經(jīng)安裝好python的,如果你不會安裝python的話,建議去視頻平臺搜索安裝教程,安裝好后再來進(jìn)行下面的步驟。
1、安裝chocolatey
安裝chocolatey是為了后面方便在Windows中安裝ffmpeg。
chocolatey安裝
以管理員身份打開Powershell,運行:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
2、安裝ffmpeg
安裝好chocolatey后,以管理員身份打開Powershell,輸入:
choco install ffmpeg
3.pytorch的安裝
這里我們使用pip安裝。
打開pytorch.org,下拉頁面。
按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版,windows系統(tǒng),pip安裝方式,python語言、cpu版本的軟件。
選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。 在命令行界面運行
pip3 install torch torchvision torchaudio
安裝pytorch,安裝好后這一步也就完成了。
4.whisper的安裝
以上步驟都完成后。 按照官方文檔,先運行
pip install git+https://github.com/openai/whisper.git
然后再運行
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
完成whisper的安裝。
whisper的簡單使用
我們準(zhǔn)備一段音頻,使用whisper將其轉(zhuǎn)換成文字。 以此音頻為例:
- https://wwvx.lanzoul.com/i2lvw0jrippa
在音頻所在文件夾中右鍵打開cmd窗口。 (如果是win10的話就在文件夾的空白處按住shift,然后鼠標(biāo)右鍵單擊,打開powershell窗口)
輸入whisper audio.mp3
,回車運行。在命令行窗口中顯示的是轉(zhuǎn)寫結(jié)果,同時在當(dāng)前文件夾下生成三個字幕文件。以下是三種格式的對比。
更換轉(zhuǎn)寫模型
以上whisper audio.mp3
的命令形式是最簡單的一種,它默認(rèn)使用的是small模式的模型轉(zhuǎn)寫,我們還可以使用更高等級的模型來提高正確率。 比如
whisper audio.mp3 --model medium
medium模型耗費時間更長,但也更精準(zhǔn)。一般而言,綜合權(quán)衡速度與精準(zhǔn)度,選擇small也夠用了,如果你對語言識別的精準(zhǔn)度高可以使用medium,medium的精準(zhǔn)度已經(jīng)相當(dāng)高了,如我文章開頭所說,我用medium模式識別了我讀的一段5min的音頻,400多字。正確率基本百分百,只錯了2個英文單詞,還是因為我發(fā)音不準(zhǔn),尷尬。
當(dāng)然還有其他的模型可供選擇,可以在命令行運行whisper --help
查看幫助。 有以下11種模式可供選擇。
[--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]
結(jié)語
本文簡單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡單用法。
關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法,如果你會使用python,也可以使用以下代碼來運行whisper。
import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
了解更多請參考官方文檔。文章來源:http://www.zghlxwxcb.cn/news/detail-841460.html
- https://github.com/openai/whisper
或者如果你想要在網(wǎng)頁上運行whisper,可以安裝Whisper Webui。 可以參考:文章來源地址http://www.zghlxwxcb.cn/news/detail-841460.html
- https://www.bilibili.com/read/cv19254244
到了這里,關(guān)于Whisper實現(xiàn)語音識別轉(zhuǎn)文本的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!