Whisper 是一種自動語音識別 (ASR) 系統(tǒng),使用從網(wǎng)絡(luò)收集的 680000 小時多語言和多任務(wù)數(shù)據(jù)進(jìn)行訓(xùn)練,Whisper 由深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)提供支持,是一種基于 PyTorch 構(gòu)建的自然語言處理系統(tǒng),這是免費的開源軟件。
安裝Whisper
我們用 Ubuntu 22.04 LTS 測試了 Whisper,為避免污染您的系統(tǒng),我們建議使用 Anaconda 或 Miniconda 安裝 Whisper。
使用 wget 下載并安裝 Anaconda。
$ wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh
下載中的截圖:
運行shell腳本:
$ bash Anaconda3-2022.10-Linux-x86_64.sh
接受 Anaconda 的許可證,然后通過運行 conda init 來初始化 Anaconda3,要使更改生效,請關(guān)閉并重新打開當(dāng)前的 shell。
創(chuàng)建一個 conda 環(huán)境,并激活它。
$ conda create --name whisper
$ conda activate whisper
現(xiàn)在我們準(zhǔn)備好使用 pip 安裝 Whisper,pip 是 Python 的包管理器。
$ pip install -U openai-whisper
這是運行該命令的輸出。
Successfully built openai-whisper
Installing collected packages: tokenizers, huggingface-hub, transformers, openai-whisper
Successfully installed huggingface-hub-0.12.1 openai-whisper-20230124 tokenizers-0.13.2 transformers-4.26.1
運行whisper
whisper 是從命令行運行的,項目中沒有花哨的圖形用戶界面。
該軟件帶有一系列不同大小的預(yù)訓(xùn)練模型,可用于檢查 Whisper 的縮放屬性:
- tiny.en
- tiny
- base.en
- base
- small.en
- small
- medium.en
- medium
- large-v1
- large-v2
- large
我們可以使用在 MP3 文件(也支持 FLAC 和 WAV)上使用媒體模型試用該軟件,第一次使用模型時,會下載該模型。
如果我們不指定帶有標(biāo)志的語言,–language軟件會自動檢測使用最多前 30 秒的語言。我們可以告訴軟件語言,避免自動檢測的開銷,一共支持 100 多種語言。
我們想要使用媒體模型轉(zhuǎn)錄 audio.mp3 文件,我們會告訴軟件這個文件是英語語言。
$ whisper audio.mp3 --model medium --language English
下圖顯示正在進(jìn)行的轉(zhuǎn)錄。
我們驗證此轉(zhuǎn)錄正在使用我們的 GPU。
你可以看到我們的 GPU 有 8GB 的VRAM,請注意,大型模型無法在此 GPU 上運行,因為它需要超過 8GB 的VRAM。
有大量可用的選項,比如$ whisper --help
總結(jié)
Whisper 還是蠻不錯的,從我們的測試來看,轉(zhuǎn)錄的準(zhǔn)確性非常接近人類水平的穩(wěn)健性和準(zhǔn)確性。
Whisper 沒有圖形界面,也不能錄制音頻。它只能獲取現(xiàn)有的音頻文件和輸出文本文件,Whisper 已經(jīng)積累了超過 25000 個 GitHub 星,還是非常受歡迎的。
代碼倉庫地址:https://github.com/openai/whisper
。文章來源:http://www.zghlxwxcb.cn/news/detail-727637.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-727637.html
到了這里,關(guān)于Linux 中的機器學(xué)習(xí):Whisper——自動語音識別系統(tǒng)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!