faster-whisper 這個項目是基于 OpenAI whisper 的模型,在上面的一個重寫。
使用的是 CTranslate2 的這樣的一個庫,CTranslate2 是用于 Transformer 模型的一個快速推理引擎。
在相同精度的情況下,faster-whisper 的速度比 OpenAI whisper 快 4 倍,并且使用更少的內(nèi)存。
這是 faster-whisper 與 OpenAI whisper 的測試對比結(jié)果,使用了一個13分鐘的音頻做的測試。
OpenAI whisper 用了4分30秒,faster-whisper 只用了54秒。
并且,faster-whisper 使用的 CPU 和 GPU 都只有 OpenAI whisper 的三分之一左右。
性能大幅提升,資源占用大幅降低,就是馬跑的更快了,吃的更少了。
感緊跑起來試試。
本地安裝運行
faster-whisper 需要 Python 3.8 之后的版本,可以創(chuàng)建Python虛擬環(huán)境來實現(xiàn)。
安裝 faster-whisper :
pip?install?faster-whisper
Python代碼:
from?faster_whisper?import?WhisperModel
#?指定模型
model_size?=?"large-v3"
#?or?run?on?CPU?with?INT8
model?=?WhisperModel(model_size,?device="cpu",?compute_type="int8")
#?加載音頻,執(zhí)行語音識別
segments,?info?=?model.transcribe("Haul.mp3",?beam_size=5)
print("Detected?language?'%s'?with?probability?%f"?%?(info.language,?info.language_probability))
for?segment?in?segments:
????print("[%.2fs?->?%.2fs]?%s"?%?(segment.start,?segment.end,?segment.text))
第一次執(zhí)行時,會自動加載模型。
然后開始識別,輸出識別結(jié)果。
以上是在 CPU 上的運行過程,如果想要更好的運行效率,自然是在 GPU 上跑。
想使用 GPU,需要安裝一些輔助。
以 N 卡為例,先安裝 NVIDIA 相關(guān)的東西。
打開網(wǎng)頁:
developer.nvidia.com/cudnn
下載安裝。
打開網(wǎng)頁:
developer.nvidia.com/cuda-downloads
下載安裝。
安裝完成后,打開安裝目錄,例如我的是:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
找到其中的文件 cublas64_12.dll
,復(fù)制一份,改名為 cublas64_11.dll
。
打開網(wǎng)頁:
github.com/Purfview/whisper-standalone-win/releases/tag/libs
下載解壓,根據(jù)提示放入相應(yīng)位置。
安裝依賴庫:
pip?install?nvidia-cublas-cu11?nvidia-cudnn-cu11
然后就可以使用 GPU 運行了。
Python 代碼:
from?faster_whisper?import?WhisperModel
model_size?=?"large-v3"
#?使用?GPU?運行,指定精度?INT8
model?=?WhisperModel(model_size,?device="cuda",?compute_type="int8_float16")
#?加載音頻并執(zhí)行識別
segments,?info?=?model.transcribe("Haul.mp3",?beam_size=5)
print("Detected?language?'%s'?with?probability?%f"?%?(info.language,?info.language_probability))
for?segment?in?segments:
????print("[%.2fs?->?%.2fs]?%s"?%?(segment.start,?segment.end,?segment.text))
怎么樣,感覺不錯吧,有興趣的話,快試試吧。
項目地址:
github.com/SYSTRAN/faster-whisper
#AI 人工智能,#OpenAI whisper, #fast-whisper,#ChatGPT,#語音轉(zhuǎn)文字,#gpt890文章來源:http://www.zghlxwxcb.cn/news/detail-843831.html
信息來源 gpt890.com/article/35文章來源地址http://www.zghlxwxcb.cn/news/detail-843831.html
到了這里,關(guān)于超快的 AI 實時語音轉(zhuǎn)文字,比 OpenAI 的 Whisper 快4倍 -- 開源項目 Faster Whisper的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!