1.conda創(chuàng)建環(huán)境
conda create -n whisper python==3.9
conda activate whisper
安裝pytorch
pip install torch==1.8.1+cu101 torchvision==0.9.1+cu101 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
安裝whisper
pip install -U openai-whisper
2.準(zhǔn)備模型和測試音頻
因?yàn)槲业碾娔X是GTX 1060 顯存只有6G
最大運(yùn)行的模型是medium
所以去官網(wǎng)下載medium.pt模型
連接在這里:
https://github.com/openai/whisper/blob/main/whisper/init.py
然后自己錄制一段mp3格式的音頻放在如下文件夾中
G:\desktop\whisper
3.語音轉(zhuǎn)文字
3.1方法一:
打開conda窗口,進(jìn)入該文件夾,
用command窗口執(zhí)行的命令:
(whisper) G:\desktop\whisper>whisper test1.mp3 --model medium.pt
Detecting language using up to the first 30 seconds. Use `--language` to specify the language
Detected language: Chinese
[00:00.000 --> 00:06.700] 我現(xiàn)在正在測試OpenAI Whisper的翻譯效 果
[00:06.700 --> 00:08.000] 這里是中文
[00:08.000 --> 00:09.300] 現(xiàn)在是英文
[00:09.300 --> 00:10.200] English
[00:10.200 --> 00:11.300] American
[00:11.300 --> 00:12.000] China
[00:12.000 --> 00:12.900] People
[00:14.400 --> 00:16.900] 現(xiàn)在錄制時(shí)長是15分鐘
[00:16.900 --> 00:21.500] Now this is 18 second
[00:22.000 --> 00:26.300] And we will wait for 1 minute
[00:26.600 --> 00:28.800] 我們要一直等到1分鐘
[00:28.800 --> 00:30.200] 這個(gè)視頻結(jié)束
[00:30.200 --> 00:34.800] 來測試一下長視頻的長音頻的翻譯效果
[00:39.100 --> 00:50.700] 37 38 40 41 42 43 44 45 46 47 48 49 50
[00:50.700 --> 00:59.700] 5 4 3 2 1
[00:59.700 --> 01:01.200] 現(xiàn)在是1分鐘
[01:01.200 --> 01:03.200] This is 1 minute
3.2 方法二:
寫一個(gè)python文件test.py調(diào)用:
test.py內(nèi)容如下
import whisper
model = whisper.load_model("medium.pt")
result = model.transcribe("test1.mp3")
print(result["text"])
運(yùn)行方式
(whisper) G:\desktop\whisper>python test.py
我現(xiàn)在正在測試OpenAI Whisper的翻譯效果這里是中文現(xiàn)在是英文EnglishAmericanChinaPeople現(xiàn)在錄制時(shí)長是15分鐘Now this is 18 secondsAnd we will wait for 1 minute我們要一直等到1分鐘這個(gè)視頻結(jié)束來測試一下長視頻的長音頻的翻譯效果3738404142434445464748495054321現(xiàn)在是1分鐘This is 1 minute
3.3 兩者的區(qū)別
用command輸出自動給你按照時(shí)間分類了,python代碼要自己補(bǔ)充
command輸出其他的文件,其中test1.txt是保存的識別的文字文章來源:http://www.zghlxwxcb.cn/news/detail-762943.html
祝大家開心!文章來源地址http://www.zghlxwxcb.cn/news/detail-762943.html
到了這里,關(guān)于無腦018——win11部署whisper,語音轉(zhuǎn)文字的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!