Whisper 是一種通用的語音識別模型。 它是OpenAI于2022年9月份開源的在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的語音識別模型,也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。
GitHub - yeyupiaoling/Whisper-Finetune: 微調(diào)Whisper語音識別模型和加速推理,支持Web部署和Android部署
Whisper Webui - a Hugging Face Space by aadnk
微調(diào)Whisper語音識別模型和加速推理_夜雨飄零1的博客-CSDN博客
Openai-Whisper識別生成語音/視頻字幕文件(支持自動翻譯) - 嗶哩嗶哩
Whisper OpenAI開源語音識別模型_開源語音識別算法_Sanfor的博客-CSDN博客
conda create -n whisper python=3.9
conda activate whisper
pip install git+https://github.com/openai/whisper.git
whisper audio.mp3 --model medium --language Chinese
解決輸出繁體中文不輸出簡體中文問題:
whisper --language Chinese --model large audio.mp3 --initial_prompt "以下是 普通話句子"
就中文而言,Whisper各模型:
- tiny 是沒有做斷句的,或者說,直接根據(jù)停頓斷句
- base 已經(jīng)開始根據(jù)邏輯斷句,但會出語法錯誤
- small 已經(jīng)很少語法錯誤,但斷句水平卻直線下降,很奇怪
- medium 不僅能夠完美的斷句,還能判斷語氣
可以看出,飛書妙記給用戶開放的轉(zhuǎn)寫能力大約在 tiny 到 base 之間(轉(zhuǎn)寫速度也在 tiny 左右,已經(jīng)很快了)
值得指出的是,這里的對比,目的并不是比較二者的技術(shù),否則對于飛書妙計相當(dāng)?shù)牟还?,作為一款消費級應(yīng)用,它不可能給用戶跑medium等級的模型來做轉(zhuǎn)寫
對比的意義是,Whisper,作為一個開源模型,和消費級產(chǎn)品比起來怎么樣?
答案是,完全可以替代,用 small 模型足以實現(xiàn)當(dāng)下的免費體驗了。
甚至,用 medium 以上的模型,可以用「時間」換「好得多的使用體驗」
Whisper—通用的語音識別模型 - 知乎
https://www.bilibili.com/read/cv19254244
openai開源的whisper在huggingface中使用例子(語音轉(zhuǎn)文字中文)_語音識別_qq_37401291-開發(fā)者創(chuàng)業(yè)生態(tài)社區(qū)
OpenAI 開源音頻轉(zhuǎn)文字模型 Whisper 嘗鮮 - 少數(shù)派
Whisper—通用的語音識別模型 - 知乎
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_web
OpenAI 開源語音識別模型 Whisper - OSCHINA - 中文開源技術(shù)交流社區(qū)
OpenAI Whisper中文語音識別效果嘗試和應(yīng)用(一)_迷途的小朋友的博客-CSDN博客文章來源地址http://www.zghlxwxcb.cn/news/detail-582329.html
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision文章來源:http://www.zghlxwxcb.cn/news/detail-582329.html
OpenAI Whisper中文語音識別效果嘗試和應(yīng)用(一)_迷途的小朋友的博客-CSDN博客
到了這里,關(guān)于語音識別開源框架 openAI-whisper的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!