記錄第一個(gè)復(fù)現(xiàn)的實(shí)時(shí)whisper語(yǔ)音轉(zhuǎn)文字demo

2年前作者：一個(gè)女橙續(xù)圓分類：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了記錄第一個(gè)復(fù)現(xiàn)的實(shí)時(shí)whisper語(yǔ)音轉(zhuǎn)文字demo。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

使用的源碼來(lái)自于github: GitHub - davabase/whisper_real_time: Real time transcription with OpenAI Whisper.

安裝speech_recognition時(shí)需要安裝依賴包PyAudio、pocketsphinx

還需要安裝ffmpeg-python否則會(huì)報(bào)錯(cuò)

運(yùn)行效果如下：

記錄第一個(gè)復(fù)現(xiàn)的實(shí)時(shí)whisper語(yǔ)音轉(zhuǎn)文字demo,whisper,語(yǔ)音識(shí)別,人工智能,python,pip

?點(diǎn)擊運(yùn)行程序后出現(xiàn)model loaded 沒有錯(cuò)誤然后直接對(duì)著麥克風(fēng)說話即可文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-605889.html

到了這里，關(guān)于記錄第一個(gè)復(fù)現(xiàn)的實(shí)時(shí)whisper語(yǔ)音轉(zhuǎn)文字demo的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[python]基于faster whisper實(shí)時(shí)語(yǔ)音識(shí)別語(yǔ)音轉(zhuǎn)文本
語(yǔ)音識(shí)別轉(zhuǎn)文本相信很多人都用過，不管是手機(jī)自帶，還是騰訊視頻都附帶有此功能，今天簡(jiǎn)單說下： faster whisper地址： https://github.com/SYSTRAN/faster-whisper https://link.zhihu.com/?target=https%3A//github.com/SYSTRAN/faster-whisper 實(shí)現(xiàn)功能：從麥克風(fēng)獲取聲音進(jìn)行實(shí)時(shí)語(yǔ)音識(shí)別轉(zhuǎn)文本代碼僅僅
2024年02月03日
瀏覽(33)
中文語(yǔ)音識(shí)別轉(zhuǎn)文字的王者,阿里達(dá)摩院FunAsr足可與Whisper相頡頑
君不言語(yǔ)音識(shí)別技術(shù)則已，言則必稱Whisper，沒錯(cuò)，OpenAi開源的Whisper確實(shí)是世界主流語(yǔ)音識(shí)別技術(shù)的魁首，但在中文領(lǐng)域，有一個(gè)足以和Whisper相頡頑的項(xiàng)目，那就是阿里達(dá)摩院自研的FunAsr。 FunAsr主要依托達(dá)摩院發(fā)布的Paraformer非自回歸端到端語(yǔ)音識(shí)別模型，它具有高精度、高
2024年02月03日
瀏覽(26)
語(yǔ)音識(shí)別whisper的介紹、安裝、錯(cuò)誤記錄
Whisper是OpenAI于2022年9月份開源的通用的語(yǔ)音識(shí)別模型。它是在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的模型，也是一個(gè)可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別的多任務(wù)模型。論文鏈接：https://arxiv.org/abs/2212.04356 github鏈接：https://github.com/openai/whisper Whisper主要是基于Pytorch實(shí)現(xiàn)，
2024年02月08日
瀏覽(15)
Windows 實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字|免費(fèi)語(yǔ)音視頻翻譯轉(zhuǎn)文字|語(yǔ)音會(huì)議記錄方案
? ? ? ? 經(jīng)常在網(wǎng)站瀏覽視頻的時(shí)想要把文字摘錄成文本,但是實(shí)現(xiàn)這樣的方案往往很復(fù)雜,怎么把實(shí)時(shí)語(yǔ)音或視頻等會(huì)議記錄轉(zhuǎn)換成文本呢？有了這樣的需求那么就得找解決方案? ?? ? ? ? ? 1.???將視頻下載到本地磁盤通過第三方語(yǔ)音轉(zhuǎn)文字工具實(shí)現(xiàn) ? ? ? ? 2.???實(shí)時(shí)
2023年04月25日
瀏覽(20)
基于whisper的語(yǔ)音轉(zhuǎn)文字（視頻字幕）
由于之前在學(xué)習(xí)油管的視頻的時(shí)候，發(fā)現(xiàn)沒有字幕，自己的口語(yǔ)聽力又不太好，所以，打算開發(fā)一個(gè)能夠語(yǔ)音或者視頻里面，提取出字幕的軟件。在尋找了很多的開源倉(cāng)庫(kù)，發(fā)現(xiàn)了openai早期發(fā)布的whisper 原倉(cāng)庫(kù)鏈接如下 openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervis
2024年02月08日
瀏覽(22)
whisper 強(qiáng)大且開源的語(yǔ)音轉(zhuǎn)文字
說起來(lái)語(yǔ)音轉(zhuǎn)換文字，openai旗下的whisper很是好用，推理也很快，同時(shí)支持cpu和GPU。 GitHub：GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision 相關(guān)的參數(shù)和內(nèi)存使用如下： Size Parameters English-only model Multilingual model Required VRAM Relative speed tiny 39 M tiny.en tiny ~1 GB ~32x
2024年02月10日
瀏覽(22)
使用openai-whisper實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字
FFmpeg是一套可以用來(lái)記錄、轉(zhuǎn)換數(shù)字音頻、視頻，并能將其轉(zhuǎn)化為流的開源計(jì)算機(jī)程序。采用LGPL或GPL許可證。它提供了錄制、轉(zhuǎn)換以及流化音視頻的完整解決方案。在官網(wǎng)上選擇windows版本在GitHub上可以選擇最新版本，選擇 ffmpeg-master-latest-win64-gpl.zip ；如果python程序出現(xiàn)“
2024年02月20日
瀏覽(21)
【openAI】Whisper如何高效語(yǔ)音轉(zhuǎn)文字（詳細(xì)教程）
語(yǔ)音轉(zhuǎn)文字在許多不同領(lǐng)域都有著廣泛的應(yīng)用。以下是一些例子： 1.字幕制作：語(yǔ)音轉(zhuǎn)文字可以幫助視頻制作者快速制作字幕，這在影視行業(yè)和網(wǎng)絡(luò)視頻領(lǐng)域非常重要。通過使用語(yǔ)音轉(zhuǎn)文字工具，字幕制作者可以更快地生成字幕，從而縮短制作時(shí)間，節(jié)省人工成本，并提高制
2024年02月09日
瀏覽(19)
無(wú)腦018——win11部署whisper，語(yǔ)音轉(zhuǎn)文字
安裝pytorch 安裝whisper 因?yàn)槲业碾娔X是GTX 1060 顯存只有6G 最大運(yùn)行的模型是medium 所以去官網(wǎng)下載medium.pt模型連接在這里： https://github.com/openai/whisper/blob/main/whisper/ init .py 然后自己錄制一段mp3格式的音頻放在如下文件夾中 G:desktopwhisper 打開conda窗口，進(jìn)入該文件夾，用command窗
2024年02月04日
瀏覽(15)
Buzz語(yǔ)音轉(zhuǎn)文字安裝使用(含Whisper模型下載)
Transcribe and translate audio offline on your personal computer. Powered by OpenAI’s Whisper. 轉(zhuǎn)錄和翻譯音頻離線在您的個(gè)人計(jì)算機(jī)。由OpenAI的Whisper提供動(dòng)力。可以簡(jiǎn)單理解為QT的前端界面，python語(yǔ)言構(gòu)建服務(wù)端，使用Whisper語(yǔ)言模型進(jìn)行計(jì)算語(yǔ)音轉(zhuǎn)文字的軟件。痛點(diǎn)在于離線，缺點(diǎn)也很明顯，
2024年02月05日
瀏覽(21)