国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<sub id="vlbz3"><thead id="vlbz3"><li id="vlbz3"></li></thead></sub>

<delect id="vlbz3"></delect>

Whisper實現(xiàn)語音識別轉(zhuǎn)文本

2年前作者：劍舞飛花分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了Whisper實現(xiàn)語音識別轉(zhuǎn)文本。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

#教程

主要參考開源免費離線語音識別神器whisper如何安裝，
OpenAI開源模型Whisper——音頻轉(zhuǎn)文字

Whisper是一個開源的自動語音識別系統(tǒng)，它在網(wǎng)絡(luò)上收集了680,000小時的多語種和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，使得它可以將多種語言的音頻轉(zhuǎn)文字。

Whisper的好處是開源免費、支持多語種（包括中文），有不同模型可供選擇，最終的效果比市面上很多音頻轉(zhuǎn)文字的效果都要好。

Whisper目前有5個模型，隨著參數(shù)的變多，轉(zhuǎn)文字的理解性和準(zhǔn)確性會提高，但相應(yīng)速度會變慢：

openwhisper 實現(xiàn)同步轉(zhuǎn)義,whisper,語音識別,人工智能

這篇文章會介紹怎樣安裝和使用Whisper進(jìn)行音頻轉(zhuǎn)文字。

系統(tǒng)環(huán)境

官方說他們使用的是Python 3.9.9 and PyTorch 1.10.1來訓(xùn)練和檢驗的程序，但預(yù)計兼容python 3.7以后的版本和pytorch近期更新版本。大家在安裝whisper的時候請盡量保證python版本與官方一致或更新版本，或者至少是3.7版本以后，這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯誤。本文測試系統(tǒng)為windows1064位、python版本3.9.13和windows10 64位、python3.7.5版本.

安裝步驟

它還需要一些依賴。比如ffmpeg、pytorch等。本文沒涉及python的安裝，默認(rèn)讀者是已經(jīng)安裝好python的，如果你不會安裝python的話，建議去視頻平臺搜索安裝教程，安裝好后再來進(jìn)行下面的步驟。

1、安裝chocolatey

安裝chocolatey是為了后面方便在Windows中安裝ffmpeg。

chocolatey安裝
以管理員身份打開Powershell,運行：

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

2、安裝ffmpeg

安裝好chocolatey后，以管理員身份打開Powershell，輸入：

choco install ffmpeg

3.pytorch的安裝

這里我們使用pip安裝。

打開pytorch.org,下拉頁面。

按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版，windows系統(tǒng)，pip安裝方式，python語言、cpu版本的軟件。

openwhisper 實現(xiàn)同步轉(zhuǎn)義,whisper,語音識別,人工智能

選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。在命令行界面運行

pip3 install torch torchvision torchaudio

安裝pytorch，安裝好后這一步也就完成了。

4.whisper的安裝

以上步驟都完成后。按照官方文檔，先運行

pip install git+https://github.com/openai/whisper.git

然后再運行

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

完成whisper的安裝。

whisper的簡單使用

我們準(zhǔn)備一段音頻，使用whisper將其轉(zhuǎn)換成文字。以此音頻為例：

https://wwvx.lanzoul.com/i2lvw0jrippa

在音頻所在文件夾中右鍵打開cmd窗口。（如果是win10的話就在文件夾的空白處按住shift，然后鼠標(biāo)右鍵單擊，打開powershell窗口）

輸入whisper audio.mp3，回車運行。在命令行窗口中顯示的是轉(zhuǎn)寫結(jié)果，同時在當(dāng)前文件夾下生成三個字幕文件。以下是三種格式的對比。

更換轉(zhuǎn)寫模型

以上whisper audio.mp3的命令形式是最簡單的一種，它默認(rèn)使用的是small模式的模型轉(zhuǎn)寫，我們還可以使用更高等級的模型來提高正確率。比如

whisper audio.mp3 --model medium

medium模型耗費時間更長，但也更精準(zhǔn)。一般而言，綜合權(quán)衡速度與精準(zhǔn)度，選擇small也夠用了，如果你對語言識別的精準(zhǔn)度高可以使用medium，medium的精準(zhǔn)度已經(jīng)相當(dāng)高了，如我文章開頭所說，我用medium模式識別了我讀的一段5min的音頻，400多字。正確率基本百分百，只錯了2個英文單詞，還是因為我發(fā)音不準(zhǔn)，尷尬。

當(dāng)然還有其他的模型可供選擇，可以在命令行運行whisper --help查看幫助。有以下11種模式可供選擇。

[--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]

結(jié)語

本文簡單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡單用法。

關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法，如果你會使用python，也可以使用以下代碼來運行whisper。

import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

了解更多請參考官方文檔。

https://github.com/openai/whisper

或者如果你想要在網(wǎng)頁上運行whisper，可以安裝Whisper Webui。可以參考：文章來源地址http://www.zghlxwxcb.cn/news/detail-841460.html

https://www.bilibili.com/read/cv19254244

到了這里，關(guān)于Whisper實現(xiàn)語音識別轉(zhuǎn)文本的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【小沐學(xué)Python】Python實現(xiàn)語音識別（Whisper）
https://github.com/openai/whisper Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的，也是一個多任務(wù)模型，可以執(zhí)行多語言語音識別、語音翻譯和語言識別。 Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò)，且它亦支
2024年02月04日
瀏覽(1050)
OpenAI開源！！Whisper語音識別實戰(zhàn)！！【環(huán)境配置+代碼實現(xiàn)】
目錄環(huán)境配置代碼實現(xiàn) ******? 實現(xiàn) .mp4轉(zhuǎn)換為 .wav文件，識別后進(jìn)行匹配并輸出出現(xiàn)的次數(shù) ******? 完整代碼實現(xiàn)請私信安裝 ffmpeg 打開網(wǎng)址? ?https://github.com/BtbN/FFmpeg-Builds/releases 下載如下圖所示的文件下載后解壓 ?我的路徑是G:ffmpeg-master-latest-win64-gpl-shared
2024年02月13日
瀏覽(25)
免費的語音識別 API：簡單實現(xiàn)語音轉(zhuǎn)文本功能
語音識別技術(shù)在現(xiàn)代信息處理和人機交互中扮演著重要角色。如果您正在尋找免費的語音識別 API，那么您來對地方了！本文將向您介紹一個簡單的方法來實現(xiàn)語音轉(zhuǎn)文本的功能，并提供相應(yīng)的源代碼供參考。首先，您需要使用 Python 編程語言來實現(xiàn)這個功能。Python 提供了許
2024年02月03日
瀏覽(14)
【Python實用API】語音轉(zhuǎn)文本-whisper
（1）起因：最近在油管上下載視頻，但是下載后發(fā)現(xiàn)兩個問題，一是下載的視頻無字幕；二是找了半天油管的字幕下載途徑，結(jié)果發(fā)現(xiàn)下載的字幕的提取效果不太好。于是乎發(fā)現(xiàn)OpenAI發(fā)布的字幕提取開源庫Whisper可解決我的問題，因此寫此博文只是為了記錄我學(xué)習(xí)的過程，
2024年04月13日
瀏覽(21)
小程序中使用微信同聲傳譯插件實現(xiàn)語音識別、語音合成、文本翻譯功能----語音識別（一）
官方文檔鏈接：https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后臺的設(shè)置-第三方設(shè)置-插件管理中添加插件，目前該插件僅認(rèn)證后的小程序。提供語音的實時流式識別能力，通過獲取全局唯一的語音識別管理器rec
2024年01月19日
瀏覽(113)
OpenAI Whisper 語音識別 API 模型使用 | python 語音識別
OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外，又推出了一個 Whisper 的語音識別模型。支持96種語言。 Python 安裝 openai 庫后，把需要翻譯的音頻目錄放進(jìn)去，運行程序即可生成音頻對應(yīng)的文字。以上。
2024年02月16日
瀏覽(93)
語音識別whisper
Whisper是一個通用的語音識別模型，它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練，能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性1。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)2。Whisper的架構(gòu)是一個簡單的端到端方法，采用了編碼器-解碼器
2024年02月12日
瀏覽(19)
語音識別 - ASR whisper
目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用
2024年02月12日
瀏覽(22)
Whisper 語音識別模型
Whisper 語音識別模型 Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的，也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。開源項目地址：https://github.com/openai/whisper Whisper 語音識別模型 Transformer 序列到序列模型針對各種語音
2024年02月16日
瀏覽(25)
【語音識別】OpenAI whisper
目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用
2024年02月13日
瀏覽(90)

<sub id="fz5pq"></sub>

<form id="fz5pq"></form>

<abbr id="fz5pq"></abbr>