国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Whisper實現(xiàn)語音識別轉(zhuǎn)文本

這篇具有很好參考價值的文章主要介紹了Whisper實現(xiàn)語音識別轉(zhuǎn)文本。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

#教程

主要參考開源免費離線語音識別神器whisper如何安裝,
OpenAI開源模型Whisper——音頻轉(zhuǎn)文字

Whisper是一個開源的自動語音識別系統(tǒng),它在網(wǎng)絡(luò)上收集了680,000小時的多語種和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,使得它可以將多種語言的音頻轉(zhuǎn)文字。

Whisper的好處是開源免費、支持多語種(包括中文),有不同模型可供選擇,最終的效果比市面上很多音頻轉(zhuǎn)文字的效果都要好。

Whisper目前有5個模型,隨著參數(shù)的變多,轉(zhuǎn)文字的理解性和準(zhǔn)確性會提高,但相應(yīng)速度會變慢:

openwhisper 實現(xiàn)同步轉(zhuǎn)義,whisper,語音識別,人工智能

這篇文章會介紹怎樣安裝和使用Whisper進(jìn)行音頻轉(zhuǎn)文字。

系統(tǒng)環(huán)境

官方說他們使用的是Python 3.9.9 and PyTorch 1.10.1來訓(xùn)練和檢驗的程序,但預(yù)計兼容python 3.7以后的版本和pytorch近期更新版本。 大家在安裝whisper的時候請盡量保證python版本與官方一致或更新版本,或者至少是3.7版本以后,這樣可以避免一些版本不同導(dǎo)致的莫名奇妙的錯誤。 本文測試系統(tǒng)為windows1064位、python版本3.9.13和windows10 64位、python3.7.5版本.

安裝步驟

它還需要一些依賴。比如ffmpeg、pytorch等。本文沒涉及python的安裝,默認(rèn)讀者是已經(jīng)安裝好python的,如果你不會安裝python的話,建議去視頻平臺搜索安裝教程,安裝好后再來進(jìn)行下面的步驟。

1、安裝chocolatey

安裝chocolatey是為了后面方便在Windows中安裝ffmpeg。

chocolatey安裝
以管理員身份打開Powershell,運行:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

2、安裝ffmpeg

安裝好chocolatey后,以管理員身份打開Powershell,輸入:

choco install ffmpeg

3.pytorch的安裝

這里我們使用pip安裝。

打開pytorch.org,下拉頁面。

按照下圖選擇要安裝的版本。我選擇的是穩(wěn)定版,windows系統(tǒng),pip安裝方式,python語言、cpu版本的軟件。

openwhisper 實現(xiàn)同步轉(zhuǎn)義,whisper,語音識別,人工智能

選擇好后上圖中框選的那行代碼就是使用pip安裝pytorch的命令。 在命令行界面運行

pip3 install torch torchvision torchaudio

安裝pytorch,安裝好后這一步也就完成了。

4.whisper的安裝

以上步驟都完成后。 按照官方文檔,先運行

pip install git+https://github.com/openai/whisper.git

然后再運行

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

完成whisper的安裝。

whisper的簡單使用

我們準(zhǔn)備一段音頻,使用whisper將其轉(zhuǎn)換成文字。 以此音頻為例:

  • https://wwvx.lanzoul.com/i2lvw0jrippa

音頻所在文件夾中右鍵打開cmd窗口。 (如果是win10的話就在文件夾的空白處按住shift,然后鼠標(biāo)右鍵單擊,打開powershell窗口)

輸入whisper audio.mp3,回車運行。在命令行窗口中顯示的是轉(zhuǎn)寫結(jié)果,同時在當(dāng)前文件夾下生成三個字幕文件。以下是三種格式的對比。

更換轉(zhuǎn)寫模型

以上whisper audio.mp3的命令形式是最簡單的一種,它默認(rèn)使用的是small模式的模型轉(zhuǎn)寫,我們還可以使用更高等級的模型來提高正確率。 比如

whisper audio.mp3 --model medium

medium模型耗費時間更長,但也更精準(zhǔn)。一般而言,綜合權(quán)衡速度與精準(zhǔn)度,選擇small也夠用了,如果你對語言識別的精準(zhǔn)度高可以使用medium,medium的精準(zhǔn)度已經(jīng)相當(dāng)高了,如我文章開頭所說,我用medium模式識別了我讀的一段5min的音頻,400多字。正確率基本百分百,只錯了2個英文單詞,還是因為我發(fā)音不準(zhǔn),尷尬。

當(dāng)然還有其他的模型可供選擇,可以在命令行運行whisper --help查看幫助。 有以下11種模式可供選擇。

[--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]

結(jié)語

本文簡單介紹了whisper的用途、在windows系統(tǒng)下安裝部署whisper的方法以及whisper的簡單用法。

關(guān)于whisper的使用部分僅介紹了命令行模式的使用方法,如果你會使用python,也可以使用以下代碼來運行whisper。

import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

了解更多請參考官方文檔。

  • https://github.com/openai/whisper

或者如果你想要在網(wǎng)頁上運行whisper,可以安裝Whisper Webui。 可以參考:文章來源地址http://www.zghlxwxcb.cn/news/detail-841460.html

  • https://www.bilibili.com/read/cv19254244

到了這里,關(guān)于Whisper實現(xiàn)語音識別轉(zhuǎn)文本的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【小沐學(xué)Python】Python實現(xiàn)語音識別(Whisper)

    【小沐學(xué)Python】Python實現(xiàn)語音識別(Whisper)

    https://github.com/openai/whisper Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別、語音翻譯和語言識別。 Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支

    2024年02月04日
    瀏覽(1050)
  • OpenAI開源?。hisper語音識別實戰(zhàn)??!【環(huán)境配置+代碼實現(xiàn)】

    OpenAI開源!!Whisper語音識別實戰(zhàn)!!【環(huán)境配置+代碼實現(xiàn)】

    目錄 環(huán)境配置 代碼實現(xiàn) ******? 實現(xiàn) .mp4轉(zhuǎn)換為 .wav文件,識別后進(jìn)行匹配并輸出出現(xiàn)的次數(shù) ******? 完整代碼實現(xiàn)請私信 安裝 ffmpeg 打開網(wǎng)址? ?https://github.com/BtbN/FFmpeg-Builds/releases 下載如下圖所示的文件 下載后解壓 ?我的路徑是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    瀏覽(25)
  • 免費的語音識別 API:簡單實現(xiàn)語音轉(zhuǎn)文本功能

    語音識別技術(shù)在現(xiàn)代信息處理和人機交互中扮演著重要角色。如果您正在尋找免費的語音識別 API,那么您來對地方了!本文將向您介紹一個簡單的方法來實現(xiàn)語音轉(zhuǎn)文本的功能,并提供相應(yīng)的源代碼供參考。 首先,您需要使用 Python 編程語言來實現(xiàn)這個功能。Python 提供了許

    2024年02月03日
    瀏覽(14)
  • 【Python實用API】語音轉(zhuǎn)文本-whisper

    【Python實用API】語音轉(zhuǎn)文本-whisper

    (1)起因 :最近在油管上下載視頻,但是下載后發(fā)現(xiàn)兩個問題,一是下載的視頻無字幕;二是找了半天油管的字幕下載途徑,結(jié)果發(fā)現(xiàn)下載的字幕的提取效果不太好。于是乎發(fā)現(xiàn)OpenAI發(fā)布的 字幕提取 開源庫Whisper可解決我的問題,因此寫此博文只是為了記錄我學(xué)習(xí)的過程,

    2024年04月13日
    瀏覽(21)
  • 小程序中使用微信同聲傳譯插件實現(xiàn)語音識別、語音合成、文本翻譯功能----語音識別(一)

    小程序中使用微信同聲傳譯插件實現(xiàn)語音識別、語音合成、文本翻譯功能----語音識別(一)

    官方文檔鏈接:https://mp.weixin.qq.com/wxopen/plugindevdoc?appid=wx069ba97219f66d99token=370941954lang=zh_CN#- 要使用插件需要先在小程序管理后臺的 設(shè)置-第三方設(shè)置-插件管理 中添加插件,目前該插件僅認(rèn)證后的小程序。 提供語音的實時流式識別能力,通過獲取全局唯一的語音識別管理器rec

    2024年01月19日
    瀏覽(113)
  • OpenAI Whisper 語音識別 API 模型使用 | python 語音識別

    OpenAI 除了 ChatGPT 的 GPT3.5 API 更新之外,又推出了一個 Whisper 的語音識別模型。支持96種語言。 Python 安裝 openai 庫后,把需要翻譯的音頻目錄放進(jìn)去,運行程序即可生成音頻對應(yīng)的文字。 以上。

    2024年02月16日
    瀏覽(93)
  • 語音識別whisper

    Whisper是一個通用的語音識別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性1。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)2。Whisper的架構(gòu)是一個簡單的端到端方法,采用了編碼器-解碼器

    2024年02月12日
    瀏覽(19)
  • 語音識別 - ASR whisper

    語音識別 - ASR whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月12日
    瀏覽(22)
  • Whisper 語音識別模型

    Whisper 語音識別模型 Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。 開源項目地址:https://github.com/openai/whisper Whisper 語音識別模型 Transformer 序列到序列模型針對各種語音

    2024年02月16日
    瀏覽(25)
  • 【語音識別】OpenAI whisper

    【語音識別】OpenAI whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月13日
    瀏覽(90)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包