国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別

這篇具有很好參考價(jià)值的文章主要介紹了使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

原文:https://baijiahao.baidu.com/s?id=1756232395896695428&wfr=spider&for=pc

語(yǔ)音識(shí)別是人工智能中的一個(gè)領(lǐng)域,它允許計(jì)算機(jī)理解人類(lèi)語(yǔ)音并將其轉(zhuǎn)換為文本。 該技術(shù)用于 Alexa 和各種聊天機(jī)器人應(yīng)用程序等設(shè)備。 而我們最常見(jiàn)的就是語(yǔ)音轉(zhuǎn)錄,語(yǔ)音轉(zhuǎn)錄可以語(yǔ)音轉(zhuǎn)換為文字記錄或字幕。

wav2vec2、Conformer 和 Hubert 等最先進(jìn)模型的最新發(fā)展極大地推動(dòng)了語(yǔ)音識(shí)別領(lǐng)域的發(fā)展。 這些模型采用無(wú)需人工標(biāo)記數(shù)據(jù)即可從原始音頻中學(xué)習(xí)的技術(shù),從而使它們能夠有效地使用未標(biāo)記語(yǔ)音的大型數(shù)據(jù)集。 它們還被擴(kuò)展為使用多達(dá) 1,000,000 小時(shí)的訓(xùn)練數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過(guò)學(xué)術(shù)監(jiān)督數(shù)據(jù)集中使用的傳統(tǒng) 1,000 小時(shí),但是以監(jiān)督方式跨多個(gè)數(shù)據(jù)集和領(lǐng)域預(yù)訓(xùn)練的模型已被發(fā)現(xiàn)表現(xiàn)出更好的魯棒性和對(duì)持有數(shù)據(jù)集的泛化,所以執(zhí)行語(yǔ)音識(shí)別等任務(wù)仍然需要微調(diào),這限制了它們的全部潛力 。 為了解決這個(gè)問(wèn)題OpenAI 開(kāi)發(fā)了 Whisper,一種利用弱監(jiān)督方法的模型。

本文將解釋用于訓(xùn)練的數(shù)據(jù)集的種類(lèi)以及模型的訓(xùn)練方法。

Whisper 模型介紹

使用數(shù)據(jù)集:

Whisper模型是在68萬(wàn)小時(shí)標(biāo)記音頻數(shù)據(jù)的數(shù)據(jù)集上訓(xùn)練的,其中包括11.7萬(wàn)小時(shí)96種不同語(yǔ)言的演講和12.5萬(wàn)小時(shí)從”任意語(yǔ)言“到英語(yǔ)的翻譯數(shù)據(jù)。該模型利用了互聯(lián)網(wǎng)生成的文本,這些文本是由其他自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)生成而不是人類(lèi)創(chuàng)建的。該數(shù)據(jù)集還包括一個(gè)在VoxLingua107上訓(xùn)練的語(yǔ)言檢測(cè)器,這是從YouTube視頻中提取的短語(yǔ)音片段的集合,并根據(jù)視頻標(biāo)題和描述的語(yǔ)言進(jìn)行標(biāo)記,并帶有額外的步驟來(lái)去除誤報(bào)。

模型:

主要采用的結(jié)構(gòu)是編碼器-解碼器結(jié)構(gòu)。

重采樣:16000 Hz

特征提取方法:使用25毫秒的窗口和10毫秒的步幅計(jì)算80通道的log Mel譜圖表示。

特征歸一化:輸入在全局內(nèi)縮放到-1到1之間,并且在預(yù)訓(xùn)練數(shù)據(jù)集上具有近似為零的平均值。

編碼器/解碼器:該模型的編碼器和解碼器采用Transformers。

編碼器的過(guò)程:

編碼器首先使用一個(gè)包含兩個(gè)卷積層(濾波器寬度為3)的詞干處理輸入表示,使用GELU激活函數(shù)。

第二個(gè)卷積層的步幅為 2。

然后將正弦位置嵌入添加到詞干的輸出中,然后應(yīng)用編碼器 Transformer 塊。

Transformers使用預(yù)激活殘差塊,編碼器的輸出使用歸一化層進(jìn)行歸一化。

模型框圖:

timit_asr,大模型,自然語(yǔ)言,語(yǔ)音識(shí)別,人工智能,深度學(xué)習(xí)

解碼的過(guò)程:

在解碼器中,使用了學(xué)習(xí)位置嵌入和綁定輸入輸出標(biāo)記表示。

編碼器和解碼器具有相同的寬度和數(shù)量的Transformers塊。

訓(xùn)練

為了改進(jìn)模型的縮放屬性,它在不同的輸入大小上進(jìn)行了訓(xùn)練。

通過(guò) FP16、動(dòng)態(tài)損失縮放,并采用數(shù)據(jù)并行來(lái)訓(xùn)練模型。

使用AdamW和梯度范數(shù)裁剪,在對(duì)前 2048 次更新進(jìn)行預(yù)熱后,線性學(xué)習(xí)率衰減為零。

使用 256 個(gè)批大小,并訓(xùn)練模型進(jìn)行 220次更新,這相當(dāng)于對(duì)數(shù)據(jù)集進(jìn)行兩到三次前向傳遞。

由于模型只訓(xùn)練了幾個(gè)輪次,過(guò)擬合不是一個(gè)重要問(wèn)題,并且沒(méi)有使用數(shù)據(jù)增強(qiáng)或正則化技術(shù)。這反而可以依靠大型數(shù)據(jù)集內(nèi)的多樣性來(lái)促進(jìn)泛化和魯棒性。

Whisper 在之前使用過(guò)的數(shù)據(jù)集上展示了良好的準(zhǔn)確性,并且已經(jīng)針對(duì)其他最先進(jìn)的模型進(jìn)行了測(cè)試。

優(yōu)點(diǎn):

  • Whisper 已經(jīng)在真實(shí)數(shù)據(jù)以及其他模型上使用的數(shù)據(jù)以及弱監(jiān)督下進(jìn)行了訓(xùn)練。

  • 模型的準(zhǔn)確性針對(duì)人類(lèi)聽(tīng)眾進(jìn)行了測(cè)試并評(píng)估其性能。

  • 它能夠檢測(cè)清音區(qū)域并應(yīng)用 NLP 技術(shù)在轉(zhuǎn)錄本中正確進(jìn)行標(biāo)點(diǎn)符號(hào)的輸入。

  • 模型是可擴(kuò)展的,允許從音頻信號(hào)中提取轉(zhuǎn)錄本,而無(wú)需將視頻分成塊或批次,從而降低了漏音的風(fēng)險(xiǎn)。

  • 模型在各種數(shù)據(jù)集上取得了更高的準(zhǔn)確率。

Whisper在不同數(shù)據(jù)集上的對(duì)比結(jié)果,相比wav2vec取得了目前最低的詞錯(cuò)誤率

timit_asr,大模型,自然語(yǔ)言,語(yǔ)音識(shí)別,人工智能,深度學(xué)習(xí)

模型沒(méi)有在timit數(shù)據(jù)集上進(jìn)行測(cè)試,所以為了檢查它的單詞錯(cuò)誤率,我們將在這里演示如何使用Whisper來(lái)自行驗(yàn)證timit數(shù)據(jù)集,也就是說(shuō)使用Whisper來(lái)搭建我們自己的語(yǔ)音識(shí)別應(yīng)用。

使用Whisper 模型進(jìn)行語(yǔ)音識(shí)別

TIMIT 閱讀語(yǔ)音語(yǔ)料庫(kù)是語(yǔ)音數(shù)據(jù)的集合,它專(zhuān)門(mén)用于聲學(xué)語(yǔ)音研究以及自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)和評(píng)估。 它包括來(lái)自美國(guó)英語(yǔ)八種主要方言的 630 位演講者的錄音,每人朗讀十個(gè)語(yǔ)音豐富的句子。 語(yǔ)料庫(kù)包括時(shí)間對(duì)齊的拼字、語(yǔ)音和單詞轉(zhuǎn)錄以及每個(gè)語(yǔ)音的 16 位、16kHz 語(yǔ)音波形文件。 該語(yǔ)料庫(kù)由麻省理工學(xué)院 (MIT)、SRI International (SRI) 和德州儀器 (TI) 共同開(kāi)發(fā)。 TIMIT 語(yǔ)料庫(kù)轉(zhuǎn)錄已經(jīng)過(guò)手工驗(yàn)證,并指定了測(cè)試和訓(xùn)練子集,以平衡語(yǔ)音和方言覆蓋范圍。

安裝:

!pip install git+https://github.com/openai/whisper.git
!pip install jiwer
!pip install datasets==1.18.3

第一條命令將安裝whisper模型所需的所有依賴(lài)項(xiàng)。jiwer是用來(lái)下載文字錯(cuò)誤率包的datasets是hugface提供的數(shù)據(jù)集包,可以下載timit數(shù)據(jù)集。

導(dǎo)入庫(kù)

import whisper
from pytube import YouTube
from glob import glob
import os
import pandas as pd
from tqdm.notebook import tqdm

加載timit數(shù)據(jù)集

from datasets import load_dataset, load_metric

timit = load_dataset("timit_asr")

計(jì)算不同模型尺寸下的Word錯(cuò)誤率

考慮到過(guò)濾英語(yǔ)數(shù)據(jù)和非英語(yǔ)數(shù)據(jù)的需求,我們這里選擇使用多語(yǔ)言模型,而不是專(zhuān)門(mén)為英語(yǔ)設(shè)計(jì)的模型。

但是TIMIT數(shù)據(jù)集是純英文的,所以我們要應(yīng)用相同的語(yǔ)言檢測(cè)和識(shí)別過(guò)程。另外就是TIMIT數(shù)據(jù)集已經(jīng)分割好訓(xùn)練和驗(yàn)證集,我們可以直接使用。

要使用Whisper,我們就要先了解不同模型的的參數(shù),大小和速度。

timit_asr,大模型,自然語(yǔ)言,語(yǔ)音識(shí)別,人工智能,深度學(xué)習(xí)

加載模型

model = whisper.load_model('tiny')

tiny可以替換為上面提到的模型名稱(chēng)。

定義語(yǔ)言檢測(cè)器的函數(shù)

def lan_detector(audio_file):
print('reading the audio file')
audio = whisper.load_audio(audio_file)
audio = whisper.pad_or_trim(audio)
mel = whisper.log_mel_spectrogram(audio).to(model.device)
_, probs = model.detect_language(mel)
if max(probs, key=probs.get) == 'en':
return True
return False

轉(zhuǎn)換語(yǔ)音到文本的函數(shù)

def speech2text(audio_file):
text = model.transcribe(audio_file)
return text["text"]

在不同模型大小下運(yùn)行上面的函數(shù),timit訓(xùn)練和測(cè)試得到的單詞錯(cuò)誤率如下:

timit_asr,大模型,自然語(yǔ)言,語(yǔ)音識(shí)別,人工智能,深度學(xué)習(xí)

從u2b上轉(zhuǎn)錄語(yǔ)音

與其他語(yǔ)音識(shí)別模型相比,Whisper 不僅能識(shí)別語(yǔ)音,還能解讀一個(gè)人語(yǔ)音中的標(biāo)點(diǎn)語(yǔ)調(diào),并插入適當(dāng)?shù)臉?biāo)點(diǎn)符號(hào),我們下面使用u2b的視頻進(jìn)行測(cè)試。

這里就需要一個(gè)包pytube,它可以輕松的幫助我們下載和提取音頻

def youtube_audio(link):
youtube_1 = YouTube(link)
videos = youtube_1.streams.filter(only_audio=True)

name = str(link.split('=')[-1])
out_file = videos[0].download(name)

link = name.split('=')[-1]
new_filename = link+".wav"
print(new_filename)
os.rename(out_file, new_filename)
print(name)
return new_filename,link

獲得wav文件后,我們就可以應(yīng)用上面的函數(shù)從中提取文本。

總結(jié)

本文的代碼在這里

https://avoid.overfit.cn/post/acab33d88ef54228ad50b8a66324659f

還有許多操作可以用Whisper完成,你可以根據(jù)本文的代碼自行嘗試。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-778708.html

到了這里,關(guān)于使用OpenAI的Whisper 模型進(jìn)行語(yǔ)音識(shí)別的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • OpenAI-whisper語(yǔ)音識(shí)別模型

    OpenAI-whisper語(yǔ)音識(shí)別模型

    Whisper是一個(gè)通用的語(yǔ)音識(shí)別模型。它是在不同音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別。 whisper有五種模型尺寸,提供速度和準(zhǔn)確性的平衡,其中English-only模型提供了四種選擇。下面是可用模型的名稱(chēng)、大致內(nèi)存需求

    2024年02月09日
    瀏覽(100)
  • 基于OpenAI的Whisper構(gòu)建的高效語(yǔ)音識(shí)別模型:faster-whisper

    基于OpenAI的Whisper構(gòu)建的高效語(yǔ)音識(shí)別模型:faster-whisper

    faster-whisper是基于OpenAI的Whisper模型的高效實(shí)現(xiàn),它利用CTranslate2,一個(gè)專(zhuān)為T(mén)ransformer模型設(shè)計(jì)的快速推理引擎。這種實(shí)現(xiàn)不僅提高了語(yǔ)音識(shí)別的速度,還優(yōu)化了內(nèi)存使用效率。faster-whisper的核心優(yōu)勢(shì)在于其能夠在保持原有模型準(zhǔn)確度的同時(shí),大幅提升處理速度,這使得它在處理

    2024年02月02日
    瀏覽(95)
  • OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3

    OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3

    在11月7日OpenAI的首屆開(kāi)發(fā)者大會(huì)上,除了推出一系列重磅產(chǎn)品之外,還開(kāi)源了兩款產(chǎn)品,全新解碼器Consistency Decoder(一致性解碼器)和最新語(yǔ)音識(shí)別模型Whisper v3。 據(jù)悉,Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,

    2024年02月05日
    瀏覽(92)
  • OpenAI開(kāi)源語(yǔ)音識(shí)別模型Whisper在Windows系統(tǒng)的安裝詳細(xì)過(guò)程

    OpenAI開(kāi)源語(yǔ)音識(shí)別模型Whisper在Windows系統(tǒng)的安裝詳細(xì)過(guò)程

    Python的安裝很簡(jiǎn)單,點(diǎn)擊這里進(jìn)行下載。 安裝完成之后,輸入python -V可以看到版本信息,說(shuō)明已經(jīng)安裝成功了。 如果輸入python -V命令沒(méi)有看到上面的這樣的信息,要么是安裝失敗,要么是安裝好之后沒(méi)有自動(dòng)配置環(huán)境變量,如何配置環(huán)境變量可以從網(wǎng)上搜索。 Python的具體安

    2024年02月08日
    瀏覽(90)
  • 在 Python 中使用 OpenAI 的新 Whisper API 進(jìn)行語(yǔ)音轉(zhuǎn)文本

    在 Python 中使用 OpenAI 的新 Whisper API 進(jìn)行語(yǔ)音轉(zhuǎn)文本

    您是否厭倦了手動(dòng)轉(zhuǎn)錄數(shù)小時(shí)的錄音?您想節(jié)省時(shí)間并提高工作效率嗎?然后,您會(huì)很高興聽(tīng)到 OpenAI 用于語(yǔ)音到文本轉(zhuǎn)換的新 Whisper API!借助這項(xiàng)尖端的 AI 技術(shù),您現(xiàn)在可以在 Python 程序中輕松地將音頻文件轉(zhuǎn)換為文本。讓我們?cè)谙旅嫣接戇@是如何工作的! 創(chuàng)建一個(gè)新文件

    2024年02月09日
    瀏覽(93)
  • 【語(yǔ)音識(shí)別】OpenAI whisper

    【語(yǔ)音識(shí)別】OpenAI whisper

    目錄 1. 簡(jiǎn)單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開(kāi)源自動(dòng)語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月13日
    瀏覽(90)
  • OpenAI 開(kāi)源語(yǔ)音識(shí)別 Whisper

    OpenAI 開(kāi)源語(yǔ)音識(shí)別 Whisper

    ????????Whisper是一個(gè)通用語(yǔ)音識(shí)別模型。它是在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個(gè)多任務(wù)模型,可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯和語(yǔ)言識(shí)別。???????? ???????人工智能公司 OpenAI?擁有 GTP-3 語(yǔ)言模型,并為 GitHub Copilot 提供技術(shù)支持的 ,宣布開(kāi)源了

    2024年02月09日
    瀏覽(111)
  • openai的whisper語(yǔ)音識(shí)別介紹

    openai的whisper語(yǔ)音識(shí)別介紹

    openAI發(fā)布了chatgpt,光環(huán)一時(shí)無(wú)兩。但是openAI不止有這一個(gè)項(xiàng)目,它的其他項(xiàng)目也非常值得我們?nèi)パ芯繉W(xué)習(xí)。 今天說(shuō)說(shuō)這個(gè)whisper項(xiàng)目 https://github.com/openai/whisper ta是關(guān)于語(yǔ)音識(shí)別的。它提出了一種通過(guò)大規(guī)模的弱監(jiān)督來(lái)實(shí)現(xiàn)的語(yǔ)音識(shí)別的方法。弱監(jiān)督是指使用不完全或不準(zhǔn)確的

    2024年02月09日
    瀏覽(86)
  • 語(yǔ)音識(shí)別開(kāi)源框架 openAI-whisper

    Whisper 是一種通用的語(yǔ)音識(shí)別模型。 它是OpenAI于2022年9月份開(kāi)源的在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的語(yǔ)音識(shí)別模型,也是一個(gè)可以執(zhí)行多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別的多任務(wù)模型。 GitHub - yeyupiaoling/Whisper-Finetune: 微調(diào)Whisper語(yǔ)音識(shí)別模型和加速推理,支持Web部署和Andr

    2024年02月17日
    瀏覽(97)
  • OpenAI開(kāi)源??!Whisper語(yǔ)音識(shí)別實(shí)戰(zhàn)??!【環(huán)境配置+代碼實(shí)現(xiàn)】

    OpenAI開(kāi)源??!Whisper語(yǔ)音識(shí)別實(shí)戰(zhàn)??!【環(huán)境配置+代碼實(shí)現(xiàn)】

    目錄 環(huán)境配置 代碼實(shí)現(xiàn) ******? 實(shí)現(xiàn) .mp4轉(zhuǎn)換為 .wav文件,識(shí)別后進(jìn)行匹配并輸出出現(xiàn)的次數(shù) ******? 完整代碼實(shí)現(xiàn)請(qǐng)私信 安裝 ffmpeg 打開(kāi)網(wǎng)址? ?https://github.com/BtbN/FFmpeg-Builds/releases 下載如下圖所示的文件 下載后解壓 ?我的路徑是G:ffmpeg-master-latest-win64-gpl-shared

    2024年02月13日
    瀏覽(25)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包