国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OpenAI的人工智能語音識別模型Whisper詳解及使用

2年前作者：AI醫(yī)療分類：Toy博客閱讀(94)違法舉報

這篇具有很好參考價值的文章主要介紹了OpenAI的人工智能語音識別模型Whisper詳解及使用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1 whisper介紹

????????擁有ChatGPT語言模型的OpenAI公司，開源了 Whisper 自動語音識別系統(tǒng)，OpenAI 強調 Whisper 的語音識別能力已達到人類水準。

????????Whisper是一個通用的語音識別模型，它使用了大量的多語言和多任務的監(jiān)督數(shù)據(jù)來訓練，能夠在英語語音識別上達到接近人類水平的魯棒性和準確性。Whisper還可以進行多語言語音識別、語音翻譯和語言識別等任務。Whisper的架構是一個簡單的端到端方法，采用了編碼器-解碼器的Transformer模型，將輸入的音頻轉換為對應的文本序列，并根據(jù)特殊的標記來指定不同的任務。

????????Whisper 是一個自動語音識別（ASR，Automatic Speech Recognition）系統(tǒng)，OpenAI 通過從網絡上收集了 68 萬小時的多語言（98 種語言）和多任務（multitask）監(jiān)督數(shù)據(jù)對 Whisper 進行了訓練。OpenAI 認為使用這樣一個龐大而多樣的數(shù)據(jù)集，可以提高對口音、背景噪音和技術術語的識別能力。除了可以用于語音識別，Whisper 還能實現(xiàn)多種語言的轉錄，以及將這些語言翻譯成英語。OpenAI 開放模型和推理代碼，希望開發(fā)者可以將 Whisper 作為建立有用的應用程序和進一步研究語音處理技術的基礎。

??????? 代碼地址：代碼地址

2 whisper模型

2.1 使用數(shù)據(jù)集

Whisper模型是在68萬小時標記音頻數(shù)據(jù)的數(shù)據(jù)集上訓練的，其中包括11.7萬小時96種不同語言的演講和12.5萬小時從”任意語言“到英語的翻譯數(shù)據(jù)。該模型利用了互聯(lián)網生成的文本，這些文本是由其他自動語音識別系統(tǒng)(ASR)生成而不是人類創(chuàng)建的。該數(shù)據(jù)集還包括一個在VoxLingua107上訓練的語言檢測器，這是從YouTube視頻中提取的短語音片段的集合，并根據(jù)視頻標題和描述的語言進行標記，并帶有額外的步驟來去除誤報。

2.2 模型

主要采用的結構是編碼器-解碼器結構。

重采樣:16000 Hz

特征提取方法:使用25毫秒的窗口和10毫秒的步幅計算80通道的log Mel譜圖表示。

特征歸一化:輸入在全局內縮放到-1到1之間，并且在預訓練數(shù)據(jù)集上具有近似為零的平均值。

編碼器/解碼器:該模型的編碼器和解碼器采用Transformers。

編碼器的過程

編碼器首先使用一個包含兩個卷積層(濾波器寬度為3)的詞干處理輸入表示，使用GELU激活函數(shù)。

第二個卷積層的步幅為 2。

然后將正弦位置嵌入添加到詞干的輸出中，然后應用編碼器 Transformer 塊。

Transformers使用預激活殘差塊，編碼器的輸出使用歸一化層進行歸一化。

模型結構

OpenAI的人工智能語音識別模型Whisper詳解及使用

解碼的過程

在解碼器中，使用了學習位置嵌入和綁定輸入輸出標記表示。

編碼器和解碼器具有相同的寬度和數(shù)量的Transformers塊。

2.3 訓練

輸入的音頻被分割成 30 秒的小段、轉換為 log-Mel 頻譜圖，然后傳遞到編碼器。解碼器經過訓練以預測相應的文字說明，并與特殊的標記進行混合，這些標記指導單一模型執(zhí)行諸如語言識別、短語級別的時間戳、多語言語音轉錄和語音翻譯等任務。

相比目前市面上的其他現(xiàn)有方法，它們通常使用較小的、更緊密配對的「音頻 - 文本」訓練數(shù)據(jù)集，或使用廣泛但無監(jiān)督的音頻預訓練集。因為 Whisper 是在一個大型和多樣化的數(shù)據(jù)集上訓練的，而沒有針對任何特定的數(shù)據(jù)集進行微調，雖然它沒有擊敗專攻 LibriSpeech 性能的模型（著名的語音識別基準測試），然而在許多不同的數(shù)據(jù)集上測量 Whisper 的 Zero-shot（不需要對新數(shù)據(jù)集重新訓練，就能得到很好的結果）性能時，研究人員發(fā)現(xiàn)它比那些模型要穩(wěn)健得多，犯的錯誤要少 50%。

為了改進模型的縮放屬性，它在不同的輸入大小上進行了訓練。

通過 FP16、動態(tài)損失縮放，并采用數(shù)據(jù)并行來訓練模型。
使用AdamW和梯度范數(shù)裁剪，在對前 2048 次更新進行預熱后，線性學習率衰減為零。
使用 256 個批大小，并訓練模型進行 220次更新，這相當于對數(shù)據(jù)集進行兩到三次前向傳遞。

由于模型只訓練了幾個輪次，過擬合不是一個重要問題，并且沒有使用數(shù)據(jù)增強或正則化技術。這反而可以依靠大型數(shù)據(jù)集內的多樣性來促進泛化和魯棒性。

Whisper 在之前使用過的數(shù)據(jù)集上展示了良好的準確性，并且已經針對其他最先進的模型進行了測試。

2.4 優(yōu)點

Whisper 已經在真實數(shù)據(jù)以及其他模型上使用的數(shù)據(jù)以及弱監(jiān)督下進行了訓練。
模型的準確性針對人類聽眾進行了測試并評估其性能。
它能夠檢測清音區(qū)域并應用 NLP 技術在轉錄本中正確進行標點符號的輸入。
模型是可擴展的，允許從音頻信號中提取轉錄本，而無需將視頻分成塊或批次，從而降低了漏音的風險。
模型在各種數(shù)據(jù)集上取得了更高的準確率。

Whisper在不同數(shù)據(jù)集上的對比結果，相比wav2vec取得了目前最低的詞錯誤率

OpenAI的人工智能語音識別模型Whisper詳解及使用

模型沒有在timit數(shù)據(jù)集上進行測試，所以為了檢查它的單詞錯誤率，我們將在這里演示如何使用Whisper來自行驗證timit數(shù)據(jù)集，也就是說使用Whisper來搭建我們自己的語音識別應用。

2.5 whisper的多種尺寸模型

whisper有五種模型尺寸，提供速度和準確性的平衡，其中English-only模型提供了四種選擇。下面是可用模型的名稱、大致內存需求和相對速度。

OpenAI的人工智能語音識別模型Whisper詳解及使用

模型的官方下載地址：

"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
"small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
"small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
"medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
"medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
"large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
"large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
"large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

3 whisper環(huán)境構建及運行

3.1 conda環(huán)境安裝

????????參見：annoconda安裝

3.2 whisper環(huán)境構建

conda create -n whisper python==3.9
conda activate whisper
pip install openai-whisper
conda install ffmpeg
pip install setuptools-rust

3.3 whisper命令行使用

whisper /opt/000001.wav --model base

輸出內容如下：

[00:00.000 --> 00:02.560] 人工智能識別系統(tǒng)。

執(zhí)行命令時，會自動進行模型下載，自動下載模型存儲的路徑如下：

~/.cache/whisper

也可以通過命令行制定本地模型運行：

Whisper /opt/000001.wav --model base --model_dir /opt/models --language Chinese

?支持的文件格式：m4a、mp3、mp4、mpeg、mpga、wav、webm文章來源地址http://www.zghlxwxcb.cn/news/detail-485233.html

3.4 whisper在代碼中使用

import whisper

model = whisper.load_model("base")
result = model.transcribe("/opt/000001.wav")
print(result["text"])

到了這里，關于OpenAI的人工智能語音識別模型Whisper詳解及使用的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

使用OpenAI的Whisper 模型進行語音識別
原文：https://baijiahao.baidu.com/s?id=1756232395896695428wfr=spiderfor=pc 語音識別是人工智能中的一個領域，它允許計算機理解人類語音并將其轉換為文本。該技術用于 Alexa 和各種聊天機器人應用程序等設備。而我們最常見的就是語音轉錄，語音轉錄可以語音轉換為文字記錄或字幕。
2024年02月03日
瀏覽(88)
.Net 使用OpenAI開源語音識別模型Whisper
.Net 使用OpenAI開源語音識別模型 Whisper Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的 Whisper 神經網絡，且它亦支持其它98種語言的自動語音辨識。 Whisper系統(tǒng)所提供的自動語音辨識（Automatic Speech Recognition，ASR）模型是被訓練來運行語音辨識與翻譯任務的
2024年02月08日
瀏覽(86)
基于OpenAI的Whisper構建的高效語音識別模型：faster-whisper
faster-whisper是基于OpenAI的Whisper模型的高效實現(xiàn)，它利用CTranslate2，一個專為Transformer模型設計的快速推理引擎。這種實現(xiàn)不僅提高了語音識別的速度，還優(yōu)化了內存使用效率。faster-whisper的核心優(yōu)勢在于其能夠在保持原有模型準確度的同時，大幅提升處理速度，這使得它在處理
2024年02月02日
瀏覽(95)
OpenAI開源全新解碼器和語音識別模型Whisper-v3
在11月7日OpenAI的首屆開發(fā)者大會上，除了推出一系列重磅產品之外，還開源了兩款產品，全新解碼器Consistency Decoder（一致性解碼器）和最新語音識別模型Whisper v3。據(jù)悉，Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像，
2024年02月05日
瀏覽(92)
OpenAI開源語音識別模型Whisper在Windows系統(tǒng)的安裝詳細過程
Python的安裝很簡單，點擊這里進行下載。安裝完成之后，輸入python -V可以看到版本信息，說明已經安裝成功了。如果輸入python -V命令沒有看到上面的這樣的信息，要么是安裝失敗，要么是安裝好之后沒有自動配置環(huán)境變量，如何配置環(huán)境變量可以從網上搜索。 Python的具體安
2024年02月08日
瀏覽(90)
人工智能技術基礎系列之：語音識別與語音處理
作者：禪與計算機程序設計藝術語音識別（英語：Speech recognition）是一個廣義上的概念，泛指在不同場景、不同的條件下通過語言或口頭獲取信息并轉換成文字的能力。具體來說，語音識別就是把人類的聲音或者說話轉化成計算機可以理解的文字、數(shù)字信號。語音識別技術應
2024年02月05日
瀏覽(101)
智能語音識別在人工智能應用中的重要性
作者：禪與計算機程序設計藝術隨著計算機的發(fā)展、移動互聯(lián)網的普及和互聯(lián)網服務的快速發(fā)展，語音識別技術也逐漸走入人們的視野中。相對于手寫文字或是拼音方式輸入的方式，語音輸入的方式帶來的便利、準確率提高的效果，使得越來越多的人開始喜歡用語音的方式來
2024年02月07日
瀏覽(36)
人工智能技術在智能音箱中的應用：智能語音識別與智能交互
作者：禪與計算機程序設計藝術引言 1.1. 背景介紹智能音箱作為智能家居的重要組成部分，近年來得到了越來越多的用戶青睞。隨著人工智能技術的不斷發(fā)展，智能音箱的核心功能之一——智能語音識別與智能交互也越來越受到人們的關注。智能語音識別技術可以讓用戶更
2024年02月07日
瀏覽(30)
第14章-Python-人工智能-語言識別-調用百度語音識別
? ? ? ? 百度語音識別API是可以免費試用的，通過百度賬號登錄到百度智能云，在語音技術頁面創(chuàng)建的應用，生成一個語音識別的應用，這個應用會給你一個APIKey和一個Secret Key，如圖14.1所示。 ?我們在自己的程序中用 API Key 和 Secret Key 這兩個值獲取 Koken，然后再通過 Token 調
2024年02月08日
瀏覽(103)
語音識別與VC維：改變人工智能的未來
語音識別(Speech Recognition)是一種人工智能技術，它旨在將人類的語音信號轉換為文本或其他形式的數(shù)據(jù)。這項技術在過去幾年中得到了巨大的發(fā)展，并成為人工智能領域的一個關鍵技術。VC維(Vocabulary Coverage Dimension)是一種數(shù)學模型，用于描述語言模型的表達能力。在本文中，
2024年02月19日
瀏覽(25)