国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

?Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型

這篇具有很好參考價值的文章主要介紹了?Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

內(nèi)容來源:@xiaohuggg

Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型

?該模型是由Hugging Face團隊開發(fā),它在Whisper核心功能的基礎(chǔ)上進(jìn)行了優(yōu)化和簡化,體積縮小了50%。速度提高了6倍。并且在分布外評估集上的字錯誤率 (WER) 不超過 1%。
它還可以作為 Whisper 的助手模型用于推測性解碼,速度提高了2倍。
主要優(yōu)點:
速度 - Distil-Whisper 的推理速度是 Whisper 的 6 倍。
尺寸 - 模型大小減少了 49%,更適合資源有限的設(shè)備。
準(zhǔn)確性 - 詞錯誤率(WER)與 Whisper 相比只有 1% 的差距。
抗噪聲 - 在嘈雜環(huán)境下仍能保持較高的識別準(zhǔn)確性。
減少幻聽 - 減少了重復(fù)詞組的出現(xiàn),并降低了插入錯誤率。
推測性解碼 - 作為 Whisper 的輔助模型,推理速度提高了 2 倍。

主要方法:

Whisper模型是一個基于大規(guī)模弱監(jiān)督數(shù)據(jù)訓(xùn)練的語音識別模型,具有1.5億參數(shù),并在680,000小時的語音識別數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,展現(xiàn)出在多個數(shù)據(jù)集和領(lǐng)域的強大泛化能力。然而,隨著預(yù)訓(xùn)練語音識別模型大小的增加,將這些大型模型部署到低延遲或資源受限的環(huán)境中變得越來越困難。
為了解決這個問題,研究者們采用了偽標(biāo)簽方法來構(gòu)建一個大規(guī)模的開源數(shù)據(jù)集(在 9 個不同的開源數(shù)據(jù)集上接受了 22,000 個小時的訓(xùn)練,涵蓋 10 個域、超過 18,000 個說話者),并使用這個數(shù)據(jù)集來進(jìn)行知識蒸餾,從而創(chuàng)建了Distil-Whisper模型。
研究者們使用了一個基于詞錯誤率(WER)的啟發(fā)式方法來篩選高質(zhì)量的偽標(biāo)簽,以用于訓(xùn)練Distil-Whisper模型。
實驗結(jié)果:

Distil-Whisper模型在保持原有 Whisper 模型核心功能的基礎(chǔ)上,顯著提高了處理速度。速度提高了5.8倍,參數(shù)減少了51%,并且在零樣本遷移設(shè)置中對分布外測試數(shù)據(jù)的WER性能僅下降了1%。
這一速度的提升不僅意味著在相同的時間內(nèi)可以處理更多的語音數(shù)據(jù),而且對于那些需要快速響應(yīng)的應(yīng)用場景,如實時語音翻譯、實時會議記錄等,具有重要的實際意義。
在長音頻評估中,Distil-Whisper的表現(xiàn)甚至超過了原始的Whisper模型,這主要是因為它在處理長形音頻時產(chǎn)生幻聽錯誤的傾向較低。
此外,Distil-Whisper與Whisper模型共享相同的編碼器權(quán)重,這意味著它可以作為Whisper的輔助模型,用于推測性解碼,從而實現(xiàn)了2倍的推理速度提升,同時確保預(yù)測結(jié)果與原始模型相同。這使得Distil-Whisper可以作為現(xiàn)有使用Whisper的語音識別管道的即插即用替代品。
由于模型更小,對計算資源的需求也相對較低,這使得它更適合在資源受限的設(shè)備上運行,例如在移動設(shè)備或邊緣計算設(shè)備上。這種輕量級的設(shè)計也使得 Distil-Whisper 在網(wǎng)絡(luò)帶寬有限或計算能力受限的環(huán)境中更為實用。
模型下載:

https:https://huggingface.co/collections/distil-whisper/distil-whisper-models-65411987e6727569748d2eb6

論文:

https://arxiv.org/abs/2311.00430
GitHub:https://github.com/huggingface/distil-whisper

Colab:httphttps://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynbain/Distil_Whisper_Benchmark.ipynb

whipser語音識別性能優(yōu)化,whisper,語音識別,人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-776349.html

到了這里,關(guān)于?Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Whisper——部署fast-whisper中文語音識別模型

    whisper:https://github.com/openai/whisper/tree/main 參考文章:Whisper OpenAI開源語音識別模型 需要其他版本的可以自己下載:https://huggingface.co/openai 原始中文語音模型: 微調(diào)后的中文語音模型: 補下一個: tokenizer.json 模型轉(zhuǎn)換 float16 : int8 :

    2024年01月22日
    瀏覽(31)
  • python語音識別whisper

    python語音識別whisper

    一、背景 最近想提取一些視頻的字幕,語音文案,研究了一波 二、whisper語音識別 Whisper 是一種通用的語音識別模型。它在不同音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。 stable-ts在 OpenAI 的 Whisper 之上修改并添加

    2024年02月05日
    瀏覽(86)
  • 【語音識別】OpenAI whisper

    【語音識別】OpenAI whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月13日
    瀏覽(90)
  • 探索Whisper語音識別

    探索Whisper語音識別

    問題一:python多版本切換 背景:有了anaconda環(huán)境 ?還有一個c盤的不知道什么東西 我準(zhǔn)備下載一個python3.9.9 去官網(wǎng) 然后安裝,安裝之前一定要把原來的python卸載干凈。 ?3.9.9安裝不上,我用3.10 切換的話,就是去環(huán)境變量里面改變位置 ?最后發(fā)現(xiàn)直接用anaconda也可以,python3.8也

    2024年02月09日
    瀏覽(17)
  • whisper 語音識別項目部署

    whisper 語音識別項目部署

    1.安裝anaconda軟件 在如下網(wǎng)盤免費獲取軟件: 鏈接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取碼:hfnd 2.使用conda命令創(chuàng)建python3.8環(huán)境 3.進(jìn)入whisper虛擬環(huán)境 4.安裝cuda10.0的PyTorch環(huán)境 5.使用命令安裝whisper庫包 6.簡單使用命令識別一段語音: 6.安裝和配置ffmpeg軟件 在如下網(wǎng)盤免費

    2024年02月11日
    瀏覽(18)
  • 語音識別whisper

    Whisper是一個通用的語音識別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性1。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)2。Whisper的架構(gòu)是一個簡單的端到端方法,采用了編碼器-解碼器

    2024年02月12日
    瀏覽(19)
  • 語音識別 - ASR whisper

    語音識別 - ASR whisper

    目錄 1. 簡單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開源自動語音識別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月12日
    瀏覽(22)
  • Whisper 語音識別模型

    Whisper 語音識別模型 Whisper 是一種通用的語音識別模型。它是在包含各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個可以執(zhí)行多語言語音識別、語音翻譯和語言識別的多任務(wù)模型。 開源項目地址:https://github.com/openai/whisper Whisper 語音識別模型 Transformer 序列到序列模型針對各種語音

    2024年02月16日
    瀏覽(25)
  • OpenAI 開源語音識別 Whisper

    OpenAI 開源語音識別 Whisper

    ????????Whisper是一個通用語音識別模型。它是在各種音頻的大型數(shù)據(jù)集上訓(xùn)練的,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。???????? ???????人工智能公司 OpenAI?擁有 GTP-3 語言模型,并為 GitHub Copilot 提供技術(shù)支持的 ,宣布開源了

    2024年02月09日
    瀏覽(111)
  • Whisper實現(xiàn)語音識別轉(zhuǎn)文本

    Whisper實現(xiàn)語音識別轉(zhuǎn)文本

    #教程 主要參考開源免費離線語音識別神器whisper如何安裝, OpenAI開源模型Whisper——音頻轉(zhuǎn)文字 Whisper是一個開源的 自動語音識別 系統(tǒng),它在網(wǎng)絡(luò)上收集了680,000小時的多語種和多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,使得它可以將多種語言的音頻轉(zhuǎn)文字。 Whisper的好處是 開源免費、支持多

    2024年03月19日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包