內(nèi)容來源:@xiaohuggg
Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型
?該模型是由Hugging Face團隊開發(fā),它在Whisper核心功能的基礎(chǔ)上進(jìn)行了優(yōu)化和簡化,體積縮小了50%。速度提高了6倍。并且在分布外評估集上的字錯誤率 (WER) 不超過 1%。
它還可以作為 Whisper 的助手模型用于推測性解碼,速度提高了2倍。
主要優(yōu)點:
速度 - Distil-Whisper 的推理速度是 Whisper 的 6 倍。
尺寸 - 模型大小減少了 49%,更適合資源有限的設(shè)備。
準(zhǔn)確性 - 詞錯誤率(WER)與 Whisper 相比只有 1% 的差距。
抗噪聲 - 在嘈雜環(huán)境下仍能保持較高的識別準(zhǔn)確性。
減少幻聽 - 減少了重復(fù)詞組的出現(xiàn),并降低了插入錯誤率。
推測性解碼 - 作為 Whisper 的輔助模型,推理速度提高了 2 倍。
主要方法:
Whisper模型是一個基于大規(guī)模弱監(jiān)督數(shù)據(jù)訓(xùn)練的語音識別模型,具有1.5億參數(shù),并在680,000小時的語音識別數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,展現(xiàn)出在多個數(shù)據(jù)集和領(lǐng)域的強大泛化能力。然而,隨著預(yù)訓(xùn)練語音識別模型大小的增加,將這些大型模型部署到低延遲或資源受限的環(huán)境中變得越來越困難。
為了解決這個問題,研究者們采用了偽標(biāo)簽方法來構(gòu)建一個大規(guī)模的開源數(shù)據(jù)集(在 9 個不同的開源數(shù)據(jù)集上接受了 22,000 個小時的訓(xùn)練,涵蓋 10 個域、超過 18,000 個說話者),并使用這個數(shù)據(jù)集來進(jìn)行知識蒸餾,從而創(chuàng)建了Distil-Whisper模型。
研究者們使用了一個基于詞錯誤率(WER)的啟發(fā)式方法來篩選高質(zhì)量的偽標(biāo)簽,以用于訓(xùn)練Distil-Whisper模型。
實驗結(jié)果:
Distil-Whisper模型在保持原有 Whisper 模型核心功能的基礎(chǔ)上,顯著提高了處理速度。速度提高了5.8倍,參數(shù)減少了51%,并且在零樣本遷移設(shè)置中對分布外測試數(shù)據(jù)的WER性能僅下降了1%。
這一速度的提升不僅意味著在相同的時間內(nèi)可以處理更多的語音數(shù)據(jù),而且對于那些需要快速響應(yīng)的應(yīng)用場景,如實時語音翻譯、實時會議記錄等,具有重要的實際意義。
在長音頻評估中,Distil-Whisper的表現(xiàn)甚至超過了原始的Whisper模型,這主要是因為它在處理長形音頻時產(chǎn)生幻聽錯誤的傾向較低。
此外,Distil-Whisper與Whisper模型共享相同的編碼器權(quán)重,這意味著它可以作為Whisper的輔助模型,用于推測性解碼,從而實現(xiàn)了2倍的推理速度提升,同時確保預(yù)測結(jié)果與原始模型相同。這使得Distil-Whisper可以作為現(xiàn)有使用Whisper的語音識別管道的即插即用替代品。
由于模型更小,對計算資源的需求也相對較低,這使得它更適合在資源受限的設(shè)備上運行,例如在移動設(shè)備或邊緣計算設(shè)備上。這種輕量級的設(shè)計也使得 Distil-Whisper 在網(wǎng)絡(luò)帶寬有限或計算能力受限的環(huán)境中更為實用。
模型下載:
https:https://huggingface.co/collections/distil-whisper/distil-whisper-models-65411987e6727569748d2eb6
論文:
https://arxiv.org/abs/2311.00430
GitHub:https://github.com/huggingface/distil-whisper
Colab:httphttps://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynbain/Distil_Whisper_Benchmark.ipynb文章來源:http://www.zghlxwxcb.cn/news/detail-776349.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-776349.html
到了這里,關(guān)于?Distil-Whisper:比Whisper快6倍,體積小50%的語音識別模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!