開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理
目錄
open ai 的開(kāi)源工具:whisper
whisper介紹
Open AI在2022年9月21日開(kāi)源了號(hào)稱(chēng)其英文語(yǔ)音辨識(shí)能力已達(dá)到人類(lèi)水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的,它們能將各種語(yǔ)言的語(yǔ)音變成文本,也能將這些文本翻譯成英文。
whisper的核心功能語(yǔ)音識(shí)別,對(duì)于大部分人來(lái)說(shuō),可以幫助我們更快捷的將會(huì)議、講座、課堂錄音整理成文字稿;對(duì)于影視愛(ài)好者,可以將無(wú)字幕的資源自動(dòng)生成字幕,不用再苦苦等待各大字幕組的字幕資源;對(duì)于外語(yǔ)口語(yǔ)學(xué)習(xí)者,使用whisper翻譯你的發(fā)音練習(xí)錄音,可以很好的檢驗(yàn)?zāi)愕目谡Z(yǔ)發(fā)音水平。 當(dāng)然,各大云平臺(tái)都提供語(yǔ)音識(shí)別服務(wù),但是基本都是聯(lián)網(wǎng)運(yùn)行,個(gè)人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運(yùn)行,無(wú)需聯(lián)網(wǎng),充分保障了個(gè)人隱私,且whisper識(shí)別準(zhǔn)確率相當(dāng)高。
引用
-
whisper模型下載地址:https://huggingface.co/ggerganov/whisper.cpp/tree/main
-
測(cè)試離線(xiàn)音頻轉(zhuǎn)文本模型Whisper.net的基本用法
-
whisper.net
ASRT語(yǔ)音識(shí)別項(xiàng)目
ASRT介紹
ASRT是一個(gè)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別工具,可以用于開(kāi)發(fā)最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng),是由AI檸檬博主(西安電子科技大學(xué) · 西安市大數(shù)據(jù)與視覺(jué)智能重點(diǎn)實(shí)驗(yàn)室)從2016年起做的開(kāi)源語(yǔ)音識(shí)別項(xiàng)目,基線(xiàn)為85%識(shí)別準(zhǔn)確率,在某些條件下可做到95%左右的識(shí)別準(zhǔn)確率。ASRT包含了語(yǔ)音識(shí)別算法服務(wù)端(用于訓(xùn)練或部署API服務(wù))和多種平臺(tái)及編程語(yǔ)言的客戶(hù)端SDK,支持一句話(huà)識(shí)別和實(shí)時(shí)流式識(shí)別,相關(guān)的代碼已經(jīng)開(kāi)源在GitHub和Gitee上。
引用
- ASRT語(yǔ)音識(shí)別工具文檔
微軟語(yǔ)音服務(wù)(付費(fèi))
微軟語(yǔ)音服務(wù)介紹
微軟語(yǔ)音服務(wù)通過(guò) Azure 語(yǔ)音資源提供語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音功能。 您可以將語(yǔ)音以高精度轉(zhuǎn)錄為文本,生成聽(tīng)起來(lái)自然的文本到語(yǔ)音的聲音,翻譯語(yǔ)音,并在對(duì)話(huà)期間使用說(shuō)話(huà)人識(shí)別。微軟語(yǔ)音服務(wù)(號(hào)稱(chēng))提供:語(yǔ)音識(shí)別(語(yǔ)音轉(zhuǎn)文字)、語(yǔ)音合成(文字轉(zhuǎn)語(yǔ)音)、獲取實(shí)時(shí)翻譯、錄制對(duì)話(huà),或集成語(yǔ)音到機(jī)器人體驗(yàn)中。
語(yǔ)音轉(zhuǎn)文本模塊主要包含一下幾個(gè)方面:
實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本
-
使用實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本時(shí),當(dāng)從麥克風(fēng)或文件中識(shí)別出語(yǔ)音時(shí),會(huì)對(duì)音頻進(jìn)行聽(tīng)錄。 對(duì)于需要實(shí)時(shí)聽(tīng)錄音頻的應(yīng)用程序,請(qǐng)使用實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本,例如:
-
實(shí)時(shí)會(huì)議的聽(tīng)錄、描述文字或字幕
-
聯(lián)系中心代理助手
-
聽(tīng)寫(xiě)
-
語(yǔ)音代理
-
發(fā)音評(píng)估
-
批量轉(zhuǎn)錄
批量轉(zhuǎn)錄用于轉(zhuǎn)錄存儲(chǔ)中的大量音頻。 您可以指向具有共享訪(fǎng)問(wèn)簽名 (SAS) URI 的音頻文件并異步接收轉(zhuǎn)錄結(jié)果。 對(duì)需要批量轉(zhuǎn)錄音頻的應(yīng)用程序使用批量轉(zhuǎn)錄,例如:
- 預(yù)錄音頻的轉(zhuǎn)錄、字幕或副標(biāo)題
- 聯(lián)絡(luò)中心通話(huà)后分析
- 二值化
自定義語(yǔ)音
使用 自定義語(yǔ)音,您可以為您的應(yīng)用程序和產(chǎn)品評(píng)估和提高語(yǔ)音識(shí)別的準(zhǔn)確性。 自定義語(yǔ)音模型可用于實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本、語(yǔ)音翻譯和批量轉(zhuǎn)錄。
開(kāi)箱即用的語(yǔ)音識(shí)別利用通用語(yǔ)言模型作為基礎(chǔ)模型,該模型使用 Microsoft 擁有的數(shù)據(jù)進(jìn)行訓(xùn)練并反映常用口語(yǔ)。 基本模型使用代表各種常見(jiàn)領(lǐng)域的方言和語(yǔ)音進(jìn)行了預(yù)訓(xùn)練。 當(dāng)您發(fā)出語(yǔ)音識(shí)別請(qǐng)求時(shí),默認(rèn)情況下會(huì)使用每種受支持語(yǔ)言的最新基本模型。 基本模型在大多數(shù)語(yǔ)音識(shí)別場(chǎng)景中都能很好地工作。
自定義模型可用于擴(kuò)充基礎(chǔ)模型,通過(guò)提供文本數(shù)據(jù)來(lái)訓(xùn)練模型,從而提高對(duì)特定于應(yīng)用程序的領(lǐng)域特定詞匯的識(shí)別。 它還可用于通過(guò)提供帶有參考轉(zhuǎn)錄的音頻數(shù)據(jù)來(lái)改進(jìn)基于應(yīng)用程序特定音頻條件的識(shí)別。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-543846.html
引用
- 微軟語(yǔ)音服務(wù)文檔
PaddleSpeech
PaddleSpeech介紹
PaddleSpeech是一個(gè)基于飛槳PaddlePaddle的語(yǔ)音方向的開(kāi)源模型庫(kù),用于語(yǔ)音和音頻中的各種關(guān)鍵任務(wù)的開(kāi)發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型,其中包括語(yǔ)音識(shí)別(ASR)。你可以使用PaddleSpeech來(lái)訓(xùn)練和測(cè)試中文語(yǔ)音識(shí)別模型。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-543846.html
引用
- 百度飛槳PaddleSpeech的簡(jiǎn)單使用 - CSDN博客.
- 一文讀懂PaddleSpeech中英混合語(yǔ)音識(shí)別技術(shù) - 知乎
- 【超簡(jiǎn)單】之基于PaddleSpeech搭建個(gè)人語(yǔ)音聽(tīng)寫(xiě)服務(wù) - 知乎.
- GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit …
- paddlespeech · PyPI
- PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR … - Gitee.
到了這里,關(guān)于開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!