国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理

這篇具有很好參考價(jià)值的文章主要介紹了開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理

目錄

open ai 的開(kāi)源工具:whisper

whisper介紹

Open AI在2022年9月21日開(kāi)源了號(hào)稱(chēng)其英文語(yǔ)音辨識(shí)能力已達(dá)到人類(lèi)水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語(yǔ)音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來(lái)運(yùn)行語(yǔ)音辨識(shí)與翻譯任務(wù)的,它們能將各種語(yǔ)言的語(yǔ)音變成文本,也能將這些文本翻譯成英文。

whisper的核心功能語(yǔ)音識(shí)別,對(duì)于大部分人來(lái)說(shuō),可以幫助我們更快捷的將會(huì)議、講座、課堂錄音整理成文字稿;對(duì)于影視愛(ài)好者,可以將無(wú)字幕的資源自動(dòng)生成字幕,不用再苦苦等待各大字幕組的字幕資源;對(duì)于外語(yǔ)口語(yǔ)學(xué)習(xí)者,使用whisper翻譯你的發(fā)音練習(xí)錄音,可以很好的檢驗(yàn)?zāi)愕目谡Z(yǔ)發(fā)音水平。 當(dāng)然,各大云平臺(tái)都提供語(yǔ)音識(shí)別服務(wù),但是基本都是聯(lián)網(wǎng)運(yùn)行,個(gè)人隱私安全總是有隱患,而whisper完全不同,whisper完全在本地運(yùn)行,無(wú)需聯(lián)網(wǎng),充分保障了個(gè)人隱私,且whisper識(shí)別準(zhǔn)確率相當(dāng)高。

引用

  • whisper模型下載地址:https://huggingface.co/ggerganov/whisper.cpp/tree/main

  • 測(cè)試離線(xiàn)音頻轉(zhuǎn)文本模型Whisper.net的基本用法

  • whisper.net

ASRT語(yǔ)音識(shí)別項(xiàng)目

ASRT介紹

ASRT是一個(gè)基于深度學(xué)習(xí)的語(yǔ)音識(shí)別工具,可以用于開(kāi)發(fā)最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng),是由AI檸檬博主(西安電子科技大學(xué) · 西安市大數(shù)據(jù)與視覺(jué)智能重點(diǎn)實(shí)驗(yàn)室)從2016年起做的開(kāi)源語(yǔ)音識(shí)別項(xiàng)目,基線(xiàn)為85%識(shí)別準(zhǔn)確率,在某些條件下可做到95%左右的識(shí)別準(zhǔn)確率。ASRT包含了語(yǔ)音識(shí)別算法服務(wù)端(用于訓(xùn)練或部署API服務(wù))和多種平臺(tái)及編程語(yǔ)言的客戶(hù)端SDK,支持一句話(huà)識(shí)別實(shí)時(shí)流式識(shí)別,相關(guān)的代碼已經(jīng)開(kāi)源在GitHub和Gitee上。

引用

  • ASRT語(yǔ)音識(shí)別工具文檔

微軟語(yǔ)音服務(wù)(付費(fèi))

微軟語(yǔ)音服務(wù)介紹

微軟語(yǔ)音服務(wù)通過(guò) Azure 語(yǔ)音資源提供語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音功能。 您可以將語(yǔ)音以高精度轉(zhuǎn)錄為文本,生成聽(tīng)起來(lái)自然的文本到語(yǔ)音的聲音,翻譯語(yǔ)音,并在對(duì)話(huà)期間使用說(shuō)話(huà)人識(shí)別。微軟語(yǔ)音服務(wù)(號(hào)稱(chēng))提供:語(yǔ)音識(shí)別(語(yǔ)音轉(zhuǎn)文字)、語(yǔ)音合成(文字轉(zhuǎn)語(yǔ)音)、獲取實(shí)時(shí)翻譯、錄制對(duì)話(huà),或集成語(yǔ)音到機(jī)器人體驗(yàn)中。

語(yǔ)音轉(zhuǎn)文本模塊主要包含一下幾個(gè)方面:

實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本

  • 使用實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本時(shí),當(dāng)從麥克風(fēng)或文件中識(shí)別出語(yǔ)音時(shí),會(huì)對(duì)音頻進(jìn)行聽(tīng)錄。 對(duì)于需要實(shí)時(shí)聽(tīng)錄音頻的應(yīng)用程序,請(qǐng)使用實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本,例如:

    • 實(shí)時(shí)會(huì)議的聽(tīng)錄、描述文字或字幕

    • 聯(lián)系中心代理助手

    • 聽(tīng)寫(xiě)

    • 語(yǔ)音代理

    • 發(fā)音評(píng)估

批量轉(zhuǎn)錄

批量轉(zhuǎn)錄用于轉(zhuǎn)錄存儲(chǔ)中的大量音頻。 您可以指向具有共享訪(fǎng)問(wèn)簽名 (SAS) URI 的音頻文件并異步接收轉(zhuǎn)錄結(jié)果。 對(duì)需要批量轉(zhuǎn)錄音頻的應(yīng)用程序使用批量轉(zhuǎn)錄,例如:

  • 預(yù)錄音頻的轉(zhuǎn)錄、字幕或副標(biāo)題
  • 聯(lián)絡(luò)中心通話(huà)后分析
  • 二值化

自定義語(yǔ)音

使用 自定義語(yǔ)音,您可以為您的應(yīng)用程序和產(chǎn)品評(píng)估和提高語(yǔ)音識(shí)別的準(zhǔn)確性。 自定義語(yǔ)音模型可用于實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本、語(yǔ)音翻譯和批量轉(zhuǎn)錄。

開(kāi)箱即用的語(yǔ)音識(shí)別利用通用語(yǔ)言模型作為基礎(chǔ)模型,該模型使用 Microsoft 擁有的數(shù)據(jù)進(jìn)行訓(xùn)練并反映常用口語(yǔ)。 基本模型使用代表各種常見(jiàn)領(lǐng)域的方言和語(yǔ)音進(jìn)行了預(yù)訓(xùn)練。 當(dāng)您發(fā)出語(yǔ)音識(shí)別請(qǐng)求時(shí),默認(rèn)情況下會(huì)使用每種受支持語(yǔ)言的最新基本模型。 基本模型在大多數(shù)語(yǔ)音識(shí)別場(chǎng)景中都能很好地工作。

自定義模型可用于擴(kuò)充基礎(chǔ)模型,通過(guò)提供文本數(shù)據(jù)來(lái)訓(xùn)練模型,從而提高對(duì)特定于應(yīng)用程序的領(lǐng)域特定詞匯的識(shí)別。 它還可用于通過(guò)提供帶有參考轉(zhuǎn)錄的音頻數(shù)據(jù)來(lái)改進(jìn)基于應(yīng)用程序特定音頻條件的識(shí)別。

引用

  • 微軟語(yǔ)音服務(wù)文檔

PaddleSpeech

PaddleSpeech介紹

PaddleSpeech是一個(gè)基于飛槳PaddlePaddle的語(yǔ)音方向的開(kāi)源模型庫(kù),用于語(yǔ)音和音頻中的各種關(guān)鍵任務(wù)的開(kāi)發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型,其中包括語(yǔ)音識(shí)別(ASR)。你可以使用PaddleSpeech來(lái)訓(xùn)練和測(cè)試中文語(yǔ)音識(shí)別模型。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-543846.html

引用

  • 百度飛槳PaddleSpeech的簡(jiǎn)單使用 - CSDN博客.
  • 一文讀懂PaddleSpeech中英混合語(yǔ)音識(shí)別技術(shù) - 知乎
  • 【超簡(jiǎn)單】之基于PaddleSpeech搭建個(gè)人語(yǔ)音聽(tīng)寫(xiě)服務(wù) - 知乎.
  • GitHub - PaddlePaddle/PaddleSpeech: Easy-to-use Speech Toolkit …
  • paddlespeech · PyPI
  • PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR … - Gitee.

到了這里,關(guān)于開(kāi)源(離線(xiàn))中文語(yǔ)音識(shí)別ASR(語(yǔ)音轉(zhuǎn)文本)工具整理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • python使用VOSK實(shí)現(xiàn)離線(xiàn)語(yǔ)音識(shí)別(中文普通話(huà))

    python使用VOSK實(shí)現(xiàn)離線(xiàn)語(yǔ)音識(shí)別(中文普通話(huà))

    目標(biāo):一個(gè)代碼簡(jiǎn)單,離線(xiàn),可直接使用,常用語(yǔ)句準(zhǔn)確率還不錯(cuò),免費(fèi)的,普通話(huà)語(yǔ)音轉(zhuǎn)文本的工具 幾番對(duì)比下來(lái),VSOK基本滿(mǎn)足我的需求,記錄一下。 環(huán)境 windows 10 / python3.8.10 s1 安裝 vosk s2 下載模型 兩個(gè)模型,一個(gè)很小,文件名中帶有small字樣,另一個(gè)就很大了,就我自

    2024年02月11日
    瀏覽(22)
  • 【FunASR】Paraformer語(yǔ)音識(shí)別-中文-通用-16k-離線(xiàn)-large-onnx

    【FunASR】Paraformer語(yǔ)音識(shí)別-中文-通用-16k-離線(xiàn)-large-onnx

    模型文件: damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch Paraformer-large長(zhǎng)音頻模型集成VAD、ASR、標(biāo)點(diǎn)與時(shí)間戳功能,可直接對(duì)時(shí)長(zhǎng)為數(shù)小時(shí)音頻進(jìn)行識(shí)別,并輸出帶標(biāo)點(diǎn)文字與時(shí)間戳: ASR模型:Parformer-large模型結(jié)構(gòu)為非自回歸語(yǔ)音識(shí)別模型,多個(gè)中文公開(kāi)數(shù)據(jù)集

    2024年02月03日
    瀏覽(13)
  • Whisper對(duì)于中文語(yǔ)音識(shí)別與轉(zhuǎn)寫(xiě)中文文本優(yōu)化的實(shí)踐(Python3.10)

    Whisper對(duì)于中文語(yǔ)音識(shí)別與轉(zhuǎn)寫(xiě)中文文本優(yōu)化的實(shí)踐(Python3.10)

    阿里的FunAsr對(duì)Whisper中文領(lǐng)域的轉(zhuǎn)寫(xiě)能力造成了一定的挑戰(zhàn),但實(shí)際上,Whisper的使用者完全可以針對(duì)中文的語(yǔ)音做一些優(yōu)化的措施,換句話(huà)說(shuō),Whisper的“默認(rèn)”形態(tài)可能在中文領(lǐng)域斗不過(guò)FunAsr,但是經(jīng)過(guò)中文特殊優(yōu)化的Whisper就未必了。 Whisper經(jīng)常被人詬病的一點(diǎn)是對(duì)中文語(yǔ)音

    2024年01月25日
    瀏覽(18)
  • 中文語(yǔ)音標(biāo)注工具FunASR(語(yǔ)音識(shí)別)

    中文語(yǔ)音標(biāo)注工具FunASR(語(yǔ)音識(shí)別)

    全稱(chēng)? A Fundamental End-to-End Speech Recognition Toolkit (一個(gè)語(yǔ)音識(shí)別工具) 可能大家用過(guò) whisper (openAi),它【標(biāo)注英語(yǔ)的確很完美】,【但中文會(huì)出現(xiàn)標(biāo)注錯(cuò)誤】或搞了個(gè)沒(méi)說(shuō)的詞替換上去,所以要人工核對(duì),麻煩。 FunASR作用 :能【準(zhǔn)確】識(shí)別語(yǔ)音,并轉(zhuǎn)成【文字、標(biāo)出聲調(diào)】

    2024年02月04日
    瀏覽(19)
  • 免費(fèi)離線(xiàn)語(yǔ)音識(shí)別軟件開(kāi)發(fā)工具包(SDK):實(shí)現(xiàn)高效準(zhǔn)確的語(yǔ)音識(shí)別

    語(yǔ)音識(shí)別技術(shù)在當(dāng)今信息時(shí)代扮演著重要的角色,為用戶(hù)提供了更加便捷和自然的交互方式。然而,傳統(tǒng)的語(yǔ)音識(shí)別方案通常需要依賴(lài)云服務(wù)器進(jìn)行語(yǔ)音數(shù)據(jù)的處理,這可能會(huì)涉及到隱私問(wèn)題和網(wǎng)絡(luò)延遲。為了解決這些問(wèn)題,免費(fèi)離線(xiàn)語(yǔ)音識(shí)別軟件開(kāi)發(fā)工具包(SDK)應(yīng)運(yùn)而生

    2024年02月04日
    瀏覽(25)
  • 6款支持中文語(yǔ)音識(shí)別開(kāi)源軟件的簡(jiǎn)單使用

    6款支持中文語(yǔ)音識(shí)別開(kāi)源軟件的簡(jiǎn)單使用

    摘自百度百科 語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話(huà)人識(shí)別及說(shuō)話(huà)人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話(huà)人而非其中所包含

    2024年02月12日
    瀏覽(22)
  • 本地化部署離線(xiàn)開(kāi)源免費(fèi)語(yǔ)音識(shí)別API,支持多模態(tài)AI能力引擎

    本地化部署離線(xiàn)開(kāi)源免費(fèi)語(yǔ)音識(shí)別API,支持多模態(tài)AI能力引擎

    思通數(shù)科作為一家專(zhuān)注于多模態(tài)AI能力開(kāi)源引擎平臺(tái),其技術(shù)產(chǎn)品涵蓋了自然語(yǔ)言處理、情感分析、實(shí)體識(shí)別、圖像識(shí)別與分類(lèi)、OCR識(shí)別以及語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。在語(yǔ)音識(shí)別這一細(xì)分市場(chǎng),思通數(shù)科的技術(shù)產(chǎn)品中的音頻文件轉(zhuǎn)寫(xiě)服務(wù)有著相似的應(yīng)用場(chǎng)景和功能特點(diǎn)。 思通數(shù)

    2024年04月12日
    瀏覽(33)
  • 基于A(yíng)SR-PRO離線(xiàn)語(yǔ)音芯片制作的控制小黑盒

    基于A(yíng)SR-PRO離線(xiàn)語(yǔ)音芯片制作的控制小黑盒

    一、功能介紹: 1、支持語(yǔ)音控制,通過(guò)喚醒詞來(lái)喚醒小黑盒,說(shuō)出命令后實(shí)現(xiàn)相應(yīng)功能。 2、還可以通過(guò)按鍵控制。 3、對(duì)應(yīng)功能都配有指示燈和電源指示燈。 4、配有220V的電壓電流顯示。 二、輸出方式 1、一共3組繼電器輸出,電源選擇可以是220V或者直流電。 2、一組一個(gè)繼

    2023年04月08日
    瀏覽(23)
  • ASR項(xiàng)目實(shí)戰(zhàn)-語(yǔ)音識(shí)別

    本文深入探討語(yǔ)音識(shí)別處理環(huán)節(jié)。 本階段的重點(diǎn)特性為語(yǔ)音識(shí)別、VAD、熱詞、文本的時(shí)間偏移、講話(huà)人的識(shí)別等。 業(yè)界流派眾多,比如Kaldi、端到端等,具體選擇哪一種,需要綜合考慮人員能力、訓(xùn)練數(shù)據(jù)量和質(zhì)量、硬件設(shè)施、交付周期等,作出相對(duì)合理的交付規(guī)劃。 基于

    2024年02月04日
    瀏覽(30)
  • 語(yǔ)音識(shí)別 - ASR whisper

    語(yǔ)音識(shí)別 - ASR whisper

    目錄 1. 簡(jiǎn)單介紹 2.?代碼調(diào)用 Introducing Whisper https://openai.com/blog/whisper/ OpenAI 的開(kāi)源自動(dòng)語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò) whisper 安裝 Python 調(diào)用

    2024年02月12日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包