国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Vosk 揚(yáng)聲器內(nèi)錄語音識(shí)別轉(zhuǎn)文字 最簡潔的C#代碼

這篇具有很好參考價(jià)值的文章主要介紹了Vosk 揚(yáng)聲器內(nèi)錄語音識(shí)別轉(zhuǎn)文字 最簡潔的C#代碼。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

最近在看小眾西語電影,但苦于沒字幕,只能自己想辦法弄實(shí)時(shí)語音識(shí)別。然而網(wǎng)上給出的很多相關(guān)代碼,大部分是基于已有的wav文件或者麥克風(fēng)外錄的方式實(shí)現(xiàn)的。我這里就稍微改進(jìn)了一下,可以在內(nèi)錄(英文資料說的的是loopback audio recording)的情況下進(jìn)行語音轉(zhuǎn)文字。這里最簡單的思路是采用Vosk這個(gè)比較成熟的離線語音識(shí)別API,然后在.NET平臺(tái)上,用NAudio庫自帶的WasapiLoopbackCapture進(jìn)行內(nèi)錄,并在DataAvaliable事件處理代碼塊中,對(duì)采集到的音頻數(shù)據(jù)字節(jié)流進(jìn)行部分識(shí)別,最后輸出完整識(shí)別出來的內(nèi)容。

Vosk和NAudio這兩個(gè)3rd模塊需要通過nuget包管理器安裝,然后語音識(shí)別用到的模型文件可以在VOSK Models上下載。一般情況下,每個(gè)語種至少有兩個(gè)模型文件,其中一個(gè)帶"small"的模型是精簡版模型,用在低性能電腦、手機(jī)和嵌入式設(shè)備上跑比較好,不過識(shí)別準(zhǔn)確率不太高:( ;還有一個(gè)普通的模型,大小在1GB以上的,這個(gè)識(shí)別準(zhǔn)確率非常高,但是放在手機(jī)上跑不太合適。

c#語音識(shí)別轉(zhuǎn)文字,語音識(shí)別,人工智能,音視頻,c#

?大家根據(jù)自己的需求下載對(duì)應(yīng)語種、對(duì)應(yīng)規(guī)模的語言模型包,然后解壓到程序執(zhí)行目錄。

下面廢話不多說,直接上代碼:

using NAudio.Wave;
using System.Text;
using Vosk;

class SpeechToText
{

    static void Main()
    {
        Console.OutputEncoding = Encoding.UTF8;
        // Initialize Vosk API
        Model model = new Model("model-small-es");

        using (var waveIn = new WasapiLoopbackCapture())
        {
            waveIn.WaveFormat = new WaveFormat(44100, 1);

            var rec = new VoskRecognizer(model, waveIn.WaveFormat.SampleRate);
            rec.SetMaxAlternatives(0);
            rec.SetWords(true);

            waveIn.DataAvailable += (_, e) =>
            {

                if (rec.AcceptWaveform(e.Buffer, e.BytesRecorded))
                {
                    Console.WriteLine(rec.Result());
                }
                else
                {
                    Console.WriteLine(rec.PartialResult());
                }

            };
            waveIn.StartRecording();
            Console.WriteLine("Press ENTER to quit...");
            Console.ReadLine();
            waveIn.StopRecording();
        }
    }
}

代碼邏輯很簡單這里就不再贅述,不過有幾點(diǎn)需要注意一下:

1. WaveFormat的參數(shù)設(shè)置問題:一定不能用雙聲道!Vosk似乎不怎么支持雙聲道數(shù)據(jù)的處理,我用這個(gè)參數(shù)的時(shí)候程序總是跑到一半就崩了。然后采樣率,很多人給出的代碼都配置的是16kHz,我覺得質(zhì)量太低識(shí)別效果不好,嘗試了一下改到44.1kHz,程序仍然能跑,而且識(shí)別準(zhǔn)確率高了很多,但是再往上我就沒試了,而且沒必要。

2. MaxAlternatives這個(gè)參數(shù)是告訴vosk識(shí)別完成后給出多少種備選結(jié)果,我們只需要一種結(jié)果就行了,也就是不需要備選結(jié)果,這里設(shè)置為0即可。

3. SetWords這個(gè)函數(shù)是告訴vosk識(shí)別完成后是否需要顯示每個(gè)單詞出現(xiàn)和結(jié)束的時(shí)間(從錄音起始開始算起),這個(gè)對(duì)做滾動(dòng)歌詞和字幕的伙計(jì)們就非常有用了,如果大家覺得煩人可以把它設(shè)成false。

4. 如果你用的語言模型包和我的不一樣,一定不要忘記修改上面代碼中的模型路徑?。?!

我給出的是一個(gè)簡單的控制臺(tái)程序代碼,主要在于簡便,方便給大家復(fù)制并用到自己的項(xiàng)目中。程序啟動(dòng)后會(huì)一直運(yùn)行,直到用戶按下回車鍵才會(huì)退出。

效果:

c#語音識(shí)別轉(zhuǎn)文字,語音識(shí)別,人工智能,音視頻,c#

?文章來源地址http://www.zghlxwxcb.cn/news/detail-622233.html

到了這里,關(guān)于Vosk 揚(yáng)聲器內(nèi)錄語音識(shí)別轉(zhuǎn)文字 最簡潔的C#代碼的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Qt 實(shí)現(xiàn)的萬能采集庫( 屏幕/相機(jī)/揚(yáng)聲器/麥克風(fēng)采集)

    【寫在前面】 ???????? 之前應(yīng)公司需要,給公司寫過一整套直播的庫( 推拉流,編解碼),類似于 libobs 。 ? ? ? ? 結(jié)果后來因?yàn)闆]有相關(guān)項(xiàng)目,便停止開發(fā)維護(hù)了。 ? ? ? ? 不過里面很多有用的組件,然后也挺好用的,遂開源出來一部分。 ? ? ? ? 因此,本篇就簡單講

    2024年04月27日
    瀏覽(28)
  • PR軟件中的音頻硬件揚(yáng)聲器顯示不工作的故障

    PR2020軟件中的音頻硬件揚(yáng)聲器顯示不工作的故障問題解決方法:? 今天給大家介紹一下PR軟件中的音頻硬件揚(yáng)聲器顯示不工作的故障的具體解決方法。 首先打開電腦上的pr軟件,進(jìn)入主頁面,點(diǎn)擊頁面頂端的編輯選項(xiàng); 在打開的菜單中,找到最底下的首選項(xiàng),點(diǎn)擊; 然后在打

    2024年02月07日
    瀏覽(19)
  • MacBook Pro 14/16英寸2021款 揚(yáng)聲器 爆音問題 噼啪聲

    MacBook Pro 14/16英寸2021款 揚(yáng)聲器 爆音問題 噼啪聲

    ** ** 提示:MacBook Pro 14/16英寸2021款 揚(yáng)聲器爆音問題 本人的2021款MacBook Pro 14寸本在播放音頻或者視頻時(shí),會(huì)很間接性的出現(xiàn)叭、叭、叭的爆音問題。(系統(tǒng)已更新到最新的 macOS Monterey 12.4 ) 據(jù)蘋果官方給出的說法是此問題為已知問題,涉及范圍包括2021款MacBook Pro 14/16英寸 M1芯

    2024年02月06日
    瀏覽(18)
  • 使用ffmpeg調(diào)用電腦自帶的攝像頭和揚(yáng)聲器錄制音視頻

    使用ffmpeg調(diào)用電腦自帶的攝像頭和揚(yáng)聲器錄制音視頻

    1、打開cmd,執(zhí)行 chcp 65001 ,修改cmd的編碼格式為utf8,避免亂碼 2、執(zhí)行指令 ffmpeg -list_devices true -f dshow -i dummy ,查看當(dāng)前window的音頻和視頻名稱 3、打開windows系統(tǒng)的\\\"打開聲音設(shè)置\\\"–“麥克風(fēng)隱私設(shè)置”–\\\"允許應(yīng)用訪問你的麥克風(fēng)\\\"點(diǎn)擊開啟 錄制視頻: 錄制音頻: 錄制音視頻:

    2024年02月04日
    瀏覽(32)
  • WM8978 —— 帶揚(yáng)聲器驅(qū)動(dòng)程序的立體聲編解碼器(2)

    WM8978 —— 帶揚(yáng)聲器驅(qū)動(dòng)程序的立體聲編解碼器(2)

    接前一篇文章:WM8978 —— 帶揚(yáng)聲器驅(qū)動(dòng)程序的立體聲編解碼器(1) 引腳(PIN) 名稱(NAME) 類型(TYPE) 描述(DESCRIPTION) 1 LIP 模擬輸入 左麥克風(fēng)前置放大器正極輸入 2 LIN 模擬輸入 左麥克風(fēng)前置放大器負(fù)極輸入 3 L2/GPIO2 模擬輸入 左聲道線路輸入 / 輔助麥克風(fēng)前置放大器正

    2024年03月22日
    瀏覽(23)
  • Python 一步一步教你用pyglet制作可播放音樂的揚(yáng)聲器類

    Python 一步一步教你用pyglet制作可播放音樂的揚(yáng)聲器類

    目錄 揚(yáng)聲器類 1. 繪制喇叭 2. 揚(yáng)聲器類 3. 禁音狀態(tài)? 4. 設(shè)置狀態(tài) 5. 切換狀態(tài) 6. 播放音樂 本篇將教你用pyglet畫一個(gè)小喇叭,如上圖。這里要用到pyglety庫shapes模塊中的圓弧Arc和多邊形Pylygon畫出這個(gè)揚(yáng)聲器的圖片: Arc(x, y, radius, segments=None, angle=6.283185307179586, start_angle=0, closed=

    2024年03月10日
    瀏覽(35)
  • 虛擬聲卡(虛擬揚(yáng)聲器和虛擬麥克風(fēng))應(yīng)用之音頻回環(huán)(Virtual Audio Cable)

    首先在了解Virtual Audio Cable音頻回環(huán)技術(shù)之前,我們先介紹幾個(gè)基礎(chǔ)的概念: 虛擬聲卡:是一種硬件虛擬化技術(shù);基于軟件技術(shù)虛擬出麥克風(fēng)或者虛擬揚(yáng)聲器硬件,提供給上層用戶程序使用虛擬麥克風(fēng)和揚(yáng)聲器,例如通過給虛擬揚(yáng)聲器喂送音頻數(shù)據(jù)實(shí)現(xiàn)麥克風(fēng)錄音效果。 音頻

    2024年01月17日
    瀏覽(77)
  • 如何在云電腦串流中實(shí)現(xiàn)聲音輸入輸出—虛擬聲卡(虛擬揚(yáng)聲器和虛擬麥克風(fēng))開發(fā)

    如何在云電腦串流中實(shí)現(xiàn)聲音輸入輸出—虛擬聲卡(虛擬揚(yáng)聲器和虛擬麥克風(fēng))開發(fā)

    虛擬聲卡(虛擬揚(yáng)聲器和虛擬麥克風(fēng))技術(shù)原理簡介 近些年云計(jì)算的發(fā)展可謂是勢不可擋,無論是辦公還是娛樂等行業(yè)都開始使用云計(jì)算來逐步替代直接使用本地物理硬件的技術(shù),例如: 服務(wù)器部署。相比之前,現(xiàn)在部署一個(gè)服務(wù)器都非常簡單;我們只需要在阿里云,華為

    2024年02月04日
    瀏覽(31)
  • ASUS電腦顯示未連接揚(yáng)聲器(英特爾智音技術(shù)版),聲卡驅(qū)動(dòng)修復(fù),Realtek修復(fù)

    ASUS電腦顯示未連接揚(yáng)聲器(英特爾智音技術(shù)版),聲卡驅(qū)動(dòng)修復(fù),Realtek修復(fù)

    ????????本人的電腦在用CCleaner的驅(qū)動(dòng)更新后,突然發(fā)現(xiàn)電腦無法播放聲音,點(diǎn)開設(shè)備管理器后顯示設(shè)備也是正常的,但就是識(shí)別不到揚(yáng)聲器設(shè)備。 ? ? ? ? 在實(shí)驗(yàn)過Realtek等安裝方法之后無果(我的Realtek顯示不支持此機(jī)器 ),我在設(shè)備管理器中發(fā)現(xiàn),系統(tǒng)設(shè)置中的英特爾

    2024年02月12日
    瀏覽(37)
  • FreeSWITCH對(duì)接vosk實(shí)現(xiàn)實(shí)時(shí)語音識(shí)別

    FreeSWITCH對(duì)接vosk實(shí)現(xiàn)實(shí)時(shí)語音識(shí)別

    環(huán)境:CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.2 vosk是一個(gè)開源語音識(shí)別工具,可識(shí)別中文,之前介紹過python使用vosk進(jìn)行中文語音識(shí)別,今天記錄下FreeSWITCH對(duì)接vosk實(shí)現(xiàn)實(shí)時(shí)語音識(shí)別。 vosk離線語音識(shí)別可參考我之前寫的文章: python使用vosk進(jìn)行中文語音識(shí)別 可直接使用

    2024年02月02日
    瀏覽(55)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包