国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Java集成阿里云的實時語音識別遇到的一些問題

這篇具有很好參考價值的文章主要介紹了Java集成阿里云的實時語音識別遇到的一些問題。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

集成阿里云的實時語音識別遇到的問題:

困擾了一周時間,主要涉及到流的處理問題。

集成處理邏輯:

集成是通過引用maven依賴加載。

前端錄音通過流的方式傳到后端,后端再把流上傳到Minio,后端拿到文件地址,調(diào)微服務(wù)(集成語音識別的是另一個獨立的微服務(wù))去Minio獲取輸入流,再上傳到阿里云(公有云的服務(wù))。然后監(jiān)聽返回識別的結(jié)果,最后返回結(jié)果文本給前端。

問題:

偶發(fā)性,,監(jiān)聽不到返回的結(jié)果就關(guān)閉了服務(wù)端。該音頻是正常的,拿去官網(wǎng)下載的demo執(zhí)行,是有監(jiān)聽到返回的結(jié)果。這時就很納悶,多數(shù)在我集成的代碼里是可以監(jiān)聽到結(jié)果的,少數(shù)沒有監(jiān)聽到,一開始以為是音頻問題,所以就去demo執(zhí)行,驗證音頻,是沒問題的。

解決:

最后叫同事一起幫忙對比代碼debug,終于發(fā)現(xiàn)了,demo里切片上傳的是文件輸入流,但我的是直接上傳的是從Minio獲取到的輸入流,,,重點是文件輸入流和單單的輸入流是有區(qū)別的。因為是偶發(fā)性,一直沒留意這里。

區(qū)別:

InputStream不可以讀取文件,它是一個抽象類,根本不可能實例化,是所有輸入流的基類。而FileInputStream是InputStream的一個實現(xiàn)類,用于讀取諸如圖像數(shù)據(jù)之類的原始字節(jié)流。FileInputStream是讀取一個文件來作InputStream,F(xiàn)ileInputStream是字節(jié)流。文章來源地址http://www.zghlxwxcb.cn/news/detail-786269.html

問題代碼:


            //獲取文件名
            String fileName = path.substring(path.lastIndexOf("/"));
            InputStream fis = MinioUtil.getMinioFile(MinioUtil.getBucketName(), fileName);


            byte[] b = new byte[6400];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                recognizer.send(b, len);
                // 8000采樣率情況下,3200byte字節(jié)建議 sleep 200ms,16000采樣率情況下,3200byte字節(jié)建議 sleep 100ms
                int deltaSleep = getSleepDelta(len, 8000);
               
            }

解決代碼:


        //獲取文件名
        String fileName = path.substring(path.lastIndexOf("/"));
        InputStream fis2 = MinioUtil.getMinioFile(MinioUtil.getBucketName(), fileName);
        //創(chuàng)建臨時文件
        File file = File.createTempFile(IdWorker.getIdStr(),"");
        FileUtil.writeFromStream(fis2,file);
        FileInputStream fis = new FileInputStream(file);

        byte[] b = new byte[6400];
        int len;
        while ((len = fis.read(b)) > 0) {
            logger.info("send data pack length: " + len);
            transcriber.send(b, len);
            // 8000采樣率情況下,3200byte字節(jié)建議 sleep 200ms,16000采樣率情況下,3200byte字節(jié)建議 sleep 100ms
            int deltaSleep = getSleepDelta(len, 16000);
          
        }

到了這里,關(guān)于Java集成阿里云的實時語音識別遇到的一些問題的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • [python]基于faster whisper實時語音識別語音轉(zhuǎn)文本

    語音識別轉(zhuǎn)文本相信很多人都用過,不管是手機(jī)自帶,還是騰訊視頻都附帶有此功能,今天簡單說下: faster whisper地址: https://github.com/SYSTRAN/faster-whisper https://link.zhihu.com/?target=https%3A//github.com/SYSTRAN/faster-whisper 實現(xiàn)功能: 從麥克風(fēng)獲取聲音進(jìn)行實時語音識別轉(zhuǎn)文本 代碼僅僅

    2024年02月03日
    瀏覽(34)
  • 【RV1126】移植kaldi實時語音識別

    【RV1126】移植kaldi實時語音識別

    參考:Greedy search與beam search 在下面會用到解碼的方法選擇 greedy_search :貪心搜索,貪心搜索是一種來自計算機(jī)科學(xué)的算法,生成第一個詞的分布以后,它將會根據(jù)你的條件語言模型挑選出最有可能的第一個詞進(jìn)入你的機(jī)器翻譯模型中,在挑選出第一個詞之后它將會繼續(xù)挑選出

    2024年02月04日
    瀏覽(23)
  • FreeSWITCH對接vosk實現(xiàn)實時語音識別

    FreeSWITCH對接vosk實現(xiàn)實時語音識別

    環(huán)境:CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.2 vosk是一個開源語音識別工具,可識別中文,之前介紹過python使用vosk進(jìn)行中文語音識別,今天記錄下FreeSWITCH對接vosk實現(xiàn)實時語音識別。 vosk離線語音識別可參考我之前寫的文章: python使用vosk進(jìn)行中文語音識別 可直接使用

    2024年02月02日
    瀏覽(57)
  • java使用阿里云的短信服務(wù)

    java使用阿里云的短信服務(wù)

    這里我已經(jīng)購買過一次了,所以10塊錢200條一年,第一次購買應(yīng)該是3塊錢200條三個月 發(fā)送成功 要使用阿里云的業(yè)務(wù),這個 AccessKey ID和AccessKey Secret 是必須要獲取的

    2024年02月16日
    瀏覽(23)
  • 百度飛槳paddlespeech實現(xiàn)小程序?qū)崟r語音流識別

    百度飛槳paddlespeech實現(xiàn)小程序?qū)崟r語音流識別

    前言: 哈哈,這是我2023年4月份的公司作業(yè)。如果僅僅是簡單的語音識別倒也沒什么難度,wav文件直接走模型輸出結(jié)果的事。可是注意標(biāo)題,流式識別、實時! 那么不得不說一下流式的優(yōu)點了。 1、解決內(nèi)存溢出的煩惱。 2、打算做成無文件生成,接收語音流直接走模型,減

    2023年04月21日
    瀏覽(31)
  • 關(guān)于stm32控制esp8266鏈接阿里云時遇到的一些問題

    關(guān)于stm32控制esp8266鏈接阿里云時遇到的一些問題

    目錄 問題一:關(guān)于mqtt的AT命令 固件問題而產(chǎn)生的其他問題: 關(guān)于mqtt報文連接阿里云的問題 用串口調(diào)試助手發(fā)送: AT+MQTTCONN=0,\\\"iot-06z00fmgtrunfzt.mqtt.iothub.aliyuncs.com\\\",1883,0 一直回復(fù)error,連不上的問題 當(dāng)我的esp8266燒錄的是1112號的固件,這個固件我不知道是不是有問題,有時候能

    2024年01月25日
    瀏覽(14)
  • 鴻蒙應(yīng)用開發(fā)-錄音并使用WebSocket實現(xiàn)實時語音識別

    鴻蒙應(yīng)用開發(fā)-錄音并使用WebSocket實現(xiàn)實時語音識別

    功能介紹: 錄音并實時獲取RAW的音頻格式數(shù)據(jù),利用WebSocket上傳數(shù)據(jù)到服務(wù)器,并實時獲取語音識別結(jié)果,參考文檔使用AudioCapturer開發(fā)音頻錄制功能(ArkTS),更詳細(xì)接口信息請查看接口文檔:AudioCapturer8+和@ohos.net.webSocket (WebSocket連接)。 知識點: 熟悉使用AudioCapturer錄音并實時

    2024年04月25日
    瀏覽(22)
  • 基于阿里云微信小程序語音識別

    基于阿里云微信小程序語音識別

    頁面效果 其中采用阿里云語音識別:阿里云一句話語音識別 語音識別頁面 聊天組件

    2024年02月16日
    瀏覽(15)
  • 極速進(jìn)化,光速轉(zhuǎn)錄,C++版本人工智能實時語音轉(zhuǎn)文字(字幕/語音識別)Whisper.cpp實踐

    業(yè)界良心OpenAI開源的Whisper模型是開源語音轉(zhuǎn)文字領(lǐng)域的執(zhí)牛耳者,白璧微瑕之處在于無法通過蘋果M芯片優(yōu)化轉(zhuǎn)錄效率,Whisper.cpp 則是 Whisper 模型的 C/C++ 移植版本,它具有無依賴項、內(nèi)存使用量低等特點,重要的是增加了 Core ML 支持,完美適配蘋果M系列芯片。 Whisper.cpp的張量

    2024年02月02日
    瀏覽(29)
  • 將大模型集成到語音識別系統(tǒng)中的例子

    將大模型集成到語音識別系統(tǒng)中的例子

    本文旨在探索將大型語言模型(LLMs)集成到自動語音識別(ASR)系統(tǒng)中以提高轉(zhuǎn)錄準(zhǔn)確性的潛力。 文章介紹了目前的ASR方法及其存在的問題,并對使用LLMs的上下文學(xué)習(xí)能力來改進(jìn)ASR系統(tǒng)的性能進(jìn)行了合理的動機(jī)論證。 本文設(shè)計了使用Aishell-1和LibriSpeech數(shù)據(jù)集的實驗,通過與

    2024年02月16日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包