国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ICASSP 2023 | 解密實(shí)時(shí)通話中基于 AI 的一些語(yǔ)音增強(qiáng)技術(shù)

這篇具有很好參考價(jià)值的文章主要介紹了ICASSP 2023 | 解密實(shí)時(shí)通話中基于 AI 的一些語(yǔ)音增強(qiáng)技術(shù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

?

動(dòng)手點(diǎn)關(guān)注

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

干貨不迷路

背景介紹

實(shí)時(shí)音視頻通信 RTC 在成為人們生活和工作中不可或缺的基礎(chǔ)設(shè)施后,其中所涉及的各類(lèi)技術(shù)也在不斷演進(jìn)以應(yīng)對(duì)處理復(fù)雜多場(chǎng)景問(wèn)題,比如音頻場(chǎng)景中,如何在多設(shè)備、多人、多噪音場(chǎng)景下,為用戶提供聽(tīng)得清、聽(tīng)得真的體驗(yàn)。作為 RTC 方案中不可或缺的技術(shù),語(yǔ)音增強(qiáng)技術(shù)正從傳統(tǒng)的基于統(tǒng)計(jì)學(xué)習(xí)的方案向基于深度學(xué)習(xí)的方案融合演進(jìn),利用 AI 技術(shù),可以在語(yǔ)音降噪、回聲消除、干擾人聲消除等方面實(shí)現(xiàn)更好的語(yǔ)音增強(qiáng)效果,為用戶提供更舒適的通話體驗(yàn)。

作為語(yǔ)音信號(hào)處理研究領(lǐng)域的旗艦國(guó)際會(huì)議,ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表著聲學(xué)領(lǐng)域技術(shù)最前沿的研究方向。ICASSP 2023 收錄了多篇和音頻信號(hào)語(yǔ)音增強(qiáng)算法相關(guān)的文章,其中,火山引擎 RTC 音頻團(tuán)隊(duì)共有 4 篇研究論文被大會(huì)接收,論文方向包括特定說(shuō)話人語(yǔ)音增強(qiáng)、回聲消除、多通道語(yǔ)音增強(qiáng)、音質(zhì)修復(fù)主題。本文將介紹這 4 篇論文解決的核心場(chǎng)景問(wèn)題和技術(shù)方案,分享火山引擎 RTC 音頻團(tuán)隊(duì)在語(yǔ)音降噪、回聲消除、干擾人聲消除領(lǐng)域的思考與實(shí)踐。

《基于頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)的特定說(shuō)話人增強(qiáng)》

論文地址:

https://ieeexplore.ieee.org/abstract/document/10097252

實(shí)時(shí)特定說(shuō)話人語(yǔ)音增強(qiáng)任務(wù)有許多問(wèn)題亟待解決。首先,采集聲音的全頻帶寬度提高了模型的處理難度。其次,相比非實(shí)時(shí)場(chǎng)景,實(shí)時(shí)場(chǎng)景下的模型更難定位目標(biāo)說(shuō)話人,如何提高說(shuō)話人嵌入向量和語(yǔ)音增強(qiáng)模型的信息交互是實(shí)時(shí)處理的難點(diǎn)。受到人類(lèi)聽(tīng)覺(jué)注意力的啟發(fā),火山引擎提出了一種引入說(shuō)話人信息的說(shuō)話人注意力模塊(Speaker Attentive Module,SAM),并將其和單通道語(yǔ)音增強(qiáng)模型-頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(Band-split Recurrent Neural Network,BSRNN) 融合,構(gòu)建特定人語(yǔ)音增強(qiáng)系統(tǒng)來(lái)作為回聲消除模型的后處理模塊,并對(duì)兩個(gè)模型的級(jí)聯(lián)進(jìn)行優(yōu)化。

模型框架結(jié)構(gòu)

頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(BSRNN)

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò)(Band-split RNN, BSRNN)是全頻帶語(yǔ)音增強(qiáng)和音樂(lè)分離的 SOTA 模型,其結(jié)構(gòu)如上圖所示。BSRNN 由三個(gè)模塊組成,分別是頻帶分割模塊(Band-Split Module)、頻帶序列建模模塊(Band and Sequence Modeling Module)和頻帶合并模塊(Band-Merge Module)。頻帶分割模塊首先將頻譜分割為 K 個(gè)頻帶,每個(gè)頻帶的特征通過(guò)批歸一化(BN)后,被 K 個(gè)全連接層(FC)壓縮到相同的特征維度 C 。隨后,所有頻帶的特征被拼接為一個(gè)三維張量并由頻帶序列建模模塊進(jìn)一步處理,該模塊使用 GRU 交替建模特征張量的時(shí)間和頻帶維度。經(jīng)過(guò)處理的特征最后經(jīng)過(guò)頻帶合并模塊得到最后的頻譜掩蔽函數(shù)作為輸出,將頻譜掩蔽和輸入頻譜相乘即可得到增強(qiáng)語(yǔ)音。我們?cè)诿恳粋€(gè)頻帶序列建模模塊后添加了說(shuō)話人注意力模塊以構(gòu)建特定人語(yǔ)音增強(qiáng)模型。

說(shuō)話人注意力機(jī)制模塊 (SAM)

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

說(shuō)話人注意力模塊(Speaker Attentive Module)的結(jié)構(gòu)如上圖。其核心思想是使用說(shuō)話人嵌入向量 e 作為語(yǔ)音增強(qiáng)模型中間特征的吸引子,計(jì)算其和中間特征所有時(shí)間和頻帶上的相關(guān)度 s,稱(chēng)作注意力值。該注意力值將被用于對(duì)中間特征 h 進(jìn)行縮放規(guī)整。其具體公式如下:

首先通過(guò)全連接和卷積將 e 和 h 變換為 k 和 q:

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

k 和 q 相乘得到注意力值:

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

最后通過(guò)該注意力值縮放原始特征:

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

模型訓(xùn)練數(shù)據(jù)

關(guān)于模型訓(xùn)練數(shù)據(jù),我們采用了第五屆 DNS 特定說(shuō)話人語(yǔ)音增強(qiáng)賽道的數(shù)據(jù)以及 DiDispeech 的高質(zhì)量語(yǔ)音數(shù)據(jù),通過(guò)數(shù)據(jù)清洗,得到約 3500 個(gè)說(shuō)話人的清晰語(yǔ)音數(shù)據(jù)。在數(shù)據(jù)清洗方面,我們使用了基于 ECAPA-TDNN[1]說(shuō)話人識(shí)別的預(yù)訓(xùn)練模型來(lái)去除語(yǔ)音數(shù)據(jù)中殘留的干擾說(shuō)話人語(yǔ)音,同時(shí)使用第四屆 DNS 挑戰(zhàn)賽第一名的預(yù)訓(xùn)練模型來(lái)去除語(yǔ)音數(shù)據(jù)中的殘留噪聲。在訓(xùn)練階段,我們生成了超過(guò) 10 萬(wàn)條 4s 的語(yǔ)音數(shù)據(jù),對(duì)這些音頻添加混響以模擬不同信道,并隨機(jī)和噪聲、干擾人聲混合,設(shè)置成一種噪聲、兩種噪聲、噪聲和干擾說(shuō)話人以及僅有干擾說(shuō)話人 4 種干擾場(chǎng)景。同時(shí),為了模擬不同大小的輸入,含噪語(yǔ)音和目標(biāo)語(yǔ)音電平也會(huì)被隨機(jī)縮放。

《融合特定說(shuō)話人提取與回聲消除技術(shù)方案》

論文地址:?

https://ieeexplore.ieee.org/abstract/document/10096411

回聲消除一直是外放場(chǎng)景中一個(gè)極其復(fù)雜且至關(guān)重要的問(wèn)題。為了能夠提取出高質(zhì)量的近端干凈語(yǔ)音信號(hào),火山引擎提出了一種結(jié)合信號(hào)處理與深度學(xué)習(xí)技術(shù)的輕量化回聲消除系統(tǒng)。在特定說(shuō)話人降噪(Personalized Deep Noise Suppression, pDNS ) 基礎(chǔ)上,我們進(jìn)一步構(gòu)建了特定說(shuō)話人回聲消除(Personalized Acoustic Echo Cancellation, pAEC)系統(tǒng),其包括一個(gè)基于數(shù)字信號(hào)處理的前處理模塊、一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的兩階段模型和一個(gè)基于 BSRNN 和 SAM 的特定說(shuō)話人語(yǔ)音提取模塊。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

特定說(shuō)話人回聲消除總體框架

基于數(shù)字信號(hào)處理線性回聲消除的前處理模塊

前處理模塊主要包含兩部分:時(shí)延補(bǔ)償(TDC)和線性回聲消除(LAEC),該模塊均在子帶特征上進(jìn)行。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

基于信號(hào)處理子帶線性回聲消除算法框架

時(shí)延補(bǔ)償

TDC 基于子帶互相關(guān),其首先分別在每個(gè)子帶中估計(jì)出一個(gè)時(shí)延,然后使用投票方法來(lái)確定最終時(shí)間延遲。

線性回聲消除

LAEC 是一種基于 NLMS 的子帶自適應(yīng)濾波方法,由兩個(gè)濾波器組成:前置濾波器(Pre-filter)和后置濾波器(Post-filter),后置濾波器使用動(dòng)態(tài)步長(zhǎng)進(jìn)行自適應(yīng)更新參數(shù),前置濾波器是狀態(tài)穩(wěn)定的后置濾波器的備份。通過(guò)比較前置濾波器和后置濾波器的輸出的殘余能量,最終選擇誤差信號(hào)。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

LAEC 處理流程圖

基于多級(jí)卷積-循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(CRN)的兩階段模型

為了減輕模型建模負(fù)擔(dān),我們主張將 pAEC 任務(wù)解耦為“回聲抑制”和“特定說(shuō)話人提取”兩個(gè)任務(wù)。因此,后處理網(wǎng)絡(luò)主要由兩個(gè)神經(jīng)網(wǎng)路模塊組成:用于初步回聲消除和噪聲抑制的基于 CRN 的輕量級(jí)模塊,以及用于更好的近端語(yǔ)音信號(hào)重建的基于 pDNS 的后處理模塊。

第一階段:基于CRN的輕量級(jí)模塊

基于 CRN 的輕量級(jí)模塊由一個(gè)頻帶壓縮模塊、一個(gè)編碼器、兩個(gè)雙路徑 GRU、一個(gè)解碼器和一個(gè)頻帶分解模塊組成。同時(shí),我們還引入了一個(gè)語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection, VAD)模塊用于多任務(wù)學(xué)習(xí),有助于提高對(duì)近端語(yǔ)音的感知。CRN 以壓縮幅度作為輸入,并輸出初步的目標(biāo)信號(hào)復(fù)數(shù)理想比掩碼(cIRM)和近端 VAD 概率。

第二階段:基于pDNS的后處理模塊

這個(gè)階段的 pDNS 模塊包括了上述介紹的頻帶分割循環(huán)神經(jīng)網(wǎng)絡(luò) BSRNN 和說(shuō)話人注意力機(jī)制模塊 SAM,級(jí)聯(lián)模塊以串聯(lián)的方式接在輕量級(jí) CRN 模塊之后。由于我們的 pDNS 系統(tǒng)在特性說(shuō)話人語(yǔ)音增強(qiáng)任務(wù)上達(dá)到了較為優(yōu)異的性能,我們將一個(gè)預(yù)訓(xùn)練好的 pDNS 模型參數(shù)作為模型的第二階段初始化參數(shù),對(duì)前一階段的輸出進(jìn)一步處理。

級(jí)聯(lián)系統(tǒng)訓(xùn)練優(yōu)化損失函數(shù)

我們對(duì)兩階段模型進(jìn)行級(jí)聯(lián)優(yōu)化,讓模型在第一階段預(yù)測(cè)近端語(yǔ)音,在第二階段預(yù)測(cè)近端特定說(shuō)話人語(yǔ)音。同時(shí),我們還引入了一個(gè)近端 VAD 罰項(xiàng),增強(qiáng)模型對(duì)近端語(yǔ)音的感知。具體損失函數(shù)定義如下:

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

其中, 分別對(duì)應(yīng)模型第一階段和第二階段預(yù)測(cè)的 STFT 特征, 分別表示近端語(yǔ)音和近端特定說(shuō)話人語(yǔ)音的 STFT 特征, 分別表示模型預(yù)測(cè)和目標(biāo) VAD 狀態(tài)。

模型訓(xùn)練數(shù)據(jù)

為了使回聲消除系統(tǒng)可以處理多設(shè)備,多混響,多噪音采集場(chǎng)景的回聲,我們通過(guò)混合回聲和干凈語(yǔ)音,得到 2000+ 小時(shí)的訓(xùn)練數(shù)據(jù),其中,回聲數(shù)據(jù)使用 AEC Challenge 2023 遠(yuǎn)端單講數(shù)據(jù),干凈語(yǔ)音來(lái)自 DNS Challenge 2023 和 LibriSpeech,用于模擬近端混響的 RIR 集合來(lái)自 DNS Challenge。由于 AEC Challenge 2023 遠(yuǎn)端單講數(shù)據(jù)中的回聲存在少量噪聲數(shù)據(jù),直接用這些數(shù)據(jù)作為回聲容易導(dǎo)致近端語(yǔ)音失真,為了緩解這個(gè)問(wèn)題,我們采用了一種簡(jiǎn)單但有效的數(shù)據(jù)清理策略,使用預(yù)訓(xùn)練的一個(gè) AEC 模型處理遠(yuǎn)端單講數(shù)據(jù),將具有較高殘余能量的數(shù)據(jù)識(shí)別為噪聲數(shù)據(jù),并反復(fù)迭代下圖清洗流程。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

級(jí)聯(lián)優(yōu)化方案系統(tǒng)效果

這樣的一套基于融合回聲消除與特定說(shuō)話人提取的語(yǔ)音增強(qiáng)系統(tǒng)在 ICASSP 2023 AEC Challenge 盲測(cè)試集 [2] 上驗(yàn)證了它在主客觀指標(biāo)上的優(yōu)勢(shì)——取得了 4.44 的主觀意見(jiàn)分(Subjective-MOS)和 82.2%的語(yǔ)音識(shí)別準(zhǔn)確率(WAcc)。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

《基于傅立葉卷積注意力機(jī)制的多通道語(yǔ)音增強(qiáng)》

論文地址:?

https://ieeexplore.ieee.org/document/10095716

基于深度學(xué)習(xí)的波束權(quán)值估計(jì)是目前解決多通道語(yǔ)音增強(qiáng)任務(wù)的主流方法之一,即通過(guò)網(wǎng)絡(luò)求解波束權(quán)值來(lái)對(duì)多通道信號(hào)進(jìn)行濾波從而獲得純凈語(yǔ)音。與傳統(tǒng)波束形成算法求解空間協(xié)方差矩陣的原理類(lèi)似,頻譜信息和空間信息在波束權(quán)值的估計(jì)中也起著重要作用。然而,現(xiàn)有許多神經(jīng)波束形成器都無(wú)法對(duì)波束權(quán)值進(jìn)行最優(yōu)估計(jì)。為處理這一挑戰(zhàn),火山引擎提出了一種傅里葉卷積注意力編碼器(Fourier Convolutional Attention Encoder, FCAE),該編碼器能在頻率特征軸上提供全局感受野,加強(qiáng)對(duì)頻率軸上下文特征的提取。同時(shí),我們也提出了一種基于 FCAE 的卷積循環(huán)編解碼器(Convolutional Recurrent Encoder-Decoder, CRED)的結(jié)構(gòu)用來(lái)從輸入特征中捕捉頻譜上下文特征和空間信息。

模型框架結(jié)構(gòu)

波束權(quán)值估計(jì)網(wǎng)絡(luò)

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

該網(wǎng)絡(luò)借助嵌入波束網(wǎng)絡(luò)(Embedding and Beamforming Network,EaBNet)的結(jié)構(gòu)范式,將網(wǎng)絡(luò)分為嵌入模塊和波束模塊兩個(gè)部分,嵌入模塊用來(lái)提取聚合頻譜和空間信息的嵌入向量,并將該嵌入向量送入波束部分導(dǎo)出波束權(quán)值。這里采用一個(gè) CRED 結(jié)構(gòu)來(lái)學(xué)習(xí)嵌入張量,多通道輸入信號(hào)經(jīng)過(guò) STFT 變換后,送入一個(gè) CRED 結(jié)構(gòu)提取嵌入張量,該嵌入張量類(lèi)似傳統(tǒng)波束形成中的空間協(xié)方差矩陣,包含可區(qū)分語(yǔ)音和噪聲的特征。嵌入張量經(jīng)過(guò) LayerNorm2d 結(jié)構(gòu),再經(jīng)過(guò)兩層堆疊的 LSTM 網(wǎng)絡(luò),最后通過(guò)一個(gè)線性層導(dǎo)出波束權(quán)值。我們對(duì)該波束權(quán)值作用于多通道輸入頻譜特征上,進(jìn)行濾波求和操作,最后得到純凈語(yǔ)音譜,經(jīng)過(guò) ISTFT 變換即可得到目標(biāo)時(shí)域波形。

CRED結(jié)構(gòu)

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

我們采用的 CRED 結(jié)構(gòu)如上圖所示。其中,F(xiàn)CAE 為傅里葉卷積注意力編碼器,F(xiàn)CAD 為與 FCAE 對(duì)稱(chēng)的解碼器;循環(huán)模塊采用深度前饋?lái)樞蛴洃浘W(wǎng)絡(luò)(Deep Feedward Sequential Memory Network,DFSMN)對(duì)序列的時(shí)序依賴(lài)進(jìn)行建模,在不影響模型性能的基礎(chǔ)上減小模型尺寸;跳連接部分采用串聯(lián)的通道注意力(Channel Attention)和空間注意力(Spatial Attention)模塊,用來(lái)進(jìn)一步提取跨通道間的空間信息,并連接深層特征與淺層特征,方便信息在網(wǎng)路中的傳輸。

FCAE結(jié)構(gòu)

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

傅里葉卷積注意力編碼器(FCAE)的結(jié)構(gòu)如上圖所示。該模塊受傅里葉卷積算子[3]的啟發(fā),利用離散傅里葉變換在變換域上的任意一點(diǎn)的更新將會(huì)對(duì)原始域的信號(hào)產(chǎn)生全局影響的特點(diǎn),對(duì)頻率軸特征進(jìn)行一維 FFT 變換,即可在頻率軸上獲得全局感受野,進(jìn)而加強(qiáng)對(duì)頻率軸上下文特征的提取。此外,我們引入了空間注意力模塊和通道注意力模塊,進(jìn)一步增強(qiáng)卷積表達(dá)能力,提取有利的頻譜-空間聯(lián)合信息,增強(qiáng)網(wǎng)絡(luò)對(duì)純凈語(yǔ)音和噪聲可區(qū)分特征的學(xué)習(xí)。在最終表現(xiàn)上,該網(wǎng)絡(luò)以僅 0.74M 的參數(shù)量取得了優(yōu)異的多通道語(yǔ)音增強(qiáng)效果。

模型訓(xùn)練數(shù)據(jù)

數(shù)據(jù)集方面,我們采用了 ConferencingSpeech 2021 比賽提供的開(kāi)源數(shù)據(jù)集,純凈語(yǔ)音數(shù)據(jù)包含 AISHELL-1、AISHELL-3、VCTK 以及 LibriSpeech(train-clean-360),挑選其中信噪比大于 15dB 的數(shù)據(jù)用于生成多通道混合語(yǔ)音,噪聲數(shù)據(jù)集采用 MUSAN、AudioSet。同時(shí),為了模擬實(shí)際多房間混響場(chǎng)景,通過(guò)模擬改變房間尺寸、混響時(shí)間、發(fā)聲源,噪聲源位置等方式將開(kāi)源的數(shù)據(jù)與超過(guò) 5000 個(gè)房間脈沖響應(yīng)進(jìn)行卷積,最終生成 6 萬(wàn)條以上多通道訓(xùn)練樣本。

《基于兩階段神經(jīng)網(wǎng)絡(luò)模型的音質(zhì)修復(fù)系統(tǒng)》

論文地址:

https://ieeexplore.ieee.org/document/10094827

除了特定說(shuō)話人增強(qiáng),回聲消除及多通道語(yǔ)音增強(qiáng)幾個(gè)方向,火山引擎也在音質(zhì)修復(fù)方向上做了一些嘗試。實(shí)時(shí)通信過(guò)程中存在的各種失真會(huì)影響語(yǔ)音信號(hào)的質(zhì)量,使語(yǔ)音信號(hào)的清晰度和可懂度下降?;鹕揭嫣岢隽艘粋€(gè)兩階段模型,該模型使用階段性的分治策略來(lái)修復(fù)影響語(yǔ)音質(zhì)量的多種失真。

模型框架結(jié)構(gòu)

下圖為兩階段模型整體框架構(gòu)圖,其中,第一階段模型主要修復(fù)頻譜缺失的部分,第二階段模型則主要抑制噪聲、混響以及第一階段模型可能產(chǎn)生的偽影。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

第一階段模型:Repairing Net

整體采用深度復(fù)數(shù)卷積循環(huán)神經(jīng)網(wǎng)絡(luò) (Deep Complex Convolution Recurrent Network, DCCRN)[4]架構(gòu),包括 Encoder、時(shí)序建模模塊和 Decoder 三個(gè)部分。受圖像修復(fù)的啟發(fā),我們引入了 Gate 復(fù)值卷積和 Gate 復(fù)值轉(zhuǎn)置卷積代替 Encoder 和 Decoder 中的復(fù)值卷積和復(fù)值轉(zhuǎn)置卷積。為了進(jìn)一步提升音頻修補(bǔ)部分的自然度,我們引入了 Multi-Period Discriminator和 Multi-Scale Discriminator 用于輔助訓(xùn)練。

第二階段模型:Denoising Net

整體采用 S-DCCRN 架構(gòu),包括 Encoder、兩個(gè)輕量級(jí) DCCRN 子模塊和 Decoder 三個(gè)部分,其中兩個(gè)輕量級(jí) DCCRN 子模塊分別進(jìn)行子帶和全帶建模。為了提升模型在時(shí)域建模方面的能力,我們將 DCCRN子 模塊中的 LSTM 替換為 Squeezed Temporal Convolutional Module(STCM)。

模型訓(xùn)練數(shù)據(jù)

這里用來(lái)訓(xùn)練來(lái)音質(zhì)修復(fù)的干凈音頻、噪聲、混響均來(lái)自 2023 DNS 競(jìng)賽數(shù)據(jù)集,其中干凈音頻總時(shí)長(zhǎng)為 750 小時(shí),噪聲總時(shí)長(zhǎng)為 170 小時(shí)。在第一階段模型的數(shù)據(jù)增廣時(shí),我們一方面利用全帶音頻與隨機(jī)生成的濾波器進(jìn)行卷積, 20ms 為窗長(zhǎng)將音頻采樣點(diǎn)隨機(jī)置零和對(duì)音頻隨機(jī)進(jìn)行降采樣來(lái)模擬頻譜缺失缺陷,另一方面在音頻幅度頻與音頻采集點(diǎn)上分別乘以隨機(jī)尺度;在第二階段的數(shù)據(jù)增廣時(shí),我們利用第一階段已經(jīng)生成的數(shù)據(jù),再卷積各種類(lèi)型的房間沖激響應(yīng)得到不同混響程度的音頻數(shù)據(jù)。

音頻處理效果

在 ICASSP 2023 AEC Challenge中,火山引擎 RTC 音頻團(tuán)隊(duì),在通用回聲消除 (Non-personalized AEC) 與特定說(shuō)話人回聲消除 (Personalized AEC) 兩個(gè)賽道上榮獲冠軍,并在雙講回聲抑制,雙講近端語(yǔ)音保護(hù)、近端單講背景噪聲抑制、綜合主觀音頻質(zhì)量打分及最終語(yǔ)音識(shí)別準(zhǔn)確率等多項(xiàng)指標(biāo)上顯著優(yōu)于其他參賽隊(duì)伍,達(dá)到國(guó)際領(lǐng)先水平。

我們來(lái)看一下經(jīng)過(guò)上述技術(shù)方案后,火山引擎 RTC 在不同場(chǎng)景下的語(yǔ)音增強(qiáng)處理效果。

不同信噪回聲比場(chǎng)景下的回聲消除

下面兩個(gè)例子分別展示了回聲消除算法在不同信號(hào)回聲能量比例場(chǎng)景下處理前后的對(duì)比效果。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

中等信回聲比場(chǎng)景

超低信回比場(chǎng)景對(duì)回聲消除的挑戰(zhàn)性最大,此時(shí)我們不僅需要有效去除大能量的回聲,還需要同時(shí)最大程度保留微弱的目標(biāo)語(yǔ)音。如下樣本中,女聲為目標(biāo)說(shuō)話人語(yǔ)音,男生為非目標(biāo)說(shuō)話人語(yǔ)音(回聲),目標(biāo)語(yǔ)音幾乎被非目標(biāo)語(yǔ)音完全覆蓋了。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

超低信回聲比場(chǎng)景

不同背景干擾說(shuō)話人場(chǎng)景下的說(shuō)話人提取

下面兩個(gè)例子分別展示了特定說(shuō)話人提取算法在噪音與背景人干擾場(chǎng)景下處理前后的對(duì)比效果。

如下樣本中,特定說(shuō)話人既有類(lèi)似門(mén)鈴的噪聲干擾,又有背景人說(shuō)話噪聲干擾,僅使用 AI 降噪只能去除門(mén)鈴噪聲,因此還需要針對(duì)特定說(shuō)話人進(jìn)行人聲消除。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

目標(biāo)說(shuō)話人與背景干擾人聲及噪音

當(dāng)目標(biāo)說(shuō)話人聲和背景干擾人聲的聲紋特征很接近時(shí),此時(shí)對(duì)于特定說(shuō)話人提取算法的挑戰(zhàn)更大,更能考驗(yàn)特定說(shuō)話人提取算法魯棒性。如下樣本中,目標(biāo)說(shuō)話人和背景干擾人聲是兩個(gè)相似的女聲。

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)

目標(biāo)女聲與干擾女聲混合

總結(jié)與展望

上述介紹了火山引擎 RTC 音頻團(tuán)隊(duì)基于深度學(xué)習(xí)在特定說(shuō)話人降噪,回聲消除,多通道語(yǔ)音增強(qiáng)等方向做出的一些方案及效果,未來(lái)場(chǎng)景依然面臨著多個(gè)方向的挑戰(zhàn),如語(yǔ)音降噪如何自適應(yīng)噪音場(chǎng)景,音質(zhì)修復(fù)如何在更廣范圍對(duì)音頻信號(hào)進(jìn)行多類(lèi)型修復(fù)以及怎么樣各類(lèi)終端上運(yùn)行輕量低復(fù)雜度模型,這些挑戰(zhàn)點(diǎn)也將會(huì)是我們后續(xù)重點(diǎn)的研究方向。

參考文獻(xiàn)

[1] B. Desplanques, J. Thienpondt, and K. Demuynck, “ECAPATDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification” In Interspeech, 2020, pp. 3830–3834.

[2] 盲測(cè)試集鏈接:https://github.com/microsoft/AEC-Challenge/tree/main/datasets/blind_test_set_icassp2023

[3] Chi L, Jiang B, Mu Y. Fast Fourier Convolution. Advances in Neural Information Processing Systems. 2020(3) : 4479 – 4488.

[4] Hu Y, Liu Y, Lv S, et al. DCCRN: Deep Complex Convolution Recurrent Network for Phase-aware Speech Enhancement[J]. arXiv preprint arXiv:2008.00264, 2020.

加入我們

火山引擎 RTC,致力于提供全球互聯(lián)網(wǎng)范圍內(nèi)高質(zhì)量、低延時(shí)的實(shí)時(shí)音視頻通信能力,幫助開(kāi)發(fā)者快速構(gòu)建語(yǔ)音通話、視頻通話、互動(dòng)直播、轉(zhuǎn)推直播等豐富場(chǎng)景功能,目前已覆蓋互娛、教育、會(huì)議、游戲、汽車(chē)、金融、IoT 等豐富實(shí)時(shí)音視頻互動(dòng)場(chǎng)景,服務(wù)數(shù)億用戶。

音頻開(kāi)發(fā)工程師和音頻資深算法工程師熱招中!掃描下方二維碼,或點(diǎn)擊閱讀原文投遞,歡迎同學(xué)們加入!

語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)?點(diǎn)擊「閱讀原文」一鍵投遞!語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)?點(diǎn)擊「閱讀原文」一鍵投遞! 點(diǎn)擊「閱讀原文」一鍵投遞!語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)?點(diǎn)擊「閱讀原文」一鍵投遞!語(yǔ)音增強(qiáng)技術(shù),人工智能,語(yǔ)音識(shí)別,計(jì)算機(jī)視覺(jué),深度學(xué)習(xí)?點(diǎn)擊「閱讀原文」一鍵投遞!?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-561838.html

到了這里,關(guān)于ICASSP 2023 | 解密實(shí)時(shí)通話中基于 AI 的一些語(yǔ)音增強(qiáng)技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 解決蘋(píng)果Safari 瀏覽器下html不能自動(dòng)播放聲音和視頻的問(wèn)題-實(shí)時(shí)語(yǔ)音通話功能【唯一客服】...

    在實(shí)現(xiàn)我的客服系統(tǒng)中,實(shí)時(shí)語(yǔ)音通話功能的時(shí)候,如果想自動(dòng)播放音視頻流,在蘋(píng)果設(shè)備上遇到了問(wèn)題。 蘋(píng)果瀏覽器(Safari)在默認(rèn)情況下不允許聲音在背景里自動(dòng)播放。這是出于用戶體驗(yàn)和隱私方面的考慮,避免在用戶沒(méi)有意識(shí)到的情況下自動(dòng)播放聲音。 解決辦法是 iOS

    2024年02月12日
    瀏覽(40)
  • AI智能電話語(yǔ)音通話銷(xiāo)售機(jī)器人源碼,附帶系統(tǒng)搭建教程

    AI智能電話語(yǔ)音通話銷(xiāo)售機(jī)器人源碼,附帶系統(tǒng)搭建教程

    智能電話語(yǔ)音銷(xiāo)售機(jī)器人——高效篩選與跟進(jìn)客戶的利器 在快節(jié)奏的商業(yè)戰(zhàn)場(chǎng)上,迅速準(zhǔn)確地把握每一個(gè)潛在客戶是企業(yè)制勝的關(guān)鍵。我們的智能電話語(yǔ)音銷(xiāo)售機(jī)器人正是這樣一款能夠助力企業(yè)輕松應(yīng)對(duì)海量客戶數(shù)據(jù),實(shí)現(xiàn)高效篩選與跟進(jìn)的利器。 通過(guò)簡(jiǎn)單的資料接入,您

    2024年02月21日
    瀏覽(18)
  • 2023最新ChatGPT商業(yè)運(yùn)營(yíng)網(wǎng)站源碼+支持ChatGPT4.0+新增GPT聯(lián)網(wǎng)功能+支持ai繪畫(huà)+實(shí)時(shí)語(yǔ)音識(shí)別輸入+用戶會(huì)員套餐+免費(fèi)更新版本

    2023最新ChatGPT商業(yè)運(yùn)營(yíng)網(wǎng)站源碼+支持ChatGPT4.0+新增GPT聯(lián)網(wǎng)功能+支持ai繪畫(huà)+實(shí)時(shí)語(yǔ)音識(shí)別輸入+用戶會(huì)員套餐+免費(fèi)更新版本

    提問(wèn):程序已經(jīng)支持GPT3.5、GPT4.0接口、支持新建會(huì)話,上下文記憶 支持三種Ai繪畫(huà)模型(官方Midjourney模型、GPT3.5KEY繪畫(huà)、國(guó)內(nèi)其他繪畫(huà)模型) 中英文實(shí)時(shí)語(yǔ)音識(shí)別輸入,文章資訊發(fā)布功能,菜單工具欄功能,郵箱驗(yàn)證和手機(jī)短信驗(yàn)證注冊(cè) Prompt角色功能 新增GPT聯(lián)網(wǎng)功能(20

    2024年02月12日
    瀏覽(97)
  • Java集成阿里云的實(shí)時(shí)語(yǔ)音識(shí)別遇到的一些問(wèn)題

    集成阿里云的實(shí)時(shí)語(yǔ)音識(shí)別遇到的問(wèn)題: 困擾了一周時(shí)間,主要涉及到流的處理問(wèn)題。 集成是通過(guò)引用maven依賴(lài)加載。 前端錄音通過(guò)流的方式傳到后端,后端再把流上傳到Minio,后端拿到文件地址,調(diào)微服務(wù)(集成語(yǔ)音識(shí)別的是另一個(gè)獨(dú)立的微服務(wù))去Minio獲取輸入流,再上傳到

    2024年02月02日
    瀏覽(22)
  • ICASSP 2023

    ICASSP 2023

    On behalf of our whole Organizing Committee, it is our great pleasure? to invite you to the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2023), which will take place in the Greek island of Rhodes from June 04 to June 09, 2023. The flagship conference of the IEEE Signal Processing Society (SPS) will be held in-person

    2024年02月09日
    瀏覽(12)
  • [python]基于faster whisper實(shí)時(shí)語(yǔ)音識(shí)別語(yǔ)音轉(zhuǎn)文本

    語(yǔ)音識(shí)別轉(zhuǎn)文本相信很多人都用過(guò),不管是手機(jī)自帶,還是騰訊視頻都附帶有此功能,今天簡(jiǎn)單說(shuō)下: faster whisper地址: https://github.com/SYSTRAN/faster-whisper https://link.zhihu.com/?target=https%3A//github.com/SYSTRAN/faster-whisper 實(shí)現(xiàn)功能: 從麥克風(fēng)獲取聲音進(jìn)行實(shí)時(shí)語(yǔ)音識(shí)別轉(zhuǎn)文本 代碼僅僅

    2024年02月03日
    瀏覽(33)
  • 基于Whisper語(yǔ)音識(shí)別的實(shí)時(shí)視頻字幕生成 (二): 在線實(shí)時(shí)字幕

    基于Whisper語(yǔ)音識(shí)別的實(shí)時(shí)視頻字幕生成 (二): 在線實(shí)時(shí)字幕

    Whistream(微流)是基于Whisper語(yǔ)音識(shí)別的的在線字幕生成工具,支持rtsp/rtmp/mp4等視頻流在線語(yǔ)音識(shí)別 whistream將在whishow基礎(chǔ)上引入whisper進(jìn)行在線語(yǔ)音識(shí)別生成視頻字幕 python: 命令行: 在線直播字幕: 605686962@qq.com coolEphemeroptera@gmail.com

    2024年04月13日
    瀏覽(43)
  • 2023年AI語(yǔ)音會(huì)議匯總

    2023年AI語(yǔ)音會(huì)議匯總

    2023年,AI語(yǔ)音領(lǐng)域?qū)W術(shù)會(huì)議精彩紛呈,語(yǔ)音之家匯總了國(guó)內(nèi)外重要的會(huì)議呈現(xiàn)給大家,大家可根據(jù)時(shí)間統(tǒng)籌安排好2023年的學(xué)術(shù)活動(dòng)交流行程。如果信息有誤,歡迎指正。 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing 時(shí)間: 2023年6月4日 --?6月10日 地點(diǎn): Rhodes

    2024年02月08日
    瀏覽(14)
  • uniapp Vue 使用 sip.js進(jìn)行語(yǔ)音通話視頻通話

    下載或者安裝 sip.js 到 uniapp 項(xiàng)目,APP 端在 menifest.json 中配置麥克風(fēng)權(quán)限 menifest.json 中 app 權(quán)限配置選中: android.permission.RECORD_AUDIO android.permission.MODIFY_AUDIO_SETTINGS sip.js 低版本 如 V0.13.0 版本的寫(xiě)法 sip.js 高版本如 V0.21.2 用法 (參數(shù)同上,只列出 methods 里的部分) APP模式下檢測(cè)麥

    2024年02月13日
    瀏覽(104)
  • AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼+新增GPT聯(lián)網(wǎng)功能+支持GPT4+支持ai繪畫(huà)+實(shí)時(shí)語(yǔ)音識(shí)別輸入

    AI創(chuàng)作系統(tǒng)ChatGPT網(wǎng)站源碼+新增GPT聯(lián)網(wǎng)功能+支持GPT4+支持ai繪畫(huà)+實(shí)時(shí)語(yǔ)音識(shí)別輸入

    提問(wèn):程序已經(jīng)支持GPT3.5、GPT4.0接口、支持新建會(huì)話,上下文記憶 支持三種Ai繪畫(huà)模型(官方Midjourney模型、GPT3.5KEY繪畫(huà)、國(guó)內(nèi)其他繪畫(huà)模型) 中英文實(shí)時(shí)語(yǔ)音識(shí)別輸入,文章資訊發(fā)布功能,菜單工具欄功能,郵箱驗(yàn)證和手機(jī)短信驗(yàn)證注冊(cè) Prompt面具角色扮演功能 新增GPT聯(lián)網(wǎng)功

    2024年02月16日
    瀏覽(500)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包