作者:Ashutosh Pandey and DeLiang Wang
文末附文章地址及其開源代碼地址
1.動機
????????盡管使用 T-F 表示是最流行的方法,但它也有一些缺點。首先,這些方法通常忽略干凈的相位信息,并使用噪聲相位進行時域信號重建。
2.方法
????????受成功實現(xiàn)用于序列建模的 TCNN 以及基于編解碼器架構的時域語音增強的有效性的啟發(fā),建議將它們結(jié)合起來以獲得實時增強系統(tǒng)。所提出的模型具有基于編碼器-解碼器的架構,該架構由因果卷積層組成。在編碼器和解碼器之間插入一個 TCM,以學習過去的長期依賴關系。
3.TCNN
????????TCNN 是為具有因果約束的序列建模任務提出的通用卷積網(wǎng)絡 。給定一個輸入序列和相應的輸出序列,序列建模網(wǎng)絡通過在某個損失函數(shù)上訓練網(wǎng)絡來學習估計輸出序列 。網(wǎng)絡上的因果約束意味著預測序列僅取決于輸入序列,而不是未來輸入。在時域語音增強的情況下,輸入序列是噪聲幀序列,輸出序列是干凈幀序列。
????????為了施加因果約束,TCNN 由因果卷積層和擴張卷積層組成。因果卷積確保信息不會從未來泄漏到過去。擴張的卷積有助于增加receptive field。receptive field越大,網(wǎng)絡越能回顧過去。下說明了使用大小為 2 的濾波器的擴張和因果卷積的示例。
????????此外,TCNN 由殘差塊組成,因此可以使用殘差學習充分訓練深度網(wǎng)絡。下圖顯示了這項工作中使用的殘差塊。
4.網(wǎng)絡架構
????????提出的 TCNN 具有三個組件:編碼器、解碼器和 TCM。編碼器和解碼器由二維因果卷積層組成,而 TCM 由一維因果卷積層和擴張卷積層組成。所提出框架的框圖如下圖所示
????????編碼器將噪聲幀序列作為輸入。輸入到編碼器的大小為 T × 320 × 1,其中 T 是幀數(shù),320 是幀大小,1 是輸入通道數(shù)。TCM 將三個膨脹塊堆疊在一起。一個膨脹塊是通過堆疊六個具有指數(shù)增加膨脹率的殘差塊形成的。在膨脹塊中,殘差塊中的連續(xù)膨脹率為 1、2、4、8、16 和 32。解碼器是編碼器的鏡像,由一系列二維因果轉(zhuǎn)置卷積(反卷積)層組成。每一層之后解碼器的輸出與編碼器中相應對稱層的輸出連接。在訓練時,向來自編碼器的傳入跳過連接添加 0.3 的 dropout。解碼器中的每一層都遵循批量歸一化和參數(shù) ReLU 非線性。
????????詳細的網(wǎng)絡參數(shù)在下圖中給出。對于編碼器和解碼器,超參數(shù)的格式為 filterHeight × filterWidth,(沿時間步長,沿跨幀步長)。對于 TCM,小括號括起來的條目表示殘差塊,超參數(shù)的格式為 filterSize、dilationRate、outputChannels。
5.實驗
5.1 數(shù)據(jù)集
????????在 WSJ0 SI-84 數(shù)據(jù)集上以與說話人和噪聲無關的方式評估所提出的框架。WSJ0 SI-84 數(shù)據(jù)集由 83 位說話者(42 位男性和 41 位女性)的 7138 條話語組成。為測試集選擇了六個說話人剩下的 77 個說話人用于創(chuàng)建訓練集混合。對于訓練噪音,使用來自音效庫(可在 www.sound-ideas.com 獲得)中的 10000 個非語音聲音。訓練話語的 SNR 為 -5 dB、-4 dB、-3 dB、-2 dB、-1 dB 和 0 dB。通過以下方式創(chuàng)建噪音。首先,隨機選擇訓練說話者的話語、SNR 和噪聲類型。然后在選定的 SNR 處將選定的話語與選定噪聲類型的隨機片段混合??偣采闪?320000 個訓練話語。訓練噪音的持續(xù)時間約為 125 小時,訓練話語的持續(xù)時間約為 500 小時。
????????對于測試集,使用 Auditec CD(可從 http://www.auditec.com 獲得)中的兩種具有挑戰(zhàn)性的噪音(babble and cafeteria)。創(chuàng)建了兩個測試集。第一個測試集使用來自訓練集的 6 名說話者(3 名男性和 3 名女性)的話語。第二個測試集是根據(jù)未包含在訓練集中的 6 位(3 位男性和 3 位女性)說話者的話語創(chuàng)建的。這兩個測試集評估了受過訓練和未受過訓練的演講者的表現(xiàn)。請注意,所有測試話語都從訓練集中排除。
?5.2 基線
????????對于基線,訓練了兩個模型。首先,訓練一個基于 LSTM 的實時因果系統(tǒng)。在結(jié)果中將此模型稱為 LSTM。.從輸入層到輸出層,LSTM模型有161、1024、1024、1024、1024、161單元。其次,訓練了最近提出的另一個實時因果系統(tǒng)。該系統(tǒng)是一種循環(huán)卷積架構,它使用基于編碼器-解碼器的卷積網(wǎng)絡和 LSTM 進行循環(huán)。在結(jié)果中將此模型稱為 CRN。請注意,兩個基線模型都在頻域中運行。
?5.3 實驗設置
????????所有的話語都被重新采樣到 16 kHz。使用大小為 20 ms 且重疊為 10 ms 的矩形窗口提取幀。所有模型都使用均方誤差損失和batch size為8進行訓練。小話語被零填充以匹配批次中最大話語的大小。Adam 優(yōu)化器用于基于隨機梯度下降 (SGD) 的優(yōu)化。學習率設置為一個小的常數(shù)值,等于 0.0002。
5.4 實驗結(jié)果
????????在STOI和PESQ分數(shù)方面比較模型。首先,將 TCNN 與受過訓練的說話者的基線進行比較。結(jié)果在下表給出
????????與LSTM相比,兩個SNR的STOI平均改善6.1%。PESQ在-5 dB時提高了0.14,在-2 dB時提高了0.17。類似地,與CRN相比,SNR上的STOI提高了4%,PESQ在-5 dB上提高了0.04,在-2 dB上提高了0.09。
????????在未經(jīng)訓練的說話人上比較模型。結(jié)果見下表
?
????????除了在這種情況下,TCNN 在 PESQ 分數(shù)方面也顯著優(yōu)于 CRN,在性能改進中也觀察到了類似的趨勢。這表明 CRN 模型過擬合訓練集中的說話者。還比較了模型中可訓練參數(shù)的數(shù)量。數(shù)字在下表中給出。與基線模型相比,所提出的模型具有更少的參數(shù),使其適合在實際應用中的有效實現(xiàn)。
?
????????最后,值得一提的是,所提出的框架可以在輸入端接受可變幀大小。唯一需要的更改是根據(jù)所需的幀大小從編碼器和解碼器中添加或刪除層。此外,該模型可以輕松應用于其他基于回歸的監(jiān)督語音處理任務,例如說話人分離、去混響和回聲消除。文章來源:http://www.zghlxwxcb.cn/news/detail-433850.html
6.結(jié)論
????????在這項研究中,作者提出了一種新穎的全卷積神經(jīng)網(wǎng)絡,用于時域的實時語音增強。所提出的 TCNN 在頻域中顯著優(yōu)于現(xiàn)有的實時系統(tǒng)。此外,所提出的框架具有更少的可訓練參數(shù)。此外,通過對網(wǎng)絡的編碼器和解碼器的簡單修改,系統(tǒng)很容易適應不同的幀大小。文章來源地址http://www.zghlxwxcb.cn/news/detail-433850.html
論文地址:TCNN: Temporal Convolutional Neural Network for Real-time Speech Enhancement in the Time Domain | IEEE Conference Publication | IEEE Xplore
開源代碼地址:暫無
到了這里,關于【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!