国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

這篇具有很好參考價值的文章主要介紹了【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

作者:Ashutosh Pandey and DeLiang Wang

文末附文章地址及其開源代碼地址

1.動機

????????盡管使用 T-F 表示是最流行的方法,但它也有一些缺點。首先,這些方法通常忽略干凈的相位信息,并使用噪聲相位進行時域信號重建。

2.方法

????????受成功實現(xiàn)用于序列建模的 TCNN 以及基于編解碼器架構的時域語音增強的有效性的啟發(fā),建議將它們結(jié)合起來以獲得實時增強系統(tǒng)。所提出的模型具有基于編碼器-解碼器的架構,該架構由因果卷積層組成。在編碼器和解碼器之間插入一個 TCM,以學習過去的長期依賴關系。

3.TCNN

????????TCNN 是為具有因果約束的序列建模任務提出的通用卷積網(wǎng)絡 。給定一個輸入序列和相應的輸出序列,序列建模網(wǎng)絡通過在某個損失函數(shù)上訓練網(wǎng)絡來學習估計輸出序列 。網(wǎng)絡上的因果約束意味著預測序列僅取決于輸入序列,而不是未來輸入。在時域語音增強的情況下,輸入序列是噪聲幀序列,輸出序列是干凈幀序列。

????????為了施加因果約束,TCNN 由因果卷積層和擴張卷積層組成。因果卷積確保信息不會從未來泄漏到過去。擴張的卷積有助于增加receptive field。receptive field越大,網(wǎng)絡越能回顧過去。下說明了使用大小為 2 的濾波器的擴張和因果卷積的示例。

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

????????此外,TCNN 由殘差塊組成,因此可以使用殘差學習充分訓練深度網(wǎng)絡。下圖顯示了這項工作中使用的殘差塊。

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

4.網(wǎng)絡架構

????????提出的 TCNN 具有三個組件:編碼器、解碼器和 TCM。編碼器和解碼器由二維因果卷積層組成,而 TCM 由一維因果卷積層和擴張卷積層組成。所提出框架的框圖如下圖所示

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

????????編碼器將噪聲幀序列作為輸入。輸入到編碼器的大小為 T × 320 × 1,其中 T 是幀數(shù),320 是幀大小,1 是輸入通道數(shù)。TCM 將三個膨脹塊堆疊在一起。一個膨脹塊是通過堆疊六個具有指數(shù)增加膨脹率的殘差塊形成的。在膨脹塊中,殘差塊中的連續(xù)膨脹率為 1、2、4、8、16 和 32。解碼器是編碼器的鏡像,由一系列二維因果轉(zhuǎn)置卷積(反卷積)層組成。每一層之后解碼器的輸出與編碼器中相應對稱層的輸出連接。在訓練時,向來自編碼器的傳入跳過連接添加 0.3 的 dropout。解碼器中的每一層都遵循批量歸一化和參數(shù) ReLU 非線性。

????????詳細的網(wǎng)絡參數(shù)在下圖中給出。對于編碼器和解碼器,超參數(shù)的格式為 filterHeight × filterWidth,(沿時間步長,沿跨幀步長)。對于 TCM,小括號括起來的條目表示殘差塊,超參數(shù)的格式為 filterSize、dilationRate、outputChannels。

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

5.實驗

5.1 數(shù)據(jù)集

????????在 WSJ0 SI-84 數(shù)據(jù)集上以與說話人和噪聲無關的方式評估所提出的框架。WSJ0 SI-84 數(shù)據(jù)集由 83 位說話者(42 位男性和 41 位女性)的 7138 條話語組成。為測試集選擇了六個說話人剩下的 77 個說話人用于創(chuàng)建訓練集混合。對于訓練噪音,使用來自音效庫(可在 www.sound-ideas.com 獲得)中的 10000 個非語音聲音。訓練話語的 SNR 為 -5 dB、-4 dB、-3 dB、-2 dB、-1 dB 和 0 dB。通過以下方式創(chuàng)建噪音。首先,隨機選擇訓練說話者的話語、SNR 和噪聲類型。然后在選定的 SNR 處將選定的話語與選定噪聲類型的隨機片段混合??偣采闪?320000 個訓練話語。訓練噪音的持續(xù)時間約為 125 小時,訓練話語的持續(xù)時間約為 500 小時。

????????對于測試集,使用 Auditec CD(可從 http://www.auditec.com 獲得)中的兩種具有挑戰(zhàn)性的噪音(babble and cafeteria)。創(chuàng)建了兩個測試集。第一個測試集使用來自訓練集的 6 名說話者(3 名男性和 3 名女性)的話語。第二個測試集是根據(jù)未包含在訓練集中的 6 位(3 位男性和 3 位女性)說話者的話語創(chuàng)建的。這兩個測試集評估了受過訓練和未受過訓練的演講者的表現(xiàn)。請注意,所有測試話語都從訓練集中排除。

?5.2 基線

????????對于基線,訓練了兩個模型。首先,訓練一個基于 LSTM 的實時因果系統(tǒng)。在結(jié)果中將此模型稱為 LSTM。.從輸入層到輸出層,LSTM模型有161、1024、1024、1024、1024、161單元。其次,訓練了最近提出的另一個實時因果系統(tǒng)。該系統(tǒng)是一種循環(huán)卷積架構,它使用基于編碼器-解碼器的卷積網(wǎng)絡和 LSTM 進行循環(huán)。在結(jié)果中將此模型稱為 CRN。請注意,兩個基線模型都在頻域中運行。

?5.3 實驗設置

????????所有的話語都被重新采樣到 16 kHz。使用大小為 20 ms 且重疊為 10 ms 的矩形窗口提取幀。所有模型都使用均方誤差損失和batch size為8進行訓練。小話語被零填充以匹配批次中最大話語的大小。Adam 優(yōu)化器用于基于隨機梯度下降 (SGD) 的優(yōu)化。學習率設置為一個小的常數(shù)值,等于 0.0002。

5.4 實驗結(jié)果

????????在STOI和PESQ分數(shù)方面比較模型。首先,將 TCNN 與受過訓練的說話者的基線進行比較。結(jié)果在下表給出

【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

????????與LSTM相比,兩個SNR的STOI平均改善6.1%。PESQ在-5 dB時提高了0.14,在-2 dB時提高了0.17。類似地,與CRN相比,SNR上的STOI提高了4%,PESQ在-5 dB上提高了0.04,在-2 dB上提高了0.09。

????????在未經(jīng)訓練的說話人上比較模型。結(jié)果見下表

?【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

????????除了在這種情況下,TCNN 在 PESQ 分數(shù)方面也顯著優(yōu)于 CRN,在性能改進中也觀察到了類似的趨勢。這表明 CRN 模型過擬合訓練集中的說話者。還比較了模型中可訓練參數(shù)的數(shù)量。數(shù)字在下表中給出。與基線模型相比,所提出的模型具有更少的參數(shù),使其適合在實際應用中的有效實現(xiàn)。

?【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

????????最后,值得一提的是,所提出的框架可以在輸入端接受可變幀大小。唯一需要的更改是根據(jù)所需的幀大小從編碼器和解碼器中添加或刪除層。此外,該模型可以輕松應用于其他基于回歸的監(jiān)督語音處理任務,例如說話人分離、去混響和回聲消除。

6.結(jié)論

????????在這項研究中,作者提出了一種新穎的全卷積神經(jīng)網(wǎng)絡,用于時域的實時語音增強。所提出的 TCNN 在頻域中顯著優(yōu)于現(xiàn)有的實時系統(tǒng)。此外,所提出的框架具有更少的可訓練參數(shù)。此外,通過對網(wǎng)絡的編碼器和解碼器的簡單修改,系統(tǒng)很容易適應不同的幀大小。文章來源地址http://www.zghlxwxcb.cn/news/detail-433850.html

論文地址:TCNN: Temporal Convolutional Neural Network for Real-time Speech Enhancement in the Time Domain | IEEE Conference Publication | IEEE Xplore

開源代碼地址:暫無

到了這里,關于【語音增強論文解讀 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【讀點論文】A review of convolutional neural network architectures and their optimizations

    【讀點論文】A review of convolutional neural network architectures and their optimizations

    本文詳細分析和闡述了卷積神經(jīng)網(wǎng)絡(CNN)的典型架構及其優(yōu)化的研究進展。本文提出了一種基于模塊對 CNN 架構進行分類的典型方法,以適應更多具有多種特征的新網(wǎng)絡架構,這些架構很難依賴于原始的分類方法。通過對各種網(wǎng)絡架構的優(yōu)缺點分析及其性能比較, 對六種典

    2024年02月03日
    瀏覽(23)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    整體結(jié)構圖: Style Pooling風格池部分: Style Integration風格集成部分 1.提出了一個基于風格的重新校準模塊(SRM),他通過利用中間特征映射的風格來自適應地重新校準。 2.SRM首先通過樣式池從特征圖的每個通道中提取樣式信息,然后通過獨立于通道的樣式集成估計每個通道的重校

    2024年02月11日
    瀏覽(21)
  • 論文筆記:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting)

    論文筆記:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting)

    ICLR 2018 交通預測是一項具有挑戰(zhàn)的任務 對道路網(wǎng)絡的復雜空間依賴性 隨道路條件變化的非線性時間動態(tài) 長期預測的固有困難 ——將交通流建模為有向圖上的擴散過程 ——引入擴散卷積遞歸神經(jīng)網(wǎng)絡 (DCRNN) 使用圖上的雙向隨機游走來捕獲空間依賴性 使用具有計劃采樣(sc

    2024年02月01日
    瀏覽(52)
  • 圖像融合論文閱讀:IFCNN: A general image fusion framework based on convolutional neural network

    圖像融合論文閱讀:IFCNN: A general image fusion framework based on convolutional neural network

    @article{zhang2020ifcnn, title={IFCNN: A general image fusion framework based on convolutional neural network}, author={Zhang, Yu and Liu, Yu and Sun, Peng and Yan, Han and Zhao, Xiaolin and Zhang, Li}, journal={Information Fusion}, volume={54}, pages={99–118}, year={2020}, publisher={Elsevier} } 論文級別:SCI A1 影響因子:18.6 ?? 該論文是【

    2024年02月03日
    瀏覽(22)
  • EEG-GNN論文閱讀和分析:《EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks》

    EEG-GNN論文閱讀和分析:《EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks》

    下面所有博客是個人對EEG腦電的探索,項目代碼是早期版本不完整,需要完整項目代碼和資料請私聊。 數(shù)據(jù)集 1、腦電項目探索和實現(xiàn)(EEG) (上):研究數(shù)據(jù)集選取和介紹SEED 相關論文閱讀分析: 1、EEG-SEED數(shù)據(jù)集作者的—基線論文閱讀和分析 2、圖神經(jīng)網(wǎng)絡EEG論文閱讀和分析:《

    2024年02月07日
    瀏覽(19)
  • 【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相較于傳統(tǒng)的視覺里程計,端到端的方法可以認為是把特征提取、匹配、位姿估計等模塊用深度學習模型進行了替代。不同于那種用深度學習模型取代里程計框架一部分的算法,端到端的視覺里程計是直接將整個任務替換為深度學習,輸入依然是圖像流,結(jié)果也依然是位姿,

    2024年03月18日
    瀏覽(30)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    FCT: The Fully Convolutional Transformer for Medical Image Segmentation 論文解讀

    論文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代碼:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/會議:WACV 2023 我們提出了一種新的transformer,能夠分割不同形態(tài)的醫(yī)學圖像。 醫(yī)學圖像分析的細粒度特性所帶來的挑戰(zhàn)意味著transformer對其分析的適應仍處

    2024年02月10日
    瀏覽(22)
  • 【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    【CVPR 2023 論文解讀】TriDet: Temporal Action Detection with Relative Boundary Modeling

    發(fā)表時間:CVPR 2023 作者團隊:北航,美團,JD Explore 代碼鏈接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    瀏覽(26)
  • TCN(Temporal Convolutional Network,時間卷積網(wǎng)絡)

    TCN(Temporal Convolutional Network,時間卷積網(wǎng)絡)

    ? ? ? ? 實驗表明,RNN 在幾乎所有的序列問題上都有良好表現(xiàn),包括語音/文本識別、機器翻譯、手寫體識別、序列數(shù)據(jù)分析(預測)等。 ? ? ? ? 在實際應用中,RNN 在內(nèi)部設計上存在一個嚴重的問題: 由于網(wǎng)絡一次只能處理一個時間步長,后一步必須等前一步處理完才能

    2024年02月01日
    瀏覽(29)
  • 論文解讀:SuperGlue: Learning Feature Matching with Graph Neural Networks

    論文解讀:SuperGlue: Learning Feature Matching with Graph Neural Networks

    SuperGlue: Learning Feature Matching with Graph Neural Networks 發(fā)表時間:2020 論文地址:https://arxiv.org/abs/1911.11763 項目地址:http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介紹了一種通過聯(lián)合尋找對應和拒絕非匹配點來匹配兩組局部特征的神經(jīng)網(wǎng)絡。通過求解一個可微最優(yōu)傳輸問題來估

    2024年02月08日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包