近日,ICASSP 2023會議發(fā)出了審稿結(jié)果通知,語音及語言信息處理國家工程研究中心智能語音信息處理團隊共18篇論文被會議接收,論文方向涵蓋語音識別、語音合成、話者識別、語音增強、情感識別、聲音事件檢測等,各接收論文簡介見后文。
來源丨語音及語言國家工程研究中心
語音及語言信息處理國家工程實驗室于2011年由國家發(fā)改委正式批準(zhǔn)成立,由中國科學(xué)技術(shù)大學(xué)和科大訊飛股份有限公司聯(lián)合共建,是我國語音產(chǎn)業(yè)界唯一的國家級研究開發(fā)平臺。2021年底,實驗室通過國家發(fā)改委的優(yōu)化整合評估,成功納入新序列,并轉(zhuǎn)建為語音及語言信息處理國家工程中心。
01
Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses
論文作者:艾楊,凌震華
論文單位:中國科學(xué)技術(shù)大學(xué)
論文資源:
-
論文預(yù)印版下載地址:https://arxiv.org/abs/2211.15974
-
Demo語音網(wǎng)頁:https://yangai520.github.io/NSPP
-
開源代碼下載地址:https://github.com/yangai520/NSPP
論文簡介:
本文提出了一個全新的語音相位預(yù)測模型,通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)從語音幅度譜到語音卷繞相位譜的直接預(yù)測。提出的模型由一個殘差卷積網(wǎng)絡(luò)和一個平行估計架構(gòu)級聯(lián)組成。其中,平行估計架構(gòu)由兩個平行的線性卷積層和一個相位計算公式組成,模擬從語音短時復(fù)數(shù)譜的實部和虛部到語音相位譜的計算過程并將預(yù)測的相位值嚴(yán)格限制在相位主值區(qū)間內(nèi)。為了避免因相位卷繞特性造成的誤差擴大問題,本文設(shè)計了抗卷繞損失訓(xùn)練模型,該損失定義在預(yù)測的卷繞相位譜和自然的卷繞相位譜之間,通過使用一個抗卷繞函數(shù)對瞬時相位誤差、群延時誤差和瞬時角頻率誤差激活得到。實驗結(jié)果表明,綜合考量重構(gòu)語音質(zhì)量和生成效率,本文提出的基于神經(jīng)網(wǎng)絡(luò)的語音相位預(yù)測模型的性能優(yōu)于Griffin-Lim算法和其他基于神經(jīng)網(wǎng)絡(luò)的相位預(yù)測方法。
02 Speech Reconstruction from Silent Tongue and Lip Articulation by Pseudo Target Generation and Domain Adversarial Training
論文作者:鄭瑞晨,艾楊,凌震華
論文單位:中國科學(xué)技術(shù)大學(xué)
論文資源:
Demo語音網(wǎng)頁:https://zhengrachel.github.io/ImprovedTaLNet-demo/
論文簡介:
本文研究了從靜默發(fā)聲狀態(tài)下的舌部超聲圖像和唇部視頻中重構(gòu)語音的任務(wù)。靜默發(fā)聲狀態(tài)與正常發(fā)聲狀態(tài)相對應(yīng),指說話人在說話時只激活口內(nèi)和口外發(fā)音器官,但不產(chǎn)生聲音。我們采用了一種基于偽目標(biāo)生成和域?qū)褂?xùn)練的方法,采用迭代訓(xùn)練策略來提高靜默發(fā)聲狀態(tài)下重構(gòu)語音的清晰度和自然度。實驗表明,與基線 TaLNet 模型相比,我們提出的方法顯著提高了靜默發(fā)聲狀態(tài)下重構(gòu)語音的可懂度和自然度。當(dāng)使用自動語音識別 (ASR) 模型測量語音可懂度時,我們提出的方法的單詞錯誤率 (WER) 與基線相比降低了 15% 以上。此外,我們提出的方法在正常發(fā)聲狀態(tài)下重構(gòu)語音的清晰度方面也優(yōu)于基線,表現(xiàn)在將其 WER 降低了大約 10%。
03?Zero-shot Personalized Lip-to-Speech Synthesis with Face Image based Voice Control
論文作者:盛崢彥,艾楊,凌震華
論文單位:中國科學(xué)技術(shù)大學(xué)
論文資源:
Demo語音網(wǎng)頁:https://levent9.github.io/Lip2Speech-demo/
論文簡介:
Lip-to-Speech (Lip2Speech) Synthesis是指根據(jù)人臉視頻來進行語音合成,本文提出了一種基于人臉音色控制的zero-shot個性化Lip2Speech合成方法。人臉視頻包含語義信息和話者信息,目前方法對于訓(xùn)練集外話者Lip2Speech合成語音的音色常常與話者信息相違和,因此本文采用變分自編碼器結(jié)構(gòu)解耦輸入人臉視頻中的話者信息和語義表征,額外輸入的基于人臉的話者編碼控制未見話者的音色;此外,考慮到數(shù)據(jù)集的稀缺性,提出了關(guān)聯(lián)跨模態(tài)表征學(xué)習(xí)來提升基于人臉的話者編碼對于音色控制的能力。實驗表明,提出方法在合成語音的自然度上取得了更好的主客觀性能,合成語音的音色和未見話者人臉形象更匹配。
04 A Multi-scale Feature Aggregation based Lightweight Network for Audio-visual Speech Enhancement
??論文作者:徐海濤,魏亮發(fā),張結(jié),楊劍鳴,王燕南,高天,方昕,戴禮榮
??論文單位:中國科學(xué)技術(shù)大學(xué),騰訊天籟實驗室,清華大學(xué)深圳國際研究生院,科大訊飛
??論文簡介:
在提高語音質(zhì)量上,音視頻語音增強(Audio-visual Speech Enhancement, AVSE)方法已經(jīng)被證明優(yōu)于對應(yīng)的純音頻語音增強(Audio-only Speech Enhancement, AOSE)方法。然而,當(dāng)前的AVSE模型大多是重量級的,它們具有較大的參數(shù)量不利于模型的部署和實際的應(yīng)用。在這項工作中,通過組合幾種多模態(tài)、多尺度和多分支的策略,我們提出了一個輕量級的AVSE模型(M3Net)。對于視頻和音頻分支,我們設(shè)計了三種多尺度的方法,即多尺度平均池化(Multi-scale average pooling, MSAP)、多尺度殘差網(wǎng)絡(luò)(Multi-scale ResNet, MSResNet)和多尺度短時傅里葉變換(Multi-scale short time Fourier transform, MSSTFT)。此外,對于音視頻特征聚合,我們也設(shè)計了四種跳轉(zhuǎn)連接(Skip Connection)方法。四種Skip Connections方法對上述的三種多尺度技術(shù)都有很好的補充效果。實驗結(jié)果表明,這些技術(shù)可以靈活地與現(xiàn)有的方法結(jié)合使用。更重要的是,與重量級網(wǎng)絡(luò)相比,以更小的模型大小獲得了相當(dāng)?shù)男阅堋?/p>
05 Robust Data2vec: Noise-robust Speech Representation Learning for ASR by Combining Regression and Improved Contrastive Learning
??論文作者:朱秋實,周龍,張結(jié),劉樹杰,胡宇晨,戴禮榮
??論文單位:中國科學(xué)技術(shù)大學(xué)
??論文資源:
論文預(yù)印版下載:https://arxiv.org/abs/2210.15324
??論文簡介:
基于對比學(xué)習(xí)任務(wù)或回歸任務(wù)的自監(jiān)督預(yù)訓(xùn)練方法可以利用更多未標(biāo)記的數(shù)據(jù)來提高語音識別(ASR)的性能。然而,將兩個預(yù)訓(xùn)練任務(wù)結(jié)合起來并為對比學(xué)習(xí)構(gòu)建不同的負(fù)樣本能否提高模型的噪聲魯棒性仍然是未知的。在本文中,我們通過聯(lián)合優(yōu)化預(yù)訓(xùn)練階段的對比學(xué)習(xí)任務(wù)和回歸任務(wù),提出了一種用于學(xué)習(xí)噪聲魯棒語音表征的模型:robust data2vec。此外,我們提出了兩種改進的方法來提升模型性能。具體而言,我們首先構(gòu)建基于patch的非語義負(fù)樣本以提高預(yù)訓(xùn)練模型的噪聲魯棒性,這是通過將特征劃分為不同大小的塊(即所謂的負(fù)樣本)來實現(xiàn)的。其次,通過分析正負(fù)樣本的分布,我們提出去除容易區(qū)分的負(fù)樣本,以提高預(yù)訓(xùn)練模型的判別能力。在CHiME-4數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法能夠提高預(yù)訓(xùn)練模型在噪聲場景中的性能。此外我們發(fā)現(xiàn),與僅采用回歸任務(wù)相比,對比學(xué)習(xí)和回歸任務(wù)的聯(lián)合訓(xùn)練可以在一定程度上避免模型崩塌。
06 Incorporating Lip Features into Audio-visual Multi-speaker DOA Estimation by Gated Fusion
??論文作者:姜婭,陳航,杜俊,王青,李錦輝
??論文單位:中國科學(xué)技術(shù)大學(xué),佐治亞理工學(xué)院
??論文簡介:
在本文中,我們提出了一種新的音視頻多說話人DOA估計網(wǎng)絡(luò),該網(wǎng)絡(luò)首次融合了多說話人的唇形特征,以適應(yīng)復(fù)雜的多說話人重疊和背景噪聲場景。首先,我們分別對多通道音頻特征、視頻中檢測到的多說話人參考角度和唇型(RoI)進行編碼。然后利用三模態(tài)門控融合模塊將編碼后的音頻特征、多說話人的參考角度特征和唇形特征融合,以平衡它們對最終輸出定位角度的貢獻(xiàn)。融合后的特征被送入后端網(wǎng)絡(luò),通過聯(lián)合網(wǎng)絡(luò)預(yù)測的多說話人角度向量和活動概率來獲得準(zhǔn)確的DOA估計。實驗結(jié)果表明,與之前在2021多模態(tài)信息語音處理(MISP)挑戰(zhàn)賽數(shù)據(jù)集上所做的工作相比,該方法可以將定位誤差減少73.48%,同時網(wǎng)絡(luò)的定位精度相對提高了86.95%。定位結(jié)果的高精度和穩(wěn)定性證明了所提出的模型在多說話人場景中的魯棒性。
07 Quantum Tansfer Learning using the Large-scale Unsupervised Pre-trained Model WavLM-Large for Synthetic Speech Detection
??論文作者:王若愚,杜俊,高天
??論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛
??論文簡介:
量子機器學(xué)習(xí)的發(fā)展展示了其相對于傳統(tǒng)深度學(xué)習(xí)的量子優(yōu)勢,有望在有監(jiān)督的分類數(shù)據(jù)集上發(fā)現(xiàn)新模式。這項工作提出了一個基于大規(guī)模無監(jiān)督預(yù)訓(xùn)練模型的經(jīng)典到量子的轉(zhuǎn)移學(xué)習(xí)系統(tǒng),以證明量子轉(zhuǎn)移學(xué)習(xí)在合成語音檢測方面的競爭性能。我們使用預(yù)訓(xùn)練模型WavLM-Large從語音信號中提取特征圖,通過經(jīng)典網(wǎng)絡(luò)組件獲得低維嵌入向量,然后用變量子電路(VQC)聯(lián)合微調(diào)預(yù)訓(xùn)練模型和經(jīng)典網(wǎng)絡(luò)組件。我們在ASVspoof 2021 DF任務(wù)上對我們的系統(tǒng)進行了評估。使用量子電路模擬的實驗表明量子傳遞學(xué)習(xí)可以提高經(jīng)典傳遞學(xué)習(xí)基線的性能。經(jīng)典轉(zhuǎn)移學(xué)習(xí)基線在該任務(wù)上的表現(xiàn)。
08 Super Dilated Nested Arrays with Ideal Critical Weights and Increased Degrees of Freedom
??論文作者:Ahmed M. A. Shaalan,杜俊
??論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛
??論文簡介:
在本文中,最近引入的擴張嵌套陣列(DNA)的兩個進一步的擴張,它擁有一個與嵌套陣列相同的虛擬ULA部分,但擁有兩個虛擬ULA。它擁有與嵌套陣列相同的虛擬ULA部分,但擁有兩個臨界間距(2×λ/2)的密集物理ULA。本文介紹了最近引入的擴張嵌套陣列(DNA)的兩個進一步的擴張,它們擁有與嵌套陣列相同的虛擬ULA部分,但擁有兩個具有臨界間距(2×λ/2)的密集物理ULA。介紹。在統(tǒng)一的父陣列數(shù)量不變的情況下 DOFs不變的情況下,在第一次擴張中,第一個密集的ULA 可以被重新排列Qf次,這樣,所有的傳感器對 與其中的臨界傳感器間的間距被完全 在一個指定的Q階擴張嵌套陣列中被完全處理,對于 2≤Q≤Q_f+1,而在第二次擴張中,稱為超級擴張嵌套陣列(SDNA)。而在被稱為超級擴張嵌套陣列(SDNA)的第二次擴張中,Qth-階DNA中的第二個密集的ULA也被重新排列。順序的DNA也被重新排列,以便有固定的權(quán)重作為同質(zhì)數(shù)組的那些。數(shù)值例子證明了這些陣列的優(yōu)越性能。
09 Incorporating Visual Information Reconstruction into Progressive Learning for Optimizing Audio-Visual Speech Enhancement
??論文作者:張辰悅,陳航,杜俊,殷保才,潘嘉,李錦輝
??論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛,佐治亞理工學(xué)院
??論文簡介:
傳統(tǒng)的音視頻語音增強網(wǎng)絡(luò)將噪聲語音和對應(yīng)視頻作為輸入,直接學(xué)習(xí)干凈語音的特征。為了減少學(xué)習(xí)目標(biāo)和輸入之間較大的信噪比差距,我們提出了一個基于mask的漸進式音視頻語音增強框架(AVPL),同時結(jié)合視覺信息重建(VIR),逐步提升信噪比。AVPL的每一個階段輸入預(yù)訓(xùn)練的視覺嵌入(VE)和特定音頻特征,預(yù)測提升一定信噪比后的mask。為提取更豐富的視覺特征,AVPL-VIR模型的每個階段還將重建輸入的視覺特征VE。在TCD-TIMIT數(shù)據(jù)集上的實驗表明,無論是單音頻還是音視頻的漸進式學(xué)習(xí),都明顯優(yōu)于傳統(tǒng)的單步學(xué)習(xí)。此外,由于AVPL-VIR提取了更充分的視覺信息,因此在AVPL的基礎(chǔ)上帶來了進一步的提升。
10 An Experimental Study on Sound Event Localization and Detection under Realistic Testing Conditions
??論文作者:牛樹同,杜俊,王青,柴麗,吳華鑫,念朝旭,孫磊,方義,潘嘉,李錦輝
??論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛,佐治亞理工學(xué)院
??論文簡介:
針對真實場景中的聲音事件檢測和定位任務(wù)(SELD),我們探索了四種數(shù)據(jù)擴增的方法和兩種模型結(jié)構(gòu)。在SELD任務(wù)中,相比于仿真的數(shù)據(jù),真實數(shù)據(jù)由于房間中的混響和聲音重疊段的存在更難處理。在這種情況下,我們首先基于ResNet-Conformer結(jié)構(gòu),在真實的DCASE 2022 數(shù)據(jù)集上比較了四種數(shù)據(jù)擴增方法。實驗表明,由于仿真測試集和真實測試集之間的不匹配,除了語音通道交換(ACS)方法外,其余的三種在仿真數(shù)據(jù)集上可行的數(shù)據(jù)擴增方法在真實測試集上效果不明顯。此外,在使用ACS的情況下,我們提出的改進的ResNet-Conformer進一步提升了SELD任務(wù)的性能。通過結(jié)合上述的兩項技術(shù),我們最終的系統(tǒng)在DCASE 2022挑戰(zhàn)賽中取得了第一名的成績。
11 Loss Function Design for DNN-Based Sound Event Localization and Detection on Low-Resource Realistic Data
??論文作者:王青,杜俊,念朝旭,牛樹同,柴麗,吳華鑫,潘嘉,李錦輝
??論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛,佐治亞理工學(xué)院
??論文簡介:
本研究重點關(guān)注基于深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的損失函數(shù)設(shè)計,該模型由兩個分支組成,用于解決低資源實際數(shù)據(jù)的聲音事件定位與檢測(SELD)。為此,我們提出了一個用于音頻分類的輔助網(wǎng)絡(luò),為主網(wǎng)絡(luò)提供全局事件信息,以使SELD預(yù)測結(jié)果更加穩(wěn)健。此外,基于聲音事件在時間維度上具有較強的連貫性,我們對到達(dá)方向(DOA)估計引入了一種動量策略,有效減少了定位誤差。此外,我們在損失函數(shù)中添加了正則化項,以減輕小數(shù)據(jù)集上的模型過擬合問題。在聲學(xué)場景和事件的檢測與分類(DCASE)2022挑戰(zhàn)賽任務(wù)3數(shù)據(jù)集上進行測試,實驗表明這三種方法可以一致地提高SELD性能。與基線系統(tǒng)相比,所提出的損失函數(shù)在實際數(shù)據(jù)上的定位和檢測精度都有顯著改善。
12 The Multimodal Information based Speech Processing (Misp) 2022 Challenge: Audio-visual Diarization and Recognition
??論文作者:王喆, 吳世龍, 陳航, 何茂奎, 杜俊, 李錦輝, 陳景東, Shinji Watanabe, Sabato Siniscalchi, Odette Scharenborg, 劉迪源, 殷保才, 潘嘉, 高建清, 劉聰
??論文單位:中國科學(xué)技術(shù)大學(xué),佐治亞理工學(xué)院,西北工業(yè)大學(xué),卡內(nèi)基梅隆大學(xué),恩納大學(xué),代爾夫特理工大學(xué),科大訊飛
??論文資源:開源代碼下載:https://github.com/mispchallenge/misp2022_baseline
??論文簡介:
MISP (Multi-modal Information based Speech Processing,多模態(tài)信息語音處理)挑戰(zhàn)賽旨在通過促進喚醒詞、說話人日志、語音識別等技術(shù)的研究,擴展信號處理技術(shù)在特定場景中的應(yīng)用。MISP2022挑戰(zhàn)賽包括兩個賽道:1)音視頻說話人日志(AVSD),旨在利用音頻和視頻數(shù)據(jù)解決“誰在什么時候說話”;2)全新的音視頻日志和識別(AVDR)任務(wù),重在利用音視頻說話人日志結(jié)果解決“誰在什么時候說了什么”的問題。兩個賽道均聚焦于中文,使用真實家庭電視場景(2-6個人在電視噪音的背景下相互交流)中的遠(yuǎn)場音頻和視頻。本文介紹了MISP2022挑戰(zhàn)的數(shù)據(jù)集、賽道設(shè)置和基線。我們對實驗和實例的分析表明,AVDR基線系統(tǒng)具有良好的性能,但由于遠(yuǎn)場視頻質(zhì)量、背景中存在電視噪聲和難以區(qū)分的說話人等原因,這一挑戰(zhàn)存在困難性。
13?An Effective Anomalous Sound Detection Method based on Representation Learning with Simulated Anomalies
??論文作者:陳晗,宋彥,卓著,周瑜,李裕宏,薛暉,Ian McLoughlin
??論文單位:中國科學(xué)技術(shù)大學(xué),新加坡理工大學(xué),阿里巴巴
??論文簡介:
本文提出了一種基于數(shù)據(jù)擬合方法的異常聲學(xué)檢測系統(tǒng)。最近,許多ASD系統(tǒng)根據(jù)異常曝露(Outlier Exposure,OE)的策略在DCASE挑戰(zhàn)賽中表現(xiàn)出不錯的性能。這些方法將來自不同類別的正常樣本視為偽異常樣本并利用深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)具有判別性的表征。然而,由于異常聲音發(fā)生稀少,分布多樣,并且在訓(xùn)練過程中不可利用,因此僅通過正常樣本學(xué)習(xí)到的表征的能力可能是有限的。為了解決這個問題,我們提出了一種統(tǒng)計量變換(Statistic Exchange,StEx)的方法,該方法通過模擬異常樣本來提高OE過程中表征學(xué)習(xí)的有效性。具體而言,從輸入時頻圖的時間或頻率維度中提取一階和二階統(tǒng)計量,然后通過交換不同類別的時頻圖的靜態(tài)信息來生成模擬的異常數(shù)據(jù)。此外,我們還引入了離群(Out-of-Distribution,OOD)指標(biāo)作為定性分析OE能力的重要度量,從而能夠為ASD系統(tǒng)選擇合適的異常模擬樣本。在DCASE2021 Task2的開發(fā)數(shù)據(jù)集上進行的大量實驗驗證了基于OE的ASD模擬異常表征學(xué)習(xí)方法的有效性。
14?Joint Generative-Contrastive Representation Learning for Anomalous Sound Detection
論文作者:曾曉敏,宋彥,卓著,周瑜,李裕宏,薛暉,戴禮榮,Ian McLoughlin
??論文單位:中國科學(xué)技術(shù)大學(xué),新加坡理工大學(xué),阿里巴巴
論文簡介:
本文提出了一種聯(lián)合生成式和對比學(xué)習(xí)(Generative-Contrastive,GeCo)的異常聲學(xué)檢測表征學(xué)習(xí)方法。在GeCo方法中,具有自注意力機制的預(yù)測自編碼器(Predictive AutoEncoder,PAE)作為生成式模型,被用于實現(xiàn)幀級預(yù)測。同時,PAE的輸出與原始正常樣本共同用于多任務(wù)框架下的有監(jiān)督對比表征學(xué)習(xí)。除類間交叉熵?fù)p失外,有監(jiān)督對比學(xué)習(xí)損失被用于分離類內(nèi)的原始正常樣本和PAE的輸出樣本?;赑AE的自注意力機制,GeCo能夠更好地捕獲幀間上下文信息。此外,GeCo對生成式方法和對比學(xué)習(xí)的融合,使得模型提取的特征更有效且更具信息量。在DCASE2020 Task2開發(fā)集上的實驗結(jié)果證明了GeCo的有效性。
15 AST-SED: An Effective Sound Event Detection Method based on Audio Spectrogram Transformer
論文作者:李康,宋彥,戴禮榮,Ian McLoughliln,方昕,柳林
論文單位:中國科學(xué)技術(shù)大學(xué),新加坡理工大學(xué),科大訊飛
論文簡介:
大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的AST(Audio Spectrogram Transformer)模型在聲音事件分類任務(wù)(AT)上取得了很好的性能,但是直接利用AST的輸出特征做聲音事件檢測任務(wù)(SED)不是最優(yōu)的,對此,本文提出了一種編碼器-解碼器(Encoder-Decoder)的下游任務(wù)模塊來高效地微調(diào)AST模型,在頻率方向編碼器中(Frequency-wise transformer encoder,F(xiàn)TE),采用了頻率方向的多頭自注意力機制來提高模型對一段音頻中多種聲音事件的辨別能力,在局部GRU解碼器(Local GRU Decoder,LGD)中,將最近鄰插值(NNI)和GRU組合,沿時間方向解碼出高時間分辨率特征用于檢測任務(wù)。在DCASE 2022 Task4 開發(fā)集上的結(jié)果表明,本文所提出的下游任務(wù)模塊能大幅提高AST做檢測任務(wù)的性能,且無需重新設(shè)計AST結(jié)構(gòu)。
16 StarGAN-VC based Cross-Domain Data Augmentation for Speaker Verification
論文作者:胡航瑞,宋彥,張建濤,戴禮榮,Ian McLoughlin,卓著,周瑜,李裕宏,薛暉
論文單位:中國科學(xué)技術(shù)大學(xué),新加坡理工大學(xué),阿里巴巴
論文簡介:
說話人識別系統(tǒng)(ASV)在實際應(yīng)用時,往往面臨復(fù)雜的域偏移問題(例如信道環(huán)境或說話風(fēng)格等不同),從而出現(xiàn)顯著的性能下降。由于單說話人多條件(SSMC)數(shù)據(jù)難以收集,現(xiàn)有的域自適應(yīng)方法難以保證同類別特征的跨域一致性。為此,本文提出了一種基于StarGAN-VC的跨域數(shù)據(jù)增強方法。受語音轉(zhuǎn)換(VC)任務(wù)的啟發(fā),我們首先從訓(xùn)練集的SSMC數(shù)據(jù)中學(xué)習(xí)通用的同說話人跨域轉(zhuǎn)換規(guī)律;再用其對全體數(shù)據(jù)進行跨域數(shù)據(jù)增強,從而提升訓(xùn)練集的類內(nèi)多樣性??紤]到ASV任務(wù)和VC任務(wù)的側(cè)重點不同,我們對生成模型的訓(xùn)練超參數(shù)以及模型結(jié)構(gòu)進行了適當(dāng)?shù)恼{(diào)整。我們在CNCeleb數(shù)據(jù)集上進行了實驗驗證,所提方法取得了約5-8%的相對基線提升,且與傳統(tǒng)數(shù)據(jù)增強方法互補。
17 Self-Supervised Audio-Visual Speech Representations Learning by Multimodal Self-Distillation
論文作者:張景宣,萬根順,凌震華,潘嘉,高建清,劉聰
論文單位:中國科學(xué)技術(shù)大學(xué),科大訊飛
論文簡介:
本文提出了一種新的AV2vec模型,該模型基于多模態(tài)自蒸餾方法進行音視頻語音表征學(xué)習(xí)。AV2vec模型采用了一個教師網(wǎng)絡(luò)和一個學(xué)生網(wǎng)絡(luò)。學(xué)生模型在訓(xùn)練中采用了掩碼隱層特征回歸的任務(wù)進行訓(xùn)練,而學(xué)生模型學(xué)習(xí)的目標(biāo)特征是教師網(wǎng)絡(luò)在線生成得到的。教師網(wǎng)絡(luò)的模型參數(shù)是學(xué)生網(wǎng)絡(luò)模型參數(shù)的指數(shù)平滑。因為本文提出的AV2vec模型的目標(biāo)特征是在線生成的,AV2vec模型不需要像AV-HuBERT模型那樣需要迭代訓(xùn)練,所以它的訓(xùn)練時間大幅度地減小到了AV-HuBERT模型的1/5。我們在本文中進一步提出了AV2vec-MLM模型,該模型基于類掩碼語言模型的損失函數(shù)對AV2vec模型進行了進一步擴展。我們的實驗結(jié)果表明,AV2vec模型的性能表現(xiàn)和AV-HuBERT基線相當(dāng)。當(dāng)進一步引入類掩碼語言模型損失函數(shù)時,AV2vec-MLM在唇語識別、語音識別以及多模態(tài)語音識別的下游任務(wù)上都取得了最好的實驗效果。
18 Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation
論文作者:唐海桃,付鈺,孫磊,薛嘉賓,劉丹,李永超,馬志強,吳明輝,潘嘉,萬根順,趙明恩
論文單位:科大訊飛,浙江大學(xué),哈爾濱工業(yè)大學(xué)
論文簡介:
文章來源:http://www.zghlxwxcb.cn/news/detail-471942.html
Transducer是流式語音識別的主流框架之一。由于上下文受限,流式Transducer模型和非流式之間存在性能差距。為了減小這種差距,一種有效的方法是確保它們的隱藏層和輸出分布是一致的,這可以通過分層知識蒸餾來實現(xiàn)。然而,由于輸出分布的學(xué)習(xí)依賴于隱藏層,同時確保流式和非流式分布的一致性比較困難。本文提出了一種自適應(yīng)兩階段知識蒸餾方法,包括隱藏層學(xué)習(xí)和輸出層學(xué)習(xí)。在前一階段,我們通過應(yīng)用均方誤差損失函數(shù)學(xué)習(xí)完整上下文的隱藏表示。在后一階段,我們設(shè)計了一種基于冪變換的自適應(yīng)平滑方法來學(xué)習(xí)穩(wěn)定的輸出分布。在LibriSpeech數(shù)據(jù)集上,相比于原始流式Transducer,WER相對降低19%和擁有更快首字響應(yīng)。文章來源地址http://www.zghlxwxcb.cn/news/detail-471942.html
到了這里,關(guān)于智能語音信息處理團隊18篇論文被語音技術(shù)頂會ICASSP 2023接收的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!