對于語言學習者來說,練習發(fā)音并獲得及時準確的反饋,是提高口語水平的重要環(huán)節(jié)。多年來,微軟一直深耕基于 Azure 認知服務的語音功能,不斷優(yōu)化語音評測[1]功能的底層技術(shù),從準確率、流暢度、完整性和語音語調(diào)等方面,提供更實用的反饋,賦能教育行業(yè),提升教與學水平。微軟承諾發(fā)展“負責任的人工智能”,因此在設計和開發(fā)人工智能產(chǎn)品的過程中,始終恪守這一原則。本文將為大家介紹微軟語音評測模型的整體架構(gòu),深入解析底層 Hierarchical Transformer 技術(shù)。
語音評測底層技術(shù)剖析
微軟語音評測功能利用 Azure 神經(jīng)網(wǎng)絡語音合成(Azure Neural TTS)、Transformer[2]、有序回歸[3]和 Hierarchical 架構(gòu)提升了評測的準確率,并且獲得了單詞級別的準確性提升。與此同時,基于神經(jīng)網(wǎng)絡的 GOP[4](goodness of pronunciation)方法在高質(zhì)量的聲學模型支持下,其表現(xiàn)與真人專業(yè)評測水平極為相近。Azure 語音識別(STT)經(jīng)過大規(guī)模真實數(shù)據(jù)的訓練,微軟可以利用高質(zhì)量的 GOP 特征來訓練發(fā)音錯誤檢測模型。
模型整體架構(gòu):攻克數(shù)據(jù)稀缺難題,模型 PPC 系數(shù)大幅提升
語音錯誤檢測面臨的主要挑戰(zhàn)之一是難以獲得高質(zhì)量的標注數(shù)據(jù)。為了克服數(shù)據(jù)稀缺問題(包括正面樣本和負面樣本的不均衡),微軟使用 Azure Neural TTS 生成訓練數(shù)據(jù),即模擬人類辨別發(fā)音錯誤的過程。在此基礎(chǔ)上,使用增強數(shù)據(jù)進行預訓練得到源模型,然后使用標注數(shù)據(jù)對源模型進行微調(diào)。此外,在數(shù)據(jù)標注階段,聘請多名語言專家(LE, Langurage Expert)根據(jù)相同的評測體系,單獨對數(shù)據(jù)進行標注。兩個獨立 LE 之間的皮爾遜相關(guān)系數(shù)[5](Pearson Correlation Coefficients,PCC)必須大于給定的閾值,以保證標注質(zhì)量。對于某些低資源區(qū)域,利用 Azure Neural TTS 強大的數(shù)據(jù)生成能力,同樣可以采用這種兩階段建模方式提供支持。結(jié)合這些創(chuàng)新,模型在 SpeechOcean762 數(shù)據(jù)集[6]上的 PCC 從 0.5661 提高到 0.6562。
圖1:語音錯誤檢測系統(tǒng)架構(gòu)
構(gòu)建 Hierarchical Transformer:兼顧全文與單詞級別語音評測
微軟將來自于 Azure STT 系統(tǒng)聲學模型的 Senone、音素和單詞特征作為Hierarchical Transformer 模型的輸入特征。Senone 信息用于檢測細粒度的發(fā)音模式,自注意力機制重點聚焦于 Senone 和音素,而單詞級別的特征則為當前單詞評分提供全局視角(bird’s-eye view)。對齊塊用于顯式連接 Senone 和音素信息,讓Transformer 理解它們之間的隱式關(guān)系。
對于單詞級特征,模型中采用了單詞后驗分數(shù)、語句級信噪比(SNR)、時長、輔音和元音屬性和統(tǒng)計信息等指標進行評測。音素特征比單詞特征簡單得多,僅包括音素得分和時長。而對于 Senone 特征,僅使用 Senone 分數(shù)和狀態(tài)。通過這種精心設計的特征和模型架構(gòu),粗粒度和細粒度特征都將有助于 Transformer 對發(fā)音分數(shù)進行建模。
圖2:發(fā)音錯誤檢測Hierarchical Transformer總體框架
(a)Hierarchical Transformer 模型的結(jié)構(gòu)(b)Transformer 塊的詳細信息(c)連接 senone 和音素信息的對齊塊
引入有序回歸,提升語句級別的流利性與準確性
微軟在語音評測的準確率評估上進一步引入有序回歸[7](Ordinal Regression,OR),并在 SpeechOcean762 數(shù)據(jù)集驗證了結(jié)果。
OR 在之前的研究工作中已用于語句級流利性及準確性的語音評測。與傳統(tǒng)的機器學習任務相比,OR 表現(xiàn)得更好,因為它沒有將語音評測任務當作分類或回歸任務。OR 旨在預測比較樣本之間的排序信息——也就是說,它對兩個樣本進行比較并判斷哪一個更好。這種二元偏好測試比傳統(tǒng)方法更容易、更快、且更準確。此外,打分本身就是一種在得分上的自然排序,這種二元偏好測試理論上也更符合人類的行為習慣。
為了與其他系統(tǒng)公平比較,微軟在 SpeechOcean762 公開數(shù)據(jù)集上訓練了一些模型,該數(shù)據(jù)集分別包含 2500 個標注良好的訓練樣本和評價樣本。評價指標 PCC 賦予一個介于-1 和 1 之間的值,其中 0 表示無相關(guān)性。負值意味著預測與目標相反,正值意味著預測與目標一致。它用于衡量機器生成的評價分數(shù)與真人專家標記分數(shù)之間的相關(guān)性。數(shù)值接近 1 則表示強相關(guān)性。在 SpeechOcean762 數(shù)據(jù)集中,每個樣本均由 5 名 LE 單獨標記。之后針對所有 2500 個評價樣本,每 2 名 LE 之間的 PCC 都進行平均,作為真人評分的校驗。實驗結(jié)果如圖 3 所示,通過利用 OR,微軟語音評測模型在與頭部廠商的商業(yè)語音評測服務橫向?qū)Ρ戎腥〉昧俗罴殉煽?,而且?PCC 指標上進一步縮小了與真人評測的差距。
圖3:SpeechOcean762 數(shù)據(jù)集的實驗結(jié)果
語音評測功能助力教與學,滿足多元教學場景
目前,微軟語音評測支持十七種語言和口音,包括英語(美國)、英語(英國)、英語(澳大利亞)、法語(法國)、西班牙語(西班牙)、西班牙語(墨西哥)、德語(德國)、中文(普通話)和日語(日本)的通用版,以及其它多種語言口音[8]的預覽版。
同時,語音評測已集成在微軟 Immersive Reader 的 Reading Coach[9],作為教師助教提升教學效率;在微軟 Teams 的 Speaker Progress[10]功能中,語音評測可以成為學生的陪練,助力學生提高外語朗讀流暢性;PowerPoint Coach[11]能夠在演練過程中向演講者提供口語詞匯的正確發(fā)音建議。
Berlitz[12]是全球領(lǐng)先的語言培訓公司,通過使用 Azure 語音識別和語音評測功能提供平臺產(chǎn)品,用戶可以實時收到關(guān)于發(fā)音準確性和流暢度的詳細反饋,隨時隨地靈活練習和完善他們的發(fā)音。全球語言學習社區(qū) HelloTalk[13]將學習者與來自世界各地的母語用戶聯(lián)系起來,通過語音評測功能,學習者可以提升發(fā)音準確度,并在此過程中結(jié)交新朋友,更加沉浸于目標語言的文化中。?
此外,培生[14]的朗文英語插件通過語音評測為不同水平的學生提供個性化的等級測試功能和學習材料建議;印度教育科技公司BYJU[15]利用語音評測開發(fā)了英語語言應用(ELA),幫助學生以個性化的方式學習英語。
隨著以 ChatGPT 為代表的大語言模型等前沿技術(shù)的逐步成熟,將為外語教學場景帶來更多可能。未來,在確保隱私安全、合法合規(guī)且符合道德倫理的前提下,學生將有機會擁有更加個性化、沉浸式的陪練體驗,教育機構(gòu)則能為老師提供教學助理,因材施教。
圖4:ChatGPT 與多種應用集成,將為教學方式帶來更多可能
測試你的語音發(fā)音水準
你可以嘗試使用微軟 Azure 云賬號和語音服務賬號登錄微軟語音工作室[16],無需編寫程序即可體驗口語評測功能,用更直觀的交互界面評測語音流利程度和發(fā)音準確性。如果你沒有賬號,可以免費注冊微軟語音服務[17]。
以下更多資源能夠幫助你將語音功能添加到語言學習應用中:
-
閱讀“語言學習”博客[18],了解更多語音應用場景
-
在 GitHub 上試用發(fā)音評價的演示版[19]和示例代碼[20]
-
發(fā)音評價:使用發(fā)音評價-Azure認知服務| Microsoft Learn[21]
-
語音轉(zhuǎn)文本:語音轉(zhuǎn)文本概述-語音服務-Azure 認知服務|Microsoft Learn[22]
-
文本轉(zhuǎn)語音:文本轉(zhuǎn)語音概述-語音服務-Azure 認知服務| Microsoft Learn[23]
-
定制語音:自定義神經(jīng)網(wǎng)絡語音概述-語音服務-Azure認知服務| Microsoft Learn[24]
-
聯(lián)系我們獲取反饋或功能:mspafeedback@microsoft.com
參考鏈接
[1]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-csharp
[2]:https://arxiv.org/abs/1706.03762
[3]:https://arxiv.org/abs/2010.13339
[4]:https://www.sciencedirect.com/science/article/abs/pii/S0167639314001010
[5]:https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
[6]:https://arxiv.org/pdf/2104.01378v2.pdf
[7]:https://ieeexplore.ieee.org/abstract/document/8682187
[8]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/language-support?tabs=pronunciation-assessment#speech-to-text
[9]:https://techcommunity.microsoft.com/t5/education-blog/reading-coach-in-immersive-reader-plus-new-features-coming-to/ba-p/3734079
[10]:https://learn.microsoft.com/en-us/training/educator-center/product-guides/reading-progress/
[11]:https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fmicrosoft-365%2Fblog%2F2021%2F03%2F17%2Fimprove-your-presenting-skills-with-additional-platforms-and-new-features-for-powerpoint-presenter-coach%2F&data=04%7C01%7CMa.Melissa%40microsoft.com%7C6e47e4f7a841403a79dd08d8ee6b254b%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637521492199781979%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=yZ4BGASLPF9HAaQhi4sm6KtC%2Fr70RnWpF29K0t64j4Y%3D&reserved=0
[12]:https://www.berlitz.com/
[13]:https://customers.microsoft.com/en-us/story/1615006392710416983-hellotalk-azure-ai-education-china
[14]:https://customers.microsoft.com/en-us/story/1379625676815325642-pearson-education-azure-cognitive-services
[15]:https://byjus.com/global/
[16]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/speech-studio-overview
[17]:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/overview#try-the-speech-service-for-free
[18]:https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/PronunciationAssessment/BrowserJS
[19]:https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/PronunciationAssessment/BrowserJS
[20]:https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/5b2aa44055b529ec3bd7c961efbe6a151f93ee5e/samples/csharp/sharedcontent/console/speech_recognition_samples.cs#L970
[21]:https://learn.microsoft.com/azure/cognitive-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-csharp
[22]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text
[23]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/text-to-speech文章來源:http://www.zghlxwxcb.cn/news/detail-533750.html
[24]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/custom-neural-voice文章來源地址http://www.zghlxwxcb.cn/news/detail-533750.html
到了這里,關(guān)于微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!