国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測

2年前作者：語音之家分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

對于語言學習者來說，練習發(fā)音并獲得及時準確的反饋，是提高口語水平的重要環(huán)節(jié)。多年來，微軟一直深耕基于 Azure 認知服務的語音功能，不斷優(yōu)化語音評測[1]功能的底層技術(shù)，從準確率、流暢度、完整性和語音語調(diào)等方面，提供更實用的反饋，賦能教育行業(yè)，提升教與學水平。微軟承諾發(fā)展“負責任的人工智能”，因此在設計和開發(fā)人工智能產(chǎn)品的過程中，始終恪守這一原則。本文將為大家介紹微軟語音評測模型的整體架構(gòu)，深入解析底層 Hierarchical Transformer 技術(shù)。

語音評測底層技術(shù)剖析

微軟語音評測功能利用 Azure 神經(jīng)網(wǎng)絡語音合成（Azure Neural TTS）、Transformer[2]、有序回歸[3]和 Hierarchical 架構(gòu)提升了評測的準確率，并且獲得了單詞級別的準確性提升。與此同時，基于神經(jīng)網(wǎng)絡的 GOP[4]（goodness of pronunciation）方法在高質(zhì)量的聲學模型支持下，其表現(xiàn)與真人專業(yè)評測水平極為相近。Azure 語音識別（STT）經(jīng)過大規(guī)模真實數(shù)據(jù)的訓練，微軟可以利用高質(zhì)量的 GOP 特征來訓練發(fā)音錯誤檢測模型。

模型整體架構(gòu)：攻克數(shù)據(jù)稀缺難題，模型 PPC 系數(shù)大幅提升

語音錯誤檢測面臨的主要挑戰(zhàn)之一是難以獲得高質(zhì)量的標注數(shù)據(jù)。為了克服數(shù)據(jù)稀缺問題（包括正面樣本和負面樣本的不均衡），微軟使用 Azure Neural TTS 生成訓練數(shù)據(jù)，即模擬人類辨別發(fā)音錯誤的過程。在此基礎(chǔ)上，使用增強數(shù)據(jù)進行預訓練得到源模型，然后使用標注數(shù)據(jù)對源模型進行微調(diào)。此外，在數(shù)據(jù)標注階段，聘請多名語言專家（LE, Langurage Expert）根據(jù)相同的評測體系，單獨對數(shù)據(jù)進行標注。兩個獨立 LE 之間的皮爾遜相關(guān)系數(shù)[5]（Pearson Correlation Coefficients，PCC）必須大于給定的閾值，以保證標注質(zhì)量。對于某些低資源區(qū)域，利用 Azure Neural TTS 強大的數(shù)據(jù)生成能力，同樣可以采用這種兩階段建模方式提供支持。結(jié)合這些創(chuàng)新，模型在 SpeechOcean762 數(shù)據(jù)集[6]上的 PCC 從 0.5661 提高到 0.6562。

微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測,智能語音,microsoft,transformer,人工智能,語音識別

圖1：語音錯誤檢測系統(tǒng)架構(gòu)

構(gòu)建 Hierarchical Transformer：兼顧全文與單詞級別語音評測

微軟將來自于 Azure STT 系統(tǒng)聲學模型的 Senone、音素和單詞特征作為Hierarchical Transformer 模型的輸入特征。Senone 信息用于檢測細粒度的發(fā)音模式，自注意力機制重點聚焦于 Senone 和音素，而單詞級別的特征則為當前單詞評分提供全局視角（bird’s-eye view）。對齊塊用于顯式連接 Senone 和音素信息，讓Transformer 理解它們之間的隱式關(guān)系。

對于單詞級特征，模型中采用了單詞后驗分數(shù)、語句級信噪比（SNR）、時長、輔音和元音屬性和統(tǒng)計信息等指標進行評測。音素特征比單詞特征簡單得多，僅包括音素得分和時長。而對于 Senone 特征，僅使用 Senone 分數(shù)和狀態(tài)。通過這種精心設計的特征和模型架構(gòu)，粗粒度和細粒度特征都將有助于 Transformer 對發(fā)音分數(shù)進行建模。

微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測,智能語音,microsoft,transformer,人工智能,語音識別

圖2：發(fā)音錯誤檢測Hierarchical Transformer總體框架

（a）Hierarchical Transformer 模型的結(jié)構(gòu)（b）Transformer 塊的詳細信息（c）連接 senone 和音素信息的對齊塊

引入有序回歸，提升語句級別的流利性與準確性

微軟在語音評測的準確率評估上進一步引入有序回歸[7]（Ordinal Regression，OR），并在 SpeechOcean762 數(shù)據(jù)集驗證了結(jié)果。

OR 在之前的研究工作中已用于語句級流利性及準確性的語音評測。與傳統(tǒng)的機器學習任務相比，OR 表現(xiàn)得更好，因為它沒有將語音評測任務當作分類或回歸任務。OR 旨在預測比較樣本之間的排序信息——也就是說，它對兩個樣本進行比較并判斷哪一個更好。這種二元偏好測試比傳統(tǒng)方法更容易、更快、且更準確。此外，打分本身就是一種在得分上的自然排序，這種二元偏好測試理論上也更符合人類的行為習慣。

為了與其他系統(tǒng)公平比較，微軟在 SpeechOcean762 公開數(shù)據(jù)集上訓練了一些模型，該數(shù)據(jù)集分別包含 2500 個標注良好的訓練樣本和評價樣本。評價指標 PCC 賦予一個介于-1 和 1 之間的值，其中 0 表示無相關(guān)性。負值意味著預測與目標相反，正值意味著預測與目標一致。它用于衡量機器生成的評價分數(shù)與真人專家標記分數(shù)之間的相關(guān)性。數(shù)值接近 1 則表示強相關(guān)性。在 SpeechOcean762 數(shù)據(jù)集中，每個樣本均由 5 名 LE 單獨標記。之后針對所有 2500 個評價樣本，每 2 名 LE 之間的 PCC 都進行平均，作為真人評分的校驗。實驗結(jié)果如圖 3 所示，通過利用 OR，微軟語音評測模型在與頭部廠商的商業(yè)語音評測服務橫向?qū)Ρ戎腥〉昧俗罴殉煽?，而且?PCC 指標上進一步縮小了與真人評測的差距。

微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測,智能語音,microsoft,transformer,人工智能,語音識別

圖3：SpeechOcean762 數(shù)據(jù)集的實驗結(jié)果

語音評測功能助力教與學，滿足多元教學場景

目前，微軟語音評測支持十七種語言和口音，包括英語（美國）、英語（英國）、英語（澳大利亞）、法語（法國）、西班牙語（西班牙）、西班牙語(墨西哥)、德語(德國)、中文（普通話）和日語（日本）的通用版，以及其它多種語言口音[8]的預覽版。

同時，語音評測已集成在微軟 Immersive Reader 的 Reading Coach[9]，作為教師助教提升教學效率；在微軟 Teams 的 Speaker Progress[10]功能中，語音評測可以成為學生的陪練，助力學生提高外語朗讀流暢性；PowerPoint Coach[11]能夠在演練過程中向演講者提供口語詞匯的正確發(fā)音建議。

Berlitz[12]是全球領(lǐng)先的語言培訓公司，通過使用 Azure 語音識別和語音評測功能提供平臺產(chǎn)品，用戶可以實時收到關(guān)于發(fā)音準確性和流暢度的詳細反饋，隨時隨地靈活練習和完善他們的發(fā)音。全球語言學習社區(qū) HelloTalk[13]將學習者與來自世界各地的母語用戶聯(lián)系起來，通過語音評測功能，學習者可以提升發(fā)音準確度，并在此過程中結(jié)交新朋友，更加沉浸于目標語言的文化中。?

此外，培生[14]的朗文英語插件通過語音評測為不同水平的學生提供個性化的等級測試功能和學習材料建議；印度教育科技公司BYJU[15]利用語音評測開發(fā)了英語語言應用（ELA），幫助學生以個性化的方式學習英語。

隨著以 ChatGPT 為代表的大語言模型等前沿技術(shù)的逐步成熟，將為外語教學場景帶來更多可能。未來，在確保隱私安全、合法合規(guī)且符合道德倫理的前提下，學生將有機會擁有更加個性化、沉浸式的陪練體驗，教育機構(gòu)則能為老師提供教學助理，因材施教。

微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測,智能語音,microsoft,transformer,人工智能,語音識別

圖4：ChatGPT 與多種應用集成，將為教學方式帶來更多可能

測試你的語音發(fā)音水準

你可以嘗試使用微軟 Azure 云賬號和語音服務賬號登錄微軟語音工作室[16]，無需編寫程序即可體驗口語評測功能，用更直觀的交互界面評測語音流利程度和發(fā)音準確性。如果你沒有賬號，可以免費注冊微軟語音服務[17]。

以下更多資源能夠幫助你將語音功能添加到語言學習應用中：

閱讀“語言學習”博客[18]，了解更多語音應用場景
在 GitHub 上試用發(fā)音評價的演示版[19]和示例代碼[20]
發(fā)音評價：使用發(fā)音評價-Azure認知服務| Microsoft Learn[21]
語音轉(zhuǎn)文本：語音轉(zhuǎn)文本概述-語音服務-Azure 認知服務|Microsoft Learn[22]
文本轉(zhuǎn)語音：文本轉(zhuǎn)語音概述-語音服務-Azure 認知服務| Microsoft Learn[23]
定制語音：自定義神經(jīng)網(wǎng)絡語音概述-語音服務-Azure認知服務| Microsoft Learn[24]
聯(lián)系我們獲取反饋或功能：mspafeedback@microsoft.com

參考鏈接

[1]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-csharp

[2]:https://arxiv.org/abs/1706.03762

[3]:https://arxiv.org/abs/2010.13339

[4]:https://www.sciencedirect.com/science/article/abs/pii/S0167639314001010

[5]:https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

[6]:https://arxiv.org/pdf/2104.01378v2.pdf

[7]:https://ieeexplore.ieee.org/abstract/document/8682187

[8]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/language-support?tabs=pronunciation-assessment#speech-to-text

[9]:https://techcommunity.microsoft.com/t5/education-blog/reading-coach-in-immersive-reader-plus-new-features-coming-to/ba-p/3734079

[10]:https://learn.microsoft.com/en-us/training/educator-center/product-guides/reading-progress/

[11]:https://nam06.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fmicrosoft-365%2Fblog%2F2021%2F03%2F17%2Fimprove-your-presenting-skills-with-additional-platforms-and-new-features-for-powerpoint-presenter-coach%2F&data=04%7C01%7CMa.Melissa%40microsoft.com%7C6e47e4f7a841403a79dd08d8ee6b254b%7C72f988bf86f141af91ab2d7cd011db47%7C1%7C0%7C637521492199781979%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=yZ4BGASLPF9HAaQhi4sm6KtC%2Fr70RnWpF29K0t64j4Y%3D&reserved=0

[12]:https://www.berlitz.com/

[13]:https://customers.microsoft.com/en-us/story/1615006392710416983-hellotalk-azure-ai-education-china

[14]:https://customers.microsoft.com/en-us/story/1379625676815325642-pearson-education-azure-cognitive-services

[15]:https://byjus.com/global/

[16]:https://learn.microsoft.com/zh-cn/azure/cognitive-services/speech-service/speech-studio-overview

[17]:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/overview#try-the-speech-service-for-free

[18]:https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/PronunciationAssessment/BrowserJS

[19]:https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/PronunciationAssessment/BrowserJS

[20]:https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/5b2aa44055b529ec3bd7c961efbe6a151f93ee5e/samples/csharp/sharedcontent/console/speech_recognition_samples.cs#L970

[21]:https://learn.microsoft.com/azure/cognitive-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-csharp

[22]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text

[23]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/text-to-speech

[24]:https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/custom-neural-voice文章來源地址http://www.zghlxwxcb.cn/news/detail-533750.html

到了這里，關(guān)于微軟推出 Hierarchical Transformer 實現(xiàn)更高準確率的語音評測的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

漲點技巧：谷歌強勢推出優(yōu)化器Lion，引入到Y(jié)olov8,內(nèi)存更小、效率更高，秒殺Adam(W)
論文：https://arxiv.org/abs/2302.06675 代碼：automl/lion at master · google/automl · GitHub 1
2023年04月18日
瀏覽(26)
漲點技巧：谷歌強勢推出優(yōu)化器Lion，引入到Y(jié)olov5/Yolov7,內(nèi)存更小、效率更高，秒殺Adam(W)
論文：https://arxiv.org/abs/2302.06675 代碼：automl/lion at master · google/automl · GitHub 1）與 AdamW 和各種自適應優(yōu)化器需要同時保存一階和二階矩相比，Lion 只需要動量，將額外的內(nèi)存占用減半； 2）由于 Lion 的簡單性，Lion 在我們的實驗中具有更快的運行時間（step/s），通常比 AdamW 和
2024年02月16日
瀏覽(37)
微軟推出付費版Copilot
關(guān)注盧松松，會經(jīng)常給你分享一些我的經(jīng)驗和觀點。微軟已經(jīng)超越蘋果，成了全球市值最高的公司，其他公司都因為AI大裁員，而微軟正好相反，當然這個原因很簡單：就是微軟強制把AI全面接入到系統(tǒng)里來了。而Copilot首當其沖！微軟推出了付費版Copilot，一個新生產(chǎn)力誕生
2024年01月17日
瀏覽(23)
微軟推出新的 Copilot Pro 計劃
??每周跟蹤AI熱點新聞動向和震撼發(fā)展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術(shù)突破、實際應用案例和未來的趨勢。與全球數(shù)同行一同，從行業(yè)內(nèi)部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領(lǐng)域的領(lǐng)跑者。點擊訂閱，與
2024年01月17日
瀏覽(27)
微軟推出了Copilot Pro 每月20美金
微軟推出了Copilot Pro 每月20美金 Copilot Pro在Word、Excel和PowerPoint等Office應用中提供AI驅(qū)動的增強體驗。在Word中生成文本和總結(jié)文檔，回復電子郵件，以及在Excel中分析數(shù)據(jù)和生成圖表等。訂閱者可以優(yōu)先使用最新的OpenAI模型，包括GPT-4 Turbo等。自定義創(chuàng)建自己的Copilot GPT... Cop
2024年01月18日
瀏覽(22)
構(gòu)建自定義ChatGPT，微軟推出Copilot Studio
11月16日，微軟在美國西雅圖舉辦“Microsoft Ignite 2023”全球開發(fā)者大會。本次人工智能成為重要主題，微軟幾乎把所有產(chǎn)品都集成了生成式AI功能并發(fā)布了一系列全新產(chǎn)品。其中，微軟重磅推出了Copilot Studio（預覽版），可幫助企業(yè)、個人用戶快速構(gòu)建自定義ChatGPT助手。例如
2024年02月05日
瀏覽(28)
微軟將推出更多Edge特有功能，與Chrome展開競爭
微軟在 2018 年宣布將推出基于 Chromium 構(gòu)建的 Edge 瀏覽器，并于 2020 年 1 月推出了新版 Edge。如今時隔三年，根據(jù)統(tǒng)計 Edge 全平臺的市場占有率僅為 4.23%，如果只考慮桌面端的話，Edge 的市場占有率則是 10.98%，這兩個數(shù)據(jù)均遠遠落后于 Chrome 的 64.68% 和 66.14%。再加上 Edge 如今已
2024年02月17日
瀏覽(24)
ChatGPT爆火| 微軟ATP推出教師AI素養(yǎng)提升秘籍
最近全球爆火的ChatGPT,讓我們領(lǐng)略AI技術(shù)的迅猛發(fā)展，尤其在自然語言處理（NLP）、機器學習（ML）等方向與教育的結(jié)合日趨緊密，人工智能在教育領(lǐng)域中的應用呈現(xiàn)出快速增長的趨勢。幾乎是在一夜之間 ChatGPT刷爆網(wǎng)絡和朋友圈 “ChatGPT上線2個月活躍用戶破億” “ChatGPT會不
2024年02月05日
瀏覽(19)
微軟官方推出的四款工具，太實用了，值得收藏
目錄一、Officeplus——豐富的辦公資源庫二、微軟數(shù)學求解器三、微軟內(nèi)置edge瀏覽器四、Microsoft To-Do 辦公待辦神器所以今天小編給大家分享4個微軟官方推出的實用工具，每一個都非常好用，對于大家日常辦公，非常有必要，感興趣的朋友可以下載試試！網(wǎng)址：（復制到
2024年02月07日
瀏覽(19)
微軟推出安全專家服務，攜手合作伙伴建立更安全的世界
Vasu Jakkal，微軟公司副總裁，安全、合規(guī)、身份和管理部門 ? 威脅增多，防御不足對于客戶來說，安全形勢日趨復雜，越來越具有挑戰(zhàn)性。過去一年，威脅數(shù)量以驚人的速度增長著，預計到2025年，網(wǎng)絡犯罪每年將給世界造成10.5萬億美元的損失，遠高于十年前的3萬億美元和
2024年01月24日
瀏覽(20)