得益于AI技術的發(fā)展,合成聲音已經(jīng)能媲美人聲。而聲音定制服務的出現(xiàn)使得越來越多的企業(yè)和個人可以擁有個性化的獨特AI聲音。通常這種AI音色的定制需要采集人類配音員(發(fā)音人)的聲音數(shù)據(jù)作為AI機器學習的對象,因此,個性化的聲音定制又稱為“聲音復刻”,或者“聲音克隆”。其中,微軟全球云Global?Azure上的認知服務的企業(yè)版神經(jīng)網(wǎng)絡聲音定制服務就提供了更便捷地創(chuàng)建高質量合成聲音的方法,可為用戶帶來真人一般的聽覺享受。
不過,你知道訓練一個符合商用需求、自然流暢、富有情感的AI虛擬聲音需要花多長時間嗎?按照傳統(tǒng)的語音合成模型生產(chǎn)流程,這通常需要用一兩個月的時間在錄音棚采集10小時甚至20小時(約6千-2萬句語料)的專業(yè)發(fā)音人說話數(shù)據(jù),再用至少一個月的工程時間完成聲音模型的訓練、測試、優(yōu)化和部署。而微軟給出的標準化操作平臺可為客戶提供全程自助服務,極大地簡化了聲音定制的訓練流程,其深度神經(jīng)網(wǎng)絡技術更是將對訓練語料的需求從10-20小時的錄音數(shù)據(jù)減少到僅需30分鐘到3小時錄音數(shù)據(jù)(約300-2000條錄音語句)。
“光說不練假把式”,下面就跟隨微軟的步伐,開啟個性化合成聲音定制之旅吧!
通過觀看視頻,詳細了解如何在微軟Global Azure上使用微軟神經(jīng)網(wǎng)絡聲音定制服務創(chuàng)建專屬 AI 語音。
如何使用微軟神經(jīng)網(wǎng)絡聲音定制服務創(chuàng)建專屬 AI 語音
下方表格是自助創(chuàng)建定制聲音的流程概覽,之后我們將詳細解釋每個步驟。
準備工作 |
1 |
打造負責任的AI |
●?閱讀并填寫“神經(jīng)網(wǎng)絡版定制聲音申請表(custom neural voice application)” |
2 |
明確聲音角色 |
●?定義聲音角色 ●?匹配發(fā)音人 |
|
3 |
創(chuàng)建腳本 |
●?下載通用腳本 ●?創(chuàng)建專業(yè)領域腳本 |
|
4 |
聲音錄制 |
●?錄制授權聲明 ●?根據(jù)錄音腳本錄制訓練語料 |
|
在Speech Studio創(chuàng)建聲音模型 |
5 |
創(chuàng)建新項目 |
●?通過Azure帳戶登錄Speech Studio ●?創(chuàng)建新的定制聲音項目 |
6 |
上傳聲音數(shù)據(jù) |
●?上傳授權聲明音頻 ●?上傳聲音數(shù)據(jù)和腳本 |
|
7 |
訓練聲音模型 |
●?挑選合適的訓練數(shù)據(jù)和正確的發(fā)音人聲明文件 ●?輸出聲音小樣進行試聽,以確保質量 |
|
8 |
部署聲音模型 |
●?部署所訓練的模型 ●?測試API端點,確保服務運行良好 |
|
集成聲音模型 |
9 |
生成有聲內(nèi)容,或開發(fā)專屬應用 |
●?利用有聲內(nèi)容創(chuàng)作工具調(diào)用聲音模型,無需編寫程序 ●?利用Speech SDK開發(fā)程序,在你的新應用使用定制聲音 |
第一步:準備
1.?承諾共同打造負責任的AI
神經(jīng)網(wǎng)絡版聲音定制服務是一個面向企業(yè)客戶的商業(yè)應用。在使用Speech?Studio定制專屬的聲音模型之前,你需要代表你的企業(yè)或組織填寫一份“神經(jīng)網(wǎng)絡版聲音定制服務申請表”,并描述你的使用場景。微軟致力于保護個人和社會的權益,促進人機交互的透明性,并防止聲音冒用和誤導性內(nèi)容的傳播。因此,微軟對神經(jīng)網(wǎng)絡版聲音定制服務的訪問和使用做出了限制。在提交使用申請并承諾與微軟共同遵循負責任的AI原則后,你才能獲得該服務的訪問權。想了解申請流程的更多細節(jié),可以查看此視頻。
微軟神經(jīng)網(wǎng)絡定制聲音服務申請指南
2.?聲音角色設計
聲音角色是對你將要創(chuàng)建的AI虛擬聲音的具象化描述,它涵蓋了一系列與聲音相關的形象特征和聽者感受。通過聲音角色的定位,一個好的聲音可以與你的客戶產(chǎn)生情感連接和共鳴。譬如,在某些場景中,你的聲音角色可以貼近一個40歲女性的音色,她說話權威、自信,坦率又迷人,做事理性而公正。
一定要仔細考慮聲音角色,因為在用這個聲音與你的客戶進行溝通時,TA代表著公司的形象。除了要傳達與公司相匹配的品牌意圖外,聲音角色的設定還可以幫助你確保聲音定制過程的各個環(huán)節(jié)的一致性,這包括發(fā)音人選擇、腳本創(chuàng)建、訓練數(shù)據(jù)錄制過程以及最終的模型測試等。?
3.?選擇合適的腳本
編寫腳本的關鍵在于,能夠讓發(fā)音人輕松捕捉到所塑造的聲音形象的人物特色、聲音特點,并在錄音過程中保持一致的風格。
腳本中的語句可以來自不同來源,語句之間也不必有相互關聯(lián)。錄音腳本中可以包含通用語句和專業(yè)語句兩個部分。對于有特定應用場景的聲音定制,我們推薦你根據(jù)自己的場景去制定一些針對性的領域相關的錄音腳本。如果你不想自己準備腳本,微軟提供了一些共享腳本,這些句子是從公開領域挑選出來的,能夠支持不同語言的聲音模型的訓練。如果你打算定制自己的腳本,有一些制作原則你需要考慮,如:腳本中語句的覆蓋范圍要盡量均衡,包括陳述句、疑問句、感嘆句、長句和短句;一行一句,不要把多個句子放在同一行等等。更多指導可以點擊此鏈接查看。
記得仔細檢查腳本是否有誤,最好進行交叉互查,尤其在聲音錄制完成之后,需要復驗腳本與發(fā)音人所說的是否完全一致,如果有不一致的地方,需要按照發(fā)音人實際錄制的內(nèi)容進行修改。?
4.?篩選發(fā)音人、確定錄音地點
聲音角色確定好以后,就可以挑選發(fā)音人了。找到合適的發(fā)音人,與設計聲音角色和選擇腳本同等重要。選擇發(fā)音人時,需要確保發(fā)音人在理解你的聲音角色和內(nèi)容方面擁有豐富的經(jīng)驗,并且具有良好的嗓音,發(fā)音清晰、對音高音調(diào)能進行良好的控制。盡量保證發(fā)音人的自然聲音適合你的聲音角色。
下面要敲黑板了,一旦選定了發(fā)音人,一定要與發(fā)音人簽訂書面協(xié)議,并獲得發(fā)音人的正式授權,你才能使用他們的聲音數(shù)據(jù)來制作合成語音。
關于錄音地點,專業(yè)的錄音工作室是你的首選。安排錄制時,建議以2小時或3小時為單位,每次錄制至少間隔一天。讓錄音工作室在第一次錄制后提供幾段錄音,以便檢查音頻規(guī)格。最開始可以安排每小時大約100條語句的錄制。隨后的時間可以根據(jù)前兩個階段每小時完成的錄音數(shù)量進行調(diào)整。
錄音時,長句應該分成獨立的短句或短語。例如,發(fā)音人應該在讀完一個句子或短語后停頓,再說下一句。而句子或短語也要分割成獨立的.wav文件,并對每段腳本逐行編號。更多關于腳本的信息,可以閱讀文章:定制聲音的數(shù)據(jù)準備。
提醒:不要忘記讓發(fā)音人錄制下面這句話,并上傳至Speech Studio?Portal:
“我(填入你的姓名)確認我的聲音將會被(填入公司名稱)使用于創(chuàng)建合成版本語音。”
點擊這里你可以找到授權聲明的多語言版本以及用于錄制的示例腳本。
第二步:創(chuàng)建
5.?檢查錄音質量,創(chuàng)建聲音合成項目
在錄音合同結束前務必檢查好音頻質量,音頻文件必須是RIFF?(.wav)?格式,采樣率至少為24000 Hz,樣本格式至少為16位PCM(脈沖編碼調(diào)制),文件必須是以數(shù)字命名的.wav文件擴展名,不能有重復的文件名。所有音頻文件必須短于15秒。點擊此處了解更多關于音頻屬性的信息。
打開Speech Studio,使用Azure帳戶登錄,選擇要合成聲音的語言。然后,進入項目頁面,點擊“Set up voice talent”(“設置發(fā)音人”)為您的聲音創(chuàng)建發(fā)音人并上傳發(fā)音人授權語句。
6.?上傳聲音數(shù)據(jù)
你至少需要提供300個語句作為神經(jīng)網(wǎng)絡定制聲音的訓練數(shù)據(jù)。如果所創(chuàng)建的聲音要用于正式的企業(yè)級產(chǎn)品,我們一般推薦2000個語句。
你所訓練的聲音模型的質量很大程度上取決于你所采用的訓練數(shù)據(jù)的質量。錄音和腳本數(shù)據(jù)上傳成功之后,你可以檢查數(shù)據(jù)質量報告,確保聲音數(shù)據(jù)的發(fā)音準確性良好,信噪比在可接受范圍。同一個訓練集里的錄音數(shù)據(jù)需要在音量、語速、語調(diào)以及表達方式等方面保持良好的一致性。關于上傳聲音數(shù)據(jù)的更多信息可以查看此文檔。
7.?訓練聲音模型
確認訓練數(shù)據(jù)的質量之后,你就可以提交數(shù)據(jù)來訓練聲音模型了。注意,在提交訓練時,你需要將所選擇的錄音數(shù)據(jù)與發(fā)音人資料進行關聯(lián)。如果發(fā)音人授權聲明與訓練數(shù)據(jù)中的聲音不匹配,那么訓練請求不會被通過。
模型訓練成功之后,平臺將直接輸出100個測試音頻作為試聽的小樣。你也可以提供不超過100句話的自定義測試腳本來進行試聽。試聽無誤,你就可以部署你的模型啦!
8.?部署聲音模型
部署聲音模型來獲取語音合成API接口的唯一ID。聲音模型只有部署之后才能用于有聲內(nèi)容創(chuàng)作工具,或者通過文本轉語音SDK進行程序開發(fā)和集成。部署聲音模型后,也會產(chǎn)生相應的托管費用,產(chǎn)品價格信息請參考此頁面。你可以隨時Suspend(暫停)你的模型,這樣就不會產(chǎn)生托管費用。
第三步:集成
9.?使用定制聲音
你可以使用有聲內(nèi)容創(chuàng)作工具,根據(jù)你的文本內(nèi)容,對聲音模型的參數(shù)進行微調(diào),以輸出不同的聲音效果。微軟語音平臺的有聲內(nèi)容創(chuàng)作工具是基于語音合成標記語言?(SSML)?創(chuàng)建的,它提供了功能豐富又易用的界面,使用戶可以通過簡單的操作,實時修改語音合成的各種屬性,包括情緒風格、讀音、韻律、音量、語速等等。有關有聲內(nèi)容創(chuàng)作工具的信息,可以查看此視頻。?
如果你想開發(fā)自己的應用程序來使用定制聲音,可以點此查看更多關于使用Speech SDK的信息。
好了,現(xiàn)在就行動起來,開始一場聲音定制之旅吧?。óa(chǎn)品主頁)文章來源:http://www.zghlxwxcb.cn/news/detail-464997.html
特別提示:截至發(fā)稿時,神經(jīng)網(wǎng)絡版聲音定制服務已在微軟Azure.com正式發(fā)布,但尚未在世紀互聯(lián)運營的Azure.cn上線。文章來源地址http://www.zghlxwxcb.cn/news/detail-464997.html
到了這里,關于想要定制專屬AI聲音?這是一份來自微軟的保姆級攻略的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!