国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

語音識別 — 特征提取 MFCC 和 PLP

這篇具有很好參考價值的文章主要介紹了語音識別 — 特征提取 MFCC 和 PLP。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、說明

????????語音識別是一種技術(shù),通過計算機和軟件系統(tǒng),將人們的口頭語言轉(zhuǎn)換為計算機可讀的文本或命令。它使用語音信號處理算法來識別和理解人類語言,并將其轉(zhuǎn)換為計算機可處理的格式。語音識別技術(shù)被廣泛應(yīng)用于許多領(lǐng)域,如語音助手、語音控制、語音翻譯、語音搜索、電話自動接聽等。

二、基本問題提出

回到語音識別,我們的目標是根據(jù)聲學和語言模型找到與音頻對應(yīng)的最佳單詞序列。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

為了創(chuàng)建聲學模型,我們的觀察X由一系列聲學特征向量(x?,x?,x?,...)表示。在上一篇文章中,我們了解了人們?nèi)绾伪磉_和感知語音。在本文中,我們將討論如何從我們學到的內(nèi)容中提取音頻特征。

三、語音識別要求

讓我們首先定義 ASR(自動語音識別器)中特征提取的一些要求。給定一個音頻片段,我們使用 25ms 寬的滑動窗口來提取音頻特征。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

這個 25 毫秒的寬度足以讓我們捕獲足夠的信息,但這個框架內(nèi)的特征應(yīng)該保持相對靜止。如果我們用 3 部手機每秒說 4 個單詞,并且每個電話將細分為 3 個階段,那么每秒有 36 個狀態(tài)或每個狀態(tài) 28 毫秒。所以 25ms 窗口大約是正確的。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

語境在言語中非常重要。發(fā)音根據(jù)電話前后的發(fā)音而變化。每個滑動窗口相距約10毫秒,因此我們可以捕獲幀之間的動態(tài)以捕獲適當?shù)纳舷挛摹?/span>

音高因人而異。然而,這對識別他/她說的話幾乎沒有作用。F0 與音高有關(guān)。它在語音識別中沒有價值,應(yīng)將其刪除。更重要的是共振峰F1,F(xiàn)2,F(xiàn)3,...對于那些在遵循這些條款方面有問題的人,我們建議您先閱讀上一篇文章。

我們還希望提取的特征能夠?qū)P聲器是誰以及環(huán)境中的噪音具有魯棒性。此外,像任何 ML 問題一樣,我們希望提取的特征獨立于其他特征。開發(fā)模型和使用獨立特征訓練這些模型更容易。

一種流行的音頻特征提取方法是梅爾頻率倒譜系數(shù)?(MFCC),它具有 39 個特征。特征計數(shù)足夠小,足以迫使我們學習音頻信息。12個參數(shù)與頻率幅度有關(guān)。它為我們提供了足夠的頻率通道來分析音頻。

下面是提取 MFCC 特征的流程。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

主要目標是:

  • 刪除聲帶激勵 (F0) — 音高信息。
  • 使提取的特征獨立。
  • 適應(yīng)人類感知聲音響度和頻率的方式。
  • 捕獲手機的動態(tài)(上下文)。

四、梅爾頻率倒譜系數(shù)

????????讓我們一次介紹一個步驟。

模數(shù)轉(zhuǎn)換

A/D 轉(zhuǎn)換對音頻剪輯進行采樣并對內(nèi)容進行數(shù)字化,即將模擬信號轉(zhuǎn)換為離散空間。通常使用8或16 kHz的采樣頻率。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

預(yù)加重

預(yù)加重可提高高頻中的能量。對于元音等濁音段,較低頻率的能量高于較高頻率。這稱為頻譜傾斜,與聲門源(聲帶如何產(chǎn)生聲音)有關(guān)。提高高頻能量使更高共振峰中的信息更容易被聲學模型獲得。這提高了手機檢測的準確性。對于人類來說,當我們聽不到這些高頻聲音時,我們開始出現(xiàn)聽力問題。此外,噪聲具有很高的頻率。在工程領(lǐng)域,我們使用預(yù)加重使系統(tǒng)不易受到以后過程中引入的噪聲的影響。對于某些應(yīng)用程序,我們只需要在最后撤消提升即可。

預(yù)加重使用濾波器來提升更高的頻率。以下是關(guān)于如何增強高頻信號的前后信號。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

朱拉夫斯基和馬丁,圖。9.9

窗口

窗口化涉及將音頻波形切成滑動幀。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

但我們不能只是在框架的邊緣把它砍掉。突然下降的振幅會產(chǎn)生很多噪聲,這些噪聲出現(xiàn)在高頻中。要對音頻進行切片,振幅應(yīng)在幀邊緣附近逐漸下降。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

假設(shè)?w?是應(yīng)用于時域中原始音頻剪輯的窗口。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

w的一些替代方案是漢明窗和漢寧窗。下圖顯示了如何使用這些窗口斬斷正弦波形。如圖所示,對于漢明和漢寧窗口,振幅在邊緣附近下降。(漢明窗的邊緣有輕微的突然下降,而漢寧窗則沒有。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

w?的相應(yīng)方程為:

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

右上方是時域中的聲波。它主要僅由兩個頻率組成。如圖所示,與矩形窗口相比,漢明和漢寧的斬波框架可以更好地保持原始頻率信息,噪聲更少。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

源右上:由兩個頻率組成的信號

離散傅里葉變換 (DFT)

接下來,我們應(yīng)用DFT提取頻域中的信息。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

梅爾過濾器組

如上一篇文章所述,設(shè)備測量與我們的聽覺感知不同。對于人類來說,感知的響度會根據(jù)頻率而變化。此外,感知頻率分辨率隨著頻率的增加而降低。即人類對更高的頻率不太敏感。左圖顯示了?Mel 刻度如何將測量的頻率映射到我們在頻率分辨率背景下感知的頻率。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

所有這些映射都是非線性的。在特征提取中,我們應(yīng)用三角帶通濾波器來隱藏頻率信息以模仿人類的感知。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

首先,我們對DFT的輸出進行平方。這反映了每個頻率(x[k]2)的語音功率,我們稱之為DFT功率譜。我們應(yīng)用這些三角形梅爾尺度濾波器組將其轉(zhuǎn)換為梅爾尺度功率譜。每個梅爾級功率譜槽的輸出表示其覆蓋的多個頻段的能量。此映射稱為梅爾分箱。插槽?m?的精確方程為:

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

Trainang角帶通在較高頻率下較寬,以反映人類的聽力,而在高頻下靈敏度較低。具體來說,它在 1000 Hz 以下線性間隔,然后以對數(shù)方式轉(zhuǎn)動。

所有這些努力都試圖模仿我們耳朵中的基底膜如何感知聲音的振動。出生時,基底膜在耳蝸內(nèi)有大約15,000根毛發(fā)。下圖顯示了這些毛發(fā)的頻率響應(yīng)。因此,下面的曲線形狀響應(yīng)只是由 Mel 濾波器組中的三角形近似。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

我們模仿我們的耳朵如何通過這些頭發(fā)感知聲音。簡而言之,它由使用 Mel 過濾組的三角形濾波器建模。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

日志

梅爾濾波器組輸出功率譜。人類對高能量下的微小能量變化不如低能量水平下的微小變化敏感。事實上,它是對數(shù)的。因此,我們的下一步將從 Mel 過濾器組的輸出中刪除日志。這也減少了對語音識別不重要的聲學變體。接下來,我們需要解決另外兩個要求。首先,我們需要刪除 F0 信息(音高),并使提取的特征獨立于其他特征。

倒譜 — IDFT

下面是語音產(chǎn)生的模型。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

我們的發(fā)音控制聲道的形狀。源過濾器模型將聲帶產(chǎn)生的振動與我們的發(fā)音產(chǎn)生的過濾器相結(jié)合。聲門源波形將通過聲道的形狀在不同頻率下被抑制或放大。

Cepstrum 是單詞“spectrum”中前 4 個字母的反面。我們的下一步是計算分離聲門源和過濾器的倒譜。圖(a)是光譜,其中y軸是幅度。圖(b)取了量級的對數(shù)。仔細觀察,波浪在 8 到 1000 之間波動約 2000 次。實際上,每 8 個單位波動約 1000 次。這大約是125赫茲 - 聲帶的源振動。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

保羅·泰勒〔2008〕

如觀察所示,對數(shù)頻譜(下面的第一張圖)由與電話(第二張圖)和音高(第三張圖)相關(guān)的信息組成。第二個圖中的峰值標識區(qū)分電話的共振峰。但是我們?nèi)绾螌⑺鼈兎珠_呢?

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

回想一下,時域或頻域中的周期在變換后是反轉(zhuǎn)的。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

回想一下,音高信息在頻域中的周期很短。我們可以應(yīng)用傅里葉逆變換將螺距信息與共振峰分離。如下圖所示,音高信息將顯示在中間和右側(cè)。中間的峰值實際上對應(yīng)于F0,手機相關(guān)信息將位于最左側(cè)。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

這是另一個可視化效果。左圖上的實線是頻域中的信號。它由虛線繪制的電話信息和音高信息組成。在IDFT(逆離散傅里葉變換)之后,具有1/T周期的音高信息被轉(zhuǎn)換為右側(cè)T附近的峰值。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

因此,對于語音識別,我們只需要最左側(cè)的系數(shù)并丟棄其他系數(shù)。事實上,MFCC 只取前 12 個倒譜值。還有另一個與這 12 個系數(shù)相關(guān)的重要屬性。對數(shù)功率譜是真實且對稱的。它的反DFT等效于離散余弦變換(DCT)。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

DCT 是一種正交變換。在數(shù)學上,變換會產(chǎn)生不相關(guān)的特征。因此,MFCC 功能高度不相關(guān)。在 ML 中,這使我們的模型更容易建模和訓練。如果我們使用多元高斯分布對這些參數(shù)進行建模,則協(xié)方差矩陣中的所有非對角線值都將為零。在數(shù)學上,此階段的輸出為

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

以下是倒譜 12 個倒譜系數(shù)的可視化。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

動態(tài)要素(增量)

MFCC 有 39 個功能。我們最終確定了 12 個,其余的是什么。第 13 個參數(shù)是每幀中的能量。它可以幫助我們識別手機。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

在發(fā)音中,上下文和動態(tài)信息很重要。止動閉合和釋放等銜接可以通過共振峰過渡來識別。表征隨時間變化的功能可提供電話的上下文信息。另外 13 個值計算下面的增量值?dt)。它測量從上一幀到下一幀的特征變化。這是特征的一階導(dǎo)數(shù)。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

最后 13 個參數(shù)是?dt) 從最后一幀到下一幀的動態(tài)變化。它充當?ct) 的二階導(dǎo)數(shù)。

因此,39 個 MFCC 特征參數(shù)是 12 個倒譜系數(shù)加上能量項。然后我們還有 2 個對應(yīng)于增量和雙精度增量值的集合。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

倒譜均值和方差歸一化

接下來,我們可以執(zhí)行特征規(guī)范化。我們用其均值歸一化特征,并將其除以其方差。均值和方差是使用單個語句中所有幀的特征值?j?計算的。這使我們能夠調(diào)整值以對抗每個記錄中的變體。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

但是,如果音頻剪輯很短,這可能不可靠。相反,我們可以根據(jù)說話人甚至整個訓練數(shù)據(jù)集計算平均值和方差值。這種類型的功能規(guī)范化將有效地取消前面所做的預(yù)加重。這就是我們提取MFCC特征的方式。最后要注意的是,MFCC對噪聲的抵抗力不是很強。

五、感知線性預(yù)測 (PLP)

PLP與MFCC非常相似。受聽覺感知的激勵,它使用相等響度預(yù)加重和立方根壓縮而不是對數(shù)壓縮。

語音識別 — 特征提取 MFCC 和 PLP,語音處理,語音識別,人工智能

它還使用線性回歸來最終確定倒譜系數(shù)。PLP具有稍好的精度和稍好的噪聲魯棒性。但也有人認為MFCC是一個安全的選擇。在本系列中,當我們說提取 MFCC 特征時,我們也可以提取 PLP 特征。

六、后記

????????ML 為問題域構(gòu)建模型。對于復(fù)雜的問題,這是非常困難的,并且該方法通常非常啟發(fā)式。有時,人們認為我們正在入侵系統(tǒng)。本文中的特征提取方法在很大程度上依賴于實證結(jié)果和觀察結(jié)果。隨著深度學習的引入,我們可以用更少的黑客攻擊來訓練復(fù)雜的模型。但是,某些概念對于 DL 語音識別仍然有效且重要。

????????下一個:為了更深入地了解語音識別,我們需要詳細研究兩種 ML 算法。文章來源地址http://www.zghlxwxcb.cn/news/detail-616686.html

到了這里,關(guān)于語音識別 — 特征提取 MFCC 和 PLP的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包