国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

這篇具有很好參考價(jià)值的文章主要介紹了AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

在日常工作、生活中,語音識別技術(shù)作為基礎(chǔ)服務(wù),越來越多的出現(xiàn)在我們周圍,比如智能音箱、會議記錄、字幕生成等等。

作為一項(xiàng)已經(jīng)很成熟AI技術(shù),市面上很多廠商都會提供語音識別服務(wù),對外聲稱的識別準(zhǔn)確性也很高。

對于業(yè)務(wù)側(cè)的我們,其實(shí)更關(guān)心的是在我們特定業(yè)務(wù)場景中的表現(xiàn)如何。

本文將帶著大家從原理到實(shí)踐了解語音識別效果評測的方方面面。

語音識別,又稱語音轉(zhuǎn)錄文本,是將語音識別成文本的技術(shù)。英文名稱?Automatic Speech Recognition,通??s寫為 ASR(下文統(tǒng)一用 ASR 指代)。

顯然,一個(gè) ASR 服務(wù)的好壞,可以用語音識別出的文本準(zhǔn)不準(zhǔn)來衡量。

而這個(gè)準(zhǔn)不準(zhǔn),業(yè)界通常會用一個(gè)指標(biāo)來量化:字正確率(Word Correct,W.Corr),又稱識別正確率。

要理解字正確率,我們首先要搞清另一個(gè)指標(biāo) WER。

一、指標(biāo)原理

1.1 WER 公式

WER(Word Error Rate),即詞錯(cuò)誤率,是一項(xiàng)用于評價(jià) ASR 效果的重要指標(biāo),用來衡量預(yù)測文本與標(biāo)注文本之間的錯(cuò)誤率。

因?yàn)橛⑽恼Z句中最小單位是詞(Word),而中文最小單位是漢字(Character),因此在中文語音識別任務(wù)中,使用字錯(cuò)率(Character Error Rate, CER)來衡量 ASR 識別效果。

兩者的計(jì)算方式相同,我們通常在中文領(lǐng)域,也會使用 WER 表示該指標(biāo)。

WER 的計(jì)算公式如下

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

#Deletions:刪除錯(cuò)誤字符數(shù)

#Insertions:插入錯(cuò)誤字符數(shù)

#Substitutions:替換錯(cuò)誤字符數(shù)

#ReferenceWords:總字符數(shù)

?1.2 三類錯(cuò)誤

整體來看,公式分母是總的字符數(shù),分子是三類錯(cuò)誤字符數(shù)的加和,下面我們看下這三類錯(cuò)誤的含義

為便于描述,約定如下

REF:語音對應(yīng)的正確文本內(nèi)容,又稱標(biāo)注文本,即 Reference

HYP:語音通過 ASR 服務(wù)識別出的文本,即?Hypothesis

刪除錯(cuò)誤

語音轉(zhuǎn)錄文本過程中,原文中本來包含的文字,ASR 沒有識別出來。例子:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

語音“你吃了嗎”,識別成“你吃了”,其中的“嗎”字沒有識別出來。

插入錯(cuò)誤

語音轉(zhuǎn)錄文本過程中,原文中未包含的文字,比如噪音什么的,被 ASR 誤識別成文字了。例如:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

語音“你吃了嗎”,識別成“你吃了嗎呀”,其中“呀”字是誤識別出的。

替換錯(cuò)誤

語音轉(zhuǎn)錄文本過程中,原文中包含的文字,被 ASR 錯(cuò)誤識別成了其他的文字。例如:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

語音“你吃了嗎”,識別成“你吃了么”,其中“嗎”字識別錯(cuò)了,變成了“么”字。

總結(jié)一下

刪除錯(cuò)誤:識別少了,語音中本來有的字給漏掉了。

插入錯(cuò)誤:識別多了,語音中沒有的字識別出來了。

替換錯(cuò)誤:識別錯(cuò)了,語音中的字識別成其他字了。

理解了這三類錯(cuò)誤,回頭我們再看上面各個(gè)字段,就很好理解了

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

綜上,可見

WER 指的是,通過 ASR 識別出的結(jié)果文本中,包含的各類錯(cuò)誤(刪除、插入、替換)的字符數(shù),與原始文本總數(shù)相比,所占的比例值。

現(xiàn)在我們已經(jīng)理解了 WER 這個(gè)指標(biāo),接下來我們看下通過什么方式進(jìn)行計(jì)算,才能得出這些值。

1.3 編輯距離

在識別結(jié)果文本和標(biāo)注文本給出的情況下,#ReferenceWords 總字符數(shù)很容易得到,而三類錯(cuò)誤的數(shù)量,我們需要通過“編輯距離”的引入來計(jì)算。

WER 公式中的分子部分,也就是

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

即為識別結(jié)果文本到標(biāo)注文本的編輯距離。

也就是我們只要求得識別結(jié)果文本,到標(biāo)注文本的編輯距離,除以標(biāo)注文本字符數(shù),就可以得出 WER 指標(biāo)了。

下面我們具體看下什么是編輯距離,他是怎么計(jì)算得到的。

編輯距離(Edit Distance),是由俄羅斯科學(xué)家弗拉基米爾·萊文斯坦(Vladimir Levenshtein)于 1965 年提出,又被稱為萊溫斯坦距離(Levenshtein distance)。

編輯距離用于衡量兩個(gè)字符串之間的相似度,被廣泛應(yīng)用于 DNA 序列對比、拼寫檢測、錯(cuò)誤率計(jì)算等領(lǐng)域。

測量方式是看至少需要多少次處理,才能將一個(gè)字符串轉(zhuǎn)變?yōu)榱硪粋€(gè)字符串。其中每次處理,稱作一次編輯操作,包含三種:

  • 刪除,刪除一個(gè)字符
  • 插入,插入一個(gè)字符
  • 替換,替換一個(gè)字符

可以看到,這里的編輯操作,正好對應(yīng)了上述討論的三類錯(cuò)誤。

編輯距離越短,兩個(gè)文本越相似;編輯距離越長,兩個(gè)文本越不同。

編輯距離可以通過如下公式計(jì)算得到:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

通過上述公式,計(jì)算出識別結(jié)果文本,變換到到標(biāo)注文本的最小編輯操作次數(shù),即可得到其編輯距離。

熟悉算法的同學(xué)應(yīng)該知道,通過調(diào)整不同操作的序列和數(shù)量,計(jì)算總次數(shù)的最小值,是一個(gè)典型的動態(tài)規(guī)劃(Dynamic Programming,簡稱 DP)問題。

不過這個(gè)已經(jīng)超出本文主題的范圍,對 DP 算法感興趣的同學(xué),可以參考如下資料進(jìn)一步了解:

  • 編輯距離算法與使用場景
  • 經(jīng)典動態(tài)規(guī)劃:編輯距離
  • 72. Edit Distance(考察編輯距離的編程題,熟悉編程的同學(xué)可以挑戰(zhàn)下)

1.4 WER 計(jì)算

小結(jié)一下,計(jì)算 WER,可以計(jì)算從識別結(jié)果到標(biāo)注文本的編輯距離,再帶入下列公式得到

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

其中各參數(shù)如下

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

1.5 字正確率

好,現(xiàn)在我們回到最初提到的字正確率(Word Correct),這個(gè)指標(biāo)指什么,和 WER 又是什么關(guān)系呢?

字正確率和 WER 相比,計(jì)算中忽略了插入錯(cuò)誤字符數(shù),也就是沒有把插入錯(cuò)誤納入錯(cuò)誤統(tǒng)計(jì)當(dāng)中。

在實(shí)際系統(tǒng)中,上游 ASR 的識別結(jié)果,會被下游任務(wù)分析模塊進(jìn)一步處理,插入錯(cuò)誤的文本會被處理掉,所以只需考察語音中包含的文本,被正確識別出的比例即可,也就是字正確率。

因此,業(yè)界廠商通常也把字正確率,與 WER 一起提供,用于衡量 ASR 識別效果。

1.6 開源工具

到此,我們已經(jīng)理解了 WER 指標(biāo)、字正確率指標(biāo),以及背后的原理與算法。

在產(chǎn)業(yè)界,為了避免不同實(shí)現(xiàn)造成的指標(biāo)數(shù)據(jù)不一致的情況,讓各個(gè)廠商便于對比各自的數(shù)據(jù),大家通常采用開源工具來計(jì)算。

這里,我們使用的是美國國家技術(shù)研究所 NIST 開源的 Sclite 作為計(jì)算工具。

工具通過輸入 識別結(jié)果文本、標(biāo)注文本,可以計(jì)算得出對應(yīng)的 WER,三類錯(cuò)誤數(shù)及對應(yīng)的詳情。

工具使用

通過提供滿足特定格式(trn)的識別結(jié)果文件、標(biāo)注文本文件,sclite 可以計(jì)算生成包含 WER、字正確率,以及三類錯(cuò)誤信息在內(nèi)的詳細(xì)評測報(bào)告(dtl)。

a. 調(diào)用命令示例

# 命令格式 sclite -r reffile [ fmt ] -h hypfile [ fmt [ title ] ] OPTIONS
./bin/sclite -r /corpus/audio_file/16k_60s_all_100.trn trn -h /data/output/16k_zh-PY-16k_60s_all_100.trn trn -i spu_id -o dtlb

標(biāo)注文件:/corpus/audio_file/16k_60s_all_100.trn

識別結(jié)果:/data/output/16k_zh-PY-16k_60s_all_100.trn

b. 評測報(bào)告示例(dtl)

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

附:感興趣的同學(xué)可以通過如下官網(wǎng)鏈接獲取 NIST Tools

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

二、評測實(shí)踐

網(wǎng)上流行一句話,知道了很多道理,卻仍然過不好這一生。知易行難。

同樣,我們盡管了解了 ASR 效果指標(biāo)、原理以及開源工具,但可能仍然感覺無處下手。

為了降低測試門檻,方便客戶簡單快捷地評估自己業(yè)務(wù)場景在 騰訊云 ASR 服務(wù) 上的識別效果,騰訊云 AI 應(yīng)用團(tuán)隊(duì)打造了 AI Studio 一鍵評測工具,讓用戶可以零基礎(chǔ)完成評測。

現(xiàn)在處于內(nèi)測過程中,讓我們看下如何使用。

2.1 界面預(yù)覽

AI Studio 官網(wǎng)鏈接:AI Studio - 開發(fā)者工具平臺

打開官網(wǎng),看到如下頁面。

點(diǎn)擊右上角【登錄】,會跳轉(zhuǎn)到騰訊云官網(wǎng)的登錄頁面,使用云官網(wǎng)賬號登錄。

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

第一欄,是評測服務(wù)選項(xiàng),這里我們選擇【語音識別】,最右側(cè)的下拉框中包含兩個(gè)語音識別接口:錄音文件識別、實(shí)時(shí)語音識別;

由于算法模型針對這兩個(gè)業(yè)務(wù)場景,分別做了針對性優(yōu)化,這里只需選擇自己使用的接口即可。

第二欄,說明了如何創(chuàng)建測試集,以及標(biāo)注文件時(shí)的注意事項(xiàng)。

第三欄,是提交測試任務(wù)時(shí),需要選擇的字段,這里保持和測試音頻元信息一致即可。

2.2 操作指引

下面我們通過一個(gè)實(shí)例,展示下如果進(jìn)行一次評測流程。

a. 準(zhǔn)備評測語料

點(diǎn)擊頁面模板鏈接,查看測試集的格式樣例:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

測試語料包含兩部分:

  • 音頻文件:業(yè)務(wù)場景中收集的音頻數(shù)據(jù),采樣率為 8k 或 16k
  • 標(biāo)注文件:通過人工方式,將音頻中包含的人聲發(fā)言,記錄到文本文件中

其中,標(biāo)注文件中數(shù)字,需要標(biāo)識為中文大寫形式,例如文本“小明考了98分”,需要標(biāo)注為“小明考了九十八分”

其他注意事項(xiàng),參考頁面:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

b. 提交評測任務(wù)

下面新建評測任務(wù)

第一步:選擇相應(yīng)參數(shù)

根據(jù)音頻信息,選擇對應(yīng)的識別語言、音頻采樣率

不同引擎類型,已針對特定場景進(jìn)行優(yōu)化,在匹配場景下?lián)碛懈玫淖R別效果,這里選擇最適合的引擎類型即可,如下

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

第二步:上傳標(biāo)注測試集

將準(zhǔn)備好的測試集,壓縮打包,通過頁面上傳

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

?

第三步:檢查標(biāo)注測試集內(nèi)容

這里系統(tǒng)會解析上傳測試集,將音頻與標(biāo)注文本對應(yīng)后,展示在頁面上,供用戶進(jìn)行檢查確認(rèn)(由于測試結(jié)果與標(biāo)注文本的準(zhǔn)確性直接相關(guān),需要確保標(biāo)注文件的正確)。

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

點(diǎn)擊確認(rèn)提交,完成評測任務(wù)的創(chuàng)建。

c. 獲取評測結(jié)果

任務(wù)執(zhí)行過程中,可通過評測頁底部的評測任務(wù)管理列表,查看任務(wù)狀態(tài)。

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

任務(wù)狀態(tài)顯示【成功】后,點(diǎn)擊右側(cè)【查看結(jié)果】,即可查看評測結(jié)果:

AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐

可以看到評測效果指標(biāo)字準(zhǔn)率(即上述字正確率)、WER、插入/刪除/替換錯(cuò)誤率。

同時(shí),也可點(diǎn)擊下面的下載地址,獲取評測報(bào)告和識別結(jié)果文件,進(jìn)行進(jìn)一步分析。文章來源地址http://www.zghlxwxcb.cn/news/detail-492785.html

附錄

  • AI Studio 官網(wǎng)地址:AI Studio - 開發(fā)者工具平臺
  • 騰訊云 ASR 官方文檔:語音識別簡介_語音識別購買指南_語音識別操作指南-騰訊云
  • NIST 開源工具:Tools | NIST

到了這里,關(guān)于AI科普文章 | 語音識別準(zhǔn)不準(zhǔn)?—— ASR 效果評測原理與實(shí)踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包