BLEU (Bilingual Evaluation Understudy,雙語評估基準(zhǔn))是一組度量機(jī)器翻譯和自然語言生成模型性能的評估指標(biāo)。BLEU指標(biāo)是由IBM公司提出的一種模型評估方法,以便在機(jī)器翻譯領(lǐng)域中開發(fā)更好的翻譯模型。BLEU指標(biāo)根據(jù)生成的句子與人工參考句子之間的詞、短語和n-gram匹配來計(jì)算模型的性能。BLEU指標(biāo)通常在0和1之間取值,其中1表示完美匹配。
BLEU指標(biāo)計(jì)算方法如下:
1.對于每個(gè)句子:
-
統(tǒng)計(jì)生成文本中所有n元組在參考文本中出現(xiàn)的次數(shù)。
-
如果n元組在參考文本中出現(xiàn)了多次,則將其計(jì)算為出現(xiàn)次數(shù)最多的情況。
-
將所有n元組在參考文本中出現(xiàn)的總次數(shù)稱為句子的精確匹配數(shù)。
2,對于所有生成的文本:
-
統(tǒng)計(jì)生成文本中每個(gè)n元組的數(shù)量.
-
獲取參考文本中每個(gè)n元組的最大數(shù)量,并視為生成文本的最多可能匹配數(shù)。
-
將所有n元組的精確匹配數(shù)相加,并將結(jié)果除以最多可能匹配數(shù)。這個(gè)分?jǐn)?shù)稱為BLEU分?jǐn)?shù)。
BLEU指標(biāo)具有較好的可解釋性,直接基于n-gram重疊度來衡量生成文本和參考文本之間的相似度。但是,在句子長度較短時(shí),BLEU表現(xiàn)不足。
因此,實(shí)際中通常使用bleu-1,bleu-2,bleu-3和bleu-4等四個(gè)BLEU指標(biāo)來計(jì)算短語匹配的精度。然而,它存在著一些缺點(diǎn),比如可能會(huì)傾向于短而不是長的句子,不能很好地衡量語法和語義問題,因此,通常需要結(jié)合其他評估指標(biāo)一起使用來評估模型性能。文章來源:http://www.zghlxwxcb.cn/news/detail-674149.html
樣例
[“你好”],[“你好”]的得分為:{‘bleu-2’: 1.0,‘bleu-4’:1.491668146240062e-154)文章來源地址http://www.zghlxwxcb.cn/news/detail-674149.html
到了這里,關(guān)于評價(jià)指標(biāo)BLUE了解的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!