一、LLM大語言模型的特點(diǎn)
?二、大語言模型在ASR任務(wù)中的應(yīng)用
淺度融合
淺層融合指的是LLM本身并沒有和音頻信息進(jìn)行直接計(jì)算。其僅對(duì)ASR模型輸出的文本結(jié)果進(jìn)行重打分或者質(zhì)量評(píng)估。
深度融合
LLM與ASR模型進(jìn)行深度結(jié)合,統(tǒng)一語音和文本的編碼空間或者直接利用ASR編碼器的隱狀態(tài)參與計(jì)算,利用大語言模型的能力得到更好的解碼結(jié)果。
三、淺度融合
1、Large-scale Language Model Rescoring on Long-Form Data
利用能力更加強(qiáng)大的LLM為ASR模型的推理結(jié)果進(jìn)行質(zhì)量評(píng)分
2、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition
利用能力更加強(qiáng)大的LLM為語言模型的輸出進(jìn)行重打分
?四、深度融合
1、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition
使用語音編碼器編碼和提示文本的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token
編碼器:使用HuBERT處理語音序列,并使用卷積網(wǎng)絡(luò)對(duì)其進(jìn)行下采樣;
解碼器:使用LLaMA作為解碼器并融入Gated-XATT-FFN;
Cross-attention:使用編碼器的輸出作為key、value,解碼器的domain prompt和歷史輸出作為query計(jì)算注意力,注意力使用Gated cross attention。
在訓(xùn)練時(shí),保持LLaMA的參數(shù)固定,其他模塊參數(shù)更新。
2、Adapting LLM with Speech for Full Formatted End-to-End Speech Recognition
使用語音編碼器編碼的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token
Text Encoder:用于在訓(xùn)練階段提供更多的文本數(shù)據(jù)使解碼器可以更好地被訓(xùn)練,在推理階段不再被使用;
Speech Encoder:用于編碼語音并使用CTC進(jìn)行解碼獲得對(duì)應(yīng)的token;
Text Decoder:在訓(xùn)練時(shí)對(duì)Text Encoder計(jì)算MLM損失,對(duì)Speech Encoder計(jì)算CE損失,用來預(yù)測(cè)下一個(gè)token。在推理時(shí)對(duì)Speech Encoder的輸出進(jìn)行修正。
Speech Encoder:用于編碼語音信息;
LM:對(duì)Speech Encoder下采樣之后的輸出進(jìn)行下一個(gè)token預(yù)測(cè)。
?3、Prompting Large Language Models with Speech Recognition Abilities
使用語音編碼器編碼的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token
Encoder:基于Conformer的聲學(xué)編碼器,最后使用n個(gè)幀進(jìn)行堆疊投影,得到和LLaMA相同的維度;
Decoder:基于LLaMA 7B的解碼器結(jié)構(gòu);
在訓(xùn)練時(shí),LLaMA使用了基于LoRA的微調(diào)方法。
4、On Decoder-Only Architecture For Speech-to-Text and Large Language Model Integration
使用語音編碼器編碼和提示文本的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token
LLM:LLaMA 7B
CTC Compressor:通過過濾語音空白匹配標(biāo)簽序列文本的長(zhǎng)度;
Audio Encoder:對(duì)CTC過濾后的語音信號(hào)進(jìn)行編碼;
Text Prompt:手工設(shè)計(jì)的提示詞,為了達(dá)到instruct tuning的效果,本文在訓(xùn)練時(shí)設(shè)計(jì)了多種提示詞;
為了穩(wěn)定訓(xùn)練,在訓(xùn)練時(shí)第一階段訓(xùn)練CTC Compressor,對(duì)LLM進(jìn)行凍結(jié);第二階段使用LoRA對(duì)LLM進(jìn)行微調(diào)。
5、Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding
Speech2Text adapter:由一些自注意力子層組成,主要作用是將CTC過濾后的張量轉(zhuǎn)換為可由LLM模型處理的張量。在訓(xùn)練期間,其他部分保持不動(dòng),僅訓(xùn)練此部分從而得到一個(gè)speech2text性能較好的適配器。
Speech2Entity retriever:根據(jù)過濾后的語音表征從數(shù)據(jù)庫(kù)中查找與該段語音相關(guān)的topk個(gè)實(shí)體。
T5 Encoder輸入:由三部分組成,分別是提示文本表征,輸入語音表征以及檢索到的topk實(shí)體文本表征。Topk實(shí)體會(huì)被添加到到提示文本輸入前,從而提高T5模型語音識(shí)別實(shí)體的準(zhǔn)確率。
?五、深度學(xué)習(xí)方法對(duì)比
?文章來源地址http://www.zghlxwxcb.cn/news/detail-656824.html文章來源:http://www.zghlxwxcb.cn/news/detail-656824.html
?
到了這里,關(guān)于ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!