国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型)

這篇具有很好參考價(jià)值的文章主要介紹了ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、LLM大語言模型的特點(diǎn)

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

?二、大語言模型在ASR任務(wù)中的應(yīng)用

淺度融合

淺層融合指的是LLM本身并沒有和音頻信息進(jìn)行直接計(jì)算。其僅對(duì)ASR模型輸出的文本結(jié)果進(jìn)行重打分或者質(zhì)量評(píng)估。

深度融合

LLMASR模型進(jìn)行深度結(jié)合,統(tǒng)一語音和文本的編碼空間或者直接利用ASR編碼器的隱狀態(tài)參與計(jì)算,利用大語言模型的能力得到更好的解碼結(jié)果。

三、淺度融合

1、Large-scale Language Model Rescoring on Long-Form Data

利用能力更加強(qiáng)大的LLM為ASR模型的推理結(jié)果進(jìn)行質(zhì)量評(píng)分

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

2、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

利用能力更加強(qiáng)大的LLM為語言模型的輸出進(jìn)行重打分

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

?四、深度融合

1、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

使用語音編碼器編碼提示文本的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

編碼器:使用HuBERT處理語音序列,并使用卷積網(wǎng)絡(luò)對(duì)其進(jìn)行下采樣;

解碼器:使用LLaMA作為解碼器并融入Gated-XATT-FFN

Cross-attention:使用編碼器的輸出作為key、value,解碼器的domain prompt和歷史輸出作為query計(jì)算注意力,注意力使用Gated cross attention

在訓(xùn)練時(shí),保持LLaMA的參數(shù)固定,其他模塊參數(shù)更新。

2、Adapting LLM with Speech for Full Formatted End-to-End Speech Recognition

使用語音編碼器編碼的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

Text Encoder:用于在訓(xùn)練階段提供更多的文本數(shù)據(jù)使解碼器可以更好地被訓(xùn)練,在推理階段不再被使用;

Speech Encoder:用于編碼語音并使用CTC進(jìn)行解碼獲得對(duì)應(yīng)的token;

Text Decoder:在訓(xùn)練時(shí)對(duì)Text Encoder計(jì)算MLM損失,對(duì)Speech Encoder計(jì)算CE損失,用來預(yù)測(cè)下一個(gè)token。在推理時(shí)對(duì)Speech Encoder的輸出進(jìn)行修正。

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

Speech Encoder:用于編碼語音信息;

LM:對(duì)Speech Encoder下采樣之后的輸出進(jìn)行下一個(gè)token預(yù)測(cè)。

?3、Prompting Large Language Models with Speech Recognition Abilities

使用語音編碼器編碼的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

Encoder:基于Conformer的聲學(xué)編碼器,最后使用n個(gè)幀進(jìn)行堆疊投影,得到和LLaMA相同的維度;

Decoder:基于LLaMA 7B的解碼器結(jié)構(gòu);

在訓(xùn)練時(shí),LLaMA使用了基于LoRA的微調(diào)方法。

4、On Decoder-Only Architecture For Speech-to-Text and Large Language Model Integration

使用語音編碼器編碼提示文本的信息輸入到大語言模型中預(yù)測(cè)下一個(gè)token

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

LLMLLaMA 7B

CTC Compressor:通過過濾語音空白匹配標(biāo)簽序列文本的長(zhǎng)度;

Audio Encoder:對(duì)CTC過濾后的語音信號(hào)進(jìn)行編碼;

Text Prompt:手工設(shè)計(jì)的提示詞,為了達(dá)到instruct tuning的效果,本文在訓(xùn)練時(shí)設(shè)計(jì)了多種提示詞;

為了穩(wěn)定訓(xùn)練,在訓(xùn)練時(shí)第一階段訓(xùn)練CTC Compressor,對(duì)LLM進(jìn)行凍結(jié);第二階段使用LoRA對(duì)LLM進(jìn)行微調(diào)。

5、Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

Speech2Text adapter:由一些自注意力子層組成,主要作用是將CTC過濾后的張量轉(zhuǎn)換為可由LLM模型處理的張量。在訓(xùn)練期間,其他部分保持不動(dòng),僅訓(xùn)練此部分從而得到一個(gè)speech2text性能較好的適配器。

Speech2Entity retriever:根據(jù)過濾后的語音表征從數(shù)據(jù)庫(kù)中查找與該段語音相關(guān)的topk個(gè)實(shí)體。

T5 Encoder輸入:由三部分組成,分別是提示文本表征,輸入語音表征以及檢索到的topk實(shí)體文本表征。Topk實(shí)體會(huì)被添加到到提示文本輸入前,從而提高T5模型語音識(shí)別實(shí)體的準(zhǔn)確率。

?五、深度學(xué)習(xí)方法對(duì)比

ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型),ASR,語音識(shí)別,語言模型,LLM,大語言模型

?文章來源地址http://www.zghlxwxcb.cn/news/detail-656824.html

?

到了這里,關(guān)于ASR(自動(dòng)語音識(shí)別)任務(wù)中的LLM(大語言模型)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • ASR 語音識(shí)別接口封裝和分析

    ASR 語音識(shí)別接口封裝和分析

    這個(gè)文檔主要是介紹一下我自己封裝了 6 家廠商的 短語音識(shí)別 和 實(shí)時(shí)流語音識(shí)別 接口的一個(gè)包,以及對(duì)這些接口的一個(gè)對(duì)比。分別是,阿里,快商通,百度,騰訊,科大,字節(jié)。 zxmfke/asrfactory (github.com) 之前剛好在測(cè)試各家的語音識(shí)別相關(guān)功能,但是每家的返回值都不同,

    2024年02月13日
    瀏覽(25)
  • 開源(離線)中文語音識(shí)別ASR(語音轉(zhuǎn)文本)工具整理

    開源(離線)中文語音識(shí)別ASR(語音轉(zhuǎn)文本)工具整理 Open AI在2022年9月21日開源了號(hào)稱其英文語音辨識(shí)能力已達(dá)到人類水準(zhǔn)的Whisper神經(jīng)網(wǎng)絡(luò),且它亦支持其它98種語言的自動(dòng)語音辨識(shí)。 Whisper系統(tǒng)所提供的自動(dòng)語音辨識(shí)(Automatic Speech Recognition,ASR)模型是被訓(xùn)練來運(yùn)行語音辨識(shí)與翻

    2024年02月13日
    瀏覽(102)
  • Python使用PaddleSpeech實(shí)現(xiàn)語音識(shí)別(ASR)、語音合成(TTS)

    Python使用PaddleSpeech實(shí)現(xiàn)語音識(shí)別(ASR)、語音合成(TTS)

    目錄 安裝 語音識(shí)別 補(bǔ)全標(biāo)點(diǎn) 語音合成 參考 PaddleSpeech是百度飛槳開發(fā)的語音工具 注意,PaddleSpeech不支持過高版本的Python,因?yàn)樵诟甙姹镜腜ython中,飛槳不再提供paddle.fluid API。這里面我用的是Python3.7 需要通過3個(gè)pip命令安裝PaddleSpeech: 在使用的時(shí)候,urllib3庫(kù)可能會(huì)報(bào)錯(cuò),因

    2024年04月25日
    瀏覽(28)
  • 利用Adam優(yōu)化算法進(jìn)行語音識(shí)別任務(wù):提升模型準(zhǔn)確率

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 語音識(shí)別是人工智能領(lǐng)域中的一個(gè)重要應(yīng)用,近年來隨著深度學(xué)習(xí)算法的快速發(fā)展,語音識(shí)別技術(shù)也取得了長(zhǎng)足的進(jìn)步。在語音識(shí)別任務(wù)中,訓(xùn)練模型需要大量的數(shù)據(jù)和計(jì)算資源,而且模型的準(zhǔn)確性也是至關(guān)重要的。因此,如何提高模型的準(zhǔn)確

    2024年02月09日
    瀏覽(89)
  • 使用 Transformers 為多語種語音識(shí)別任務(wù)微調(diào) Whisper 模型

    使用 Transformers 為多語種語音識(shí)別任務(wù)微調(diào) Whisper 模型

    本文提供了一個(gè)使用 Hugging Face ?? Transformers 在任意多語種語音識(shí)別 (ASR) 數(shù)據(jù)集上微調(diào) Whisper 的分步指南。同時(shí),我們還深入解釋了 Whisper 模型、Common Voice 數(shù)據(jù)集以及微調(diào)等理論知識(shí),并提供了數(shù)據(jù)準(zhǔn)備和微調(diào)的相關(guān)代碼。如果你想要一個(gè)全部是代碼,僅有少量解釋的 Note

    2024年02月06日
    瀏覽(19)
  • 使用  Transformers 為多語種語音識(shí)別任務(wù)微調(diào) Whisper 模型

    使用 Transformers 為多語種語音識(shí)別任務(wù)微調(diào) Whisper 模型

    本文提供了一個(gè)使用 Hugging Face ?? Transformers 在任意多語種語音識(shí)別 (ASR) 數(shù)據(jù)集上微調(diào) Whisper 的分步指南。同時(shí),我們還深入解釋了 Whisper 模型、Common Voice 數(shù)據(jù)集以及微調(diào)等理論知識(shí),并提供了數(shù)據(jù)準(zhǔn)備和微調(diào)的相關(guān)代碼。如果你想要一個(gè)全部是代碼,僅有少量解釋的 Note

    2024年02月11日
    瀏覽(22)
  • Python使用whisper實(shí)現(xiàn)語音識(shí)別(ASR)

    目錄 Whisper的安裝 Whisper的基本使用 識(shí)別結(jié)果轉(zhuǎn)簡(jiǎn)體中文 斷句 Whisper是OpenAI的一個(gè)強(qiáng)大的語音識(shí)別庫(kù),支持離線的語音識(shí)別。在使用之前,需要先安裝它的庫(kù): 使用whisper,還需安裝setuptools-rust: 但是,whisper安裝時(shí),自帶的pytorch可能有些bug,因此需要卸載重裝: 卸載: 重裝

    2024年03月20日
    瀏覽(99)
  • Unity 工具 之 Azure 微軟連續(xù)語音識(shí)別ASR的簡(jiǎn)單整理

    Unity 工具 之 Azure 微軟連續(xù)語音識(shí)別ASR的簡(jiǎn)單整理

    目錄 Unity 工具 之 Azure 微軟連續(xù)語音識(shí)別ASR的簡(jiǎn)單整理 一、簡(jiǎn)單介紹 二、實(shí)現(xiàn)原理 三、注意實(shí)現(xiàn) 四、實(shí)現(xiàn)步驟 ?五、關(guān)鍵腳本 Unity 工具類,自己整理的一些游戲開發(fā)可能用到的模塊,單獨(dú)獨(dú)立使用,方便游戲開發(fā)。 本節(jié)介紹,這里在使用微軟的Azure 進(jìn)行語音合成的兩個(gè)方

    2024年02月01日
    瀏覽(109)
  • 頂頂通電話機(jī)器人接口對(duì)接開源ASR(語音識(shí)別)

    目前大部分用戶使用的都是在線ASR按照分鐘或者按次付費(fèi),之前開源ASR效果太差不具備商用的條件,隨著 阿里達(dá)摩院發(fā)布了大量開源數(shù)據(jù)集或者海量工業(yè)數(shù)據(jù)訓(xùn)練的模型,識(shí)別效果已經(jīng)和商用ASR差距非常小,完全具備了很多場(chǎng)景代替商用ASR的能力。 頂頂通也全系列產(chǎn)品進(jìn)行

    2024年02月08日
    瀏覽(30)
  • AI科普文章 | 語音識(shí)別準(zhǔn)不準(zhǔn)?—— ASR 效果評(píng)測(cè)原理與實(shí)踐

    AI科普文章 | 語音識(shí)別準(zhǔn)不準(zhǔn)?—— ASR 效果評(píng)測(cè)原理與實(shí)踐

    在日常工作、生活中,語音識(shí)別技術(shù)作為基礎(chǔ)服務(wù),越來越多的出現(xiàn)在我們周圍,比如智能音箱、會(huì)議記錄、字幕生成等等。 作為一項(xiàng)已經(jīng)很成熟AI技術(shù),市面上很多廠商都會(huì)提供語音識(shí)別服務(wù),對(duì)外聲稱的識(shí)別準(zhǔn)確性也很高。 對(duì)于業(yè)務(wù)側(cè)的我們,其實(shí)更關(guān)心的是在我們特定

    2024年02月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包