NeMo中文/英文ASR模型微調(diào)訓(xùn)練實踐

2年前作者：wxl781227分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了NeMo中文/英文ASR模型微調(diào)訓(xùn)練實踐。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1.安裝nemo

pip install -U nemo_toolkit[all] ASR-metrics

2.下載ASR預(yù)訓(xùn)練模型到本地（建議使用huggleface,比nvidia官網(wǎng)快很多）

3.從本地創(chuàng)建ASR模型

asr_model = nemo_asr.models.EncDecCTCModel.restore_from("stt_zh_quartznet15x5.nemo")

3.定義train_mainfest，包含語音文件路徑、時長和語音文本的json文件

{"audio_filepath": "test.wav", "duration": 8.69, "text": "誒前天跟我說昨天跟我說十二期利率是多少工號幺九零八二六十二期的話零點八一萬的話分十二期利息八十嘛"}

4.讀取模型的yaml配置

# 使用YAML讀取quartznet模型配置文件
try:
? ? from ruamel.yaml import YAML
except ModuleNotFoundError:
? ? from ruamel_yaml import YAML
config_path ="/NeMo/examples/asr/conf/quartznet/quartznet_15x5_zh.yaml"

yaml = YAML(typ='safe')
with open(config_path) as f:
? ? params = yaml.load(f)
print(params['model']['train_ds']['manifest_filepath'])
print(params['model']['validation_ds']['manifest_filepath'])

5.設(shè)置訓(xùn)練及驗證manifest

train_manifest = "train_manifest.json"
val_manifest = "train_manifest.json"

params['model']['train_ds']['manifest_filepath']=train_manifest
params['model']['validation_ds']['manifest_filepath']=val_manifest
print(params['model']['train_ds']['manifest_filepath'])
print(params['model']['validation_ds']['manifest_filepath'])

asr_model.setup_training_data(train_data_config=params['model']['train_ds'])
asr_model.setup_validation_data(val_data_config=params['model']['validation_ds'])

6.使用pytorch_lightning訓(xùn)練
import pytorch_lightning as pl?
trainer = pl.Trainer(accelerator='gpu', devices=1,max_epochs=10)
trainer.fit(asr_model)#調(diào)用‘fit’方法開始訓(xùn)練?

7.保存訓(xùn)練好的模型

asr_model.save_to('my_stt_zh_quartznet15x5.nemo')

8.看看訓(xùn)練后的效果

my_asr_model = nemo_asr.models.EncDecCTCModel.restore_from("my_stt_zh_quartznet15x5.nemo")
queries=my_asr_model.transcribe(['test1.wav'])
print(queries)

#['誒前天跟我說的昨天跟我說十二期利率是多少工號幺九零八二六零十二期的話零點八一萬的話分十二期利息八十嘛']

9.計算字錯率

from ASR_metrics import utils as metrics
s1 = "誒前天跟我說昨天跟我說十二期利率是多少工號幺九零八二六十二期的話零點八一萬的話分十二期利息八十嘛"#指定正確答案
s2 = " ".join(queries)#識別結(jié)果
print("字錯率:{}".format(metrics.calculate_cer(s1,s2)))#計算字錯率cer
print("準(zhǔn)確率:{}".format(1-metrics.calculate_cer(s1,s2)))#計算準(zhǔn)確率accuracy

#字錯率:0.041666666666666664

#準(zhǔn)確率:0.9583333333333334

10.增加標(biāo)點符號輸出

from zhpr.predict import DocumentDataset,merge_stride,decode_pred
from transformers import AutoModelForTokenClassification,AutoTokenizer
from torch.utils.data import DataLoader

def predict_step(batch,model,tokenizer):
? ? ? ? batch_out = []
? ? ? ? batch_input_ids = batch

? ? ? ? encodings = {'input_ids': batch_input_ids}
? ? ? ? output = model(**encodings)

? ? ? ? predicted_token_class_id_batch = output['logits'].argmax(-1)
? ? ? ? for predicted_token_class_ids, input_ids in zip(predicted_token_class_id_batch, batch_input_ids):
? ? ? ? ? ? out=[]
? ? ? ? ? ? tokens = tokenizer.convert_ids_to_tokens(input_ids)
? ? ? ? ? ??
? ? ? ? ? ? # compute the pad start in input_ids
? ? ? ? ? ? # and also truncate the predict
? ? ? ? ? ? # print(tokenizer.decode(batch_input_ids))
? ? ? ? ? ? input_ids = input_ids.tolist()
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? input_id_pad_start = input_ids.index(tokenizer.pad_token_id)
? ? ? ? ? ? except:
? ? ? ? ? ? ? ? input_id_pad_start = len(input_ids)
? ? ? ? ? ? input_ids = input_ids[:input_id_pad_start]
? ? ? ? ? ? tokens = tokens[:input_id_pad_start]
? ??
? ? ? ? ? ? # predicted_token_class_ids
? ? ? ? ? ? predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids]
? ? ? ? ? ? predicted_tokens_classes = predicted_tokens_classes[:input_id_pad_start]

? ? ? ? ? ? for token,ner in zip(tokens,predicted_tokens_classes):
? ? ? ? ? ? ? ? out.append((token,ner))
? ? ? ? ? ? batch_out.append(out)
? ? ? ? return batch_out

if __name__ == "__main__":
? ? window_size = 256
? ? step = 200
? ? text = queries[0]
? ? dataset = DocumentDataset(text,window_size=window_size,step=step)
? ? dataloader = DataLoader(dataset=dataset,shuffle=False,batch_size=5)

? ? model_name = 'zh-wiki-punctuation-restore'
? ? model = AutoModelForTokenClassification.from_pretrained(model_name)
? ? tokenizer = AutoTokenizer.from_pretrained(model_name)

? ? model_pred_out = []
? ? for batch in dataloader:
? ? ? ? batch_out = predict_step(batch,model,tokenizer)
? ? ? ? for out in batch_out:
? ? ? ? ? ? model_pred_out.append(out)
? ? ? ??
? ? merge_pred_result = merge_stride(model_pred_out,step)
? ? merge_pred_result_deocde = decode_pred(merge_pred_result)
? ? merge_pred_result_deocde = ''.join(merge_pred_result_deocde)
? ? print(merge_pred_result_deocde)
#誒前天跟我說的。昨天跟我說十二期利率是多少。工號幺九零八二六零十二期的話，零點八一萬的話，分十二期利息八十嘛。文章來源地址http://www.zghlxwxcb.cn/news/detail-644162.html

到了這里，關(guān)于NeMo中文/英文ASR模型微調(diào)訓(xùn)練實踐的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

LLM-LLaMA中文衍生模型：Chinese-LLaMA-Alpaca【擴(kuò)充詞表、Lora部分參數(shù)預(yù)訓(xùn)練、微調(diào)】
GitHub：GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMAAlpaca大語言模型+本地CPU/GPU訓(xùn)練部署 (Chinese LLaMA Alpaca LLMs) 中文LLaMA模型中文LLaMA模型在原版的基礎(chǔ)上擴(kuò)充了中文詞表，使用了中文通用純文本數(shù)據(jù)進(jìn)行二次預(yù)訓(xùn)練。模型名稱訓(xùn)練數(shù)據(jù) 重構(gòu)模型[1] 大小[2] LoRA下載[3] Chinese-LLaMA-7B 通用
2024年02月15日
瀏覽(23)
《實戰(zhàn)AI模型》——趕上GPT3.5的大模型LLaMA 2可免費商用，內(nèi)含中文模型推理和微調(diào)解決方案
目錄準(zhǔn)備環(huán)境及命令后參數(shù)導(dǎo)入：導(dǎo)入模型：準(zhǔn)備LoRA：導(dǎo)入datasets：配置
2024年02月16日
瀏覽(91)
精調(diào)訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型
博文1：本地部署中文LLaMA模型實戰(zhàn)教程，民間羊駝模型博文2：本地訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型博文3：精調(diào)訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型（本博客）在學(xué)習(xí)完上篇【博文2：本地訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型】后，我們已經(jīng)學(xué)會了使用
2024年02月09日
瀏覽(28)
本地訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型，24G顯存盤它！
博文1：本地部署中文LLaMA模型實戰(zhàn)教程，民間羊駝模型博文2：本地訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型（本博客）博文3：精調(diào)訓(xùn)練中文LLaMA模型實戰(zhàn)教程，民間羊駝模型在學(xué)習(xí)完上篇【1本地部署中文LLaMA模型實戰(zhàn)教程，民間羊駝模型】后，我們已經(jīng)學(xué)會了下載模型，
2024年02月10日
瀏覽(32)
微調(diào)預(yù)訓(xùn)練的 NLP 模型
動動發(fā)財?shù)男∈?，點個贊吧！針對任何領(lǐng)域微調(diào)預(yù)訓(xùn)練 NLP 模型的分步指南在當(dāng)今世界，預(yù)訓(xùn)練 NLP 模型的可用性極大地簡化了使用深度學(xué)習(xí)技術(shù)對文本數(shù)據(jù)的解釋。然而，雖然這些模型在一般任務(wù)中表現(xiàn)出色，但它們往往缺乏對特定領(lǐng)域的適應(yīng)性。本綜合指南 [1] 旨在引導(dǎo)
2024年02月13日
瀏覽(17)
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓(xùn)練集分割、中文自動語音識別(ASR)和文本標(biāo)注
兩分鐘克隆你的聲音，支持替換電影和視頻里面的聲音，免費使用支持docker一鍵部署，集成工具包括聲音伴奏分離、自動訓(xùn)練集分割、中文自動語音識別(ASR)和文本標(biāo)注。查看我們的介紹視頻 demo video 中國地區(qū)用戶可使用 AutoDL 云端鏡像進(jìn)行體驗：https://www.codewithgpu.com/i/RVC-
2024年02月20日
瀏覽(28)
利用PyTorch訓(xùn)練模型識別數(shù)字+英文圖片驗證碼
摘要：使用深度學(xué)習(xí)框架PyTorch來訓(xùn)練模型去識別4-6位數(shù)字+字母混合圖片驗證碼（我們可以使用第三方庫captcha生成這種圖片驗證碼或者自己收集目標(biāo)網(wǎng)站的圖片驗證碼進(jìn)行針對訓(xùn)練）。一、制作訓(xùn)練數(shù)據(jù)集我們可以把需要生成圖片的一些參數(shù)放在setting.py文件中，方便以后更
2024年04月15日
瀏覽(16)
LORA大模型加速微調(diào)和訓(xùn)練算法
ChatGPT帶領(lǐng)著大模型像雨后春筍一般層出不窮，大家都對大模型微調(diào)躍躍欲試，現(xiàn)在咱們聊聊其中的常見的算法 1 LORA 低秩適應(yīng) 理論 Lora( Low-Rank Adaotation)，低秩自適應(yīng)模型微調(diào)的方法，它凍結(jié)預(yù)訓(xùn)練模型的權(quán)重，并將可訓(xùn)練的秩分解矩陣注入到transformer架構(gòu)的每一層，從而大大
2024年02月05日
瀏覽(21)
聊聊大模型微調(diào)訓(xùn)練全流程的思考
轉(zhuǎn)載請注明出處：https://www.cnblogs.com/zhiyong-ITNote 參考現(xiàn)有的中文醫(yī)療模型：MedicalGPT、CareGPT等領(lǐng)域模型的訓(xùn)練流程，結(jié)合ChatGPT的訓(xùn)練流程，總結(jié)如下：在預(yù)訓(xùn)練階段，模型會從大量無標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)領(lǐng)域/通用知識；其次使用{有監(jiān)督微調(diào)}(SFT)優(yōu)化模型以更好地遵守特定
2024年03月18日
瀏覽(18)
LLMs：ColossalChat相關(guān)的開源訓(xùn)練數(shù)據(jù)集簡介(SFT指令微調(diào)數(shù)據(jù)集+獎勵模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實現(xiàn)的三個階段(監(jiān)督指令微調(diào)→訓(xùn)練獎勵模型→RLHF訓(xùn)練模型→???
LLMs：ColossalChat相關(guān)的開源訓(xùn)練數(shù)據(jù)集簡介(SFT指令微調(diào)數(shù)據(jù)集+獎勵模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實現(xiàn)的三個階段(監(jiān)督指令微調(diào)→訓(xùn)練獎勵模型→RLHF訓(xùn)練模型→推理量化和服務(wù)) ? 目錄 ColossalChat的使用方法 1、ColossalChat相關(guān)的開源訓(xùn)練數(shù)據(jù)集 (1)、SFT指令微調(diào)數(shù)據(jù)集
2024年02月14日
瀏覽(27)