在目前的開(kāi)源模型中,LLaMA模型無(wú)疑是一顆閃亮的??,但是相對(duì)于ChatGLM、BaiChuan等國(guó)產(chǎn)大模型,其對(duì)于中文的支持能力不是很理想。原版LLaMA模型的詞表大小是32K,中文所占token是幾百個(gè)左右,這將會(huì)導(dǎo)致中文的編解碼效率低。
在將LLaMA系列模型用于中文語(yǔ)言時(shí)需要進(jìn)行中文詞表擴(kuò)充,基于sentencepiece工具訓(xùn)練,產(chǎn)生新的詞表,然后與原始詞表合并得到一個(gè)新詞表。
本文將LLaMA模型中文詞表擴(kuò)充分為以下步驟:訓(xùn)練數(shù)據(jù)準(zhǔn)備、詞表訓(xùn)練、詞表合并、詞表測(cè)試。
訓(xùn)練數(shù)據(jù)準(zhǔn)備
這里使用MedicalGPT中的天龍八部小說(shuō)作為訓(xùn)練文本。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-770985.html
數(shù)據(jù)是txt文件,一行文本作為一條數(shù)據(jù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-770985.html
詞表訓(xùn)練代碼
import sentencepiece as spm
spm.SentencePieceTrainer.train(
input='tianlongbabu.txt'
到了這里,關(guān)于LLaMA模型之中文詞表的蛻變的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!