国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLaMA模型之中文詞表的蛻變

2年前作者：hj_caas分類(lèi)：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了LLaMA模型之中文詞表的蛻變。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在目前的開(kāi)源模型中，LLaMA模型無(wú)疑是一顆閃亮的??，但是相對(duì)于ChatGLM、BaiChuan等國(guó)產(chǎn)大模型，其對(duì)于中文的支持能力不是很理想。原版LLaMA模型的詞表大小是32K，中文所占token是幾百個(gè)左右，這將會(huì)導(dǎo)致中文的編解碼效率低。

在將LLaMA系列模型用于中文語(yǔ)言時(shí)需要進(jìn)行中文詞表擴(kuò)充，基于sentencepiece工具訓(xùn)練，產(chǎn)生新的詞表，然后與原始詞表合并得到一個(gè)新詞表。

本文將LLaMA模型中文詞表擴(kuò)充分為以下步驟：訓(xùn)練數(shù)據(jù)準(zhǔn)備、詞表訓(xùn)練、詞表合并、詞表測(cè)試。

訓(xùn)練數(shù)據(jù)準(zhǔn)備

這里使用MedicalGPT中的天龍八部小說(shuō)作為訓(xùn)練文本。

數(shù)據(jù)是txt文件，一行文本作為一條數(shù)據(jù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-770985.html

詞表訓(xùn)練代碼

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='tianlongbabu.txt'

到了這里，關(guān)于LLaMA模型之中文詞表的蛻變的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[NLP]LLM---FineTune自己的Llama2模型
Let’s talk a bit about the parameters we can tune here. First, we want to load a? llama-2-7b-hf ?model and train it on the? mlabonne/guanaco-llama2-1k ?(1,000 samples), which will produce our fine-tuned model? llama-2-7b-miniguanaco . If you’re interested in how this dataset was created, you can check?this notebook. Feel free to change it: there ar
2024年02月09日
瀏覽(21)
NLP-分詞器：SentencePiece【參考Chinese-LLaMA-Alpaca在通用中文語(yǔ)料上訓(xùn)練的20K中文詞表并與原版LLaMA模型的32K詞表進(jìn)行合并的代碼】
隨著ChatGPT迅速出圈，最近幾個(gè)月開(kāi)源的大模型也是遍地開(kāi)花。目前，開(kāi)源的大語(yǔ)言模型主要有三大類(lèi)：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英雙
2024年02月11日
瀏覽(23)
在樹(shù)莓派中跑迷你Llama2中文模型
??OpenAI的Karpathy利用周末搞了一個(gè)迷你Llama2項(xiàng)目llama2.c用500行C語(yǔ)言實(shí)現(xiàn)無(wú)任何依賴(lài)項(xiàng)的推理程序，此項(xiàng)目在github發(fā)布以來(lái)衍生出了基于各種語(yǔ)言的迷你Llama推理實(shí)現(xiàn)llama2.go、llama2.java、llama2.py等等； ??但該項(xiàng)目原本的模型并不支持中文，最近正好看到一個(gè)基于llama2的中文訓(xùn)
2024年02月12日
瀏覽(18)
大模型部署手記（11）LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文對(duì)話(huà)
組織機(jī)構(gòu)：Meta（Facebook）代碼倉(cāng)：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：LIama-2-7b-hf、Chinese-LLaMA-Plus-2-7B ? 下載：使用huggingface.co和百度網(wǎng)盤(pán)下載硬件環(huán)境：暗影精靈7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡：Nvidia GTX 3080 Laptop （1
2024年02月03日
瀏覽(25)
使用 Docker 快速上手中文版 LLaMA2 開(kāi)源大模型
本篇文章，我們聊聊如何使用 Docker 容器快速上手朋友團(tuán)隊(duì)出品的中文版 LLaMA2 開(kāi)源大模型，國(guó)內(nèi)第一個(gè)真正開(kāi)源，可以運(yùn)行、下載、私有部署，并且支持商業(yè)使用。感慨于昨天 Meta LLaMA2 模型開(kāi)放下載之后，GitHub 上出現(xiàn)了許多“只有 Readme 文檔” 的開(kāi)源模型項(xiàng)目，并一時(shí)間在
2024年02月16日
瀏覽(24)
大模型部署手記（9）LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本補(bǔ)齊
組織機(jī)構(gòu)：Meta（Facebook）代碼倉(cāng)：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：llama-2-7b、Chinese-LLaMA-Plus-7B（chinese_llama_plus_lora_7b） ? 下載：使用download.sh下載硬件環(huán)境：暗影精靈7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡：Nvidia GTX 3080 La
2024年02月03日
瀏覽(23)
【AI實(shí)戰(zhàn)】開(kāi)源中文 llama2 來(lái)了，30 分鐘搭建 130 億參數(shù)大模型 Llama2-Chinese-13b-Chat
Llama2 2023年7月19日：Meta 發(fā)布開(kāi)源可商用模型 Llama2。 Llama2 是一個(gè)預(yù)訓(xùn)練和微調(diào)的生成文本模型的集合，其規(guī)模從70億到700億個(gè)參數(shù)不等。 LLaMA2 的詳細(xì)介紹可以參考這篇文章：【大模型】更強(qiáng)的 LLaMA2 來(lái)了，開(kāi)源可商用、與 ChatGPT 齊平 Llama2-Chinese Llama2中文社區(qū) Llama2-Chinese Git
2024年02月12日
瀏覽(21)
Sealos 國(guó)內(nèi)集群正式上線(xiàn)，可一鍵運(yùn)行 LLama2 中文版大模型！
2023 年 7 月 19 日，MetaAI 宣布開(kāi)源旗下的 LLama2 大模型，Meta 首席科學(xué)家、圖靈獎(jiǎng)得主 Yann LeCun 在推特上表示 Meta 此舉可能將改變大模型行業(yè)的競(jìng)爭(zhēng)格局。一夜之間，大模型格局再次發(fā)生巨變。不同于 LLama，LLama2 免費(fèi)可商用！ LLama2 的能力在 GPT-3 ~ GPT-3.5 之間，對(duì)于關(guān)注數(shù)據(jù)隱
2024年02月12日
瀏覽(24)
[玩轉(zhuǎn)AIGC]LLaMA2訓(xùn)練中文文章撰寫(xiě)神器（數(shù)據(jù)準(zhǔn)備，數(shù)據(jù)處理，模型訓(xùn)練，模型推理）
好久沒(méi)更新這個(gè)專(zhuān)欄的文章了，今天抽空寫(xiě)了一篇?！?023.12.28 摘要：文體包括新聞，法律文書(shū)，公告，廣告等，每種文體的書(shū)寫(xiě)風(fēng)格不一樣，如果擁有自己的數(shù)據(jù)集，想針對(duì)特定文體來(lái)訓(xùn)練一個(gè)內(nèi)容生成的工具，來(lái)幫助自己寫(xiě)點(diǎn)文章，如果沒(méi)接觸過(guò)AIGC，可能一開(kāi)始會(huì)
2024年01月17日
瀏覽(25)
將 Llama2 中文模型接入 FastGPT，再將 FastGPT 接入任意 GPT 套殼應(yīng)用，真刺激！
FastGPT 是一個(gè)基于 LLM 大語(yǔ)言模型的知識(shí)庫(kù)問(wèn)答系統(tǒng)，提供開(kāi)箱即用的數(shù)據(jù)處理、模型調(diào)用等能力。同時(shí)可以通過(guò) Flow 可視化進(jìn)行工作流編排，從而實(shí)現(xiàn)復(fù)雜的問(wèn)答場(chǎng)景！ Llama2 是Facebook 母公司 Meta 發(fā)布的開(kāi)源可商用大模型，國(guó)內(nèi)的開(kāi)源社區(qū)以及個(gè)人和機(jī)構(gòu)也紛紛著手基于 Ll
2024年02月10日
瀏覽(27)

<fieldset id="5ab8n"></fieldset>

<abbr id="5ab8n"></abbr>