国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLaMA模型之中文詞表的蛻變

這篇具有很好參考價(jià)值的文章主要介紹了LLaMA模型之中文詞表的蛻變。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在目前的開(kāi)源模型中,LLaMA模型無(wú)疑是一顆閃亮的??,但是相對(duì)于ChatGLM、BaiChuan等國(guó)產(chǎn)大模型,其對(duì)于中文的支持能力不是很理想。原版LLaMA模型的詞表大小是32K,中文所占token是幾百個(gè)左右,這將會(huì)導(dǎo)致中文的編解碼效率低。

在將LLaMA系列模型用于中文語(yǔ)言時(shí)需要進(jìn)行中文詞表擴(kuò)充,基于sentencepiece工具訓(xùn)練,產(chǎn)生新的詞表,然后與原始詞表合并得到一個(gè)新詞表。

本文將LLaMA模型中文詞表擴(kuò)充分為以下步驟:訓(xùn)練數(shù)據(jù)準(zhǔn)備、詞表訓(xùn)練、詞表合并、詞表測(cè)試。

訓(xùn)練數(shù)據(jù)準(zhǔn)備

這里使用MedicalGPT中的天龍八部小說(shuō)作為訓(xùn)練文本。

數(shù)據(jù)是txt文件,一行文本作為一條數(shù)據(jù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-770985.html

詞表訓(xùn)練代碼

import sentencepiece as spm

spm.SentencePieceTrainer.train(
    input='tianlongbabu.txt'

到了這里,關(guān)于LLaMA模型之中文詞表的蛻變的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [NLP]LLM---FineTune自己的Llama2模型

    [NLP]LLM---FineTune自己的Llama2模型

    Let’s talk a bit about the parameters we can tune here. First, we want to load a? llama-2-7b-hf ?model and train it on the? mlabonne/guanaco-llama2-1k ?(1,000 samples), which will produce our fine-tuned model? llama-2-7b-miniguanaco . If you’re interested in how this dataset was created, you can check?this notebook. Feel free to change it: there ar

    2024年02月09日
    瀏覽(21)
  • NLP-分詞器:SentencePiece【參考Chinese-LLaMA-Alpaca在通用中文語(yǔ)料上訓(xùn)練的20K中文詞表并與原版LLaMA模型的32K詞表進(jìn)行合并的代碼】

    NLP-分詞器:SentencePiece【參考Chinese-LLaMA-Alpaca在通用中文語(yǔ)料上訓(xùn)練的20K中文詞表并與原版LLaMA模型的32K詞表進(jìn)行合并的代碼】

    隨著ChatGPT迅速出圈,最近幾個(gè)月開(kāi)源的大模型也是遍地開(kāi)花。目前,開(kāi)源的大語(yǔ)言模型主要有三大類(lèi):ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chimera等)、Bloom衍生的大模型(Bloomz、BELLE、Phoenix等)。其中,ChatGLM-6B主要以中英雙

    2024年02月11日
    瀏覽(23)
  • 在樹(shù)莓派中跑迷你Llama2中文模型

    在樹(shù)莓派中跑迷你Llama2中文模型

    ??OpenAI的Karpathy利用周末搞了一個(gè)迷你Llama2項(xiàng)目llama2.c用500行C語(yǔ)言實(shí)現(xiàn)無(wú)任何依賴(lài)項(xiàng)的推理程序,此項(xiàng)目在github發(fā)布以來(lái)衍生出了基于各種語(yǔ)言的迷你Llama推理實(shí)現(xiàn)llama2.go、llama2.java、llama2.py等等; ??但該項(xiàng)目原本的模型并不支持中文,最近正好看到一個(gè)基于llama2的中文訓(xùn)

    2024年02月12日
    瀏覽(18)
  • 大模型部署手記(11)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文對(duì)話(huà)

    大模型部署手記(11)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文對(duì)話(huà)

    組織機(jī)構(gòu):Meta(Facebook) 代碼倉(cāng):GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:LIama-2-7b-hf、Chinese-LLaMA-Plus-2-7B ? 下載:使用huggingface.co和百度網(wǎng)盤(pán)下載 硬件環(huán)境:暗影精靈7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡:Nvidia GTX 3080 Laptop (1

    2024年02月03日
    瀏覽(25)
  • 使用 Docker 快速上手中文版 LLaMA2 開(kāi)源大模型

    使用 Docker 快速上手中文版 LLaMA2 開(kāi)源大模型

    本篇文章,我們聊聊如何使用 Docker 容器快速上手朋友團(tuán)隊(duì)出品的中文版 LLaMA2 開(kāi)源大模型,國(guó)內(nèi)第一個(gè)真正開(kāi)源,可以運(yùn)行、下載、私有部署,并且支持商業(yè)使用。 感慨于昨天 Meta LLaMA2 模型開(kāi)放下載之后,GitHub 上出現(xiàn)了許多“只有 Readme 文檔” 的開(kāi)源模型項(xiàng)目,并一時(shí)間在

    2024年02月16日
    瀏覽(24)
  • 大模型部署手記(9)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本補(bǔ)齊

    大模型部署手記(9)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本補(bǔ)齊

    組織機(jī)構(gòu):Meta(Facebook) 代碼倉(cāng):GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、Chinese-LLaMA-Plus-7B(chinese_llama_plus_lora_7b) ? 下載:使用download.sh下載 硬件環(huán)境:暗影精靈7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡:Nvidia GTX 3080 La

    2024年02月03日
    瀏覽(23)
  • 【AI實(shí)戰(zhàn)】開(kāi)源中文 llama2 來(lái)了,30 分鐘搭建 130 億參數(shù)大模型 Llama2-Chinese-13b-Chat

    【AI實(shí)戰(zhàn)】開(kāi)源中文 llama2 來(lái)了,30 分鐘搭建 130 億參數(shù)大模型 Llama2-Chinese-13b-Chat

    Llama2 2023年7月19日:Meta 發(fā)布開(kāi)源可商用模型 Llama2。 Llama2 是一個(gè)預(yù)訓(xùn)練和微調(diào)的生成文本模型的集合,其規(guī)模從70億到700億個(gè)參數(shù)不等。 LLaMA2 的詳細(xì)介紹可以參考這篇文章:【大模型】更強(qiáng)的 LLaMA2 來(lái)了,開(kāi)源可商用、與 ChatGPT 齊平 Llama2-Chinese Llama2中文社區(qū) Llama2-Chinese Git

    2024年02月12日
    瀏覽(21)
  • Sealos 國(guó)內(nèi)集群正式上線(xiàn),可一鍵運(yùn)行 LLama2 中文版大模型!

    Sealos 國(guó)內(nèi)集群正式上線(xiàn),可一鍵運(yùn)行 LLama2 中文版大模型!

    2023 年 7 月 19 日,MetaAI 宣布開(kāi)源旗下的 LLama2 大模型,Meta 首席科學(xué)家、圖靈獎(jiǎng)得主 Yann LeCun 在推特上表示 Meta 此舉可能將改變大模型行業(yè)的競(jìng)爭(zhēng)格局。一夜之間,大模型格局再次發(fā)生巨變。 不同于 LLama,LLama2 免費(fèi)可商用 ! LLama2 的能力在 GPT-3 ~ GPT-3.5 之間,對(duì)于關(guān)注數(shù)據(jù)隱

    2024年02月12日
    瀏覽(24)
  • [玩轉(zhuǎn)AIGC]LLaMA2訓(xùn)練中文文章撰寫(xiě)神器(數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)處理,模型訓(xùn)練,模型推理)

    [玩轉(zhuǎn)AIGC]LLaMA2訓(xùn)練中文文章撰寫(xiě)神器(數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)處理,模型訓(xùn)練,模型推理)

    好久沒(méi)更新這個(gè)專(zhuān)欄的文章了,今天抽空寫(xiě)了一篇?!?023.12.28 摘要:文體包括新聞,法律文書(shū),公告,廣告等,每種文體的書(shū)寫(xiě)風(fēng)格不一樣,如果擁有自己的數(shù)據(jù)集,想針對(duì)特定文體來(lái)訓(xùn)練一個(gè)內(nèi)容生成的工具,來(lái)幫助自己寫(xiě)點(diǎn)文章,如果沒(méi)接觸過(guò)AIGC,可能一開(kāi)始會(huì)

    2024年01月17日
    瀏覽(25)
  • 將 Llama2 中文模型接入 FastGPT,再將 FastGPT 接入任意 GPT 套殼應(yīng)用,真刺激!

    將 Llama2 中文模型接入 FastGPT,再將 FastGPT 接入任意 GPT 套殼應(yīng)用,真刺激!

    FastGPT 是一個(gè)基于 LLM 大語(yǔ)言模型的知識(shí)庫(kù)問(wèn)答系統(tǒng),提供開(kāi)箱即用的數(shù)據(jù)處理、模型調(diào)用等能力。同時(shí)可以通過(guò) Flow 可視化進(jìn)行工作流編排,從而實(shí)現(xiàn)復(fù)雜的問(wèn)答場(chǎng)景! Llama2 是Facebook 母公司 Meta 發(fā)布的開(kāi)源可商用大模型,國(guó)內(nèi)的開(kāi)源社區(qū)以及個(gè)人和機(jī)構(gòu)也紛紛著手基于 Ll

    2024年02月10日
    瀏覽(27)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包