国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

創(chuàng)建大模型的新方法 - 配比兩個(gè)模型

這篇具有很好參考價(jià)值的文章主要介紹了創(chuàng)建大模型的新方法 - 配比兩個(gè)模型。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原文:創(chuàng)建大模型的新方法 - 配比兩個(gè)模型 - 知乎

現(xiàn)在,創(chuàng)建大模型的新方法還可以使用配比兩個(gè)模型- 正如煉金術(shù)巫師那樣。

工具1 medusa:
https://github.com/FasterDecoding/Medusa

Medusa 為 LLM 添加了額外的“頭”,以同時(shí)預(yù)測(cè)多個(gè)未來代幣。當(dāng)使用 Medusa 增強(qiáng)模型時(shí),原始模型保持不變,只有新的頭部在訓(xùn)練過程中進(jìn)行微調(diào)。在生成過程中,這些頭每個(gè)都會(huì)為相應(yīng)位置生成多個(gè)可能的單詞。然后使用基于樹的注意力機(jī)制組合和處理這些選項(xiàng)。最后,采用典型的接受方案從候選者中挑選最長(zhǎng)的合理前綴以進(jìn)行進(jìn)一步解碼。

工具2 mergekit:

https://github.com/cg123/mergekit/tree/main

mergekit是一個(gè)用于合并預(yù)先訓(xùn)練的語言模型的工具包,使用多種合并方法,包括 TIES、線性和 slerp 合并。該工具包還可以使用從其他模型中選擇的層來分段組裝語言模型bakllama.py。

ref="https://github.com/cg123/mergekit/tree/main#merging-models-with-mainpy">合并模型main.py

用法

要使用腳本合并模型main.py,請(qǐng)指定最終模型的輸出目錄以及要使用該--merge選項(xiàng)合并的模型。根據(jù)所選的合并方法,可能需要其他參數(shù),例如--density、--weight和。--base-model

該腳本支持以下合并方法:

  • 解決合并模型時(shí)的干擾(默認(rèn)方法,“ties”)
    • 需要一個(gè)基礎(chǔ)模型。
    • 可以指定每個(gè)模型的重量和密度。
  • 線性
    • 不需要基礎(chǔ)模型。
    • 必須指定要合并的所有模型的權(quán)重。
  • SLERP
    • 正好需要兩個(gè)模型。
    • 必須指定單個(gè)權(quán)重來設(shè)置兩個(gè)模型之間的插值參數(shù)。

例子

  • 與 TIES 方法合并并指定每個(gè)模型的權(quán)重和密度:
    python main.py ./output-model --base-model TheBloke/Llama-2-13B-fp16 --cuda \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.3 --density 0.5 \ --merge garage-bAInd/Platypus2-13B --weight 0.5 --density 0.5
  • 與線性方法合并并設(shè)置模型權(quán)重:
    python main.py ./output-model --cuda --method linear \ --merge garage-bAInd/Platypus2-13B --weight 0.6 \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.2
  • 與SLERP方法合并并設(shè)置插值參數(shù):
    python main.py ./output-model --cuda --method slerp --base-model garage-bAInd/Platypus2-13B \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.5
  • 具有層權(quán)重插值梯度的 SLERP:
    python main.py ./output-model --cuda --method slerp --base-model garage-bAInd/Platypus2-13B \ --merge WizardLM/WizardLM-13B-V1.2 --layer-gradient "[0, 0.3, 0.7, 0, 0.1, 1.0]"

python main.py --help有關(guān)所有可用選項(xiàng)的詳細(xì)信息,請(qǐng)參閱腳本的幫助消息 ( )。

ef="https://github.com/cg123/mergekit/tree/main#piecewise-layer-combinations-with-bakllamapy">分段層組合bakllama.py

bakllama.py腳本允許您使用從其他預(yù)訓(xùn)練模型中獲取的層分段組裝模型。

配置

要使用 bakllama.py 腳本,您需要?jiǎng)?chuàng)建一個(gè) YAML 配置文件,在其中定義要從各種源模型使用的層,并可選擇指定嵌入和 LM 頭組件的源。

配置文件應(yīng)具有以下字段:

  • layer_slices:圖層切片對(duì)象的列表,每個(gè)對(duì)象指定要從源模型獲取的圖層范圍。
    • model:源模型的標(biāo)識(shí)符或路徑。
    • start:起始圖層索引(含)。
    • end:結(jié)束層索引(不包括)。
    • scale:(可選)層權(quán)重的比例因子。
  • embedding_source:(可選)從中獲取嵌入層的模型。如果未指定,則默認(rèn)為 layer_slices 中列出的第一個(gè)模型。
  • lm_head_source:(可選)采用 LM 頭的模型。如果未指定,則默認(rèn)為 layer_slices 中列出的最后一個(gè)模型。

用法

創(chuàng)建 YAML 配置文件后,使用bakllama.py配置文件和輸出路徑作為參數(shù)運(yùn)行腳本:

python bakllama.py path/to/your/config.yml ./output-model-directory

工具2

其他參考:https://www.toutiao.com/video/7323120863611224611/?log_from=4c1c2792567a5_1705195584743文章來源地址http://www.zghlxwxcb.cn/news/detail-807108.html

到了這里,關(guān)于創(chuàng)建大模型的新方法 - 配比兩個(gè)模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 自然語言文本分類模型代碼

    ????????以下是一個(gè)基于PyTorch的文本分類模型的示例代碼,用于將給定的文本分為多個(gè)預(yù)定義類別: ????????該模型將輸入的文本作為整數(shù)序列傳遞給嵌入層,然后通過多層LSTM層進(jìn)行處理,最終輸出每個(gè)類別的預(yù)測(cè)概率。 ????????在訓(xùn)練模型之前,需要將文本序列

    2024年02月14日
    瀏覽(26)
  • 從ChatGPT出發(fā):大模型與自然語言模型

    從ChatGPT出發(fā):大模型與自然語言模型

    2022年11月30日,OpenAI在其博客上發(fā)布了ChatGPT的介紹,掀起了大語言模型的一波狂風(fēng),席卷了2023年伊始幾乎所有的話題。這個(gè)能夠“理解”人類語言的模型,不僅可以完成接續(xù)上下文的查詢和交流任務(wù),還能夠?qū)崿F(xiàn)包括代碼、論文、周報(bào)等在內(nèi)的撰寫工作。 它的能力,遠(yuǎn)不僅

    2024年02月02日
    瀏覽(24)
  • 自然語言處理:大語言模型入門介紹

    隨著自然語言處理(Natural Language Processing, NLP)的發(fā)展,此技術(shù)現(xiàn)已廣泛應(yīng)用于文本分類、識(shí)別和總結(jié)、機(jī)器翻譯、信息提取、問答系統(tǒng)、情感分析、語音識(shí)別、文本生成等任務(wù)。 研究人員發(fā)現(xiàn)擴(kuò)展模型規(guī)??梢蕴岣吣P湍芰?,由此創(chuàng)造了術(shù)語——大語言模型(Large Language

    2024年02月12日
    瀏覽(27)
  • 《大型語言模型自然語言生成評(píng)估》綜述

    《大型語言模型自然語言生成評(píng)估》綜述

    在快速發(fā)展的自然語言生成(NLG)評(píng)估領(lǐng)域中,引入大型語言模型(LLMs)為評(píng)估生成內(nèi)容質(zhì)量開辟了新途徑,例如,連貫性、創(chuàng)造力和上下文相關(guān)性。本綜述旨在提供一個(gè)關(guān)于利用LLMs進(jìn)行NLG評(píng)估的全面概覽,這是一個(gè)缺乏系統(tǒng)分析的新興領(lǐng)域。 我們提出了一個(gè)連貫的分類體

    2024年01月23日
    瀏覽(26)
  • 自然語言模型的哲學(xué)小談

    自然語言模型的哲學(xué)小談

    近期,以chatGPT為代表的大語言模型表現(xiàn)非常驚艷?!癐n Context Learning”、“Instruct” 1 ,以及推理能力,很難不讓我們期待未來人工智能的發(fā)展,同時(shí)冷靜思考一下為什么自然語言模型能夠取得巨大進(jìn)步。 我們是如何思考的?人類在不張嘴的情況下,會(huì)進(jìn)行哪些活動(dòng)?或者說

    2024年02月03日
    瀏覽(21)
  • 30個(gè)最新的自然語言處理模型

    T5:基于Transformer,結(jié)合了多任務(wù)學(xué)習(xí)和無監(jiān)督預(yù)訓(xùn)練,并使用大規(guī)模的英文維基百科語料庫(kù)進(jìn)行訓(xùn)練。 GPT-3:同樣基于Transformer,使用了極其龐大的語料庫(kù),并使用Zero-shot學(xué)習(xí)實(shí)現(xiàn)了自然語言推理功能。 Chinchilla:一種新型自然語言生成模型,使用了自適應(yīng)正則化和動(dòng)態(tài)使用

    2023年04月27日
    瀏覽(26)
  • 自然語言處理 | 大模型|類似chatGPT的開源大模型整理

    最近正在學(xué)習(xí)chatGPT相關(guān)大模型,整理相關(guān)資料如下,本文仍在修改中,如有侵權(quán),請(qǐng)聯(lián)系刪除 chatGPT-1: Improving Language Understanding by Generative Pre-Training chatGPB-2: Language Models are Unsupervised Multitask Learners chatGPT-3: Language Models are Few-Shot Learners 模型名稱 開發(fā)者 模型介紹 介紹資料

    2024年02月02日
    瀏覽(28)
  • 自然語言處理 微調(diào)ChatGLM-6B大模型

    自然語言處理 微調(diào)ChatGLM-6B大模型

    bert的主要任務(wù)是隨機(jī)的去除掉某個(gè)單詞,使用上下文將其預(yù)測(cè)出來(相當(dāng)于完形填空任務(wù)); GPT的主要任務(wù)是根據(jù)前面一句話,預(yù)測(cè)下面的內(nèi)容; GLM結(jié)合了bert的強(qiáng)大雙向注意力與gpt的強(qiáng)大生成能力兩種能力,被nask的地方使用單向注意力,未被mask的地方使用雙向注意力 預(yù)測(cè)

    2024年02月09日
    瀏覽(22)
  • 《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型

    《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型

    這是閱讀《自然語言處理-基于預(yù)訓(xùn)練模型的方法》的學(xué)習(xí)筆記,記錄學(xué)習(xí)過程,詳細(xì)的內(nèi)容請(qǐng)大家購(gòu)買書籍查閱。 同時(shí)參考沐神的兩個(gè)視頻: GPT,GPT-2,GPT-3 論文精讀【論文精讀】 BERT 論文逐段精讀【論文精讀】 自然語言處理的核心在于如何更好地建模語言。廣義上的預(yù)訓(xùn)

    2024年02月10日
    瀏覽(24)
  • 【大模型的前世今生】從自然語言處理說起

    【大模型的前世今生】從自然語言處理說起

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)被譽(yù)為人工智能皇冠上的明珠,是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要方向。它主要研究人與計(jì)算機(jī)之間,使用自然語言進(jìn)行有效通信的各種理論和方法。簡(jiǎn)單來說,計(jì)算機(jī)以用戶的自然語言數(shù)據(jù)作為輸入,在其內(nèi)部通過定義

    2024年02月03日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包