国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

創(chuàng)建大模型的新方法 - 配比兩個(gè)模型

2年前作者：javastart分類：Toy博客閱讀(15)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了創(chuàng)建大模型的新方法 - 配比兩個(gè)模型。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原文：創(chuàng)建大模型的新方法 - 配比兩個(gè)模型 - 知乎

現(xiàn)在，創(chuàng)建大模型的新方法還可以使用配比兩個(gè)模型- 正如煉金術(shù)巫師那樣。

工具1 medusa：
https://github.com/FasterDecoding/Medusa

Medusa 為 LLM 添加了額外的“頭”，以同時(shí)預(yù)測(cè)多個(gè)未來代幣。當(dāng)使用 Medusa 增強(qiáng)模型時(shí)，原始模型保持不變，只有新的頭部在訓(xùn)練過程中進(jìn)行微調(diào)。在生成過程中，這些頭每個(gè)都會(huì)為相應(yīng)位置生成多個(gè)可能的單詞。然后使用基于樹的注意力機(jī)制組合和處理這些選項(xiàng)。最后，采用典型的接受方案從候選者中挑選最長(zhǎng)的合理前綴以進(jìn)行進(jìn)一步解碼。

工具2 mergekit:

https://github.com/cg123/mergekit/tree/main

mergekit是一個(gè)用于合并預(yù)先訓(xùn)練的語言模型的工具包，使用多種合并方法，包括 TIES、線性和 slerp 合并。該工具包還可以使用從其他模型中選擇的層來分段組裝語言模型bakllama.py。

ref="https://github.com/cg123/mergekit/tree/main#merging-models-with-mainpy">合并模型main.py

用法

要使用腳本合并模型main.py，請(qǐng)指定最終模型的輸出目錄以及要使用該--merge選項(xiàng)合并的模型。根據(jù)所選的合并方法，可能需要其他參數(shù)，例如--density、--weight和。--base-model

該腳本支持以下合并方法：

解決合并模型時(shí)的干擾（默認(rèn)方法，“ties”）
- 需要一個(gè)基礎(chǔ)模型。
- 可以指定每個(gè)模型的重量和密度。

線性
- 不需要基礎(chǔ)模型。
- 必須指定要合并的所有模型的權(quán)重。

SLERP
- 正好需要兩個(gè)模型。
- 必須指定單個(gè)權(quán)重來設(shè)置兩個(gè)模型之間的插值參數(shù)。

例子

與 TIES 方法合并并指定每個(gè)模型的權(quán)重和密度：
python main.py ./output-model --base-model TheBloke/Llama-2-13B-fp16 --cuda \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.3 --density 0.5 \ --merge garage-bAInd/Platypus2-13B --weight 0.5 --density 0.5
與線性方法合并并設(shè)置模型權(quán)重：
python main.py ./output-model --cuda --method linear \ --merge garage-bAInd/Platypus2-13B --weight 0.6 \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.2
與SLERP方法合并并設(shè)置插值參數(shù)：
python main.py ./output-model --cuda --method slerp --base-model garage-bAInd/Platypus2-13B \ --merge WizardLM/WizardLM-13B-V1.2 --weight 0.5
具有層權(quán)重插值梯度的 SLERP：
python main.py ./output-model --cuda --method slerp --base-model garage-bAInd/Platypus2-13B \ --merge WizardLM/WizardLM-13B-V1.2 --layer-gradient "[0, 0.3, 0.7, 0, 0.1, 1.0]"

python main.py --help有關(guān)所有可用選項(xiàng)的詳細(xì)信息，請(qǐng)參閱腳本的幫助消息 ( )。

ef="https://github.com/cg123/mergekit/tree/main#piecewise-layer-combinations-with-bakllamapy">分段層組合bakllama.py

該bakllama.py腳本允許您使用從其他預(yù)訓(xùn)練模型中獲取的層分段組裝模型。

配置

要使用 bakllama.py 腳本，您需要?jiǎng)?chuàng)建一個(gè) YAML 配置文件，在其中定義要從各種源模型使用的層，并可選擇指定嵌入和 LM 頭組件的源。

配置文件應(yīng)具有以下字段：

layer_slices：圖層切片對(duì)象的列表，每個(gè)對(duì)象指定要從源模型獲取的圖層范圍。
- model：源模型的標(biāo)識(shí)符或路徑。
- start：起始圖層索引（含）。
- end：結(jié)束層索引（不包括）。
- scale：（可選）層權(quán)重的比例因子。

embedding_source：（可選）從中獲取嵌入層的模型。如果未指定，則默認(rèn)為 layer_slices 中列出的第一個(gè)模型。
lm_head_source：（可選）采用 LM 頭的模型。如果未指定，則默認(rèn)為 layer_slices 中列出的最后一個(gè)模型。

用法

創(chuàng)建 YAML 配置文件后，使用bakllama.py配置文件和輸出路徑作為參數(shù)運(yùn)行腳本：

python bakllama.py path/to/your/config.yml ./output-model-directory

工具2

其他參考：https://www.toutiao.com/video/7323120863611224611/?log_from=4c1c2792567a5_1705195584743文章來源地址http://www.zghlxwxcb.cn/news/detail-807108.html

到了這里，關(guān)于創(chuàng)建大模型的新方法 - 配比兩個(gè)模型的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

自然語言文本分類模型代碼
????????以下是一個(gè)基于PyTorch的文本分類模型的示例代碼，用于將給定的文本分為多個(gè)預(yù)定義類別： ????????該模型將輸入的文本作為整數(shù)序列傳遞給嵌入層，然后通過多層LSTM層進(jìn)行處理，最終輸出每個(gè)類別的預(yù)測(cè)概率。 ????????在訓(xùn)練模型之前，需要將文本序列
2024年02月14日
瀏覽(26)
從ChatGPT出發(fā)：大模型與自然語言模型
2022年11月30日，OpenAI在其博客上發(fā)布了ChatGPT的介紹，掀起了大語言模型的一波狂風(fēng)，席卷了2023年伊始幾乎所有的話題。這個(gè)能夠“理解”人類語言的模型，不僅可以完成接續(xù)上下文的查詢和交流任務(wù)，還能夠?qū)崿F(xiàn)包括代碼、論文、周報(bào)等在內(nèi)的撰寫工作。它的能力，遠(yuǎn)不僅
2024年02月02日
瀏覽(24)
自然語言處理：大語言模型入門介紹
隨著自然語言處理（Natural Language Processing, NLP）的發(fā)展，此技術(shù)現(xiàn)已廣泛應(yīng)用于文本分類、識(shí)別和總結(jié)、機(jī)器翻譯、信息提取、問答系統(tǒng)、情感分析、語音識(shí)別、文本生成等任務(wù)。研究人員發(fā)現(xiàn)擴(kuò)展模型規(guī)?？梢蕴岣吣Ｐ湍芰?，由此創(chuàng)造了術(shù)語——大語言模型（Large Language
2024年02月12日
瀏覽(27)
《大型語言模型自然語言生成評(píng)估》綜述
在快速發(fā)展的自然語言生成（NLG）評(píng)估領(lǐng)域中，引入大型語言模型（LLMs）為評(píng)估生成內(nèi)容質(zhì)量開辟了新途徑，例如，連貫性、創(chuàng)造力和上下文相關(guān)性。本綜述旨在提供一個(gè)關(guān)于利用LLMs進(jìn)行NLG評(píng)估的全面概覽，這是一個(gè)缺乏系統(tǒng)分析的新興領(lǐng)域。我們提出了一個(gè)連貫的分類體
2024年01月23日
瀏覽(26)
自然語言模型的哲學(xué)小談
近期，以chatGPT為代表的大語言模型表現(xiàn)非常驚艷?！癐n Context Learning”、“Instruct” 1 ，以及推理能力，很難不讓我們期待未來人工智能的發(fā)展，同時(shí)冷靜思考一下為什么自然語言模型能夠取得巨大進(jìn)步。我們是如何思考的？人類在不張嘴的情況下，會(huì)進(jìn)行哪些活動(dòng)？或者說
2024年02月03日
瀏覽(21)
30個(gè)最新的自然語言處理模型
T5：基于Transformer，結(jié)合了多任務(wù)學(xué)習(xí)和無監(jiān)督預(yù)訓(xùn)練，并使用大規(guī)模的英文維基百科語料庫(kù)進(jìn)行訓(xùn)練。 GPT-3：同樣基于Transformer，使用了極其龐大的語料庫(kù)，并使用Zero-shot學(xué)習(xí)實(shí)現(xiàn)了自然語言推理功能。 Chinchilla：一種新型自然語言生成模型，使用了自適應(yīng)正則化和動(dòng)態(tài)使用
2023年04月27日
瀏覽(26)
自然語言處理｜大模型｜類似chatGPT的開源大模型整理
最近正在學(xué)習(xí)chatGPT相關(guān)大模型，整理相關(guān)資料如下，本文仍在修改中，如有侵權(quán)，請(qǐng)聯(lián)系刪除 chatGPT-1： Improving Language Understanding by Generative Pre-Training chatGPB-2： Language Models are Unsupervised Multitask Learners chatGPT-3: Language Models are Few-Shot Learners 模型名稱開發(fā)者模型介紹介紹資料
2024年02月02日
瀏覽(28)
自然語言處理微調(diào)ChatGLM-6B大模型
bert的主要任務(wù)是隨機(jī)的去除掉某個(gè)單詞，使用上下文將其預(yù)測(cè)出來（相當(dāng)于完形填空任務(wù)）； GPT的主要任務(wù)是根據(jù)前面一句話，預(yù)測(cè)下面的內(nèi)容； GLM結(jié)合了bert的強(qiáng)大雙向注意力與gpt的強(qiáng)大生成能力兩種能力，被nask的地方使用單向注意力，未被mask的地方使用雙向注意力預(yù)測(cè)
2024年02月09日
瀏覽(22)
《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型
這是閱讀《自然語言處理-基于預(yù)訓(xùn)練模型的方法》的學(xué)習(xí)筆記，記錄學(xué)習(xí)過程，詳細(xì)的內(nèi)容請(qǐng)大家購(gòu)買書籍查閱。同時(shí)參考沐神的兩個(gè)視頻： GPT，GPT-2，GPT-3 論文精讀【論文精讀】 BERT 論文逐段精讀【論文精讀】自然語言處理的核心在于如何更好地建模語言。廣義上的預(yù)訓(xùn)
2024年02月10日
瀏覽(24)
【大模型的前世今生】從自然語言處理說起
自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）被譽(yù)為人工智能皇冠上的明珠，是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要方向。它主要研究人與計(jì)算機(jī)之間，使用自然語言進(jìn)行有效通信的各種理論和方法。簡(jiǎn)單來說，計(jì)算機(jī)以用戶的自然語言數(shù)據(jù)作為輸入，在其內(nèi)部通過定義
2024年02月03日
瀏覽(20)