国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLM:LLaMA模型和微調(diào)的Alpaca模型

這篇具有很好參考價值的文章主要介紹了LLM:LLaMA模型和微調(diào)的Alpaca模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

LLaMA模型

簡單了解[LeCun狂贊:600刀GPT-3.5平替! 斯坦福70億參數(shù)「羊駝」爆火,LLaMA殺瘋了]

論文原文:https://arxiv.org/abs/2302.13971v1

預訓練數(shù)據(jù)

LLM:LLaMA模型和微調(diào)的Alpaca模型

模型架構

模型就是用的transformer的decoder,模型設計的不同點在于:

1 Position Embedding:RoPE旋轉位置編碼rotary-embedding

刪除了絕對位置嵌入,而是在網(wǎng)絡的每一層添加了Sujianlin等人(2021)引入的旋轉位置嵌入(RoPE)。

現(xiàn)階段被大多數(shù)模型采用的位置編碼方案,具有很好的外推性。

[RoPE旋轉位置編碼]

2?Feedforward Layer

采用SwiGLU;Feedforward變化為(8/3)倍的隱含層大小,即2/3*4d而不是4d。

SwiGLU激活函數(shù):

Swish=x?sigmoid(βx)

LLM:LLaMA模型和微調(diào)的Alpaca模型

源于PaLM中使用的[SwiGLU激活函數(shù)]

3 Layer Normalization: 基于RMSNorm的Pre-Normalization

同GPT3。?

Pre-Normalization

LLM:LLaMA模型和微調(diào)的Alpaca模型

RMS Pre-Norm?

?LLM:LLaMA模型和微調(diào)的Alpaca模型

[LLM:大模型的正則化_-柚子皮-的博客-CSDN博客]

不同模型的超參數(shù)的詳細信息。

LLM:LLaMA模型和微調(diào)的Alpaca模型

訓練細節(jié)

使用AdamW優(yōu)化器進行訓練(Loshchilov和Hutter,2017),具有以下超參數(shù):β1=0.9,β2=0.95。

使用余弦學習速率表,使得最終學習速率等于最大學習速率的10%。我們使用0.1的權重衰減和1.0的梯度裁剪。

使用2000個預熱步驟,并根據(jù)模型的大小改變學習速度和批量大小。

Alpaca模型

LLM:LLaMA模型和微調(diào)的Alpaca模型

[Stanford CRFM]?

中文聊天aipaca

GitHub - ymcui/Chinese-LLaMA-Alpaca

內(nèi)容導引

章節(jié) 描述
?模型下載 中文LLaMA、Alpaca大模型下載地址
??合并模型 (重要)介紹如何將下載的LoRA模型與原版LLaMA合并
??本地推理與快速部署 介紹了如何對模型進行量化并使用個人電腦部署并體驗大模型
??系統(tǒng)效果 介紹了部分場景和任務下的使用體驗效果
??訓練細節(jié) 介紹了中文LLaMA、Alpaca大模型的訓練細節(jié)

安裝

python3.8

# wget https://download.pytorch.org/whl/cu111/torch-1.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchvision-0.11.3%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchaudio-0.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl

# torch+cuda
# 進入whl所在目錄
pip3 install torch-1.10.2+cu111-cp38-cp38-linux_x86_64.whl torchaudio-0.10.2+cu111-cp38-cp38-linux_x86_64.whl torchvision-0.11.3+cu111-cp38-cp38-linux_x86_64.whl
# transformers
pip3 install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
# others
pip3 install fire fairscale sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple

from:LLM:LLaMA模型和微調(diào)的Alpaca模型_-柚子皮-的博客-CSDN博客

ref:[代碼角度看LLaMA語言模型:Meta最新模型LLaMA細節(jié)與代碼詳解]

[Meta最新語言模型LLaMA論文研讀:小參數(shù)+大數(shù)據(jù)的開放、高效基礎語言模型閱讀筆記]*

[LLaMA:開源的高效的基礎語言模型 - 簡書]文章來源地址http://www.zghlxwxcb.cn/news/detail-496187.html

到了這里,關于LLM:LLaMA模型和微調(diào)的Alpaca模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包