LLaMA模型
簡單了解[LeCun狂贊:600刀GPT-3.5平替! 斯坦福70億參數(shù)「羊駝」爆火,LLaMA殺瘋了]
論文原文:https://arxiv.org/abs/2302.13971v1
預訓練數(shù)據(jù)
模型架構
模型就是用的transformer的decoder,模型設計的不同點在于:
1 Position Embedding:RoPE旋轉位置編碼rotary-embedding
刪除了絕對位置嵌入,而是在網(wǎng)絡的每一層添加了Sujianlin等人(2021)引入的旋轉位置嵌入(RoPE)。
現(xiàn)階段被大多數(shù)模型采用的位置編碼方案,具有很好的外推性。
[RoPE旋轉位置編碼]
2?Feedforward Layer
采用SwiGLU;Feedforward變化為(8/3)倍的隱含層大小,即2/3*4d而不是4d。
SwiGLU激活函數(shù):
Swish=x?sigmoid(βx)
源于PaLM中使用的[SwiGLU激活函數(shù)]
3 Layer Normalization: 基于RMSNorm的Pre-Normalization
同GPT3。?
Pre-Normalization
RMS Pre-Norm?
?
[LLM:大模型的正則化_-柚子皮-的博客-CSDN博客]
不同模型的超參數(shù)的詳細信息。
訓練細節(jié)
使用AdamW優(yōu)化器進行訓練(Loshchilov和Hutter,2017),具有以下超參數(shù):β1=0.9,β2=0.95。
使用余弦學習速率表,使得最終學習速率等于最大學習速率的10%。我們使用0.1的權重衰減和1.0的梯度裁剪。
使用2000個預熱步驟,并根據(jù)模型的大小改變學習速度和批量大小。
Alpaca模型
[Stanford CRFM]?
中文聊天aipaca
GitHub - ymcui/Chinese-LLaMA-Alpaca
內(nèi)容導引
章節(jié) | 描述 |
---|---|
?模型下載 | 中文LLaMA、Alpaca大模型下載地址 |
??合并模型 | (重要)介紹如何將下載的LoRA模型與原版LLaMA合并 |
??本地推理與快速部署 | 介紹了如何對模型進行量化并使用個人電腦部署并體驗大模型 |
??系統(tǒng)效果 | 介紹了部分場景和任務下的使用體驗效果 |
??訓練細節(jié) | 介紹了中文LLaMA、Alpaca大模型的訓練細節(jié) |
安裝
python3.8
# wget https://download.pytorch.org/whl/cu111/torch-1.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchvision-0.11.3%2Bcu111-cp38-cp38-linux_x86_64.whl
# wget https://download.pytorch.org/whl/cu111/torchaudio-0.10.2%2Bcu111-cp38-cp38-linux_x86_64.whl
# torch+cuda
# 進入whl所在目錄
pip3 install torch-1.10.2+cu111-cp38-cp38-linux_x86_64.whl torchaudio-0.10.2+cu111-cp38-cp38-linux_x86_64.whl torchvision-0.11.3+cu111-cp38-cp38-linux_x86_64.whl
# transformers
pip3 install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
# others
pip3 install fire fairscale sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple
from:LLM:LLaMA模型和微調(diào)的Alpaca模型_-柚子皮-的博客-CSDN博客
ref:[代碼角度看LLaMA語言模型:Meta最新模型LLaMA細節(jié)與代碼詳解]
[Meta最新語言模型LLaMA論文研讀:小參數(shù)+大數(shù)據(jù)的開放、高效基礎語言模型閱讀筆記]*文章來源:http://www.zghlxwxcb.cn/news/detail-496187.html
[LLaMA:開源的高效的基礎語言模型 - 簡書]文章來源地址http://www.zghlxwxcb.cn/news/detail-496187.html
到了這里,關于LLM:LLaMA模型和微調(diào)的Alpaca模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!