国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

2年前作者：Espresso Macchiato分類：Toy博客閱讀(28)違法舉報

這篇具有很好參考價值的文章主要介紹了文獻閱讀：LLaMA: Open and Efficient Foundation Language Models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models
- 1. 文章簡介
- 2. 模型訓(xùn)練
  - 1. 訓(xùn)練數(shù)據(jù)
  - 2. 模型結(jié)構(gòu)
  - 3. 模型訓(xùn)練
    - 1. Optimizer
    - 2. 效率優(yōu)化
- 3. 效果評估
  - 1. 經(jīng)典任務(wù)下效果
    - 1. Commen Sense Reasoning
    - 2. Closed-book Question Answering
    - 3. Reading Comprehension
    - 4. Mathematical reasoning
    - 5. Code generation
    - 6. Massive Multitask Language Understanding
    - 7. Evolution of performance during training
  - 2. 其他任務(wù)下的評測結(jié)果
    - 1. Instruction Tuning效果
    - 2. Toxicity
    - 3. Bias
    - 4. Bias on Gender
    - 5. TruthfulQA
- 4. 結(jié)論 & 思考

文獻鏈接：https://arxiv.org/abs/2302.13971v1
git鏈接：https://github.com/facebookresearch/llama

1. 文章簡介

這篇文章是Meta最近剛放出的一篇新的大模型的論文，最近關(guān)于大模型的工作真的太多了……

關(guān)于這篇文章貌似也有些段子，貌似一開始Meta還沒打算開源，結(jié)果又是被人把code爆出來，然后就被迫開源了，我沒考證過真實性，反正當成段子聽聽就行了。

不過關(guān)于這篇文章，可能本來就是有一定的開源的打算的，因為文章里面宣稱，他只使用了一些常用的公開數(shù)據(jù)集……

回歸正題，這篇文章的核心工作主要就是train了一個更小，但是效果更好的LLM模型。

按照文中的說法，他們train的13B的模型效果就已經(jīng)基本追平了當前的主流大模型，而到了65B參數(shù)的模型，已經(jīng)可以和PaLM-540B模型相提并論了。

而關(guān)于他們?nèi)绾芜_到的這樣的效果，主要就是通過兩點：

train了更多的步數(shù)；
微調(diào)了模型的結(jié)構(gòu)。

此外，文中還對訓(xùn)練的代碼進行了優(yōu)化，使得訓(xùn)練可以得到加速。

下面，我們來具體對這篇文章的細節(jié)進行一下展開。

2. 模型訓(xùn)練

文中關(guān)于這部分的內(nèi)容主要分三部分進行展開：

模型訓(xùn)練使用的數(shù)據(jù)以及分布；
模型的具體結(jié)構(gòu)；
模型訓(xùn)練細節(jié)

下面，我們來具體看一下其中各部分的內(nèi)容。

1. 訓(xùn)練數(shù)據(jù)

首先，關(guān)于訓(xùn)練數(shù)據(jù)方面，如前所述，LLaMA模型所使用的訓(xùn)練數(shù)據(jù)全都是公開數(shù)據(jù)集，其具體的分布如下表所示：

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

整體而言，模型訓(xùn)練共使用了1.4T個token，而具體的tokenize方法則是采用BPE分詞。

2. 模型結(jié)構(gòu)

而關(guān)于模型的具體模型的結(jié)構(gòu)，則仕主要基于最早17年Vaswani在Attention is all you need給出的經(jīng)典transformer結(jié)構(gòu)，但是做了以下三點改動：

參考GPT3的方式使用Pre-normalization替換掉post-normalization;
參考PaLM的方式使用SwiGLU作為FFN的激活函數(shù)；
參考GPTNeo使用RoPE作為位置編碼而不是使用絕對位置編碼；

不同版本的模型的維度以及參數(shù)量等可以參考下表：

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

3. 模型訓(xùn)練

1. Optimizer

關(guān)于模型訓(xùn)練中所使用的優(yōu)化器，文中倒是沒有什么太多的改動，還是使用的AdamW優(yōu)化器，超參 $\beta_1=0.9,\beta_2=0.95$ ，learning rate的decay采用cosine函數(shù)，最終的learning rate為起始時的10%，然后設(shè)置2000步warmup。

2. 效率優(yōu)化

不過，文中為了優(yōu)化效率，倒是自己重新開發(fā)了一個多頭attention的模塊，且優(yōu)化了線性層的激活函數(shù)參數(shù)回傳更新過程，整體上來說進一步優(yōu)化了計算效率。

關(guān)于這部分的具體實現(xiàn)倒是還沒有去看，不過文中宣稱說是已經(jīng)將他們的改動開源到了下述項目當中：

https://github.com/facebookresearch/xformers

有興趣的讀者可以自行研究一下。

3. 效果評估

然后，介紹完了模型之后，就是看一下LLaMA在各類任務(wù)上面的效果表現(xiàn)。

1. 經(jīng)典任務(wù)下效果

1. Commen Sense Reasoning

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

2. Closed-book Question Answering

Natural Questions

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

TriviaQA

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

3. Reading Comprehension

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

4. Mathematical reasoning

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

5. Code generation

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

6. Massive Multitask Language Understanding

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

7. Evolution of performance during training

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

2. 其他任務(wù)下的評測結(jié)果

1. Instruction Tuning效果

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

2. Toxicity

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

3. Bias

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

4. Bias on Gender

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

5. TruthfulQA

文獻閱讀：LLaMA: Open and Efficient Foundation Language Models

4. 結(jié)論 & 思考

整體來說其實這篇文章感覺就是一個大模型的實驗報告，技術(shù)上真要說有什么突破點感覺完全說不上，倒是給出的開源代碼和模型非常的有意義，不過估計也就大廠研究崗可以玩玩了……

就我個人來說，還是他在模型結(jié)構(gòu)的改動上面比較打動我，感覺還比較有意思，不過之前好像在蘇劍林的哪篇文章里面見過他的一個討論，印象中他認為pre-normalization雖然可以疊多層，但是訓(xùn)練效果上并不能真正起到多層的效果，這方面可能還是得后面研究一下Fundation Transformer的效果。

不過RoPE和SwiGLU倒是可以試試看用在小模型上是否能有效，雖然我估摸著效果應(yīng)該也不會太明顯……文章來源地址http://www.zghlxwxcb.cn/news/detail-491092.html

到了這里，關(guān)于文獻閱讀：LLaMA: Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

LLaMA: Open and Efficient Foundation Language Models筆記
一個基礎(chǔ)語言模型的集合，參數(shù)范圍從7B到65B 在數(shù)萬億的token上訓(xùn)練的模型，不依賴于專有的和不可訪問的數(shù)據(jù)集大多數(shù)基準測試中優(yōu)于GPT-3 (175B) LLaMA65B與最好的模型Chinchilla-70B和PaLM-540B具有競爭力全部模型開源?。?最近的工作表明，對于給定的計算預(yù)算，最佳性能不是由最
2024年02月09日
瀏覽(27)
論文筆記--LLaMA: Open and Efficient Foundation Language Models
標題：LLaMA: Open and Efficient Foundation Language Models 作者：Touvron, Hugo, et al. 日期：2023 期刊：arxiv preprint ??文章利用公開數(shù)據(jù)集訓(xùn)練并發(fā)布了一系列大語言模型LLaMA，在多個NLP下游任務(wù)中性能超過了GPT-3和PALM等模型。 English CommonCrawl(67%): 訓(xùn)練集的大部分構(gòu)成為2017～2020年間的Com
2024年02月09日
瀏覽(32)
LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)
此篇博客主題:LLAMA模型數(shù)據(jù)、訓(xùn)練時長、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t
2024年02月16日
瀏覽(25)
【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models
LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合，LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B)，LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。主要貢獻：開源一系列語言模型，可以與SOTA模型競爭
2024年02月10日
瀏覽(18)
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models
Paper：https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介紹了 LLaMA，這是?個包含 7B 到 65B 參數(shù)的基礎(chǔ)語?模型的集合。作者在數(shù)萬億個令牌上訓(xùn)練模型，并表明可以僅使?公開可?的數(shù)據(jù)集來訓(xùn)練最先進的模型。特別是， LLaMA-13B 在?多數(shù)基準測試中都優(yōu)于
2024年02月12日
瀏覽(48)
LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀
LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀導(dǎo)讀：該論文提出了一個開源的大規(guī)模語言模型LLaMA，2048個A100-80G訓(xùn)練21天。該模型有以下幾個核心技術(shù)點：模型架構(gòu)=Transformer+集合多個算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫+漸進式學(xué)習(xí)率) ：LLaMA模型
2024年02月12日
瀏覽(23)
AIGC之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀
LLMs之LLaMA：《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀導(dǎo)讀：該論文提出了一個開源的大規(guī)模語言模型LLaMA，2048個A100-80G訓(xùn)練21天。該模型有以下幾個核心技術(shù)點：模型架構(gòu)=Transformer+集合多個算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫+漸進式學(xué)習(xí)率) ：LLaMA模型
2024年02月09日
瀏覽(31)
一個開源的大型語言模型LLaMA論文簡單解讀，LLaMA: Open and Efficient Foundation Language Models
返回論文和資料目錄 LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合，LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B)，LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。開源的代碼在github上可以很方便獲得
2024年02月09日
瀏覽(24)
Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記
繼2023年2月開源Llama之后，2023年7月Meta又開源了模型參數(shù)從70 億到 700 億不等的Llama 2，并同時開源了針對對話場景優(yōu)化的LLaMA2-CHAT。LLama2 論文描述了微調(diào)和提高LLM安全性的方法以及在模型開發(fā)過程中的一些的觀察。論文摘要翻譯：在這項工作中，我們開發(fā)并開源了 Llama 2，這是
2024年02月09日
瀏覽(28)
Llama 2: Open Foundation and Fine-Tuned Chat Models
Paper name Llama 2: Open Foundation and Fine-Tuned Chat Models Paper Reading Note Paper URL: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ Blog URL：https://huggingface.co/blog/llama2 Meta 出品的 Llama 續(xù)作 Llama2，一系列模型（7b、13b、70b）均開源可商用。Llama2 在各個榜單上精度全面
2024年02月16日
瀏覽(28)