国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

這篇具有很好參考價值的文章主要介紹了文獻閱讀:LLaMA: Open and Efficient Foundation Language Models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

  • 文獻閱讀:LLaMA: Open and Efficient Foundation Language Models
    • 1. 文章簡介
    • 2. 模型訓(xùn)練
      • 1. 訓(xùn)練數(shù)據(jù)
      • 2. 模型結(jié)構(gòu)
      • 3. 模型訓(xùn)練
        • 1. Optimizer
        • 2. 效率優(yōu)化
    • 3. 效果評估
      • 1. 經(jīng)典任務(wù)下效果
        • 1. Commen Sense Reasoning
        • 2. Closed-book Question Answering
        • 3. Reading Comprehension
        • 4. Mathematical reasoning
        • 5. Code generation
        • 6. Massive Multitask Language Understanding
        • 7. Evolution of performance during training
      • 2. 其他任務(wù)下的評測結(jié)果
        • 1. Instruction Tuning效果
        • 2. Toxicity
        • 3. Bias
        • 4. Bias on Gender
        • 5. TruthfulQA
    • 4. 結(jié)論 & 思考
  • 文獻鏈接:https://arxiv.org/abs/2302.13971v1
  • git鏈接:https://github.com/facebookresearch/llama

1. 文章簡介

這篇文章是Meta最近剛放出的一篇新的大模型的論文,最近關(guān)于大模型的工作真的太多了……

關(guān)于這篇文章貌似也有些段子,貌似一開始Meta還沒打算開源,結(jié)果又是被人把code爆出來,然后就被迫開源了,我沒考證過真實性,反正當成段子聽聽就行了。

不過關(guān)于這篇文章,可能本來就是有一定的開源的打算的,因為文章里面宣稱,他只使用了一些常用的公開數(shù)據(jù)集……

回歸正題,這篇文章的核心工作主要就是train了一個更小,但是效果更好的LLM模型。

按照文中的說法,他們train的13B的模型效果就已經(jīng)基本追平了當前的主流大模型,而到了65B參數(shù)的模型,已經(jīng)可以和PaLM-540B模型相提并論了。

而關(guān)于他們?nèi)绾芜_到的這樣的效果,主要就是通過兩點:

  1. train了更多的步數(shù);
  2. 微調(diào)了模型的結(jié)構(gòu)。

此外,文中還對訓(xùn)練的代碼進行了優(yōu)化,使得訓(xùn)練可以得到加速。

下面,我們來具體對這篇文章的細節(jié)進行一下展開。

2. 模型訓(xùn)練

文中關(guān)于這部分的內(nèi)容主要分三部分進行展開:

  1. 模型訓(xùn)練使用的數(shù)據(jù)以及分布;
  2. 模型的具體結(jié)構(gòu);
  3. 模型訓(xùn)練細節(jié)

下面,我們來具體看一下其中各部分的內(nèi)容。

1. 訓(xùn)練數(shù)據(jù)

首先,關(guān)于訓(xùn)練數(shù)據(jù)方面,如前所述,LLaMA模型所使用的訓(xùn)練數(shù)據(jù)全都是公開數(shù)據(jù)集,其具體的分布如下表所示:

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

整體而言,模型訓(xùn)練共使用了1.4T個token,而具體的tokenize方法則是采用BPE分詞。

2. 模型結(jié)構(gòu)

而關(guān)于模型的具體模型的結(jié)構(gòu),則仕主要基于最早17年Vaswani在Attention is all you need給出的經(jīng)典transformer結(jié)構(gòu),但是做了以下三點改動:

  1. 參考GPT3的方式使用Pre-normalization替換掉post-normalization;
  2. 參考PaLM的方式使用SwiGLU作為FFN的激活函數(shù);
  3. 參考GPTNeo使用RoPE作為位置編碼而不是使用絕對位置編碼;

不同版本的模型的維度以及參數(shù)量等可以參考下表:

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

3. 模型訓(xùn)練

1. Optimizer

關(guān)于模型訓(xùn)練中所使用的優(yōu)化器,文中倒是沒有什么太多的改動,還是使用的AdamW優(yōu)化器,超參 β 1 = 0.9 , β 2 = 0.95 \beta_1=0.9,\beta_2=0.95 β1?=0.9,β2?=0.95,learning rate的decay采用cosine函數(shù),最終的learning rate為起始時的10%,然后設(shè)置2000步warmup。

2. 效率優(yōu)化

不過,文中為了優(yōu)化效率,倒是自己重新開發(fā)了一個多頭attention的模塊,且優(yōu)化了線性層的激活函數(shù)參數(shù)回傳更新過程,整體上來說進一步優(yōu)化了計算效率。

關(guān)于這部分的具體實現(xiàn)倒是還沒有去看,不過文中宣稱說是已經(jīng)將他們的改動開源到了下述項目當中:

  • https://github.com/facebookresearch/xformers

有興趣的讀者可以自行研究一下。

3. 效果評估

然后,介紹完了模型之后,就是看一下LLaMA在各類任務(wù)上面的效果表現(xiàn)。

1. 經(jīng)典任務(wù)下效果

1. Commen Sense Reasoning

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

2. Closed-book Question Answering
  1. Natural Questions

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

  1. TriviaQA

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

3. Reading Comprehension

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

4. Mathematical reasoning

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

5. Code generation

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

6. Massive Multitask Language Understanding

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

7. Evolution of performance during training

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

2. 其他任務(wù)下的評測結(jié)果

1. Instruction Tuning效果

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

2. Toxicity

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

3. Bias

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

4. Bias on Gender

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

5. TruthfulQA

文獻閱讀:LLaMA: Open and Efficient Foundation Language Models

4. 結(jié)論 & 思考

整體來說其實這篇文章感覺就是一個大模型的實驗報告,技術(shù)上真要說有什么突破點感覺完全說不上,倒是給出的開源代碼和模型非常的有意義,不過估計也就大廠研究崗可以玩玩了……

就我個人來說,還是他在模型結(jié)構(gòu)的改動上面比較打動我,感覺還比較有意思,不過之前好像在蘇劍林的哪篇文章里面見過他的一個討論,印象中他認為pre-normalization雖然可以疊多層,但是訓(xùn)練效果上并不能真正起到多層的效果,這方面可能還是得后面研究一下Fundation Transformer的效果。

不過RoPE和SwiGLU倒是可以試試看用在小模型上是否能有效,雖然我估摸著效果應(yīng)該也不會太明顯……文章來源地址http://www.zghlxwxcb.cn/news/detail-491092.html

到了這里,關(guān)于文獻閱讀:LLaMA: Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • LLaMA: Open and Efficient Foundation Language Models筆記

    LLaMA: Open and Efficient Foundation Language Models筆記

    一個基礎(chǔ)語言模型的集合,參數(shù)范圍從7B到65B 在數(shù)萬億的token上訓(xùn)練的模型,不依賴于專有的和不可訪問的數(shù)據(jù)集 大多數(shù)基準測試中優(yōu)于GPT-3 (175B) LLaMA65B與最好的模型Chinchilla-70B和PaLM-540B具有競爭力 全部模型開源?。?最近的工作表明,對于給定的計算預(yù)算,最佳性能不是由最

    2024年02月09日
    瀏覽(27)
  • 論文筆記--LLaMA: Open and Efficient Foundation Language Models

    論文筆記--LLaMA: Open and Efficient Foundation Language Models

    標題:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint ??文章利用公開數(shù)據(jù)集訓(xùn)練并發(fā)布了一系列大語言模型LLaMA,在多個NLP下游任務(wù)中性能超過了GPT-3和PALM等模型。 English CommonCrawl(67%): 訓(xùn)練集的大部分構(gòu)成為2017~2020年間的Com

    2024年02月09日
    瀏覽(32)
  • LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)

    LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)

    此篇博客主題:LLAMA模型數(shù)據(jù)、訓(xùn)練時長、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    瀏覽(25)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。 主要貢獻: 開源一系列語言模型,可以與SOTA模型競爭

    2024年02月10日
    瀏覽(18)
  • 2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介紹了 LLaMA,這是?個包含 7B 到 65B 參數(shù)的基礎(chǔ)語?模型的集合。作者在數(shù)萬億個令牌上訓(xùn)練模型,并表明可以僅使?公開可?的數(shù)據(jù)集來訓(xùn)練最先進的模型。特別是, LLaMA-13B 在?多數(shù)基準測試中都優(yōu)于

    2024年02月12日
    瀏覽(48)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀 導(dǎo)讀 :該論文提出了一個開源的大規(guī)模語言模型LLaMA,2048個A100-80G訓(xùn)練21天。該模型有以下幾個核心技術(shù)點: 模型架構(gòu)=Transformer+集合多個算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫+漸進式學(xué)習(xí)率) :LLaMA模型

    2024年02月12日
    瀏覽(23)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀 導(dǎo)讀 :該論文提出了一個開源的大規(guī)模語言模型LLaMA,2048個A100-80G訓(xùn)練21天。該模型有以下幾個核心技術(shù)點: 模型架構(gòu)=Transformer+集合多個算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫+漸進式學(xué)習(xí)率) :LLaMA模型

    2024年02月09日
    瀏覽(31)
  • 一個開源的大型語言模型LLaMA論文簡單解讀,LLaMA: Open and Efficient Foundation Language Models

    一個開源的大型語言模型LLaMA論文簡單解讀,LLaMA: Open and Efficient Foundation Language Models

    返回論文和資料目錄 LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。開源的代碼在github上可以很方便獲得

    2024年02月09日
    瀏覽(24)
  • Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    繼2023年2月開源Llama之后,2023年7月Meta又開源了模型參數(shù)從70 億到 700 億不等的Llama 2,并同時開源了針對對話場景優(yōu)化的LLaMA2-CHAT。LLama2 論文描述了微調(diào)和提高LLM安全性的方法以及在模型開發(fā)過程中的一些的觀察。 論文摘要翻譯:在這項工作中,我們開發(fā)并開源了 Llama 2,這是

    2024年02月09日
    瀏覽(28)
  • Llama 2: Open Foundation and Fine-Tuned Chat Models

    Llama 2: Open Foundation and Fine-Tuned Chat Models

    Paper name Llama 2: Open Foundation and Fine-Tuned Chat Models Paper Reading Note Paper URL: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ Blog URL:https://huggingface.co/blog/llama2 Meta 出品的 Llama 續(xù)作 Llama2,一系列模型(7b、13b、70b)均開源可商用。Llama2 在各個榜單上精度全面

    2024年02月16日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包