国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記--LLaMA: Open and Efficient Foundation Language Models

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記--LLaMA: Open and Efficient Foundation Language Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1. 文章簡(jiǎn)介

  • 標(biāo)題:LLaMA: Open and Efficient Foundation Language Models
  • 作者:Touvron, Hugo, et al.
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

??文章利用公開(kāi)數(shù)據(jù)集訓(xùn)練并發(fā)布了一系列大語(yǔ)言模型LLaMA,在多個(gè)NLP下游任務(wù)中性能超過(guò)了GPT-3和PALM等模型。

3 文章重點(diǎn)技術(shù)

3.1 數(shù)據(jù)集

  • English CommonCrawl(67%): 訓(xùn)練集的大部分構(gòu)成為2017~2020年間的CommonCrawl數(shù)據(jù)。文章對(duì)其進(jìn)行了行級(jí)別的去重->訓(xùn)練fastText分類(lèi)模型移除非英文頁(yè)面->用n-gram模型過(guò)濾低質(zhì)量的頁(yè)面->訓(xùn)練分類(lèi)模型識(shí)別出沒(méi)有被wiki引用的頁(yè)面并將其移除
  • C4(4.5%):選擇Github上Apache/BSD/MIT license的項(xiàng)目。通過(guò)行長(zhǎng)度、字母數(shù)字的比例過(guò)濾掉其中低質(zhì)量的文件->移除標(biāo)題、正則表達(dá)式等說(shuō)明->文檔級(jí)別去重
  • Wikipedia(4.5%):增加2022年7~8月的wiki數(shù)據(jù)(包含20種語(yǔ)言)。移除超鏈接、評(píng)論和其它板式。
  • Gutenberg和Book3(4.5%):增加兩個(gè)書(shū)籍語(yǔ)料庫(kù)。在文檔級(jí)別進(jìn)行去重,即移除有90%以上內(nèi)容重疊的文檔。
  • ArXiv(2.5%):增加arXiv的latex文檔從而使數(shù)據(jù)集包含科學(xué)語(yǔ)料庫(kù)。移除文檔第一節(jié)之前的內(nèi)容和出傳記->移除tex文檔的評(píng)論->移除鏡像和定義
  • Stack Exchange(2%):Stack Exchange是一個(gè)高質(zhì)量的問(wèn)答網(wǎng)站,包含多個(gè)領(lǐng)域的問(wèn)答數(shù)據(jù)。保留來(lái)自28個(gè)最大網(wǎng)站的數(shù)據(jù)->移除HTMLtags->將回答按照評(píng)分由高到低排序

3.2 模型訓(xùn)練

  • 分詞器:文章采用byte級(jí)別的BPE方法進(jìn)行分詞。總計(jì)得到1.4T的tokens,每個(gè)token在大部分訓(xùn)練任務(wù)中都只用一次(1epochs)
  • pre-normalization:參考GPT-3[1],我們采用修正后的Transformer架構(gòu),即對(duì)每個(gè)transformer層的輸入進(jìn)行normalize。另外文章采用RMSNorm進(jìn)行層正則。相比于Layer Normalization,RMSNorm不減去均值,只正則方差項(xiàng)(可提升速率)
  • 激活函數(shù):文章采用SwiGLU作為輸出的激活函數(shù), S w i G R U ( x ) = x ? σ ( h ( x ) ) SwiGRU(x) = x \otimes \sigma(h(x)) SwiGRU(x)=x?σ(h(x))。
  • 位置編碼:文章采用了旋轉(zhuǎn)式位置編碼RoPE,具體可參考[2]

4. 數(shù)值實(shí)驗(yàn)

??文章考慮了zero-shot和few-shot兩種任務(wù)。相比于GPT-3, Chichilla, PALM, Gopher等大語(yǔ)言模型,LLaMA在兩種任務(wù)上均表現(xiàn)出了出色的能力。特別地,在絕大多數(shù)zero-shot任務(wù)中,LLaMA 65B的性能優(yōu)于PALM 540B:
論文筆記--LLaMA: Open and Efficient Foundation Language Models
??由于LLaMA在部分專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)量較少,模型表現(xiàn)不突出。比如MMLU任務(wù)中,PaLM同量級(jí)的模型效果和LLaMA幾乎持平,PaLM 540B的效果要優(yōu)于LLaMA。
論文筆記--LLaMA: Open and Efficient Foundation Language Models
??為此,我們可以在部分領(lǐng)域?qū)δP瓦M(jìn)行指令微調(diào)。實(shí)驗(yàn)表明,微調(diào)后的模型效果LLaMA-I超過(guò)其他數(shù)據(jù)量更大的大語(yǔ)言模型。

5. 文章亮點(diǎn)

??文章給出了一系列大語(yǔ)言模型LLaMA 7B, 13B, 33B, 65B和LLaMA-I,開(kāi)發(fā)者可以在不同的預(yù)算的條件下選擇合適的模型進(jìn)行使用。文章僅依賴(lài)公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練,且針對(duì)特定領(lǐng)域可以通過(guò)指令微調(diào)來(lái)增強(qiáng)模型。

6. 原文傳送門(mén)

LLaMA: Open and Efficient Foundation Language Models

7. References

[1] 論文筆記–Language Models are Few-Shot Learners
[2] RoPE文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-488352.html

到了這里,關(guān)于論文筆記--LLaMA: Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • LLaMA Open and Efficient Foundation Language Models

    LLaMA Open and Efficient Foundation Language Models

    來(lái)源Meta AI github地址: facebookresearch/ llama 論文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下載,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我們介紹了LLaMA,這是一組從7B到65B參數(shù)范圍內(nèi)的基礎(chǔ)語(yǔ)言模型。我們

    2024年02月11日
    瀏覽(27)
  • LLaMA:Open and Efficient Foundation Language Models

    LLaMA:Open and Efficient Foundation Language Models

    在大規(guī)模數(shù)據(jù)下訓(xùn)練的大模型,已經(jīng)展示了很好的表現(xiàn),當(dāng)模型足夠大的時(shí),模型會(huì)出現(xiàn)一個(gè) 涌現(xiàn) 的能力,如下圖: 最近的一項(xiàng)研究表明,在有限的算力下,表現(xiàn)最好的模型不是參數(shù)最大的,而是小一點(diǎn)模型搭配了更多數(shù)據(jù)。 這項(xiàng)工作的重點(diǎn)是訓(xùn)練一系列語(yǔ)言模型,通過(guò)對(duì)

    2024年02月09日
    瀏覽(22)
  • LLaMA: Open and Efficient Foundation Language Models

    LLaMA: Open and Efficient Foundation Language Models

    用最少的計(jì)算資源,解決了LLM大模型預(yù)測(cè)問(wèn)題,訓(xùn)練了一些列的LLaMa模型,在參數(shù)量比較少的情況下,達(dá)到業(yè)界大模型效果。 主要貢獻(xiàn)就是提升了LLM模型的訓(xùn)練速度和效率,在小容量的基礎(chǔ)上,大大提升了模型的效果。 同時(shí)由于模型結(jié)構(gòu)更小更簡(jiǎn)單,大大提升了推理速度。

    2024年02月13日
    瀏覽(24)
  • 文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models

    文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models

    文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models 1. 文章簡(jiǎn)介 2. 模型訓(xùn)練 1. 訓(xùn)練數(shù)據(jù) 2. 模型結(jié)構(gòu) 3. 模型訓(xùn)練 1. Optimizer 2. 效率優(yōu)化 3. 效果評(píng)估 1. 經(jīng)典任務(wù)下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    瀏覽(29)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語(yǔ)言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競(jìng)爭(zhēng)力。 主要貢獻(xiàn): 開(kāi)源一系列語(yǔ)言模型,可以與SOTA模型競(jìng)爭(zhēng)

    2024年02月10日
    瀏覽(18)
  • 2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介紹了 LLaMA,這是?個(gè)包含 7B 到 65B 參數(shù)的基礎(chǔ)語(yǔ)?模型的集合。作者在數(shù)萬(wàn)億個(gè)令牌上訓(xùn)練模型,并表明可以?xún)H使?公開(kāi)可?的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型。特別是, LLaMA-13B 在?多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于

    2024年02月12日
    瀏覽(48)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀 導(dǎo)讀 :該論文提出了一個(gè)開(kāi)源的大規(guī)模語(yǔ)言模型LLaMA,2048個(gè)A100-80G訓(xùn)練21天。該模型有以下幾個(gè)核心技術(shù)點(diǎn): 模型架構(gòu)=Transformer+集合多個(gè)算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫(kù)+漸進(jìn)式學(xué)習(xí)率) :LLaMA模型

    2024年02月12日
    瀏覽(23)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻譯與解讀 導(dǎo)讀 :該論文提出了一個(gè)開(kāi)源的大規(guī)模語(yǔ)言模型LLaMA,2048個(gè)A100-80G訓(xùn)練21天。該模型有以下幾個(gè)核心技術(shù)點(diǎn): 模型架構(gòu)=Transformer+集合多個(gè)算法的優(yōu)秀技術(shù)(RMSNorm+SwiGLU+RoPE+AdamW+xformers庫(kù)+漸進(jìn)式學(xué)習(xí)率) :LLaMA模型

    2024年02月09日
    瀏覽(31)
  • 論文筆記--Llama 2: Open Foundation and Fine-Tuned Chat Models

    論文筆記--Llama 2: Open Foundation and Fine-Tuned Chat Models

    標(biāo)題:Llama 2: Open Foundation and Fine-Tuned Chat Models 作者:Touvron H, Martin L, Stone K, et al. 日期:2023 期刊:arxiv preprint ??文章訓(xùn)練并開(kāi)源了模型Llama2系列模型。文章對(duì)Llama2做了大量的安全和有用性的微調(diào),并進(jìn)行了大量的數(shù)值試驗(yàn),實(shí)驗(yàn)證明,Llama2-chat比其它被比較的開(kāi)源的chat模型

    2024年02月12日
    瀏覽(23)
  • Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    繼2023年2月開(kāi)源Llama之后,2023年7月Meta又開(kāi)源了模型參數(shù)從70 億到 700 億不等的Llama 2,并同時(shí)開(kāi)源了針對(duì)對(duì)話(huà)場(chǎng)景優(yōu)化的LLaMA2-CHAT。LLama2 論文描述了微調(diào)和提高LLM安全性的方法以及在模型開(kāi)發(fā)過(guò)程中的一些的觀(guān)察。 論文摘要翻譯:在這項(xiàng)工作中,我們開(kāi)發(fā)并開(kāi)源了 Llama 2,這是

    2024年02月09日
    瀏覽(28)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包