1. 文章簡(jiǎn)介
- 標(biāo)題:LLaMA: Open and Efficient Foundation Language Models
- 作者:Touvron, Hugo, et al.
- 日期:2023
- 期刊:arxiv preprint
2. 文章概括
??文章利用公開(kāi)數(shù)據(jù)集訓(xùn)練并發(fā)布了一系列大語(yǔ)言模型LLaMA,在多個(gè)NLP下游任務(wù)中性能超過(guò)了GPT-3和PALM等模型。
3 文章重點(diǎn)技術(shù)
3.1 數(shù)據(jù)集
- English CommonCrawl(67%): 訓(xùn)練集的大部分構(gòu)成為2017~2020年間的CommonCrawl數(shù)據(jù)。文章對(duì)其進(jìn)行了行級(jí)別的去重->訓(xùn)練fastText分類(lèi)模型移除非英文頁(yè)面->用n-gram模型過(guò)濾低質(zhì)量的頁(yè)面->訓(xùn)練分類(lèi)模型識(shí)別出沒(méi)有被wiki引用的頁(yè)面并將其移除
- C4(4.5%):選擇Github上Apache/BSD/MIT license的項(xiàng)目。通過(guò)行長(zhǎng)度、字母數(shù)字的比例過(guò)濾掉其中低質(zhì)量的文件->移除標(biāo)題、正則表達(dá)式等說(shuō)明->文檔級(jí)別去重
- Wikipedia(4.5%):增加2022年7~8月的wiki數(shù)據(jù)(包含20種語(yǔ)言)。移除超鏈接、評(píng)論和其它板式。
- Gutenberg和Book3(4.5%):增加兩個(gè)書(shū)籍語(yǔ)料庫(kù)。在文檔級(jí)別進(jìn)行去重,即移除有90%以上內(nèi)容重疊的文檔。
- ArXiv(2.5%):增加arXiv的latex文檔從而使數(shù)據(jù)集包含科學(xué)語(yǔ)料庫(kù)。移除文檔第一節(jié)之前的內(nèi)容和出傳記->移除tex文檔的評(píng)論->移除鏡像和定義
- Stack Exchange(2%):Stack Exchange是一個(gè)高質(zhì)量的問(wèn)答網(wǎng)站,包含多個(gè)領(lǐng)域的問(wèn)答數(shù)據(jù)。保留來(lái)自28個(gè)最大網(wǎng)站的數(shù)據(jù)->移除HTMLtags->將回答按照評(píng)分由高到低排序
3.2 模型訓(xùn)練
- 分詞器:文章采用byte級(jí)別的BPE方法進(jìn)行分詞。總計(jì)得到1.4T的tokens,每個(gè)token在大部分訓(xùn)練任務(wù)中都只用一次(1epochs)
- pre-normalization:參考GPT-3[1],我們采用修正后的Transformer架構(gòu),即對(duì)每個(gè)transformer層的輸入進(jìn)行normalize。另外文章采用RMSNorm進(jìn)行層正則。相比于Layer Normalization,RMSNorm不減去均值,只正則方差項(xiàng)(可提升速率)
- 激活函數(shù):文章采用SwiGLU作為輸出的激活函數(shù), S w i G R U ( x ) = x ? σ ( h ( x ) ) SwiGRU(x) = x \otimes \sigma(h(x)) SwiGRU(x)=x?σ(h(x))。
- 位置編碼:文章采用了旋轉(zhuǎn)式位置編碼RoPE,具體可參考[2]
4. 數(shù)值實(shí)驗(yàn)
??文章考慮了zero-shot和few-shot兩種任務(wù)。相比于GPT-3, Chichilla, PALM, Gopher等大語(yǔ)言模型,LLaMA在兩種任務(wù)上均表現(xiàn)出了出色的能力。特別地,在絕大多數(shù)zero-shot任務(wù)中,LLaMA 65B的性能優(yōu)于PALM 540B:
??由于LLaMA在部分專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)量較少,模型表現(xiàn)不突出。比如MMLU任務(wù)中,PaLM同量級(jí)的模型效果和LLaMA幾乎持平,PaLM 540B的效果要優(yōu)于LLaMA。
??為此,我們可以在部分領(lǐng)域?qū)δP瓦M(jìn)行指令微調(diào)。實(shí)驗(yàn)表明,微調(diào)后的模型效果LLaMA-I超過(guò)其他數(shù)據(jù)量更大的大語(yǔ)言模型。
5. 文章亮點(diǎn)
??文章給出了一系列大語(yǔ)言模型LLaMA 7B, 13B, 33B, 65B和LLaMA-I,開(kāi)發(fā)者可以在不同的預(yù)算的條件下選擇合適的模型進(jìn)行使用。文章僅依賴(lài)公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練,且針對(duì)特定領(lǐng)域可以通過(guò)指令微調(diào)來(lái)增強(qiáng)模型。
6. 原文傳送門(mén)
LLaMA: Open and Efficient Foundation Language Models文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-488352.html
7. References
[1] 論文筆記–Language Models are Few-Shot Learners
[2] RoPE文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-488352.html
到了這里,關(guān)于論文筆記--LLaMA: Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!