Introduction
在大規(guī)模數(shù)據(jù)下訓(xùn)練的大模型,已經(jīng)展示了很好的表現(xiàn),當(dāng)模型足夠大的時(shí),模型會(huì)出現(xiàn)一個(gè)涌現(xiàn)的能力,如下圖:
最近的一項(xiàng)研究表明,在有限的算力下,表現(xiàn)最好的模型不是參數(shù)最大的,而是小一點(diǎn)模型搭配了更多數(shù)據(jù)。
這項(xiàng)工作的重點(diǎn)是訓(xùn)練一系列語言模型,通過對(duì)比通常使用的更多的token進(jìn)行訓(xùn)練,在各種推理預(yù)算下達(dá)到最佳性能。由此產(chǎn)生的模型被稱為L(zhǎng)LaMA,參數(shù)范圍從7B到65B,與現(xiàn)有的最好的LLM相比,性能具有競(jìng)爭(zhēng)力。
Approach
方法主要受到了 Chinchilla的啟發(fā),采用了大量的數(shù)據(jù)和標(biāo)準(zhǔn)的優(yōu)化器。
Pre-training Data
訓(xùn)練數(shù)據(jù)集是多個(gè)來源的混合,如表 1 所示,涵蓋了不同的領(lǐng)域。
在大多數(shù)情況下,我們重復(fù)使用已用于訓(xùn)練其他 LLM 的數(shù)據(jù)源,但僅限于使用公開可用且與開源兼容的數(shù)據(jù)。
Architecture
-
Pre-normlization
-
SwiGLU
-
Rotary Embedding
模型使用 AdamW 優(yōu)化器(Loshchilov 和 Hutter,2017)進(jìn)行訓(xùn)練,具有以下超參數(shù):β1 = 0.9,β2 = 0.95。
使用余弦學(xué)習(xí)率計(jì)劃,使最終學(xué)習(xí)率等于最大學(xué)習(xí)率的 10%。
使用 0.1 的權(quán)重衰減和 1.0 的梯度裁剪。 我們使用 2, 000 個(gè)預(yù)熱步驟,并根據(jù)模型的大小改變學(xué)習(xí)率和批量大?。ㄔ斠姳?2)。文章來源:http://www.zghlxwxcb.cn/news/detail-486770.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-486770.html
到了這里,關(guān)于LLaMA:Open and Efficient Foundation Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!