国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)

2年前作者：晚點(diǎn)吧分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

此篇博客主題:LLAMA模型數(shù)據(jù)、訓(xùn)練時(shí)長(zhǎng)、功耗及碳排放量
LLaMA: Open and Efficient Foundation Language Models
paper https://arxiv.org/pdf/2302.13971v1.pdf

1 訓(xùn)練樣本

Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of the Wikipedia
and Books domains, over which we perform approximately two epochs.

模型訓(xùn)練樣本來(lái)源及占比如下圖，經(jīng)數(shù)據(jù)清理去重后剩下1.4Ttokens數(shù)據(jù) （1.4T=1.4e12）
數(shù)據(jù)訓(xùn)練次數(shù)見(jiàn)Epochs ，大多數(shù)都只訓(xùn)練一輪，但book，wikipeida等數(shù)據(jù)會(huì)訓(xùn)練兩輪左右（可能數(shù)據(jù)價(jià)值更高）

2 訓(xùn)練時(shí)間

When training a 65B-parameter model, our code processes around 380 tokens/sec/GPU on 2048 A100 GPU with 80GB of RAM. This means that training over our dataset containing 1.4T tokens takes approximately 21 days.
訓(xùn)練65B參數(shù)模型：
GPU數(shù)：2048
GPU型號(hào)：A100，80G
訓(xùn)練數(shù)據(jù)：1.4T
GPU數(shù)據(jù)處理速度：380 tokens/s/GPU
訓(xùn)練時(shí)間：21天（計(jì)算公式如下）
$t = 1.4 ? 1 e 12/ (2048 ? 24 ? 3600 ? 380) = 21 d a y$

3 碳排放量

每小時(shí)瓦數(shù)估計(jì)Watt-hour（WH）
$Wh = GP U ? h ? (GP U 瓦數(shù)) ? P U E$
PUE表示：電源使用效率
碳排放量公式為
$tCO_2eq=MWH*0.385$

we estimate that we used 2048 A100-80GBfor a period of approximately 5 months to develop our models. This means that developing these models would have cost around 2,638 MWh under our assumptions, and a total emission of 1,015 tCO2eq.
我們使用2048個(gè)A100 80GPU，開(kāi)發(fā)了約5個(gè)月。大約使用了2638Mwh，碳排放量約為1015tCO2eq

4 思考

We hope that releasing these models will help to reduce future carbon emission since the training is already done, and some of the models are relatively small and can be run on a single GPU.
我們希望開(kāi)源更多的大模型，再已有的模型基礎(chǔ)上訓(xùn)練，減少重復(fù)開(kāi)發(fā)，減少碳排放量。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-598694.html

到了這里，關(guān)于LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記
LLaMA是meta在2023年2月開(kāi)源的大模型，在這之后，很多開(kāi)源模型都是基于LLaMA的，比如斯坦福大學(xué)的羊駝模型。 LLaMA的重點(diǎn)是比通常情況下使用更多的語(yǔ)料，來(lái)訓(xùn)練一系列可在各種推理預(yù)算下實(shí)現(xiàn)可能的最佳性能的語(yǔ)言模型。摘要翻譯：我們?cè)诖私榻BLLaMA，這是一個(gè)參數(shù)范圍從
2024年02月15日
瀏覽(32)
LLaMA Open and Efficient Foundation Language Models
來(lái)源Meta AI github地址： facebookresearch/ llama 論文：LLaMA: Open and Efficient Foundation Language Models 模型：目前可以在huggingface上直接下載，https://huggingface.co/decapoda-research 包括： LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要我們介紹了LLaMA，這是一組從7B到65B參數(shù)范圍內(nèi)的基礎(chǔ)語(yǔ)言模型。我們
2024年02月11日
瀏覽(27)
LLaMA：Open and Efficient Foundation Language Models
在大規(guī)模數(shù)據(jù)下訓(xùn)練的大模型，已經(jīng)展示了很好的表現(xiàn)，當(dāng)模型足夠大的時(shí)，模型會(huì)出現(xiàn)一個(gè) 涌現(xiàn) 的能力，如下圖：最近的一項(xiàng)研究表明，在有限的算力下，表現(xiàn)最好的模型不是參數(shù)最大的，而是小一點(diǎn)模型搭配了更多數(shù)據(jù)。這項(xiàng)工作的重點(diǎn)是訓(xùn)練一系列語(yǔ)言模型，通過(guò)對(duì)
2024年02月09日
瀏覽(21)
LLaMA: Open and Efficient Foundation Language Models
用最少的計(jì)算資源，解決了LLM大模型預(yù)測(cè)問(wèn)題，訓(xùn)練了一些列的LLaMa模型，在參數(shù)量比較少的情況下，達(dá)到業(yè)界大模型效果。主要貢獻(xiàn)就是提升了LLM模型的訓(xùn)練速度和效率，在小容量的基礎(chǔ)上，大大提升了模型的效果。同時(shí)由于模型結(jié)構(gòu)更小更簡(jiǎn)單，大大提升了推理速度。
2024年02月13日
瀏覽(23)
LLaMA: Open and Efficient Foundation Language Models筆記
一個(gè)基礎(chǔ)語(yǔ)言模型的集合，參數(shù)范圍從7B到65B 在數(shù)萬(wàn)億的token上訓(xùn)練的模型，不依賴于專有的和不可訪問(wèn)的數(shù)據(jù)集大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于GPT-3 (175B) LLaMA65B與最好的模型Chinchilla-70B和PaLM-540B具有競(jìng)爭(zhēng)力全部模型開(kāi)源??！最近的工作表明，對(duì)于給定的計(jì)算預(yù)算，最佳性能不是由最
2024年02月09日
瀏覽(27)
文獻(xiàn)閱讀：LLaMA: Open and Efficient Foundation Language Models
文獻(xiàn)閱讀：LLaMA: Open and Efficient Foundation Language Models 1. 文章簡(jiǎn)介 2. 模型訓(xùn)練 1. 訓(xùn)練數(shù)據(jù) 2. 模型結(jié)構(gòu) 3. 模型訓(xùn)練 1. Optimizer 2. 效率優(yōu)化 3. 效果評(píng)估 1. 經(jīng)典任務(wù)下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M
2024年02月09日
瀏覽(28)
【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models
LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語(yǔ)言模型集合，LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B)，LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競(jìng)爭(zhēng)力。主要貢獻(xiàn)：開(kāi)源一系列語(yǔ)言模型，可以與SOTA模型競(jìng)爭(zhēng)
2024年02月10日
瀏覽(17)
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models
Paper：https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介紹了 LLaMA，這是?個(gè)包含 7B 到 65B 參數(shù)的基礎(chǔ)語(yǔ)?模型的集合。作者在數(shù)萬(wàn)億個(gè)令牌上訓(xùn)練模型，并表明可以僅使?公開(kāi)可?的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型。特別是， LLaMA-13B 在?多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于
2024年02月12日
瀏覽(48)
論文筆記--Llama 2: Open Foundation and Fine-Tuned Chat Models
標(biāo)題：Llama 2: Open Foundation and Fine-Tuned Chat Models 作者：Touvron H, Martin L, Stone K, et al. 日期：2023 期刊：arxiv preprint ??文章訓(xùn)練并開(kāi)源了模型Llama2系列模型。文章對(duì)Llama2做了大量的安全和有用性的微調(diào)，并進(jìn)行了大量的數(shù)值試驗(yàn)，實(shí)驗(yàn)證明，Llama2-chat比其它被比較的開(kāi)源的chat模型
2024年02月12日
瀏覽(23)
Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記
繼2023年2月開(kāi)源Llama之后，2023年7月Meta又開(kāi)源了模型參數(shù)從70 億到 700 億不等的Llama 2，并同時(shí)開(kāi)源了針對(duì)對(duì)話場(chǎng)景優(yōu)化的LLaMA2-CHAT。LLama2 論文描述了微調(diào)和提高LLM安全性的方法以及在模型開(kāi)發(fā)過(guò)程中的一些的觀察。論文摘要翻譯：在這項(xiàng)工作中，我們開(kāi)發(fā)并開(kāi)源了 Llama 2，這是
2024年02月09日
瀏覽(28)

<pre id="4z1yr"><dl id="4z1yr"></dl></pre>

<ruby id="4z1yr"><thead id="4z1yr"></thead></ruby>

<ul id="4z1yr"><font id="4z1yr"></font></ul>