?Datawhale干貨?
作者:張帆,陳安東,Datawhale成員
引言
在AI領(lǐng)域,大模型的發(fā)展正以前所未有的速度推進技術(shù)的邊界。
北京時間4月19日凌晨,Meta在官網(wǎng)上官宣了Llama-3,作為繼Llama-1、Llama-2和Code-Llama之后的第三代模型,Llama-3在多個基準測試中實現(xiàn)了全面領(lǐng)先,性能優(yōu)于業(yè)界同類最先進的模型。
縱觀Llama系列模型,從版本1到3,展示了大規(guī)模預訓練語言模型的演進及其在實際應用中的顯著潛力。這些模型不僅在技術(shù)上不斷刷新紀錄,更在商業(yè)和學術(shù)界產(chǎn)生了深遠的影響。因此,對Llama模型不同版本之間的系統(tǒng)對比,不僅可以揭示技術(shù)進步的具體細節(jié),也能幫助我們理解這些高級模型如何解決現(xiàn)實世界的復雜問題。
文本將詳細梳理Llama開源家族的演進歷程,包括:
Llama進化史(第1節(jié))
模型架構(gòu)(第2節(jié))
訓練數(shù)據(jù)(第3節(jié))
訓練方法(第4節(jié))
效果對比(第5節(jié))
社區(qū)生態(tài)(第6節(jié))
總結(jié)(第7節(jié))
與此同時,我們還設計了一系列全面的開源課程(So-Lrage-Lm),旨在從多個維度深入解析大規(guī)模預訓練語言模型的內(nèi)在工作機制和外在應用場景。課程內(nèi)容覆蓋了從模型架構(gòu)、性能評估,到數(shù)據(jù)管理和模型優(yōu)化等關(guān)鍵技術(shù)點,以及模型在社會、環(huán)境和法律層面的復雜交互。
通過本課程,參與者將學習如何從理論和實踐層面評估和優(yōu)化大模型。我們的課程規(guī)劃包括了一系列模塊化的學習單元,每一單元都針對大模型的一個具體方面,從基礎知識到高級應用逐步深入,確保學習者可以在結(jié)束課程后,獨立進行大模型的設計、評估和應用。此外,課程中的案例研究和實踐項目將直接關(guān)聯(lián)到當前最前沿的AI技術(shù)和應用,以及這些技術(shù)如何在現(xiàn)實世界中找到應用。
點擊訪問課程地址或者閱讀原文即可查看課程內(nèi)容,歡迎Star~
https://github.com/datawhalechina/so-large-lm
1. Llama進化史
本節(jié)將對每個版本的Llama模型進行簡要介紹,包括它們發(fā)布的時間和主要特點。
1.1 Llama-1 系列
Llama-1 [1]是Meta在2023年2月發(fā)布的大語言模型,是當時性能非常出色的開源模型之一,有7B、13B、30B和65B四個參數(shù)量版本。Llama-1各個參數(shù)量版本都在超過1T token的語料上進行了預訓訓練,其中,最大的65B參數(shù)的模型在2,048張A100 80G GPU上訓練了近21天,并在大多數(shù)基準測試中超越了具有175B參數(shù)的GPT-3。
由于模型開源且性能優(yōu)異,Llama迅速成為了開源社區(qū)中最受歡迎的大模型之一,以Llama為核心的生態(tài)圈也由此崛起。我們將在第6節(jié)對這一生態(tài)進行詳細介紹。與此同時,眾多研究者將其作為基座模型,進行了繼續(xù)預訓練或者微調(diào),衍生出了眾多變體模型(見下圖),極大地推動了大模型領(lǐng)域的研究進展。

唯一美中不足的是,因為開源協(xié)議問題,Llama-1不可免費商用。
1.2 Llama-2 系列
時隔5個月,Meta在2023年7月發(fā)布了免費可商用版本 Llama-2 [2],有7B、13B、34B和70B四個參數(shù)量版本,除了34B模型外,其他均已開源。

相比于Llama-1,Llama-2將預訓練的語料擴充到了 2T token,同時將模型的上下文長度從2,048翻倍到了4,096,并引入了分組查詢注意力機制(grouped-query attention, GQA)等技術(shù)。
有了更強大的基座模型Llama-2,Meta通過進一步的有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)、基于人類反饋的強化學習(Reinforcement Learning with Human Feedback, RLHF)等技術(shù)對模型進行迭代優(yōu)化,并發(fā)布了面向?qū)υ拺玫奈⒄{(diào)系列模型 Llama-2 Chat。
通過“預訓練-有監(jiān)督微調(diào)-基于人類反饋的強化學習”這一訓練流程,Llama-2 Chat不僅在眾多基準測試中取得了更好的模型性能,同時在應用中也更加安全。
隨后,得益于Llama-2的優(yōu)異性能,Meta在2023年8月發(fā)布了專注于代碼生成的Code-Llama,共有7B、13B、34B和70B四個參數(shù)量版本。

1.3?Llama-3 系列
2024年4月,Meta正式發(fā)布了開源大模型 Llama 3,包括8B和70B兩個參數(shù)量版本。除此之外,Meta還透露,400B的Llama-3還在訓練中。

相比Llama-2,Llama-3支持8K長文本,并采用了一個編碼效率更高的tokenizer,詞表大小為128K。在預訓練數(shù)據(jù)方面,Llama-3使用了超過15T token的語料,這比Llama 2的7倍還多。
Llama-3在性能上取得了巨大飛躍,并在相同規(guī)模的大模型中取得了最優(yōu)異的性能。
另外,推理、代碼生成和指令跟隨等能力得到了極大的改進,使Llama 3更加可控。
2. 模型架構(gòu)
本節(jié)將詳細描述Llama的模型架構(gòu),包括神經(jīng)網(wǎng)絡的大小、層數(shù)、注意力機制等。
目前,主流的大語言模型都采用了Transformer[3]架構(gòu),它是一個基于多層自注意力(Self-attention)的神經(jīng)網(wǎng)絡模型。
原始的Transformer由編碼器(Encoder)和解碼器(Decoder)兩個部分構(gòu)成,同時,這兩個部分也可以獨立使用。
例如基于編碼器的BERT [4]模型和基于解碼器的GPT [5]模型。
Llama模型與GPT類似,也是采用了基于解碼器的架構(gòu)。在原始Transformer解碼器的基礎上,Llama進行了如下改動:
為了增強訓練穩(wěn)定性,采用前置的RMSNorm [6]作為層歸一化方法。
為了提高模型性能,采用SwiGLU [7]作為激活函數(shù)。
為了更好地建模長序列數(shù)據(jù),采用RoPE [8]作為位置編碼。
為了平衡效率和性能,部分模型采用了分組查詢注意力機制(Grouped-Query Attention, GQA)[9]。
具體來說,首先將輸入的token序列通過詞嵌入(word embedding)矩陣轉(zhuǎn)化為詞向量序列。然后,詞向量序列作為隱藏層狀態(tài)依次通過??個解碼器層,并在最后使用RMSNorm進行歸一化。歸一化后的隱藏層狀態(tài)將作為最后的輸出。
在每個解碼器層中,輸入的隱藏層狀態(tài)首先通過RMSNorm歸一化然后被送入注意力模塊。注意力模塊的輸出將和歸一化前的隱藏層狀態(tài)進行殘差連接。之后,新的隱藏層狀態(tài)進行RMSNorm歸一化,然后被送入前饋網(wǎng)絡層。類似地,前饋網(wǎng)絡層的輸出同樣進行殘差連接,作為解碼器層的輸出。
每個版本的Llama由于其隱藏層的大小、層數(shù)的不同,均有不同的變體。接下來,我們將展開看下每個版本的不同變體。
2.1 Llama-1 系列
Llama-1 模型架構(gòu),詳見MODEL_CARD:?
https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md

為了更好地編碼數(shù)據(jù),Llama-1使用BPE [10]算法進行分詞,具體由sentencepiece進行實現(xiàn)。值得注意的是,Llama-1將所有數(shù)字分解為單獨的數(shù)字,并對未知的UTF-8字符回退到字節(jié)進行分解。詞表大小為32k。
2.2 Llama-2 系列
Llama-2 模型架構(gòu),詳見MODEL_CARD(同上)

Llama-2使用了和Llama-1相同的模型架構(gòu)以及tokenizer。與Llama-1不同的是,Llama-2將上下文長長度擴展到了4k,并且34B和70B參數(shù)量版本使用了GQA。
2.3 Llama-3 系列
Llama-3 模型架構(gòu),詳見MODEL_CARD:
https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

與Llama 2相比,Llama-3將tokenizer由sentencepiece換成了tiktoken,這與GPT4 保持一致。同時,詞表大小由32k擴展到了128k。另外,為了提高模型效率,Llama-3 8B和70B都采用了GQA。同時上下文長度也擴展到了8k。
3. 訓練數(shù)據(jù)
本節(jié)將對每個版本的訓練數(shù)據(jù)進行簡要介紹,包括數(shù)據(jù)來源、規(guī)模和處理方式。
3.1 Llama-1 系列
Llama-1使用了海量無標注數(shù)據(jù)進行自監(jiān)督學習,這些預訓練數(shù)據(jù)由多個來源混合而成,且都是公開的數(shù)據(jù)。各個來源的數(shù)據(jù)量和采樣比例見下表。

英語CommonCrawl:Llama-1預處理了2017年至2020年間的五個CommonCrawl數(shù)據(jù)集。該過程在行級別去重,使用fastText線性分類器進行語言識別以去除非英語頁面,并使用n-gram語言模型過濾低質(zhì)量內(nèi)容。此外,Llama-1訓練了一個線性模型來分類維基百科中用作參考的頁面和隨機采樣的頁面,并丟棄了未被分類為參考的頁面。
C4:在探索性實驗中,Llama-1觀察到使用多樣化的預處理CommonCrawl數(shù)據(jù)集可以提升性能。因此,Llama-1的數(shù)據(jù)中包括了公開可獲得的C4數(shù)據(jù)集。C4的預處理也包括去重和語言識別步驟:與CCNet的主要區(qū)別在于質(zhì)量過濾,主要依賴于標點符號的存在或網(wǎng)頁中的單詞和句子數(shù)量等啟發(fā)式規(guī)則。
Github:Llama-1使用Google BigQuery上可公開獲取的GitHub數(shù)據(jù)集。Llama-1僅保留在Apache、BSD和MIT許可下分發(fā)的項目。此外,Llama-1還使用基于行長度或字母數(shù)字字符比例的啟發(fā)式規(guī)則過濾低質(zhì)量文件,并用正則表達式移除如頁眉等樣板內(nèi)容。最后,Llama-1在文件級別對結(jié)果數(shù)據(jù)集進行去重,匹配精確相同的內(nèi)容。
維基百科:Llama-1添加了2022年6月至8月期間的維基百科數(shù)據(jù),涵蓋使用拉丁或西里爾文字的20種語言。Llama-1處理數(shù)據(jù)以移除超鏈接、評論和其他格式化的樣板內(nèi)容。
Gutenberg和Books3:Llama-1在訓練數(shù)據(jù)集中包括了兩個書籍語料庫:Gutenberg項目(包含公共領(lǐng)域的書籍)和ThePile的Books3部分,一個公開可獲得的用于訓練大型語言模型的數(shù)據(jù)集。Llama-1在書籍級別進行去重,移除超過90%內(nèi)容重合的書籍。
ArXiv :Llama-1處理ArXiv的Latex文件,以增加科學數(shù)據(jù)到Llama-1的數(shù)據(jù)集。Llama-1移除了第一節(jié)之前的所有內(nèi)容以及參考文獻部分。Llama-1還移除了.tex文件中的注釋,并內(nèi)聯(lián)擴展了用戶編寫的定義和宏,以增強論文間的一致性。
Stack Exchange:Llama-1包括了Stack Exchange的數(shù)據(jù)轉(zhuǎn)儲,這是一個涵蓋從計算機科學到化學等多種領(lǐng)域的高質(zhì)量問題和答案的網(wǎng)站。Llama-1保留了28個最大網(wǎng)站的數(shù)據(jù),移除了文本中的HTML標簽,并根據(jù)得分將答案排序(從最高到最低)。
經(jīng)過上述處理,Llama-1的整個訓練數(shù)據(jù)集包含大約1.4T token。對于Llama-1的大部分訓練數(shù)據(jù),每個token在訓練期間只使用一次,但維基百科和Books的數(shù)據(jù)進行了大約兩個epoch的訓練。
3.2 Llama-2
Llama-2 預訓練使用了來自公開可用源的 2T個數(shù)據(jù)token(未詳細指出具體的開源數(shù)據(jù))。Llama-2-Chat 還在為此項目創(chuàng)建的27,540個提示-響應對上進行了額外的微調(diào),其表現(xiàn)優(yōu)于更大但質(zhì)量較低的第三方數(shù)據(jù)集。為了實現(xiàn)AI對齊,使用了包含1,418,091個Meta示例和七個較小數(shù)據(jù)集的組合的人類反饋強化學習(RLHF)。在Meta示例中,平均對話深度為3.9,Anthropic Helpful 和 Anthropic Harmless集合為3.0,包括OpenAI Summarize、StackExchange等在內(nèi)的其他五個集合的平均對話深度為1.0。微調(diào)數(shù)據(jù)包括公開可用的指令數(shù)據(jù)集以及超過一百萬個新的人類標注示例。?
在預訓練過程中,Llama-2對數(shù)據(jù)的安全性進行了全面考量。通過對預訓練數(shù)據(jù)進行分析,Llama-2能夠增加透明度,并發(fā)現(xiàn)潛在的問題根源,如潛在的偏見。Llama-2采取了一系列措施,包括遵循 Meta 公司的隱私和法律審查流程,排除已知含有大量個人信息的網(wǎng)站的數(shù)據(jù)。此外,Llama-2未對數(shù)據(jù)集進行額外的過濾,以使模型在各種任務中更廣泛可用,同時避免過度清洗可能導致的意外人口統(tǒng)計消除。對于語言的代表性和毒性的分析,Llama-2使用了相應的工具和數(shù)據(jù)集,以了解預訓練數(shù)據(jù)的特征,為模型的安全調(diào)整提供指導。這一過程確保了我們的模型在安全性方面得到了充分的考慮,并促使我們在部署模型之前進行了重要的安全調(diào)整。?
Llama 2的預訓練主要集中在英語數(shù)據(jù)上,盡管實驗觀察表明模型在其他語言方面已有一定的熟練度,但由于非英語語言的預訓練數(shù)據(jù)量有限,其熟練度受到限制(如下圖所示)。因此,該模型在非英語語言中的性能仍然脆弱,應謹慎使用(說明多語言能力差:有可能是詞表較小導致)。

預訓練數(shù)據(jù)截至到2022年9月,但某些調(diào)整數(shù)據(jù)較新,直到2023年7月。
在Llama2發(fā)布的技術(shù)報告中有說明:
我們將繼續(xù)努力微調(diào)模型,以提高在其他語言環(huán)境下的適用性,并在未來發(fā)布更新版本,以解決這一問題。?
當前Llama-3 不但擴充了詞表大小而且增加了多語言的訓練語料。從而完成了在Llama2在技術(shù)報告的承諾,而且在當前公布出來的多語言任務中獲得了大幅度提升的性能。?
3.3 Llama-3 系列
為了更好訓練Llama-3,研究人員精心設計了預訓練語料庫,這些不僅關(guān)注數(shù)量,還特別強調(diào)了質(zhì)量。LLAMA-3其訓練數(shù)據(jù)量大幅增加,從LLAMA-2的2T Tokens擴展到了15T Tokens,增長了約8倍。其中,代碼數(shù)據(jù)擴充了4倍,顯著提升了模型在代碼能力和邏輯推理能力方面的表現(xiàn)。
LLAMA-3提供了三種規(guī)模的模型版本:小型模型具有8B參數(shù),其性能略優(yōu)于Mistral 7B和Gemma 7B;中型模型則擁有70B參數(shù),其性能介于ChatGPT 3.5和GPT 4之間;大型模型規(guī)模達到400B,目前仍在訓練中,旨在成為一個多模態(tài)、多語言版本的模型,預期性能應與GPT 4或GPT 4V相當。
值得注意的是,LLAMA-3并沒有采用MOE(Mixture of Experts)結(jié)構(gòu),這種結(jié)構(gòu)主要用于降低訓練和推理成本,但在性能上通常無法與同規(guī)模的密集型(Dense)模型相比。隨著模型規(guī)模的擴大,如何降低推理成本將成為一個需要關(guān)注的問題。
此外,LLAMA-3的訓練數(shù)據(jù)包括了大量的代碼token和超過5%的非英語token,來源于30多種語言。這不僅使得模型在處理英語內(nèi)容時更加高效,也顯著提升了其多語言處理能力,這表明LLAMA-3在全球多語言環(huán)境中的適應性和應用潛力。
為確保數(shù)據(jù)質(zhì)量,Meta開發(fā)了一系列數(shù)據(jù)過濾pipeline,包括啟發(fā)式過濾器、NSFW過濾器、語義重復數(shù)據(jù)刪除技術(shù)及用于預測數(shù)據(jù)質(zhì)量的文本分類器。這些工具的有效性得益于先前版本Llama的表現(xiàn),特別是在識別高質(zhì)量數(shù)據(jù)方面。
此外,Meta通過大量實驗評估了在最終預訓練數(shù)據(jù)集中混合不同來源數(shù)據(jù)的最佳策略,確保Llama-3能在多種場景下展現(xiàn)卓越性能,如日常瑣事、STEM 領(lǐng)域、編程和歷史知識等。
4. 訓練方法
本節(jié)將對每個版本的訓練方法進行簡要介紹,包括預訓練、有監(jiān)督微調(diào)和基于人類反饋的強化學習。
4.1 Llama-1系列
Llama-1模型是一個基礎的自監(jiān)督學習模型,它沒有經(jīng)過任何形式的特定任務微調(diào)。自監(jiān)督學習是一種機器學習技術(shù),其中模型通過分析大量未標記的數(shù)據(jù)來預測其輸入數(shù)據(jù)的某些部分。這種方法允許模型在沒有人類標注的數(shù)據(jù)的情況下自動學習數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和復雜性。Llama-1在公布的技術(shù)報告中詳細描述了使用AdamW優(yōu)化器的機器學習模型的具體訓練配置。AdamW是對Adam優(yōu)化器的改進,可以更有效地處理權(quán)重衰減,從而提高訓練的穩(wěn)定性。β1和β2參數(shù)的選擇影響訓練過程的收斂行為和穩(wěn)定性。Llama-1描述的余弦學習率調(diào)度是一種有效的技術(shù),用于在訓練期間調(diào)整學習率,通過逐漸減少學習率,在某些情況下可以導致更好的收斂。實施0.1的權(quán)重衰減和1.0的梯度裁剪是預防過擬合和確保數(shù)值穩(wěn)定性的標準做法。使用預熱步驟是一種策略性方法,旨在訓練過程初期穩(wěn)定訓練動態(tài)。根據(jù)模型大小調(diào)整學習率和批量大小是一種優(yōu)化資源分配和效率的實用方法,有可能提高模型性能。
Llama-1也展示了一系列針對大規(guī)模語言模型訓練進行的優(yōu)化措施。通過使用xformers庫[12]中的causal multi-head attention(通過不存儲注意力權(quán)重和不計算由于語言建模任務的因果性質(zhì)而被屏蔽的key/query.分數(shù)來實現(xiàn)的)的高效實現(xiàn),減少了內(nèi)存占用和計算時間,顯示了在處理大量數(shù)據(jù)時對效率的關(guān)注。此外,采用手動實現(xiàn)反向傳播函數(shù)代替依賴自動微分系統(tǒng),以及利用檢查點技術(shù)保存計算成本高的激活,都是提高訓練速度和減少資源消耗的有效策略。通過模型和序列并行性以及優(yōu)化GPU之間的通信,進一步提升了訓練過程的效率。這些優(yōu)化措施特別適合于訓練參數(shù)龐大的模型,如650億參數(shù)的模型,能顯著減少訓練時間,提高整體的運算效率。整體上,這些優(yōu)化技術(shù)體現(xiàn)了在高性能計算領(lǐng)域?qū)Y源管理和效率優(yōu)化的深入考量,對于推動大規(guī)模語言模型的發(fā)展具有重要意義。
4.2 Llama-2系列
Llama-2模型是在Llama-1的基礎上進一步發(fā)展的,而Llama-2-Chat模型則是基于Llama-2進行微調(diào)的版本。這兩個模型保持了固定的4k上下文長度,這與OpenAI的GPT-4在微調(diào)過程中可能增加的上下文長度不同。
在Llama-2和Llama-2-Chat的微調(diào)中,采用了自回歸損失函數(shù),這是一種在生成模型中常見的方法,模型預測下一個token時會考慮到之前的所有token。在訓練過程中,用戶輸入提示的token損失被清零,這意味著模型被訓練以忽略這些特定的token,從而更專注于生成回復。
Llama-2-Chat的訓練過程如下圖所示。整個過程起始于利用公開數(shù)據(jù)對Llama-2進行預訓練。在此之后,通過有監(jiān)督微調(diào)創(chuàng)建了Llama-2-Chat的初始版本。隨后,使用基于人類反饋的強化學習(RLHF)方法來迭代地改進模型,具體包括拒絕采樣(Rejection Sampling)和近端策略優(yōu)化(Proximal Policy Optimization, PPO)。在RLHF階段,人類偏好數(shù)據(jù)也在并行迭代,以保持獎勵模型的更新。

4.3 Llama-3系列
與Llama-2類似,Llama-3系列也有兩個模型——預訓練模型Llama-3和微調(diào)后的模型Llama-3-Instruct。
在預訓練階段,為了有效地利用預訓練數(shù)據(jù),Llama-3投入了大量精力來擴大預訓練。具體而言,通過為下游基準測試制定一系列擴展法則(scaling laws),使得在訓練之前就能預測出模型在關(guān)鍵任務上的性能,進而選擇最佳的數(shù)據(jù)組合。
在這一過程中,Llama-3對擴展法則有了一些新的觀察。例如,根據(jù)DeepMind 團隊提出的Chinchilla [11]擴展法則,8B模型的最優(yōu)訓練數(shù)據(jù)量約為200B token,但實驗發(fā)現(xiàn),即使訓練了兩個數(shù)量級的數(shù)據(jù)后,模型性能仍在繼續(xù)提高。在多達15T token上進行訓練后,8B和70B參數(shù)的模型都繼續(xù)以對數(shù)線性的方式提升性能。
為了訓練最大的Llama-3模型,Meta結(jié)合了三種并行策略:數(shù)據(jù)并行、模型并行和流水并行。當同時在16K GPU上進行訓練時,最高效的策略實現(xiàn)了每個GPU超過400 TFLOPS的計算利用率。最后,模型在兩個定制的24K GPU集群上進行了訓練。
為了最大限度地延長GPU的正常運行時間,Meta開發(fā)了一個先進的新訓練堆棧,可以自動檢測、處理和維護錯誤。另外還大大提高了硬件可靠性和無聲數(shù)據(jù)損壞的檢測機制,并開發(fā)了新的可擴展存儲系統(tǒng),減少了檢查點和回滾的開銷。這些改進使總的有效訓練時間超過95%。綜合起來,這些改進使Llama-3的訓練效率比Llama-2提高了約三倍。
在微調(diào)階段,Meta對模型的微調(diào)方法進行了重大創(chuàng)新,結(jié)合了有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)、拒絕采樣、近似策略優(yōu)化(Proximal Policy Optimization, PPO)和直接策略優(yōu)化(Direct Policy Optimization, DPO)。這種綜合方法優(yōu)化了模型在執(zhí)行復雜的推理和編碼任務時的表現(xiàn)。特別是通過偏好排序的訓練,Llama-3在處理復雜的邏輯推理問題時能更準確地選擇最合適的答案,這對于提高AI在實際應用中的可用性和可靠性至關(guān)重要。
5. 效果對比
本節(jié)將對比不同版本在眾多基準測試中的效果差異。
5.1 Llama-2 vs Llama-1
Meta官方數(shù)據(jù)顯示,Llama-2在眾多基準測試中都優(yōu)于Llama-1和其他開源語言模型。

5.2 Llama-3 vs Llama-2
Meta官方數(shù)據(jù)顯示,在各自參數(shù)規(guī)模上,Llama-3 8B和70B版本都取得了不錯的成績。8B模型在眾多基準測試中均勝過Gemma 7B和Mistral 7B Instruct,而70B模型超越了閉源模型Claude 3 Sonnet,對比谷歌的Gemini Pro 1.5性能也是相當。

同時,在Llama-3的開發(fā)過程中,Meta還開發(fā)了一個包含1800個提示的高質(zhì)量人類評估集。評測結(jié)果顯示,Llama 3不僅大幅超越Llama 2,也戰(zhàn)勝了Claude 3 Sonnet、Mistral Medium和GPT-3.5這些知名模型。

Llama-3之所以能夠取得如此出色的成績,離不開它預訓練模型的優(yōu)異性能。在眾多基準測試中,8B模型超越了Mistral 7B和Gemma 7B,70B模型則戰(zhàn)勝了Gemini Pro 1.0和Mixtral 8x22B。

另外,Meta表示,最大的Llama-3仍在訓練中,其參數(shù)超過400B,并在多項基準測試中取得了出色的成績。一旦完成訓練,Meta將發(fā)表一篇詳細的研究論文。

值得注意的是,根據(jù)英偉達科學家Jim Fan的整理,Llama3 400B基本逼近Claude-3-Opus和GPT-4-turbo,這將意味著開源社區(qū)即將迎來GPT-4級大模型。

6. 社區(qū)影響
本節(jié)將簡要介紹Llama模型對開源社區(qū)的影響。
6.1 開放源代碼模型的力量
自Meta發(fā)布Llama模型以來,它對全球AI社區(qū)產(chǎn)生了深遠的影響。作為一個開源的大語言模型(LLM),Llama不僅提供了一個強大的技術(shù)基礎,還推動了全球范圍內(nèi)對AI技術(shù)的廣泛采用和創(chuàng)新。
Llama模型的開源策略被視為LLM時代的“安卓”,這意味著它提供了一個模塊化和可自定義的平臺,使研究人員和開發(fā)者能夠根據(jù)自己的需要調(diào)整和優(yōu)化模型。這種開放性極大地降低了進入門檻,使得從小型創(chuàng)業(yè)公司到大型企業(yè)都能夠利用這一技術(shù)。四月十九日的Llama 3的發(fā)布,一日的下載量已經(jīng)突破了1.14k,兩個8B的模型位列trending第一。

6.2 對全球AI研發(fā)的影響
在OpenAI轉(zhuǎn)向更封閉的商業(yè)模式后,Llama的發(fā)布為全球進行AI項目研發(fā)的團隊和個人提供了一種可靠的選擇。這種開源模型確保了用戶不必完全依賴單一的商業(yè)API,從而增加了企業(yè)的運營安全感和自由度,尤其是在數(shù)據(jù)安全和成本控制方面。
6.3 技術(shù)進步和社區(qū)創(chuàng)新
技術(shù)上,Llama模型已經(jīng)展示了與GPT相媲美的性能,這證明了開源社區(qū)在推動前沿技術(shù)方面的能力。此外,社區(qū)通過對模型的不斷優(yōu)化和調(diào)整,在不同的垂直領(lǐng)域中開發(fā)出適用的解決方案,類似于Stable Diffusion和Midjourney等社區(qū)驅(qū)動的大模型。
6.4 生態(tài)系統(tǒng)和多樣性
Llama的應用已經(jīng)擴展到多種平臺和設備,包括移動和邊緣設備。這種多樣化的應用不僅推動了技術(shù)的普及,也加速了新應用的創(chuàng)新。例如,云平臺如AWS和Google Cloud的積極參與,證明了Llama模型的廣泛適用性和強大功能。
6.5 Llama社區(qū)的未來展望
隨著Llama模型的持續(xù)發(fā)展和優(yōu)化,Meta強調(diào)了對多模態(tài)AI、安全性和責任以及社區(qū)支持的持續(xù)關(guān)注。這些方向不僅符合當前AI發(fā)展的趨勢,也為Llama社區(qū)的未來提供了明確的路線圖。
7. 總結(jié)
總之,Llama模型的發(fā)布不僅證明了開源模型在全球AI領(lǐng)域的重要性,也為AI的未來發(fā)展方向提供了新的視角和動力。通過持續(xù)的技術(shù)進步和社區(qū)驅(qū)動的創(chuàng)新,Llama有望繼續(xù)推動全球AI技術(shù)的廣泛應用和發(fā)展。
參考文獻
[1] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
[2] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[J]. arXiv preprint arXiv:2307.09288, 2023.
[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[5] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
[6] Zhang B, Sennrich R. Root mean square layer normalization[J]. Advances in Neural Information Processing Systems, 2019, 32.
[7] Shazeer N. Glu variants improve transformer[J]. arXiv preprint arXiv:2002.05202, 2020.
[8] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063.
[9] Ainslie J, Lee-Thorp J, de Jong M, et al. Gqa: Training generalized multi-query transformer models from multi-head checkpoints[J]. arXiv preprint arXiv:2305.13245, 2023.
[10] Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with subword units[J]. arXiv preprint arXiv:1508.07909, 2015.
[11] Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.
[12] https://github.com/facebookresearch/xformers
文章來源:http://www.zghlxwxcb.cn/news/detail-857455.html
一起“點贊”三連↓文章來源地址http://www.zghlxwxcb.cn/news/detail-857455.html
到了這里,關(guān)于【獨家】萬字長文帶你梳理Llama開源家族:從Llama-1到Llama-3的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!