要點
- 今天,我們推出 Meta Llama 3,這是我們最先進的開源大型語言模型的下一代。
- Llama 3型號將很快在AWS,Databricks,Google Cloud,Hugging Face,Kaggle,IBM WatsonX,Microsoft Azure,NVIDIA NIM和Snowflake上提供,并得到AMD,AWS,戴爾,英特爾,英偉達和高通提供的硬件平臺的支持。
- 我們致力于以負責(zé)任的方式開發(fā) Llama 3,并提供各種資源來幫助其他人負責(zé)任地使用它。這包括通過 Llama Guard 2、Code Shield 和 CyberSec Eval 2 引入新的信任和安全工具。
- 在接下來的幾個月里,我們預(yù)計將推出新的功能、更長的上下文窗口、額外的模型大小和增強的性能,我們將分享 Llama 3 的研究論文。
- Meta AI 采用 Llama 3 技術(shù)構(gòu)建,現(xiàn)已成為世界領(lǐng)先的 AI 助手之一,可以提高您的智力并減輕您的負擔(dān)——幫助您學(xué)習(xí)、完成工作、創(chuàng)建內(nèi)容和建立聯(lián)系,以充分利用每一刻。您可以在此處試用 Meta AI。
今天,我們很高興與大家分享下一代 Llama 的前兩個型號 Meta Llama 3,可供廣泛使用。此版本具有預(yù)訓(xùn)練和指令微調(diào)的語言模型,具有 8B 和 70B 參數(shù),可支持廣泛的用例。下一代 Llama 在廣泛的行業(yè)基準(zhǔn)測試中展示了最先進的性能,并提供了新功能,包括改進的推理。我們相信這些是同類產(chǎn)品中最好的開源模型。為了支持我們長期以來的開放方法,我們將 Llama 3 交到社區(qū)手中。我們希望在整個堆棧中啟動下一波 AI 創(chuàng)新浪潮——從應(yīng)用程序到開發(fā)人員工具,從評估到推理優(yōu)化等等。我們迫不及待地想看看您構(gòu)建的內(nèi)容,并期待您的反饋。
我們對 Llama 3 的目標(biāo)
在 Llama 3 中,我們著手構(gòu)建與當(dāng)今最好的專有模型相媲美的最佳開放模型。我們希望解決開發(fā)人員的反饋,以提高 Llama 3 的整體實用性,并在這樣做的同時繼續(xù)在負責(zé)任地使用和部署 LLMs.我們正在接受盡早發(fā)布的開源精神,并經(jīng)常發(fā)布,以使社區(qū)能夠在這些模型仍在開發(fā)中時訪問它們。我們今天發(fā)布的基于文本的模型是 Llama 3 模型集合中的第一個。在不久的將來,我們的目標(biāo)是使 Llama 3 成為多語言和多模態(tài)的,具有更長的上下文,并繼續(xù)提高推理和編碼等核心LLM功能的整體性能。
最先進的性能
我們新的 8B 和 70B 參數(shù) Llama 3 模型是 Llama 2 的重大飛躍,并為LLM這些規(guī)模的模型建立了新的最先進的技術(shù)。由于預(yù)訓(xùn)練和訓(xùn)練后改進,我們的預(yù)訓(xùn)練和指令微調(diào)模型是當(dāng)今 8B 和 70B 參數(shù)尺度上存在的最佳模型。我們培訓(xùn)后程序的改進大大降低了錯誤拒絕率,改善了一致性,并增加了模型響應(yīng)的多樣性。我們還看到了推理、代碼生成和指令等功能的大幅改進,使 Llama 3 更具可操控性。
*有關(guān)計算這些評估的設(shè)置和參數(shù),請參閱評估詳細信息。文章來源:http://www.zghlxwxcb.cn/news/detail-859576.html
在 Llama 3 的開發(fā)中,我們研究了標(biāo)準(zhǔn)基準(zhǔn)測試下的模型性能,并試圖針對真實場景的性能進行優(yōu)化。為此,我們開發(fā)了一套新的高質(zhì)量人體評估集。該評估集包含 1,800 個提示,涵蓋 12 個關(guān)鍵用例:尋求建議、頭腦風(fēng)暴、分類、封閉式問答、編碼、創(chuàng)意寫作、提取、棲息角色/角色、開放式問答、推理、重寫和總結(jié)。為了防止我們的模型在這個評估集上意外過擬合,即使是我們自己的建模團隊也無法訪問它。下圖顯示了我們對這些類別的人工評估的匯總結(jié)果,并針對 Claude Sonnet、Mistral Medium 和 GPT-3.5 進行了提示。
人類注釋者基于此評估集的偏好排名突出了我們的 70B 指令跟蹤模型與實際場景中規(guī)模相當(dāng)?shù)母偁幠P拖啾鹊膹姶笮阅堋?br>
我們的預(yù)訓(xùn)練模型還為LLM這些規(guī)模的模型建立了新的最先進的技術(shù)。
*有關(guān)計算這些評估的設(shè)置和參數(shù),請參閱評估詳細信息。
為了開發(fā)一個偉大的語言模型,我們認為創(chuàng)新、擴展和優(yōu)化以簡化是很重要的。我們在整個 Llama 3 項目中采用了這種設(shè)計理念,重點關(guān)注四個關(guān)鍵要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、擴展預(yù)訓(xùn)練和指令微調(diào)。
模型架構(gòu)
根據(jù)我們的設(shè)計理念,我們在 Llama 3 中選擇了相對標(biāo)準(zhǔn)的純解碼器轉(zhuǎn)換器架構(gòu)。與 Llama 2 相比,我們進行了幾項關(guān)鍵改進。Llama 3 使用具有 128K 標(biāo)記詞匯表的分詞器,可以更有效地編碼語言,從而大大提高模型性能。為了提高 Llama 3 模型的推理效率,我們在 8B 和 70B 大小中都采用了分組查詢注意力 (GQA)。我們在 8,192 個令牌的序列上訓(xùn)練模型,使用掩碼來確保自我注意力不會跨越文檔邊界。
訓(xùn)練數(shù)據(jù)
為了訓(xùn)練最佳語言模型,管理大型、高質(zhì)量的訓(xùn)練數(shù)據(jù)集至關(guān)重要。根據(jù)我們的設(shè)計原則,我們在預(yù)訓(xùn)練數(shù)據(jù)方面投入了大量資金。Llama 3 在超過 15T 的代幣上進行了預(yù)訓(xùn)練,這些代幣都是從公開來源收集的。我們的訓(xùn)練數(shù)據(jù)集比 Llama 2 使用的數(shù)據(jù)集大 7 倍,包含的代碼是 Llama 2 的 4 倍。為了應(yīng)對即將到來的多語言用例,Llama 3 預(yù)訓(xùn)練數(shù)據(jù)集的 5% 以上由涵蓋 30 多種語言的高質(zhì)量非英語數(shù)據(jù)組成。但是,我們預(yù)計這些語言的性能水平與英語不同。
為了確保 Llama 3 接受最高質(zhì)量的數(shù)據(jù)訓(xùn)練,我們開發(fā)了一系列數(shù)據(jù)過濾管道。這些管道包括使用啟發(fā)式篩選器、NSFW 篩選器、語義重復(fù)數(shù)據(jù)刪除方法和文本分類器來預(yù)測數(shù)據(jù)質(zhì)量。我們發(fā)現(xiàn)前幾代 Llama 在識別高質(zhì)量數(shù)據(jù)方面出奇地好,因此我們使用 Llama 2 為 Llama 3 提供支持的文本質(zhì)量分類器生成訓(xùn)練數(shù)據(jù)。
我們還進行了廣泛的實驗,以評估在最終的預(yù)訓(xùn)練數(shù)據(jù)集中混合來自不同來源的數(shù)據(jù)的最佳方法。這些實驗使我們能夠選擇一種數(shù)據(jù)組合,確保 Llama 3 在包括瑣事問題、STEM、編碼、歷史知識等在內(nèi)的用例中表現(xiàn)良好。
擴大預(yù)訓(xùn)練規(guī)模
為了在 Llama 3 模型中有效地利用我們的預(yù)訓(xùn)練數(shù)據(jù),我們投入了大量精力來擴大預(yù)訓(xùn)練。具體而言,我們?yōu)橄掠位鶞?zhǔn)評估制定了一系列詳細的擴展法則。這些縮放定律使我們能夠選擇最佳的數(shù)據(jù)組合,并就如何最好地使用我們的訓(xùn)練計算做出明智的決策。重要的是,縮放定律允許我們在實際訓(xùn)練模型之前預(yù)測最大模型在關(guān)鍵任務(wù)上的性能(例如,在 HumanEval 基準(zhǔn)測試中評估的代碼生成——見上文)。這有助于我們確保最終模型在各種用例和功能中具有強大的性能。
我們在 Llama 3 的開發(fā)過程中對縮放行為進行了一些新的觀察。例如,雖然 8B 參數(shù)模型的 Chinchilla 最優(yōu)訓(xùn)練計算量對應(yīng)于 ~200B 標(biāo)記,但我們發(fā)現(xiàn),即使在模型使用兩個數(shù)量級的數(shù)據(jù)進行訓(xùn)練后,模型性能仍在繼續(xù)提高。我們的 8B 和 70B 參數(shù)模型在我們對高達 15T 的代幣進行訓(xùn)練后,繼續(xù)對數(shù)線性改進。較大的模型可以與這些較小模型的性能相匹配,但訓(xùn)練計算較少,但通常首選較小的模型,因為它們在推理過程中效率更高。
為了訓(xùn)練我們最大的 Llama 3 模型,我們結(jié)合了三種類型的并行化:數(shù)據(jù)并行化、模型并行化和管道并行化。我們最高效的實現(xiàn)是在 16K GPU 上同時訓(xùn)練時,每個 GPU 的計算利用率超過 400 TFLOPS。我們在兩個定制的 24K GPU 集群上執(zhí)行了訓(xùn)練運行。為了最大限度地延長 GPU 正常運行時間,我們開發(fā)了一種先進的新訓(xùn)練堆棧,可自動執(zhí)行錯誤檢測、處理和維護。我們還大大改進了硬件可靠性和靜默數(shù)據(jù)損壞檢測機制,并開發(fā)了新的可擴展存儲系統(tǒng),以減少檢查點和回滾的開銷。這些改進使總體有效培訓(xùn)時間超過 95%??傊?,這些改進將 Llama 3 的訓(xùn)練效率提高了 ~3 倍,比 Llama 2 提高了 ~3 倍。
指令微調(diào)
為了在聊天用例中充分釋放預(yù)訓(xùn)練模型的潛力,我們還對指令調(diào)整方法進行了創(chuàng)新。我們的后培訓(xùn)方法是監(jiān)督微調(diào) (SFT)、拒絕抽樣、近端策略優(yōu)化 (PPO) 和直接偏好優(yōu)化 (DPO) 的組合。SFT 中使用的提示的質(zhì)量以及 PPO 和 DPO 中使用的偏好排名對對齊模型的性能有很大影響。我們在模型質(zhì)量方面的一些最大改進來自于仔細管理這些數(shù)據(jù),并對人工注釋者提供的注釋執(zhí)行多輪質(zhì)量保證。
通過 PPO 和 DPO 從偏好排名中學(xué)習(xí)也大大提高了 Llama 3 在推理和編碼任務(wù)上的表現(xiàn)。我們發(fā)現(xiàn),如果你問一個模型一個它難以回答的推理問題,模型有時會產(chǎn)生正確的推理痕跡:模型知道如何產(chǎn)生正確的答案,但它不知道如何選擇它。對偏好排名的訓(xùn)練使模型能夠?qū)W習(xí)如何選擇它。
使用Llma3 構(gòu)建
我們的愿景是使開發(fā)人員能夠自定義 Llama 3 以支持相關(guān)用例,并使其更容易采用最佳實踐和改進開放生態(tài)系統(tǒng)。在此版本中,我們將提供新的信任和安全工具,包括 Llama Guard 2 和 Cybersec Eval 2 的更新組件,并引入了 Code Shield,這是一種用于過濾 生成的不安全代碼的推理時間護欄LLMs。
我們還與 torchtune 共同開發(fā)了 Llama 3,torchtune 是新的 PyTorch 原生庫,可輕松創(chuàng)作、微調(diào)和試驗LLMs。torchtune 提供完全用 PyTorch 編寫的內(nèi)存高效且可破解的訓(xùn)練配方。該庫與Hugging Face、Weights & Biases和EleutherAI等流行平臺集成,甚至支持Executorch,以便在各種移動和邊緣設(shè)備上運行高效推理。對于從提示工程到將 Llama 3 與 LangChain 一起使用的方方面面,我們都有一份全面的入門指南,帶您從下載 Llama 3 一直到在生成式 AI 應(yīng)用程序中大規(guī)模部署。
系統(tǒng)級的責(zé)任方法
我們設(shè)計的 Llama 3 模型具有最大的幫助,同時確保采用行業(yè)領(lǐng)先的方法來負責(zé)任地部署它們。為了實現(xiàn)這一目標(biāo),我們采用了一種新的系統(tǒng)級方法來負責(zé)任地開發(fā)和部署 Llama。我們將 Llama 模型設(shè)想為更廣泛系統(tǒng)的一部分,讓開發(fā)人員坐在駕駛座上。Llama 模型將作為系統(tǒng)的基礎(chǔ)部分,開發(fā)人員在設(shè)計時會考慮到他們獨特的最終目標(biāo)。
指令微調(diào)在確保模型安全方面也起著重要作用。我們的指令微調(diào)模型已通過內(nèi)部和外部努力進行了安全測試。我們的紅隊方法利用人類專家和自動化方法來生成對抗性提示,試圖引發(fā)有問題的響應(yīng)。例如,我們應(yīng)用全面的測試來評估與化學(xué)、生物、網(wǎng)絡(luò)安全和其他風(fēng)險領(lǐng)域相關(guān)的濫用風(fēng)險。所有這些努力都是迭代的,用于為正在發(fā)布的模型的安全微調(diào)提供信息。您可以在模型卡中閱讀有關(guān)我們努力的更多信息。
Llama Guard 模型旨在成為及時和響應(yīng)安全的基礎(chǔ),并且可以根據(jù)應(yīng)用需求輕松微調(diào)以創(chuàng)建新的分類法。作為起點,新的 Llama Guard 2 使用最近宣布的 MLCommons 分類法,以支持這一重要領(lǐng)域的行業(yè)標(biāo)準(zhǔn)的出現(xiàn)。此外,CyberSecEval 2 在其前身的基礎(chǔ)上進行了擴展,增加了允許濫用其代碼解釋器、攻擊性網(wǎng)絡(luò)安全功能以及對提示注入攻擊的敏感性的傾向的措施LLM(在我們的技術(shù)論文中了解更多信息)。最后,我們引入了 Code Shield,它增加了對 生成的LLMs不安全代碼的推理時過濾的支持。這樣可以降低不安全的代碼建議、代碼解釋器濫用預(yù)防和安全命令執(zhí)行的風(fēng)險。
隨著生成式人工智能領(lǐng)域的發(fā)展速度,我們相信開放方法是將生態(tài)系統(tǒng)整合在一起并減輕這些潛在危害的重要方式。作為其中的一部分,我們正在更新我們的負責(zé)任使用指南 (RUG),該指南提供了負責(zé)任的LLMs開發(fā)綜合指南。正如我們在 RUG 中概述的那樣,我們建議根據(jù)適合應(yīng)用程序的內(nèi)容指南檢查和過濾所有輸入和輸出。此外,許多云服務(wù)提供商提供內(nèi)容審核 API 和其他工具,用于負責(zé)任的部署,我們鼓勵開發(fā)人員也考慮使用這些選項。
大規(guī)模部署 Llama 3
Llama 3 將很快在所有主要平臺上推出,包括云提供商、模型 API 提供商等。駱駝 3 將無處不在。
我們的基準(zhǔn)測試顯示,代幣化器提供了更高的代幣效率,與 Llama 2 相比,代幣產(chǎn)量減少了 15%。此外,Group Query Attention (GQA) 現(xiàn)在也已添加到 Llama 3 8B 中。因此,我們觀察到,盡管該模型的參數(shù)比 Llama 2 7B 多了 1B,但分詞器效率和 GQA 的提高有助于保持推理效率與 Llama 2 7B 相當(dāng)。
有關(guān)如何利用所有這些功能的示例,請查看 Llama Recipes,其中包含我們所有的開源代碼,這些代碼可用于從微調(diào)到部署再到模型評估的所有工作。
Llama 3 的下一步是什么?
Llama 3、8B 和 70B 型號標(biāo)志著我們計劃為 Llama 3 發(fā)布的產(chǎn)品的開始。還有很多事情要做。
我們最大的模型參數(shù)超過 400B,雖然這些模型仍在訓(xùn)練中,但我們的團隊對它們的趨勢感到興奮。在接下來的幾個月里,我們將發(fā)布多個具有新功能的模型,包括多模態(tài)、使用多種語言交談的能力、更長的上下文窗口和更強大的整體功能。一旦我們完成了Llama 3的訓(xùn)練,我們還將發(fā)表一篇詳細的研究論文。
為了讓您先睹為快,了解這些模型在繼續(xù)訓(xùn)練時所處的位置,我們認為我們可以分享一些我們最大的LLM模型趨勢的快照。請注意,此數(shù)據(jù)基于仍在訓(xùn)練的 Llama 3 的早期檢查點,今天發(fā)布的模型不支持這些功能。
*有關(guān)計算這些評估的設(shè)置和參數(shù),請參閱評估詳細信息。
我們致力于開放 AI 生態(tài)系統(tǒng)的持續(xù)增長和發(fā)展,以負責(zé)任地發(fā)布我們的模型。我們一直認為,開放會帶來更好、更安全的產(chǎn)品、更快的創(chuàng)新和更健康的整體市場。這對 Meta 有好處,對社會也有好處。我們在 Llama 3 中采用社區(qū)優(yōu)先的方法,從今天開始,這些模型可以在領(lǐng)先的云、托管和硬件平臺上使用,未來還會有更多模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-859576.html
到了這里,關(guān)于Introducing Meta Llama 3: The most capable openly available LLM to date的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!