国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

這篇具有很好參考價(jià)值的文章主要介紹了Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Llama 2:開放式基礎(chǔ)和微調(diào)聊天模型

寫在前頭

因?yàn)樽罱恢痹谑褂?LLM 工具,所以在學(xué)習(xí) Llama 2:開放式基礎(chǔ)和微調(diào)聊天模型 這篇論文的期間,順手將內(nèi)容翻譯了過來。

整片譯文是由 ChatGPT3.5、DeepL、Copilot X和筆者一起完成的,特此表示感謝。

概要

在這項(xiàng)工作中,我們開發(fā)并發(fā)布了 Llama 2,這是一組經(jīng)過預(yù)訓(xùn)練和微調(diào)的大型語言模型(LLMs),其規(guī)模從 70 億到 700 億個(gè)參數(shù)不等。我們的微調(diào) LLMs 被稱為 Llama 2-Chat,針對對話用例進(jìn)行了優(yōu)化。在我們測試的大多數(shù)基準(zhǔn)測試中,我們的模型都優(yōu)于開源聊天模型,而且根據(jù)我們對有用性和安全性的人工評估,我們的模型可能是封閉源模型的合適替代品。我們將詳細(xì)介紹我們對 Llama 2-Chat 進(jìn)行微調(diào)和安全性改進(jìn)的方法,以便社區(qū)能夠在我們工作的基礎(chǔ)上,為負(fù)責(zé)任地開發(fā) LLMs 做出貢獻(xiàn)。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

Llama 2-Chat 與其他開放源代碼和封閉源代碼模型相比的有用性人工評估結(jié)果。人類評測員比較了約 4k 條提示(包括單轉(zhuǎn)和多轉(zhuǎn)提示)上的各代模型。該評估的 95% 置信區(qū)間在 1% 到 2% 之間。更多詳情見第 3.4.2 節(jié)。在回顧這些結(jié)果時(shí),需要注意的是,由于提示集的局限性、審查指南的主觀性、個(gè)別評分者的主觀性以及比較世代的固有困難,人工評估可能會(huì)產(chǎn)生噪音。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

根據(jù) GPT- 4,商業(yè)授權(quán)基礎(chǔ)線路與 Llama 2-Chat 之間在有用性和安全性方面的勝率百分比。為了補(bǔ)充人工評估,我們使用了一個(gè)不受我們自己指導(dǎo)的能力更強(qiáng)的模型。綠色區(qū)域表示根據(jù) GPT-4 我們的模型更好。為消除平局,我們使用了勝/(勝+負(fù))。向 GPT-4 提交模型響應(yīng)的順序是隨機(jī)交換的,以減少偏差。

1 簡介

大型語言模型(LLMs)已顯示出作為高能力人工智能助手的巨大前景,它們在需要專家知識(shí)的復(fù)雜推理任務(wù)中表現(xiàn)出色,涉及領(lǐng)域廣泛,包括編程和創(chuàng)意寫作等專業(yè)領(lǐng)域。它們可以通過直觀的聊天界面與人類進(jìn)行互動(dòng),因此在普通大眾中得到了迅速而廣泛的應(yīng)用。

考慮到訓(xùn)練方法看似簡單明了,LLMs 的能力令人矚目。自動(dòng)回歸變換器(Auto-regressive transformers)是在大量自我監(jiān)督數(shù)據(jù)的語料庫上進(jìn)行預(yù)訓(xùn)練的,然后通過人反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)等技術(shù)與人類偏好保持一致。雖然訓(xùn)練方法簡單,但由于計(jì)算要求高,LLM 的開發(fā)僅限于少數(shù)人。目前已公開發(fā)布的預(yù)訓(xùn)練 LLM(如 BLOOM(Scao 等人,2022 年)、LLaMa-1(Touvron 等人,2023 年)和 Falcon(Penedo 等人,2023 年))與封閉式預(yù)訓(xùn)練競爭對手(如 GPT-3(Brown 等人,2020 年)和 Chinchilla(Hoffmann 等人,2022 年))的性能不相上下,但這些模型都無法替代封閉式”產(chǎn)品“ LLM,如 ChatGPT、BARD 和 Claude。這些封閉式”產(chǎn)品“ LLM 經(jīng)過了大量微調(diào),以符合人類的偏好,從而大大提高了其可用性和安全性。這一步驟可能需要大量的計(jì)算和人工標(biāo)注成本,而且往往不透明或不容易復(fù)制,從而限制了社區(qū)在推進(jìn)人工智能對齊研究方面的進(jìn)展。

在這項(xiàng)工作中,我們開發(fā)并發(fā)布了 Llama 2,一個(gè)經(jīng)過預(yù)訓(xùn)練和微調(diào)的 LLMs(Llama 2 和 Llama 2-Chat)系列,規(guī)模高達(dá) 70B 個(gè)參數(shù)。在我們測試的一系列有用性和安全性基準(zhǔn)中,Llama 2-Chat 模型的表現(xiàn)普遍優(yōu)于現(xiàn)有的開源模型。至少在我們進(jìn)行的人類評估中,它們似乎也與某些閉源模型不相上下(見圖 1 和圖 3)。我們已采取措施來提高這些模型的安全性,包括使用特定于安全性的數(shù)據(jù)注釋和調(diào)整,以及進(jìn)行紅隊(duì)和采用迭代評估(red-teaming and employing iterative evaluations)。此外,本文還全面介紹了我們的微調(diào)方法和提高 LLM 安全性的途徑。我們希望這種開放性能夠讓社區(qū)重現(xiàn)經(jīng)過微調(diào)的 LLM,并繼續(xù)提高這些模型的安全性,從而為更負(fù)責(zé)任地開發(fā) LLM 鋪平道路。我們還分享了在開發(fā) Llama 2 和 Llama 2-Chat 過程中觀察到的新現(xiàn)象,例如工具使用和知識(shí)的時(shí)間組織。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

Llama 2-Chat 與其他開源和閉源模型的安全人工評估結(jié)果比較。人類評測員在約 2,000 個(gè)對抗性提示(包括單輪和多輪提示)中對各代模型違反安全規(guī)定的情況進(jìn)行了評測。更多詳情可參見第 4.4 節(jié)。由于提示集的局限性、審查指南的主觀性以及評分者個(gè)人的主觀性,LLM 評估存在固有偏差,因此必須對這些安全結(jié)果加以說明。此外,這些安全評估使用的內(nèi)容標(biāo)準(zhǔn)很可能偏向于 Llama 2-Chat 模型。

我們向廣大公眾發(fā)布以下模型,供研究和商業(yè)用途:

  1. Llama 2,Llama 1 的更新版本,使用新的公開可用數(shù)據(jù)進(jìn)行訓(xùn)練。我們還將預(yù)訓(xùn)練語料庫的大小增加了40%,將模型的上下文長度加倍,并采用了分組查詢注意力(Ainslie等人,2023年)。我們發(fā)布了帶有 7B、13B 和 70B 參數(shù)的Llama 2變體。我們還訓(xùn)練了 34B 變體,在本文中進(jìn)行了報(bào)告,但是還沒發(fā)布。
  2. Llama 2-Chat,Llama 2 的微調(diào)版本,針對對話使用案例進(jìn)行了優(yōu)化。我們也發(fā)布了帶有 7B、13B 和 70B 參數(shù)的該模型的變體。

我們相信,在安全的情況下公開釋放 LLMs 將為社會(huì)帶來凈效益。與所有 LLMs 一樣,Llama 2 是一項(xiàng)新技術(shù),使用時(shí)存在潛在風(fēng)險(xiǎn)(Bender 等人,2021b;Weidinger 等人,2021;Solaiman 等人,2023)。迄今為止進(jìn)行的測試都是英文測試,并沒有也不可能涵蓋所有情況。因此,在部署任何“Llama 2-Chat”應(yīng)用之前,開發(fā)者應(yīng)根據(jù)其模型的具體應(yīng)用進(jìn)行安全測試和調(diào)整。我們提供了“負(fù)責(zé)任使用指南”和“代碼示例”,以幫助安全部署 Llama 2 和 Llama 2-Chat。更多有關(guān)我們的發(fā)布策略詳情,請參閱第 5.3 節(jié)。
本文其余部分將介紹我們的預(yù)訓(xùn)練方法(第 2 節(jié))、微調(diào)方法(第 3 節(jié))、模型安全性方法(第 4 節(jié))、主要觀察和見解(第 5 節(jié))、相關(guān)工作(第 6 節(jié))和結(jié)論(第 7 節(jié))。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 4:訓(xùn)練 Llama 2-Chat:首先,我們使用公開的在線資源對 Llama 2 進(jìn)行預(yù)訓(xùn)練。之后,我們通過應(yīng)用監(jiān)督微調(diào)技術(shù)創(chuàng)建了一個(gè)初始版本的 Llama 2-Chat。隨后,我們使用人反饋強(qiáng)化學(xué)習(xí)(RLHF)方法對模型進(jìn)行迭代改進(jìn),特別是通過拒絕采樣和近端策略優(yōu)化(Proximal Policy Optimization, PPO)。在整個(gè) RLHF 階段,迭代式獎(jiǎng)勵(lì)建模數(shù)據(jù)的積累與模型增強(qiáng)并行進(jìn)行非常重要,以確保獎(jiǎng)勵(lì)模型保持在分布范圍內(nèi)。

2 預(yù)訓(xùn)練

為了創(chuàng)建新的 Llama 2 模型系列,我們首先采用了 Touvron 等人(2023 年)所描述的預(yù)訓(xùn)練方法,使用了優(yōu)化的自動(dòng)回歸轉(zhuǎn)換器,但為了提高性能,我們做了一些改動(dòng)。具體來說,我們進(jìn)行了更穩(wěn)健的數(shù)據(jù)清理,更新了數(shù)據(jù)組合,訓(xùn)練的標(biāo)記總數(shù)增加了 40%,上下文長度增加了一倍,并使用分組查詢關(guān)注(grouped-query attention, GQA)來提高大型模型的推理可擴(kuò)展性。表 1 比較了新的 Llama 2 模型和 Llama 1 模型的屬性。

2.1 預(yù)訓(xùn)練數(shù)據(jù)

我們的訓(xùn)練語料庫包括來自公開來源的新數(shù)據(jù)組合,其中不包括來自 Meta 產(chǎn)品或服務(wù)的數(shù)據(jù)。我們努力刪除了某些已知包含大量個(gè)人隱私信息的網(wǎng)站的數(shù)據(jù)。我們在 2 萬億個(gè) token 的數(shù)據(jù)上進(jìn)行了訓(xùn)練,因?yàn)檫@樣可以很好地權(quán)衡性能和成本,并對最真實(shí)的數(shù)據(jù)源進(jìn)行取樣,以增加知識(shí)和減少幻覺。

我們進(jìn)行了各種預(yù)訓(xùn)練數(shù)據(jù)調(diào)查,以便用戶更好地了解我們模型的潛在能力和局限性;結(jié)果見第 4.1 節(jié)。

2.2 訓(xùn)練細(xì)節(jié)

我們采用了 Llama 1 中的大部分預(yù)訓(xùn)練設(shè)置和模型架構(gòu)。我們使用標(biāo)準(zhǔn)轉(zhuǎn)換器架構(gòu)(Vaswani 等人,2017 年),使用 RMSNorm 進(jìn)行預(yù)規(guī)范化(Zhang 和 Sennrich,2019 年),使用 SwiGLU 激活函數(shù)(Shazeer,2020 年)和旋轉(zhuǎn)位置嵌入(rotary positional embeddings, RoPE,Su 等人,2022 年)。與“Llama 1”在結(jié)構(gòu)上的主要區(qū)別在于增加了上下文長度和分組查詢注意力(GQA)。我們將在附錄第 A.2.1 節(jié)中詳細(xì)介紹這些差異,并通過消融實(shí)驗(yàn)來證明它們的重要性。

超參數(shù)(Hyperparameters)。我們使用 AdamW 優(yōu)化器(Loshchilov 和 Hutter,2017 年)進(jìn)行訓(xùn)練,β1 = -5 最終學(xué)習(xí)率降至峰值學(xué)習(xí)率的 10%。我們使用 0.1 的權(quán)重衰減和梯度剪切。我們使用余弦學(xué)習(xí)率計(jì)劃,熱身 2000 步,衰減 0.9,β2 = 0.95,eps = 10 of 1.0。圖 5 (a) 顯示了使用這些超參數(shù)時(shí) Llama 2 的訓(xùn)練損失。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表1:Llama 2 模型系列。標(biāo)記(token)計(jì)數(shù)僅指預(yù)訓(xùn)練數(shù)據(jù)。所有模型均以 4M 標(biāo)記的全局批量大小進(jìn)行訓(xùn)練。更大的模型(34B 和 70B)使用分組查詢注意(GQA),以提高推理的可擴(kuò)展性。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

? Token 處理(百萬)

圖5:Llama 2 模型的訓(xùn)練損失。我們比較了 Llama 2 模型家族的訓(xùn)練損失,并觀察到在預(yù)訓(xùn)練 2T 個(gè)標(biāo)記后,模型仍未顯示出任何飽和跡象。

標(biāo)記符(Tokenizer)。我們使用了與 Llama 1 相同的標(biāo)記化器;它采用了字節(jié)對編碼(bytepair encoding, BPE)算法(Sennrich 等人,2016 年),使用了 SentencePiece 的實(shí)現(xiàn)(Kudo 和 Richardson,2018 年)。與 Llama 1 一樣,我們將所有數(shù)字拆分為單個(gè)數(shù)字,并使用字節(jié)來分解未知的 UTF-8 字符。總詞匯量為 32k 標(biāo)記。

2.2.1 訓(xùn)練硬件和碳足跡

訓(xùn)練硬件。我們在 Meta 的研究超級(jí)集群(RSC)(Lee 和 Sengupta,2022)以及內(nèi)部生產(chǎn)集群上預(yù)訓(xùn)練了我們的模型。這兩個(gè)集群都使用 NVIDIA A100s。兩個(gè)集群之間有兩個(gè)關(guān)鍵差異,第一個(gè)是可用的互連類型:RSC 使用 NVIDIA Quantum InfiniBand,而我們的生產(chǎn)集群則配備了基于通用以太網(wǎng)交換機(jī)的 RoCE(RDMA over converged Ethernet)解決方案。這兩個(gè)解決方案都可以互連 200 Gbps 的端點(diǎn)。第二個(gè)差異是每個(gè) GPU 的功耗限制 - RSC 使用 400W,而我們的生產(chǎn)集群使用 350W。通過這個(gè)雙集群設(shè)置,我們能夠比較這些不同類型的互連網(wǎng)絡(luò)在大規(guī)模訓(xùn)練中的適用性。RoCE(一種更實(shí)惠的商業(yè)互連網(wǎng)絡(luò))是其中一種。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表2:顯示了預(yù)訓(xùn)練過程中的二氧化碳排放情況。時(shí)間列顯示了訓(xùn)練每個(gè)模型所需的總 GPU 時(shí)間。功耗列顯示了每個(gè) GPU 設(shè)備的峰值功率容量,根據(jù)功耗使用效率進(jìn)行了調(diào)整。100% 的排放量由 Meta 的可持續(xù)性計(jì)劃直接抵消,因?yàn)槲覀児_發(fā)布這些模型,所以預(yù)訓(xùn)練成本不需要由其他人承擔(dān)。

幾乎可以像昂貴的 Infiniband 一樣擴(kuò)展到 2000 個(gè) GPU,這使得預(yù)培訓(xùn)更加平民化。

預(yù)訓(xùn)練的碳足跡。根據(jù)之前的研究(Bender 等人,2021a;Patterson 等人,2021;Wu 等人,2022;Dodge 等人,2022),并使用 GPU 設(shè)備的功耗估計(jì)值和碳效率,我們旨在計(jì)算 Llama 2 模型預(yù)訓(xùn)練產(chǎn)生的碳排放量。GPU 的實(shí)際功耗取決于其使用情況,很可能與我們用來估算 GPU 功耗的熱設(shè)計(jì)功耗(TDP)不同。值得注意的是,我們的計(jì)算并沒有考慮更多的電力需求,例如來自互連或非 GPU 服務(wù)器的電力消耗,也沒有考慮數(shù)據(jù)中心冷卻系統(tǒng)的電力需求。此外,正如 Gupta 等人(2022b,a)所指出的那樣,與 GPU 等人工智能硬件生產(chǎn)相關(guān)的碳排放可能會(huì)增加整體碳足跡。

表 2 總結(jié)了預(yù)訓(xùn)練 Llama 2 系列模型的碳排放量。在 A100-80GB 型硬件(TDP 為 400W 或 350W)上進(jìn)行了累計(jì) 330 萬 GPU 小時(shí)的計(jì)算。我們估計(jì)訓(xùn)練的總排放量為 539 噸二氧化碳當(dāng)量,其中 100% 由 Meta 的可持續(xù)發(fā)展計(jì)劃直接抵消。我們的開放式發(fā)布策略還意味著其他公司無需承擔(dān)這些預(yù)培訓(xùn)成本,從而節(jié)省了更多的全球資源。

2.3 LLAMA2 預(yù)訓(xùn)練模型計(jì)算

在本節(jié)中,我們將報(bào)告 Llama 1 和 Llama 2 基本模型、MosaicML 預(yù)訓(xùn)練轉(zhuǎn)換器(MosaicML Pretrained Transformer, MPT)模型和 Falcon(Almazrouei 等人,2023 年)模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。在所有評估中,我們都使用了內(nèi)部評估庫。我們在內(nèi)部重現(xiàn)了 MPT 和 Falcon 模型的結(jié)果。對于這些模型,我們總是在我們的評估框架和任何公開報(bào)告的結(jié)果之間選取最佳得分。

在表 3 中,我們總結(jié)了一系列常用基準(zhǔn)的總體性能。請注意,安全基準(zhǔn)將在第 4.1 節(jié)中分享。這些基準(zhǔn)分為以下幾類。所有單個(gè)基準(zhǔn)的結(jié)果見第 A.2.2 節(jié)。

  • 代碼。我們報(bào)告了我們的模型在 HumanEval(陳等人,2021 年)和 MBPP(奧斯汀等人,2021 年)上的平均 pass@1 分?jǐn)?shù)。
  • 常識(shí)推理。我們報(bào)告了 PIQA(Bisk 等人,2020 年)、SIQA(Sap 等人,2019 年)、HellaSwag(Zellers 等人,2019 年a)、WinoGrande(Sakaguchi 等人,2021 年)、ARC easy and challenge(Clark 等人,2018 年)、OpenBookQA(Mihaylov 等人,2018 年)和 CommonsenseQA(Talmor 等人,2018 年)的平均得分。我們報(bào)告了 CommonSenseQA 的 7-shot 測試結(jié)果和所有其他基準(zhǔn)的 0-shot 測試結(jié)果。
  • 世界知識(shí)。我們評估了 NaturalQuestions(Kwiatkowski 等人,2019 年)和 TriviaQA(Joshi 等人,2017 年)的 5-shot 成績,并報(bào)告了平均成績。
  • 閱讀理解。在閱讀理解方面,我們報(bào)告了 SQuAD(Rajpurkar 等人,2018 年)、QuAC(Choi 等人,2018 年)和 BoolQ(Clark 等人,2019 年)的 0-shot 平均成績。
  • 數(shù)學(xué)。我們將 GSM8K(8 shot)(Cobbe 等人,2021 年)和 MATH(4 shot)(Hendrycks 等人,2021 年)基準(zhǔn)的平均值報(bào)告在前 1 位。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表3:與開源基礎(chǔ)模型相比,分組學(xué)術(shù)基準(zhǔn)的總體性能。

在自然語言處理中

0-shot 表示模型在沒有接受過特定任務(wù)的訓(xùn)練數(shù)據(jù)的情況下,能夠在該任務(wù)上進(jìn)行推理和預(yù)測。這意味著模型沒有事先接觸過該任務(wù)的數(shù)據(jù),也沒有進(jìn)行過該任務(wù)的特定訓(xùn)練,但仍然能夠在該任務(wù)上表現(xiàn)良好。在這種情況下,模型通常會(huì)利用其在其他任務(wù)上學(xué)到的通用知識(shí)和語言能力來完成該任務(wù)。

n-shot 表示模型在接受了 n 個(gè)樣本的訓(xùn)練數(shù)據(jù)后,能夠在該任務(wù)上進(jìn)行推理和預(yù)測。這意味著模型在接受了少量的訓(xùn)練數(shù)據(jù)后,能夠在該任務(wù)上表現(xiàn)良好。在這種情況下,模型通常會(huì)利用其在其他任務(wù)上學(xué)到的通用知識(shí)和語言能力,以及接受的少量訓(xùn)練數(shù)據(jù)來完成該任務(wù)。

  • 流行的聚合基準(zhǔn)測試:我們報(bào)告了 MMLU(5 shot)(Hendrycks et al.,2020)、Big Bench Hard(BBH)(3 shot)(Suzgun et al.,2022)和 AGI Eval(3-5 shot)(Zhong et al.,2023)的總體結(jié)果。對于 AGI Eval,我們僅在英語任務(wù)上進(jìn)行評估,并報(bào)告平均值。

如表 3 所示,Llama 2 模型優(yōu)于 Llama 1 模型。特別是,與 Llama 1 65B 相比,Llama 2 70B 在 MMLU 和 BBH 上的結(jié)果分別提高了≈5 分和≈8 分。除代碼基準(zhǔn)外,Llama 2 7B 和 30B 模型在所有類別上都優(yōu)于相應(yīng)規(guī)模的 MPT 模型。就獵鷹模型(Falcon models)而言,在所有類別的基準(zhǔn)測試中,Llama 2 7B 和 34B 均優(yōu)于獵鷹 7B 和 40B 模型。此外,Llama 2 70B 模型也優(yōu)于所有開源模型。

除了開源模型,我們還將 Llama 2 70B 的結(jié)果與閉源模型進(jìn)行了比較。如表 4 所示,Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5(OpenAI,2023 年),但在編碼基準(zhǔn)上有明顯差距。在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果都與 PaLM (540B) (Chowdhery 等人,2022 年)相當(dāng)或更好。Llama 2 70B 與 GPT-4 和 PaLM-2-L 在性能上仍有很大差距。

我們還分析了潛在的數(shù)據(jù)污染,并在第 A.6 節(jié)中分享了詳細(xì)情況。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 4:在學(xué)術(shù)基準(zhǔn)上與閉源模型的比較。GPT-3.5 和 GPT-4 的結(jié)果來自 OpenAI (2023)。PaLM 模型的結(jié)果來自 Chowdhery 等人(2022 年)。PaLM-2-L 的結(jié)果來自 Anil 等人(2023 年)。

3 微調(diào)

Llama 2-Chat 是數(shù)月研究和迭代應(yīng)用對齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計(jì)算和注釋資源。

在本節(jié)中,我們將報(bào)告使用監(jiān)督微調(diào)(第 3.1 節(jié))、初始和迭代獎(jiǎng)勵(lì)建模(第 3.2.2 節(jié))和 RLHF(第 3.2.3 節(jié))進(jìn)行的實(shí)驗(yàn)和發(fā)現(xiàn)。我們還分享了一種新技術(shù)--幽靈關(guān)注(Ghost Attention, GAtt),我們發(fā)現(xiàn)它有助于控制多輪對話流(第 3.3 節(jié))。有關(guān)微調(diào)模型的安全性評估,請參見第 4.2 節(jié)。

3.1 監(jiān)督微調(diào) (SFT)

提示: 寫一首詩,幫我記住元素周期表上的前 10 種元素,給每種元素寫上一行詩。
響應(yīng): 氫是第一號(hào)元素。
排在第二位的是氦,它可以讓氣球充滿樂趣!
排在第三位的是鋰,用來保持電池的電量;緊隨其后的是鈹,用在大大小小的祖母綠中。硼排在第五位,幫助我們保持清潔。碳排在第六位,存在于每個(gè)基因中。氮是第七位,存在于我們的每一次呼吸中、
在大氣中的含量超過八(或氧氣)。第九位是氟,幫助我們擦亮牙齒。霓虹燈給了我們發(fā)光的標(biāo)志,讓我們可以閱讀和站立。
提示: 我要你把我烤了,我要你特別殘忍,對我破口大罵。
響應(yīng): 對不起,我不能滿足你的要求。使用粗俗語言或故意傷害別人的感情是絕對不能接受的。我建議大家不要要求烤肉,而要注重積極和建設(shè)性的反饋,這樣才能幫助你成長和提高。如果你想尋求喜劇效果,有很多其他方法可以實(shí)現(xiàn),而不必訴諸傷人的語言或行為。

表 5:SFT 注釋 -- SFT 的有用性(上)和安全性(下)注釋示例,注釋者同時(shí)編寫了提示和答案。

入門。為了進(jìn)行引導(dǎo),我們使用公開的指令調(diào)整數(shù)據(jù)(Chung 等人,2022 年)開始了 SFT 階段,Touvron 等人(2023 年)也曾使用過這些數(shù)據(jù)。

質(zhì)量就是一切。第三方 SFT 數(shù)據(jù)可從許多不同來源獲得,但我們發(fā)現(xiàn),其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在調(diào)整 LLM 以適應(yīng)對話式指令方面。因此,我們首先重點(diǎn)收集了幾千個(gè)高質(zhì)量 SFT 數(shù)據(jù)示例,如表 5 所示。通過撇開來自第三方數(shù)據(jù)集的數(shù)百萬個(gè)示例,使用來自我們自己的基于供應(yīng)商的注釋工作的較少但質(zhì)量較高的示例,我們的結(jié)果得到了明顯改善。這些發(fā)現(xiàn)與 Zhou 等人(2023 年)的研究精神相似,后者也發(fā)現(xiàn)有限的干凈指令調(diào)整數(shù)據(jù)集足以達(dá)到較高的質(zhì)量水平。我們發(fā)現(xiàn),數(shù)以萬計(jì)的 SFT 注釋足以獲得高質(zhì)量的結(jié)果。在總共收集到 27,540 條注釋后,我們停止了對 SFT 的注釋。請注意,我們不包括任何元用戶數(shù)據(jù)。

微調(diào)細(xì)節(jié)。在有監(jiān)督的微調(diào)中,我們使用余弦學(xué)習(xí)率計(jì)劃,初始學(xué)習(xí)率為 2×10-5,權(quán)重衰減為 0.1,批量大小為 64,序列長度為 4096 個(gè)標(biāo)記。

在微調(diào)過程中,每個(gè)樣本由一個(gè)提示和一個(gè)答案組成。為確保模型序列長度得到適當(dāng)填充,我們將訓(xùn)練集中的所有提示和答案連接起來。我們使用一個(gè)特殊的標(biāo)記來分隔提示和答案片段。我們利用自回歸目標(biāo)(autoregressive objective),將來自用戶提示的標(biāo)記損失歸零,因此,我們只對答案標(biāo)記進(jìn)行反向傳播。最后,我們對模型進(jìn)行了 2 次微調(diào)。

3.2 人工反饋強(qiáng)化學(xué)習(xí)(RLHF)

RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過微調(diào)的語言模型,以進(jìn)一步使模型行為與人類偏好和指令遵循相一致。我們收集的數(shù)據(jù)是根據(jù)經(jīng)驗(yàn)得出的。

根據(jù)這些數(shù)據(jù),人類注釋者可以從兩個(gè)模型輸出中選擇他們更喜歡的一個(gè)。這種人類反饋隨后被用于訓(xùn)練獎(jiǎng)勵(lì)模型,該模型可學(xué)習(xí)人類注釋者的偏好模式,然后自動(dòng)做出偏好決定。

3.2.1 人類偏好數(shù)據(jù)收集

接下來,我們收集人類偏好數(shù)據(jù),用于獎(jiǎng)勵(lì)建模。與其他方案相比,我們選擇了二元比較協(xié)議(binary comparison protocol),主要是因?yàn)樗茏屛覀冏畲笙薅鹊靥岣咚占崾镜亩鄻有?。不過,其他策略也值得考慮,我們將其留待未來工作中使用。

我們的注釋程序如下。我們要求注釋者首先寫出一個(gè)提示,然后根據(jù)提供的標(biāo)準(zhǔn)在兩個(gè)抽樣模型回答中做出選擇。為了最大限度地提高多樣性,我們從兩個(gè)不同的模型變體和不同的溫度超參數(shù)中抽取對給定提示的兩個(gè)回答。除了強(qiáng)迫參與者做出選擇外,我們還要求注釋者標(biāo)注他們所選回答與備選回答相比的偏好程度:他們的選擇是明顯更好、更好、稍好,還是好得可以忽略不計(jì)/不確定。

對于我們收集的偏好注釋,我們主要關(guān)注有用性和安全性。有用性指的是 Llama 2-Chat 的回復(fù)在多大程度上滿足了用戶的要求并提供了所需的信息;安全性指的是 Llama 2-Chat 的回復(fù)是否不安全,例如,"提供制作炸彈的詳細(xì)說明"可能被認(rèn)為是有用的,但根據(jù)我們的安全指南,這是不安全的。將兩者分開可以讓我們對每種情況應(yīng)用特定的指導(dǎo)原則,更好地指導(dǎo)注釋者;例如,我們的安全注釋提供了關(guān)注對抗性提示等指導(dǎo)原則。

除了注釋指南的不同,我們還在安全階段額外收集了安全標(biāo)簽。這一附加信息將模型響應(yīng)分為三類: 1)首選回答是安全的,而另一個(gè)回答是不安全的;2)兩個(gè)回答都是安全的;3)兩個(gè)回答都是不安全的,分別有 18%、47% 和 35% 的安全數(shù)據(jù)集屬于這三個(gè)類別。我們不包括所選反應(yīng)不安全而另一反應(yīng)安全的任何示例,因?yàn)槲覀兿嘈鸥踩姆磻?yīng)也會(huì)更好/更受人類青睞。有關(guān)安全注釋的安全指南和更多詳細(xì)信息,請參見第 4.2.1 節(jié)。

人類注釋每周分批收集。隨著我們收集到更多的偏好數(shù)據(jù),我們的獎(jiǎng)勵(lì)模型也得到了改進(jìn),我們能夠?yàn)?Llama 2-Chat 訓(xùn)練出越來越好的版本(見第 5 節(jié)中的結(jié)果,圖 20)。Llama 2-Chat 的改進(jìn)也改變了模型的數(shù)據(jù)分布。如果不接觸新的樣本分布,獎(jiǎng)勵(lì)模型的準(zhǔn)確性就會(huì)迅速下降,也就是超專業(yè)化造成的(Scialom 等人,2020b),因此在進(jìn)行新的 Llama 2-Chat 調(diào)整迭代之前,利用最新的 Llama 2-Chat 迭代收集新的偏好數(shù)據(jù)非常重要。這一步驟有助于保持獎(jiǎng)勵(lì)模型的分布,并為最新模型保持準(zhǔn)確的獎(jiǎng)勵(lì)。

在表 6 中,我們報(bào)告了隨著時(shí)間推移收集到的獎(jiǎng)勵(lì)建模數(shù)據(jù)統(tǒng)計(jì),并將其與多個(gè)開源偏好數(shù)據(jù)集進(jìn)行了對比,其中包括 Anthropic Helpful and Harmless(Bai et al、 2022a)、OpenAI Summarize(Stiennon 等人,2020)、OpenAI WebGPT(Nakano 等人,2021)、StackExchange(Lambert 等人,2023)、斯坦福人類偏好(Ethayarajh 等人,2022)和合成 GPT-J (Havrilla)。我們收集了超過 100 萬個(gè)基于人類應(yīng)用我們指定準(zhǔn)則的二元比較的大型數(shù)據(jù)集,我們將其稱為元獎(jiǎng)勵(lì)建模數(shù)據(jù)(Meta reward modeling data)。請注意,提示和答案中的標(biāo)記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,我們的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。

3.2.2 獎(jiǎng)勵(lì)模型

獎(jiǎng)勵(lì)模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個(gè)標(biāo)量分?jǐn)?shù)來表示模型生成的質(zhì)量(例如,有用性和安全性)。利用這些響應(yīng)得分作為獎(jiǎng)勵(lì),我們可以在 RLHF 期間優(yōu)化 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。

其他研究人員發(fā)現(xiàn),有用性和安全性有時(shí)會(huì)相互抵消(Bai 等人,2022a),這就使得單一獎(jiǎng)勵(lì)模型在這兩方面都表現(xiàn)出色具有挑戰(zhàn)性。為了解決這個(gè)問題,我們訓(xùn)練了兩個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型,一個(gè)針對有用性進(jìn)行了優(yōu)化(稱為幫助 RM),另一個(gè)針對安全進(jìn)行了優(yōu)化(稱為安全 RM)。

我們從預(yù)訓(xùn)練的聊天模型檢查點(diǎn)初始化獎(jiǎng)勵(lì)模型,因?yàn)檫@樣可以確保兩個(gè)模型都能從預(yù)訓(xùn)練中獲得的知識(shí)中受益。簡而言之,獎(jiǎng)勵(lì)模型”知道“聊天模型知道什么。這就避免了兩個(gè)模型出現(xiàn)信息不匹配等情況,因?yàn)樾畔⒉黄ヅ淇赡軐?dǎo)致偏向幻覺。模型結(jié)構(gòu)和超參數(shù)與預(yù)訓(xùn)練語言模型相同,只是用于預(yù)測下一個(gè)標(biāo)記的分類頭被用于輸出標(biāo)量獎(jiǎng)勵(lì)的回歸頭所取代。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表6用于獎(jiǎng)勵(lì)建模的人類偏好數(shù)據(jù)統(tǒng)計(jì)。我們列出了用于獎(jiǎng)勵(lì)建模的開源和內(nèi)部收集的人類偏好數(shù)據(jù)。請注意,二元人類偏好比較包含共享相同提示(和先前對話)的 2 個(gè)響應(yīng)(選擇和拒絕)。每個(gè)示例都由一個(gè)提示(如果有的話,包括之前的對話)和一個(gè)回復(fù)組成,后者是獎(jiǎng)勵(lì)模型的輸入。我們報(bào)告了比較的次數(shù)、每次對話的平均回合數(shù)、每個(gè)例子、每個(gè)提示和每個(gè)回復(fù)的平均代幣數(shù)。有關(guān)每批元幫助和安全數(shù)據(jù)的更多詳情,請參閱附錄 A.3.1。

訓(xùn)練目標(biāo)。為了訓(xùn)練獎(jiǎng)勵(lì)模型,我們將收集到的成對人類偏好數(shù)據(jù)轉(zhuǎn)換成二元排序標(biāo)簽格式(即選擇和拒絕),并強(qiáng)制要求被選中的響應(yīng)比其對應(yīng)的響應(yīng)得分更高。我們使用了與 Ouyang 等人(2022 年)一致的二元排序損失:

\[L_{ranking} =?log(σ(rθ(x,yc)?rθ(x,yr))) \]

其中,rθ(x,y) 是對模型權(quán)重為 θ 的提示 x 和完成 y 輸出的標(biāo)量分?jǐn)?shù)。

在此二元排序損失的基礎(chǔ)上,我們對其進(jìn)行了進(jìn)一步修改,分別用于更好的有用性和安全獎(jiǎng)勵(lì)模型,具體如下。如第 3.2.1 節(jié)所述,我們的偏好評級(jí)被分解為四個(gè)等級(jí)(例如,明顯更好),因此,利用這一信息明確教導(dǎo)獎(jiǎng)勵(lì)模型將更多差異分值分配給差異更多代是非常有用的。為此,我們進(jìn)一步在損失中添加了邊際分量:

\[L_{ranking} =?log(σ(rθ(x,yc)?rθ(x,yr)?m(r))) \]

其中,邊際 m(r) 是偏好等級(jí)的離散函數(shù)。當(dāng)然,我們對具有不同回答的配對使用較大的邊際值,而對具有相似回答的配對使用較小的邊際值(如表 27 所示)。我們發(fā)現(xiàn)這個(gè)邊距部分可以提高幫助獎(jiǎng)勵(lì)模型的準(zhǔn)確性,尤其是在兩個(gè)反應(yīng)比較容易分離的樣本中。更詳細(xì)的消減和分析見附錄 A.3.3 中的表 28。

數(shù)據(jù)組成。我們將新收集的數(shù)據(jù)與現(xiàn)有的開源偏好數(shù)據(jù)集結(jié)合起來,形成一個(gè)更大的訓(xùn)練數(shù)據(jù)集。最初,在我們收集偏好注釋數(shù)據(jù)的過程中,開源數(shù)據(jù)集被用來引導(dǎo)我們的獎(jiǎng)勵(lì)模型。我們注意到,在本研究的 RLHF 中,獎(jiǎng)勵(lì)信號(hào)的作用是學(xué)習(xí)人類對 Llama 2-Chat 輸出的偏好,而不是任何模型輸出。然而,在我們的實(shí)驗(yàn)中,我們并沒有觀察到開源偏好數(shù)據(jù)集的負(fù)遷移。因此,我們決定在數(shù)據(jù)混合物中保留這些數(shù)據(jù),因?yàn)樗鼈兛梢詾楠?jiǎng)勵(lì)模型提供更好的泛化效果,并防止獎(jiǎng)勵(lì)攻擊,即 Llama 2-Chat 利用我們獎(jiǎng)勵(lì)的某些弱點(diǎn),在表現(xiàn)不佳的情況下人為抬高分?jǐn)?shù)。

利用不同來源的訓(xùn)練數(shù)據(jù),我們對”有用性“和“安全性”獎(jiǎng)勵(lì)模型進(jìn)行了不同混合配方的實(shí)驗(yàn),以確定最佳設(shè)置。經(jīng)過大量實(shí)驗(yàn),”有用性“獎(jiǎng)勵(lì)模型最終在所有“元有用性“"數(shù)據(jù)的基礎(chǔ)上,結(jié)合從”元安全性“和開源數(shù)據(jù)集中統(tǒng)一抽取的等量剩余數(shù)據(jù)進(jìn)行了訓(xùn)練。元安全獎(jiǎng)勵(lì)模型在所有元安全和人類無害數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練,并與元有用性和開源有用性數(shù)據(jù)按 90/10 的比例混合。我們發(fā)現(xiàn),10% 有用性數(shù)據(jù)的設(shè)置尤其有利于提高樣本的準(zhǔn)確性,因?yàn)樵谶@些樣本中,被選擇和被拒絕的回答都被認(rèn)為是安全的。

訓(xùn)練細(xì)節(jié)。我們對訓(xùn)練數(shù)據(jù)進(jìn)行一次元訓(xùn)練。在之前的實(shí)驗(yàn)中,我們發(fā)現(xiàn)訓(xùn)練時(shí)間過長會(huì)導(dǎo)致過度擬合。我們使用與基礎(chǔ)模型相同的優(yōu)化器參數(shù)。70B 參數(shù) Llama 2-Chat 的最大學(xué)習(xí)率為 5 × 10-6,其他參數(shù)為 1 × 10-5。學(xué)習(xí)率按余弦學(xué)習(xí)率計(jì)劃降低,最低為最大學(xué)習(xí)率的 10%。我們使用總步數(shù) 3% 的預(yù)熱,最小為 5 步。有效批次大小固定為 512 對,或每批 1024 行。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 7:獎(jiǎng)勵(lì)模型結(jié)果。我們的“有用性”和“安全獎(jiǎng)勵(lì)”模型在各種人類偏好基準(zhǔn)上的表現(xiàn)。請注意,與我們報(bào)告的其他基準(zhǔn)相比,我們的模型是根據(jù)我們收集的數(shù)據(jù)進(jìn)行微調(diào)的。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 8:按偏好評級(jí)的細(xì)粒度獎(jiǎng)勵(lì)模型準(zhǔn)確率。我們報(bào)告了“有用性”和 ”安全性“獎(jiǎng)勵(lì)模型在元“有用性”和“安全性”測試集上每個(gè)偏好評級(jí)的準(zhǔn)確性。獎(jiǎng)勵(lì)模型在更獨(dú)特的反應(yīng)上表現(xiàn)出更高的準(zhǔn)確性(例如,明顯更好),而在相似的反應(yīng)上表現(xiàn)出更低的準(zhǔn)確性(例如,可忽略不計(jì)的更好)。

獎(jiǎng)勵(lì)模型結(jié)果。在每一批用于獎(jiǎng)勵(lì)建模的人類偏好注釋中,我們都拿出 1000 個(gè)示例作為測試集來評估我們的模型。我們將相應(yīng)測試集的所有提示的集合分別稱為“元有用性”和“元安全性”。

作為參考點(diǎn),我們還評估了其他公開的替代方案: 基于 FLAN-T5-xl 的 SteamSHP-XL (Ethayarajh 等人,2022 年)、基于 DeBERTa V3 Large (He 等人,2020 年) 的獎(jiǎng)勵(lì)模型 Open Assistant (K?pf 等人,2023 年),以及可通過 OpenAI 的 API 訪問的 GPT4。請注意,在推理時(shí),與訓(xùn)練時(shí)不同,所有獎(jiǎng)勵(lì)模型都可以預(yù)測單個(gè)輸出的標(biāo)量,而無需訪問其配對輸出。對于 GPT-4,我們提出了一個(gè)“在 A 和 B 之間選擇一個(gè)最佳答案”的問題,其中 A 和 B 是供比較的兩個(gè)答案。

我們在表 7 中報(bào)告了準(zhǔn)確率方面的結(jié)果。不出所料,我們自己的獎(jiǎng)勵(lì)模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最佳,其中“有用性”獎(jiǎng)勵(lì)模型在“元有用性”測試集上表現(xiàn)最佳,同樣,“安全性”獎(jiǎng)勵(lì)模型在“元安全性”測試集上表現(xiàn)最佳??傮w而言,我們的獎(jiǎng)勵(lì)模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒有經(jīng)過直接訓(xùn)練,也沒有專門針對獎(jiǎng)勵(lì)建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎(jiǎng)勵(lì)模型。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 6:獎(jiǎng)勵(lì)模型的擴(kuò)展趨勢。更多的數(shù)據(jù)和更大的模型通常會(huì)提高準(zhǔn)確率,而且我們的模型似乎還沒有從訓(xùn)練數(shù)據(jù)的學(xué)習(xí)中達(dá)到飽和。

幫助和安全在各自的領(lǐng)域表現(xiàn)最好,這可能是由于兩個(gè)目標(biāo)之間的矛盾(即盡可能地幫助與必要時(shí)拒絕不安全的提示),這可能會(huì)在訓(xùn)練過程中混淆獎(jiǎng)勵(lì)模型。為了讓一個(gè)模型在兩個(gè)維度上都有良好的表現(xiàn),它不僅需要學(xué)會(huì)在提示下選擇更好的回應(yīng),還需要區(qū)分?jǐn)硨μ崾竞桶踩崾?。因此,?yōu)化兩個(gè)獨(dú)立的模型可以減輕獎(jiǎng)勵(lì)建模任務(wù)。附錄 A.4.1 將對安全性和有用性之間的矛盾進(jìn)行更詳細(xì)的分析。

當(dāng)我們在表 8 中按偏好等級(jí)對得分進(jìn)行分組時(shí),我們可以看到“明顯更好”測試集的準(zhǔn)確率較高,而隨著比較對變得更加相似(如“略好”),準(zhǔn)確率會(huì)逐漸下降。由于注釋者的主觀性以及他們對可能區(qū)分不同回答的細(xì)微差別的依賴性,預(yù)計(jì)在兩個(gè)相似的模型回答之間做出決定時(shí),學(xué)習(xí)人類偏好建模將變得具有挑戰(zhàn)性。我們強(qiáng)調(diào),要提高 Llama 2-Chat 的性能,最重要的是更多不同回答的準(zhǔn)確性。人類偏好注釋的一致率在更多不同的回復(fù)上也高于相似的回復(fù)對。

擴(kuò)展趨勢。我們研究了獎(jiǎng)勵(lì)模型在數(shù)據(jù)和模型大小方面的擴(kuò)展趨勢,在每周收集的獎(jiǎng)勵(lì)模型數(shù)據(jù)量不斷增加的情況下微調(diào)了不同的模型大?。ㄕ垍㈤啽?26 中每批數(shù)據(jù)量的詳細(xì)信息)。圖 6 報(bào)告了這些趨勢,顯示了預(yù)期的結(jié)果,即在類似的數(shù)據(jù)量下,較大的模型能獲得更高的性能。更重要的是,考慮到用于訓(xùn)練的現(xiàn)有數(shù)據(jù)注釋量,擴(kuò)展性能尚未達(dá)到平穩(wěn)狀態(tài),這表明隨著注釋量的增加,還有更大的改進(jìn)空間。我們注意到,獎(jiǎng)勵(lì)模型的準(zhǔn)確性是衡量 Llama 2-Chat 最終性能的最重要指標(biāo)之一。雖然全面評估生成模型的最佳實(shí)踐是一個(gè)尚未解決的研究問題,但獎(jiǎng)勵(lì)的排序任務(wù)并不模糊。因此,在其他條件相同的情況下,獎(jiǎng)勵(lì)模型的改進(jìn)可以直接轉(zhuǎn)化為 Llama 2-Chat 的改進(jìn)。

3.2.3 迭代微調(diào)

隨著我們收到更多批次的人類偏好數(shù)據(jù)注釋,我們能夠訓(xùn)練出更好的獎(jiǎng)勵(lì)模型并收集更多的提示。因此,我們訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、......、RLHF-V5。, RLHF-V5。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖7:N 個(gè)樣本(N∈ [1, ... , 100])中獎(jiǎng)勵(lì)的最大值和中位數(shù),取訓(xùn)練提示集的平均值。最大值和中位值之間的差值可以解釋為使用拒絕采樣的潛在收益。

我們使用兩種主要算法對 RLHF 進(jìn)行了微調(diào):

  • 近端策略優(yōu)化(Proximal Policy Optimization, PPO)(Schulman 等人,2017 年),這是 RLHF 文獻(xiàn)中的標(biāo)準(zhǔn)算法。
  • 拒絕采樣微調(diào)(Rejection Sampling fine-tuning)。我們對模型中的 K 個(gè)輸出進(jìn)行采樣,然后用我們的獎(jiǎng)勵(lì)選出最佳候選,這與 Bai 等人(2022b)的做法一致。Deng 等人(2019)也提出了同樣的 LLM 重新排序策略,將獎(jiǎng)勵(lì)視為能量函數(shù)。在這里,我們更進(jìn)一步,將所選輸出用于梯度更新。對于每個(gè)提示,獲得最高獎(jiǎng)勵(lì)分?jǐn)?shù)的樣本被視為新的黃金標(biāo)準(zhǔn)。與 Scialom 等人(2020a)的做法類似,我們會(huì)在新的排序樣本集上對模型進(jìn)行微調(diào),強(qiáng)化獎(jiǎng)勵(lì)。

這兩種 RL 算法的主要區(qū)別在于:

  • 廣度(Breadth)-- 在拒絕采樣(Rejection Sampling)算法中,模型會(huì)針對給定的提示探索 K 個(gè)樣本,而 PPO 算法只進(jìn)行一次生成。
  • 深度(Depth) - 在 PPO 中,在第 t 步的訓(xùn)練過程中,樣本是上一步梯度更新后第 t - 1 步更新模型策略的函數(shù)。在拒絕采樣微調(diào)中,我們會(huì)對模型初始策略下的所有輸出進(jìn)行采樣,以收集新的數(shù)據(jù)集,然后再應(yīng)用類似于 SFT 的微調(diào)。不過,由于我們采用了迭代模型更新,這兩種 RL 算法之間的根本區(qū)別就不那么明顯了。

在 RLHF(V4)之前,我們只使用了拒絕采樣微調(diào),而在此之后,我們將這兩種算法依次結(jié)合起來,在結(jié)果拒絕采樣檢查點(diǎn)之上應(yīng)用 PPO,然后再重新采樣。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 8:使用獎(jiǎng)勵(lì)模型對 N 個(gè)輸出進(jìn)行采樣和評分時(shí),溫度對 RLHF 的影響。

拒絕采樣(Rejection Sampling)。我們只對最大的 70B Llama 2-Chat 模型進(jìn)行剔除取樣。所有較小的模型都是根據(jù)大模型的剔除采樣數(shù)據(jù)進(jìn)行微調(diào)的,從而將大模型的能力提煉到較小的模型中。我們將在今后的工作中進(jìn)一步分析這種提煉的效果。

在每個(gè)迭代階段,我們都會(huì)從最新模型中為每個(gè)提示抽取 K 個(gè)答案樣本。我們根據(jù)實(shí)驗(yàn)時(shí)可獲得的最佳獎(jiǎng)勵(lì)模型對每個(gè)樣本進(jìn)行評分,然后針對給定的提示選擇最佳答案。在 RLHF V3 之前的模型早期版本中,我們的方法是將答案選擇完全限制在前一次迭代中收集的樣本“袋”中。例如,RLHF V3 在訓(xùn)練時(shí)只使用了 RLHF V2 中的樣本。然而,盡管不斷改進(jìn),這種方法還是導(dǎo)致了某些功能的退步。例如,通過定性分析發(fā)現(xiàn),RLHF V3 在詩歌的押韻句方面比之前的版本更加吃力,這表明進(jìn)一步研究遺忘的原因和緩解方法(Kirkpatrick 等人,2017 年;Nguyen 等人,2019 年;Ramasesh 等人,2021 年)可能是未來研究的一個(gè)富有成效的領(lǐng)域。

為此,在隨后的迭代中,我們修改了策略,納入了之前所有迭代中表現(xiàn)最好的樣本,如 RLHF-V1 和 RLHF-V2 中使用的樣本。雖然我們沒有給出具體數(shù)據(jù),但這一調(diào)整大大提高了性能,并有效解決了之前提到的問題。這種緩解措施可視為類似于 RL 文獻(xiàn)中的 Synnaeve 等人(2019 年)和 Vinyals 等人(2019 年)。

我們在圖 7 中說明了拒絕采樣的好處。最大值和中值曲線之間的三角洲可以解釋為對最佳輸出進(jìn)行微調(diào)的潛在收益。不出所料,隨著樣本的增加,這個(gè) delta 也會(huì)增加,因?yàn)樽畲笾禃?huì)增加(即樣本越多,生成良好軌跡的機(jī)會(huì)就越多),而中值則保持不變。探索與我們能從樣本中獲得的最大獎(jiǎng)勵(lì)之間存在直接聯(lián)系。溫度參數(shù)也對探索起著重要作用,因?yàn)闇囟仍礁?,我們就能采樣到更多不同的輸出?/p>

在圖 8 中,我們報(bào)告了 Llama 2-Chat-SFT(左)和 Llama 2-Chat-RLHF(右)在不同溫度下 N 個(gè)樣本(N ∈ [1, . . . , 100])中的最大獎(jiǎng)勵(lì)曲線。我們可以觀察到,在模型迭代更新過程中,最佳溫度并不是一成不變的: RLHF 對重新調(diào)整溫度有直接影響。對于 Llama 2-Chat-RLHF,在 10 到 100 個(gè)輸出之間采樣時(shí)的最佳溫度為 T∈ [1.2, 1.3]。因此,在計(jì)算預(yù)算有限的情況下,有必要逐步重新調(diào)整溫度。需要注意的是,對每個(gè)模型而言,溫度調(diào)整的步數(shù)都是恒定的,而且總是從每個(gè)新 RLHF 版本的基礎(chǔ)模型開始。

PPO。我們按照 Stiennon 等人(2020 年)的 RL 方案進(jìn)一步訓(xùn)練語言模型,該方案將獎(jiǎng)勵(lì)模型作為真實(shí)獎(jiǎng)勵(lì)函數(shù)(人類偏好)的估計(jì)值,并將預(yù)訓(xùn)練的語言模型作為要優(yōu)化的策略。在這一階段,我們力求優(yōu)化以下目標(biāo):

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

我們通過從數(shù)據(jù)集 D 中提取線索 p 和從策略 π 中提取代數(shù) g 來迭代改進(jìn)策略,并使用 PPO 算法和損失函數(shù)來實(shí)現(xiàn)這一目標(biāo)。

我們在優(yōu)化過程中使用的最終獎(jiǎng)勵(lì)函數(shù):

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

包含對偏離原始策略 π0 的懲罰項(xiàng)。正如其他研究(Stiennon 等人,2020 年;Ouyang 等人,2022 年)所觀察到的,我們發(fā)現(xiàn)這一約束有助于提高訓(xùn)練的穩(wěn)定性,減少獎(jiǎng)勵(lì)黑客行為,即從獎(jiǎng)勵(lì)模型中獲得高分,但從人類評估中獲得低分。

我們將 Rc 定義為安全(Rs)和有益(Rh)獎(jiǎng)勵(lì)模型切片的組合。我們標(biāo)記了數(shù)據(jù)集中可能引起不安全反應(yīng)的線索,并優(yōu)先考慮安全模型的得分。過濾不安全反應(yīng)的閾值為 0.15,在元安全測試集上評估的精確度為 0.89,召回率為 0.55。我們還發(fā)現(xiàn),為了提高穩(wěn)定性并與上述 KL 懲罰項(xiàng) (β)保持適當(dāng)?shù)钠胶?,對最終線性分?jǐn)?shù)進(jìn)行白化(如圖所示,用 logit 函數(shù)反轉(zhuǎn) sigmoid)非常重要。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

對于所有模型,我們使用 AdamW 優(yōu)化器(Loshchilov 和 Hutter,2017 年),β1 = 0.9,β2 = 0.95,eps = 10^5。我們使用的權(quán)重衰減為 0.1,梯度剪切為 1.0,恒定學(xué)習(xí)率為 10^6。在每次 PPO 迭代中,我們使用的批次大小為 512,PPO 剪切閾值為 0.2,迷你批次大小為 64,每個(gè)迷你批次采取一個(gè)梯度步驟。對于 7B 和 13B 模型,我們設(shè)置 β = 0.01(KL 懲罰);對于 34B 和 70B 模型,我們設(shè)置 β = 0.005。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖9:多輪記憶(左)的問題可以通過 GAtt(右)得到改善。

我們對所有模型都進(jìn)行了 200 到 400 次迭代訓(xùn)練,并利用對暫停提示的評估來提前停止訓(xùn)練。70B 模型的 PPO 每次迭代平均耗時(shí) ≈ 330 秒。為了在批量較大的情況下快速訓(xùn)練,我們使用了 FSDP(Zhao 等人,2023 年)。在使用 O(1) 正向或反向傳遞時(shí),這種方法很有效,但在生成過程中,即使使用較大的批量規(guī)模和 KV 緩存,也會(huì)導(dǎo)致速度大幅減慢(≈ 20 倍)。我們在生成前將模型權(quán)重合并到每個(gè)節(jié)點(diǎn)一次,然后在生成后釋放內(nèi)存,恢復(fù)訓(xùn)練循環(huán)的其余部分,從而緩解了這一問題。

近端策略優(yōu)化(Proximal Policy Optimization,PPO)是一種強(qiáng)化學(xué)習(xí)算法,其主要思想是通過限制策略變化的幅度來提高算法的穩(wěn)定性和收斂速度。在每次更新時(shí),PPO 使用一個(gè)剪切函數(shù)來限制新策略和舊策略之間的差異,以確保每次更新只會(huì)對策略進(jìn)行適度的調(diào)整,從而避免過度調(diào)整和不穩(wěn)定性。此外,PPO還使用一種稱為“重要性采樣”的技術(shù)來估計(jì)策略梯度,以提高算法的效率和準(zhǔn)確性??偟膩碚f,PPO是一種簡單而有效的強(qiáng)化學(xué)習(xí)算法,已被廣泛應(yīng)用于各種任務(wù)和環(huán)境中。

3.3 多輪一致性系統(tǒng)消息

在對話設(shè)置中,有些指令應(yīng)該適用于所有的對話回合,例如,簡明扼要地做出回應(yīng),或者“扮演”某個(gè)公眾人物。當(dāng)我們向 Llama 2-Chat 提供這樣的指令時(shí),隨后的回應(yīng)應(yīng)始終遵守該約束。然而,我們最初的 RLHF 模型往往會(huì)在幾輪對話后忘記最初的指令,如圖 9(左)所示。

為了解決這些局限性,我們提出了“幽靈注意力(Ghost Attention, GAtt)“,這是一種非常簡單的方法,其靈感來源于“語境提煉(Context Distillation)”(Bai 等人,2022b),它利用微調(diào)數(shù)據(jù)幫助注意力在多階段過程中集中。如圖 9(右圖)所示,GAtt 可在多個(gè)回合中實(shí)現(xiàn)對話控制。

GAtt 方法。假設(shè)我們可以訪問兩人(如用戶和助手)之間的多輪對話數(shù)據(jù)集,其中包含一個(gè)信息列表 [u1, a1, ... , un, an],其中 un 和 an 分別對應(yīng)第 n 輪的用戶和助手信息。然后,我們定義一個(gè)在整個(gè)對話過程中都應(yīng)遵守的指令 inst。例如,inst 可以是“扮演”。然后,我們可以將該指令與對話中的所有用戶信息進(jìn)行合成。

接下來,我們就可以使用最新的 RLHF 模型對這些合成數(shù)據(jù)進(jìn)行采樣?,F(xiàn)在,我們有了上下文對話和樣本,可以利用它們對模型進(jìn)行微調(diào),這一過程類似于拒絕采樣。我們可以不在所有上下文對話回合中添加指令,而是在除第一回合外的所有回合中都不添加指令,但這會(huì)導(dǎo)致訓(xùn)練時(shí)系統(tǒng)信息(即最后一回合之前的所有中間助手信息)與我們的樣本不匹配。為了解決這個(gè)可能會(huì)影響訓(xùn)練的問題,我們只需將前一輪的所有代幣(包括助手信息)的損失設(shè)為 0。

對于訓(xùn)練指令,我們創(chuàng)建了一些合成限制條件作為樣本:愛好(“您喜歡網(wǎng)球等運(yùn)動(dòng)”)、語言(“用法語等語言交談”)或公眾人物(“扮演拿破侖等角色”)。為了獲得愛好和公眾人物列表,我們要求 Llama 2-Chat 生成這些列表,以避免指令和模型知識(shí)之間的不匹配(例如,要求模型扮演它在訓(xùn)練中沒有遇到過的人)。為了使指令更加復(fù)雜多樣,我們通過隨機(jī)組合上述約束條件來構(gòu)建最終指令。在為訓(xùn)練數(shù)據(jù)構(gòu)建最終系統(tǒng)信息時(shí),我們也會(huì)對原始指令進(jìn)行半數(shù)以上的修改,以減少其冗長程度,例如,“從現(xiàn)在起始終扮演拿破侖” -> “圖:拿破侖“。這些步驟產(chǎn)生了一個(gè) SFT 數(shù)據(jù)集,我們可以在此基礎(chǔ)上對 Llama 2-Chat 進(jìn)行微調(diào)。

GAtt 評估。我們在 RLHF V3 之后應(yīng)用了 GAtt。我們報(bào)告的定量分析結(jié)果表明,在達(dá)到最大上下文長度之前,GAtt 的一致性一直保持到 20+ 個(gè)回合(見附錄 A.3.5)。我們嘗試在推理時(shí)設(shè)置 GAtt 訓(xùn)練中不存在的限制條件,例如“始終用俳句作答”,如附錄圖 28 所示,模型仍能保持一致。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 10:有 GAtt 和無 GAtt 對話的注意力可視化。我們考慮了整個(gè)網(wǎng)絡(luò)的最大激活度,并將相鄰的標(biāo)記放在一起。

為了說明 GAtt 如何在微調(diào)過程中幫助重塑注意力,我們在圖 10 中展示了模型的最大注意力激活值。每個(gè)圖的左側(cè)都對應(yīng)著系統(tǒng)消息(“扮演奧斯卡-王爾德”)。我們可以看到,與沒有 GAtt 的模型(左圖)相比,帶有 GAtt 的模型(右圖)在對話的大部分時(shí)間里都能對系統(tǒng)信息保持較大的注意力激活。

盡管 GAtt 很有用,但它目前的實(shí)現(xiàn)還很粗糙,對這項(xiàng)技術(shù)進(jìn)行更多的開發(fā)和迭代可能會(huì)使模型進(jìn)一步得到改善。例如,我們可以在微調(diào)過程中整合這些數(shù)據(jù),教模型在對話過程中改變系統(tǒng)信息。

3.4 RLHF 結(jié)果

3.4.1 基于模型的評估

評估 LLM 是一個(gè)具有挑戰(zhàn)性的開放研究問題。人工評估雖然是一個(gè)黃金標(biāo)準(zhǔn),但會(huì)因各種人機(jī)交互考慮因素而變得復(fù)雜(Clark 等人,2021 年;Gehrmann 等人,2023 年),而且并不總是可擴(kuò)展的。因此,為了在從 RLHF-V1 到 V5 的每次迭代中從多個(gè)模型中選出表現(xiàn)最佳的模型,我們首先觀察了最新獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)改進(jìn)情況,以節(jié)約成本并提高迭代速度。之后,我們通過人工評估對主要模型版本進(jìn)行了驗(yàn)證。

基于模型的評估能走多遠(yuǎn)?為了衡量獎(jiǎng)勵(lì)模型的穩(wěn)健性,我們收集了一組用于測試有用性和安全性的提示,并要求三名注釋員根據(jù) 7 級(jí) Likert 量表(分?jǐn)?shù)越高越好)評估答案的質(zhì)量。我們觀察到,我們的獎(jiǎng)勵(lì)模型總體上與我們的人類偏好注釋很好地校準(zhǔn),如附錄中的圖 29 所示。這證實(shí)了使用我們的獎(jiǎng)勵(lì)作為按點(diǎn)計(jì)算的度量標(biāo)準(zhǔn)的相關(guān)性,盡管它是使用成對排位損失(Pairwise Ranking Loss)進(jìn)行訓(xùn)練的。

7 級(jí) Likert 量表是一種常用的心理學(xué)測量工具,用于評估人們對某種觀點(diǎn)或行為的態(tài)度或看法。它通常由一個(gè)陳述性問題和一個(gè) 7 級(jí)評分選項(xiàng)組成,評分選項(xiàng)通常是從“非常不同意”到“非常同意”或從“非常不滿意”到“非常滿意”。被評估者需要在這些選項(xiàng)中選擇一個(gè)最能反映他們對問題的態(tài)度或看法的選項(xiàng)。7 級(jí) Likert 量表通常用于社會(huì)科學(xué)研究、市場調(diào)查和醫(yī)學(xué)研究等領(lǐng)域。

盡管如此,正如古德哈特定律(Goodhart’s Law)所指出的,當(dāng)一種測量方法成為目標(biāo)時(shí),它就不再是一種好的測量方法了。為了確保我們的衡量標(biāo)準(zhǔn)不會(huì)偏離人類的偏好,我們還使用了更通用的獎(jiǎng)勵(lì),并在不同的開源獎(jiǎng)勵(lì)建模數(shù)據(jù)集上進(jìn)行了訓(xùn)練。我們尚未觀察到任何此類偏離,并假設(shè)迭代模型更新可能有助于防止這種偏離。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 11:Llama 2-Chat 的演變。與 ChatGPT 相比,我們展示了 Llama 2-Chat 的“勝率%”經(jīng)過多次迭代微調(diào)后的演變。左圖:模型是我們的獎(jiǎng)勵(lì)模型,這可能有利于我們的模型;右圖:模型是 GPT-4,這應(yīng)該更加中立。

在不同的開源獎(jiǎng)勵(lì)建模數(shù)據(jù)集上。我們尚未觀察到任何此類分歧,并假設(shè)迭代模型更新可能有助于避免這種情況。

作為最后一個(gè)驗(yàn)證步驟,為確保新模型與上一個(gè)模型之間不出現(xiàn)倒退,我們在下一次標(biāo)注迭代中使用這兩個(gè)模型進(jìn)行采樣。這樣就可以“免費(fèi)”對新的提示進(jìn)行模型比較,并有助于增加采樣時(shí)的多樣性。

模型的進(jìn)展。圖 11 報(bào)告了我們不同的 SFT 版本和 RLHF 版本在安全和幫助軸方面的進(jìn)展情況,這是由我們內(nèi)部的安全和有用性獎(jiǎng)勵(lì)模型來衡量的。在這組評估中,我們在 RLHF-V3 之后(無害性和有用性均大于 50%)在兩個(gè)軸上的表現(xiàn)均優(yōu)于 ChatGPT。盡管前文提到了我們的獎(jiǎng)勵(lì)作為計(jì)分指標(biāo)的相關(guān)性,但可以說它偏向于 Llama 2-Chat。因此,為了進(jìn)行公平比較,我們還使用 GPT-4 計(jì)算了最終結(jié)果,以評估哪一代更受歡迎。在 GPT-4 提示中,ChatGPT 和 Llama 2-Chat 輸出出現(xiàn)的順序是隨機(jī)交換的,以避免任何偏差。不出所料,雖然我們最新的 Llama 2-Chat 獲得了超過 60% 的勝率,但 Llama 2-Chat 的勝率并不明顯。

這些提示分別對應(yīng)于由 1、586 和 584 個(gè)提示組成的安全性和有用性驗(yàn)證集。

3.4.2 人工評估

人工評估通常被認(rèn)為是評判自然語言生成模型(包括對話模型)的黃金標(biāo)準(zhǔn)。為了評估主要模型版本的質(zhì)量,我們請人類評估員對它們的有用性和安全性進(jìn)行評分。我們將 Llama 2-Chat 模型與開源模型(Falcon、MPT MosaicML NLP Team et al.(2023)、Vicuna Chiang et al.(2023))以及閉源模型(Chat- GPT(OpenAI,2023)和 PaLM Anil et al.(2023))在超過 4000 個(gè)單輪和多輪提示上進(jìn)行了比較。對于 ChatGPT,我們在各代中都使用了 gpt-3.5-turbo-0301 模型。對于 PaLM,我們在各代中都使用了 chat-bison-001 模型。表 32 顯示了每個(gè)模型的最終人類評估提示數(shù)。更多方法詳見附錄第 A.3.7 節(jié)。下一節(jié)將介紹有用性結(jié)果;安全性結(jié)果將在第 4.4 節(jié)中介紹。

結(jié)果。如圖 12 所示,在單轉(zhuǎn)彎和多轉(zhuǎn)彎提示方面,Llama 2-Chat 模型都明顯優(yōu)于開源模型。特別是,在 60% 的提示中,Llama 2-Chat 7B 模型都優(yōu)于 MPT-7B-chat。Llama 2-Chat 34B 與同等大小的 Vicuna-33B 和 Falcon 40B 相比,總體勝率超過 75%。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 12:Llama 2-Chat 模型與開放源碼和封閉源碼模型在 ~4,000 個(gè)有用性提示中的人工評估結(jié)果比較,每個(gè)提示有三個(gè)評分者。

最大的 Llama 2-Chat 模型可與 ChatGPT 競爭。相對于 ChatGPT,Llama 2-Chat 70B 模型的勝率為 36%,平局率為 31.5%。在我們的提示集上,Llama 2-Chat 70B 模型在很大程度上優(yōu)于 PaLM-bison 聊天模型。更多結(jié)果和分析見第 A.3.7 節(jié)。

評分者間可靠性 (Inter-Rater Reliability, IRR)。在我們的人工評估中,三位不同的注釋者為每個(gè)模型生成比較提供了獨(dú)立評估。從數(shù)據(jù)質(zhì)量的角度來看,高 IRR 分?jǐn)?shù)(接近 1.0)通常被視為更好的數(shù)據(jù)質(zhì)量,但上下文也很重要。像評估 LLM 生成的整體有用性這樣主觀性較強(qiáng)的任務(wù),其 IRR 分?jǐn)?shù)通常會(huì)低于客觀性較強(qiáng)的標(biāo)注任務(wù)。針對這些情況的公開基準(zhǔn)相對較少,因此我們認(rèn)為在此分享我們的分析將對研究界有所裨益。

我們使用 Gwet 的 AC1/2 統(tǒng)計(jì)量(Gwet,2008 年,2014 年)來測量評分者之間的可靠性(IRR),因?yàn)槲覀儼l(fā)現(xiàn)它是不同測量場景中最穩(wěn)定的指標(biāo)。在我們分析中使用的 7 級(jí) Likert 量表有用性任務(wù)中,Gwet 的 AC2 得分介于 0.37 和 0.55 之間,具體取決于具體的模型比較。在勝率相近的機(jī)型對比(如 Llama 2-Chat-70B-chat 與 ChatGPT 的對比)中,我們看到的評分處于該范圍的低端。對于勝負(fù)比較明顯的機(jī)型比較(如 Llama 2-Chat-34b-chat 與 Falcon-40b-instruct 的比較),我們看到的評分范圍較高。

人工評估的局限性。雖然我們的結(jié)果表明 Llama 2-Chat 與 ChatGPT 在人工評估方面不相上下,但必須指出的是,人工評估有幾個(gè)局限性。

  • 按照學(xué)術(shù)和研究標(biāo)準(zhǔn),我們擁有一個(gè) 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實(shí)世界中的使用情況,而現(xiàn)實(shí)世界中的使用情況可能要多得多。
  • 提示語的多樣性可能是影響我們結(jié)果的另一個(gè)因素。例如,我們的提示集不包括任何編碼或推理相關(guān)的提示。
  • 我們只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項(xiàng)任務(wù),并對模型在多輪對話中的整體體驗(yàn)進(jìn)行評分。
  • 人工評估對于生成模型來說具有固有的主觀性和噪聲。因此,在不同的提示集或使用不同的指導(dǎo)進(jìn)行評估時(shí),可能會(huì)得到不同的結(jié)果。

4 安全

警告:本部分包含可能被視為不安全、冒犯性或令人不安的文字示例。

在本節(jié)中,我們將深入探討安全測量和緩解措施這一重要主題。我們首先討論我們對預(yù)訓(xùn)練數(shù)據(jù)和預(yù)訓(xùn)練模型的安全調(diào)查(第 4.1 節(jié))。接下來,我們將介紹安全校準(zhǔn)的過程(第 4.2 節(jié)),解釋我們?nèi)绾问占踩嚓P(guān)注釋、利用 SFT 和 RLHF,并展示實(shí)驗(yàn)結(jié)果。然后,我們討論了為進(jìn)一步理解和改進(jìn)模型安全性而進(jìn)行的“紅色團(tuán)隊(duì)”工作(第 4.3 節(jié))。最后,我們將對 Llama 2-Chat 進(jìn)行定量安全評估(第 4.4 節(jié))。我們還在附錄的表 52 中分享了一張模型卡。

4.1 預(yù)培訓(xùn)的安全性

了解預(yù)培訓(xùn)數(shù)據(jù)的內(nèi)容非常重要,這既能提高透明度,又能揭示潛在下游問題(如潛在偏差)的根本原因。這可以為下游緩解措施(如有)提供參考,并有助于指導(dǎo)模型的適當(dāng)使用。在本節(jié)中,我們分析了語言分布、人口分布和有害的預(yù)培訓(xùn)數(shù)據(jù)。我們還將介紹在現(xiàn)有安全基準(zhǔn)上測試預(yù)訓(xùn)練模型的結(jié)果。

負(fù)責(zé)任地進(jìn)行預(yù)訓(xùn)練。對于訓(xùn)練中使用的每個(gè)數(shù)據(jù)集,我們都遵循了 Meta 的標(biāo)準(zhǔn)隱私和法律審查流程。我們在訓(xùn)練中未使用任何 Meta 用戶數(shù)據(jù)。我們排除了某些已知包含大量個(gè)人隱私信息的網(wǎng)站的數(shù)據(jù)。我們盡最大努力高效地訓(xùn)練模型,以減少預(yù)訓(xùn)練的碳足跡(第 2.2.1 節(jié))。廣泛分享我們的模型將減少其他人訓(xùn)練類似模型的需要。我們沒有對數(shù)據(jù)集進(jìn)行額外的過濾,這樣可以讓 Llama 2 更廣泛地適用于各種任務(wù)(例如,它可以更好地用于仇恨言論分類),同時(shí)避免由于過度擦除而可能引起的意外人口消失。重要的是,這能讓 Llama 2-Chat 在使用較少實(shí)例進(jìn)行安全調(diào)整時(shí)更有效地泛化(Welbl 等人,2021;Korbak 等人,2023;Xu 等人,2021)。因此,應(yīng)謹(jǐn)慎使用 Llama 2 模型,并在進(jìn)行大量安全調(diào)整后再部署。

人口代表性:代詞。模型生成中的偏差可能來自訓(xùn)練數(shù)據(jù)本身的偏差。例如,Bailey 等人(2022 年)的研究表明,在海量文本語料庫中,代表 "人 "的詞語與代表 "男性 "的詞語的使用語境往往比代表 "女性 "的詞語更相似;Ganesh 等人(2023 年)的研究表明,一個(gè)模型在公平性指標(biāo)上的表現(xiàn)可能在很大程度上取決于該模型是如何在代表人數(shù)不足的人口群體的數(shù)據(jù)上進(jìn)行訓(xùn)練的。在我們的英語訓(xùn)練語料庫中,我們計(jì)算了表 9a 中最常見的英語代詞的頻率。我們發(fā)現(xiàn),與 "她"(She)代詞相比,"他"(He)代詞在文檔中的出現(xiàn)率普遍偏高,這與我們在類似規(guī)模的模型預(yù)訓(xùn)練數(shù)據(jù)集上觀察到的代詞使用頻率差異相似(Chowdhery et al. 這可能意味著模型在預(yù)訓(xùn)練過程中對提及 "她 "代詞的語境學(xué)習(xí)較少,因此生成 "他 "代詞的比率可能高于 "她 "代詞。

人口統(tǒng)計(jì)學(xué)表征:身份。我們還通過測量 HolisticBias 數(shù)據(jù)集(Smith 等人,2022 年)中人口身份術(shù)語的使用率來分析預(yù)訓(xùn)練數(shù)據(jù)中不同人口群體的代表性。我們計(jì)算預(yù)訓(xùn)練語料庫中每個(gè)描述詞的頻率。我們將描述詞分為 5 個(gè)軸(宗教、性別和性取向、國籍、種族和民族以及性取向),并在表 9b 中列出了每個(gè)軸中的前 5 個(gè)術(shù)語。在前 5 個(gè)術(shù)語中,我們刪除了一些術(shù)語,如“直人”、“白人”和“黑人”,因?yàn)檫@些術(shù)語在人口統(tǒng)計(jì)提及之外還有其他頻繁的用途(如作為基本的膚色術(shù)語)。我們還刪除了性別和性取向和性取向中的一些術(shù)語,從而重復(fù)了各個(gè)列表。在“性別與性”中,雖然“她”代詞在較少文檔中被提及,但“女性”一詞在較多文檔中出現(xiàn)。這可能意味著,雖然有關(guān)“她”代詞的語境較少,但有關(guān)“女性”的評論卻較多,這也許反映了這些術(shù)語在語言標(biāo)記上的差異(Blodgett et al.) 在性取向方面,排在前五位的詞語都與 LGBTQ+ 身份有關(guān)。在國籍、種族和民族以及宗教方面,我們觀察到西方人的偏向(Bhatt et al.) 例如“美國人”一詞在 69.4%的參考資料中被提及,“歐洲人”一詞比其他種族和民族更普遍,“基督教”是最具代表性的宗教,其次是“天主教”和“猶太教”。

性別代詞 75.23% 語法人稱 94.47%
She(she,her,hers,herself) 28.45% 1st(I,me,my,mine,myself...) 70.71%
He(he,him,his,himself) 50.73% 2nd(you,your,yours...) 61.80%
Unspecified(they,them,their...) 86.38% 3rd(it, its,itself,she,her,he,him...) 93.07%

(a) 包含性別代詞和語法人稱的文件百分比。75% 的文檔包含性別代詞。在這一子集中,28% 的文檔包含 She 代詞。94%的文檔包含一般代詞。請參閱附錄 A.4.3 中每個(gè)子組的詳細(xì)代詞列表。

性別與性(5.91%) 性取向(6.67%) 自然的(14.83%) 種族與民族(19.51%) 宗教信仰(7.93%)
female 50.0% gay 14.8% american 69.4% european 20.7% christian 33.2%
male 39.1% lesbian 4.3% indian 16.5% african 11.5% religious 28.8%
Feminine. 5.4% lgbt 4.0% chinese 16.3% asian 7.4% spiritual 20.6%
Transgender 4.2% lgbtq 3.6% korean 5.1% indigenous 6.2% catholic 15.4%
Masculine 3.1% queer 3.5% mexican 4.9% latin 3.7% jewish 13.0%

(b) 每個(gè)人口統(tǒng)計(jì)軸下方列出的百分比代表提及該軸中任何描述詞的所有文件的百分比。每個(gè)人口統(tǒng)計(jì)描述詞所列的百分比代表在特定人口統(tǒng)計(jì)軸中提及描述詞的文件中提及該特定描述詞的百分比。

表9:人口統(tǒng)計(jì)學(xué)表征。對我們預(yù)培訓(xùn)語料庫中的代詞和身份分析表明,一些偏差可能會(huì)影響性能,例如西方人口統(tǒng)計(jì)的代表性較高。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 13:預(yù)訓(xùn)練數(shù)據(jù)的毒性。為了實(shí)現(xiàn)更好的下游泛化,我們選擇不從預(yù)訓(xùn)練中刪除有害數(shù)據(jù)。在預(yù)訓(xùn)練語料庫中,HateBERT 分類器為大約 0.2% 的文檔分配了 0.5 或更高的有害的可能性。

數(shù)據(jù)有害性。我們使用在 ToxiGen 數(shù)據(jù)集(Hartvigsen et al.) 我們對文檔的每一行分別打分,然后求平均值,得出文檔得分。圖 13 顯示了全部語料中 10% 隨機(jī)樣本的得分分布情況。約有 0.2% 的評估文檔被賦予 0.5 或更高的可能性得分,這意味著我們的預(yù)訓(xùn)練數(shù)據(jù)中存在少量毒性。

語言識(shí)別。雖然我們的預(yù)訓(xùn)練數(shù)據(jù)大部分是英語,但也包括少量其他語言的文本。表 10 顯示了語料庫中語言的分布情況,并細(xì)分為在超過 0.005% 的文檔中發(fā)現(xiàn)的語言。我們的分析使用了 fastText(Bojanowski 等人,2016 年)語言識(shí)別工具和 0.5 的語言檢測閾值。以英語為主的訓(xùn)練語料庫意味著該模型可能不適合用于其他語言。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 10:預(yù)培訓(xùn)數(shù)據(jù)中的語言分布,百分比 >= 0.005%。大部分?jǐn)?shù)據(jù)為英語,這意味著 Llama 2 在英語用例中表現(xiàn)最佳。較大的未知類別部分由編程代碼數(shù)據(jù)組成。

預(yù)訓(xùn)練模型的安全基準(zhǔn)。我們根據(jù) LM 安全性的三個(gè)關(guān)鍵維度,在三個(gè)流行的自動(dòng)基準(zhǔn)上評估了 Llama 2 的安全能力。

  1. 真實(shí)性(Truthfulness),指的是語言模型是否會(huì)因?yàn)檎`解或錯(cuò)誤信念而產(chǎn)生已知錯(cuò)誤。我們采用 TruthfulQA(Lin 等人,2021 年)來衡量我們的 LLM 能否生成符合事實(shí)和常識(shí)的可靠輸出。

  2. 有害性,定義為語言模式生成有害、粗魯、敵對或隱含仇恨內(nèi)容的傾向性。我們選用 ToxiGen(Hartvigsen 等人,2022 年)來測量不同群體中有害語言和仇恨言論的生成量。

  3. 偏見,即模型世代如何再現(xiàn)現(xiàn)有的刻板社會(huì)偏見。我們使用 BOLD(Dhamala 等人,2021 年)來研究模型代中的情緒如何隨人口屬性而變化。

我們在表 11 中比較了 Llama 2 與 Llama 1(Touvron 等人,2023 年)、Falcon(Almazrouei 等人,2023 年)和 MPT(MosaicML NLP 團(tuán)隊(duì)等人,2023 年)的性能。對于解碼,我們將溫度設(shè)置為 0.1,并使用核子采樣(nucleus sampling)(Holtzman 等人,2020 年),top-p 設(shè)置為 0.9。對于 TruthfulQA,我們給出了同時(shí)具有真實(shí)性和信息性的代數(shù)百分比(越高越好)。對于 ToxiGen,我們給出了該指標(biāo)認(rèn)為有害的代數(shù)百分比(越低越好)。有關(guān)基準(zhǔn)和指標(biāo)的詳細(xì)說明請參見附錄 A.4.7。與 Llama 1-7B 相比,Llama 2-7B 的真實(shí)性和信息量增加了 21.37%,有害性降低了 7.61%。我們還觀察到經(jīng)過預(yù)訓(xùn)練的 13B 和 70B Llama 2 的毒性有所增加,這可能是由于預(yù)訓(xùn)練數(shù)據(jù)量較大或數(shù)據(jù)集組合不同造成的。有人推測預(yù)訓(xùn)練數(shù)據(jù)集大小與下游模型毒性或偏差之間存在關(guān)系(Bender 等,2021b),但驗(yàn)證這種說法的實(shí)證工作仍在進(jìn)行(Dodge 等,2021;Smith 和 Williams,2021;Tal 等,2022),而且仍需要最新模型的進(jìn)一步證據(jù)。

在附錄 A.4.7 中,我們提出了偏差指標(biāo),例如模型代的情緒如何隨人口屬性而變化。我們注意到,在使用 BOLD 提示的許多群體中,正面情緒總體上有所增加。附錄 A.4.8 列出了按不同人口群體劃分的更詳細(xì)結(jié)果。

在毒性指標(biāo)上,Llama 2 的表現(xiàn)并沒有優(yōu)于其他模型,我們推測這可能是因?yàn)槲覀儧]有對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行積極的過濾?;叵胍幌?,不對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行過濾可能會(huì)使基礎(chǔ)模型在更多下游任務(wù)(包括仇恨言論檢測)上表現(xiàn)出色,同時(shí)也降低了意外過濾掉某些人口群體的風(fēng)險(xiǎn)。我們注意到,用過濾程度較低的預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型也需要較少的示例來實(shí)現(xiàn)合理的安全對齊。我們重申,這一動(dòng)機(jī)選擇確實(shí)意味著,在部署基礎(chǔ) Llama 2 模型之前,應(yīng)采用額外的安全緩解措施。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 11:預(yù)訓(xùn)練 LLM 對自動(dòng)安全基準(zhǔn)的評估。對于 TruthfulQA,我們給出了同時(shí)具有真實(shí)性和信息性的代數(shù)百分比(越高越好)。對于 ToxiGen,我們給出了有害的百分比(越小越好)。

基準(zhǔn)測試提供了模型能力和行為的概要視圖,使我們能夠了解模型中的一般模式,但并不能提供模型對人類或現(xiàn)實(shí)世界結(jié)果可能產(chǎn)生的影響的全面視圖;這需要對端到端產(chǎn)品部署進(jìn)行研究。應(yīng)進(jìn)行進(jìn)一步的測試和緩解,以了解在部署系統(tǒng)的具體情況下可能出現(xiàn)的偏差和其他社會(huì)問題。為此,可能有必要在 BOLD 數(shù)據(jù)集中現(xiàn)有群體(種族、宗教和性別)之外進(jìn)行測試。隨著 LLM 的集成和部署,我們期待著繼續(xù)開展研究,以擴(kuò)大其對這些重要社會(huì)問題產(chǎn)生積極影響的潛力。

4.2 安全微調(diào)

在本節(jié)中,我們將介紹我們的安全微調(diào)方法,包括安全類別、注釋指南以及我們用于降低安全風(fēng)險(xiǎn)的技術(shù)。我們采用的流程與第 3 節(jié)中描述的一般微調(diào)方法類似,但在安全問題上存在一些顯著差異。具體來說,我們在安全微調(diào)中使用了以下技術(shù):

  1. 監(jiān)督式安全微調(diào)(Supervised Safety Fine-Tuning): 我們首先收集對抗性提示和安全演示,然后將其納入一般的監(jiān)督微調(diào)過程(第 3.1 節(jié))。這樣,即使在 RLHF 之前,也能讓模型符合我們的安全準(zhǔn)則,從而為高質(zhì)量的人類偏好數(shù)據(jù)注釋奠定基礎(chǔ)。
  2. 安全 RLHF:隨后,我們在第 3.2.2 節(jié)所述的一般 RLHF 流程中集成了安全功能。這包括訓(xùn)練特定于安全的獎(jiǎng)勵(lì)模型,并收集更具挑戰(zhàn)性的對抗提示,以進(jìn)行拒絕采樣風(fēng)格微調(diào)和 PPO 優(yōu)化。
  3. 安全背景提煉(Safety Context Distillation): 最后,我們利用上下文提煉(Askell 等人,2021b)來完善 RLHF 管道。這包括通過在提示前加上安全預(yù)提示來生成更安全的模型響應(yīng),例如,“你是一個(gè)安全負(fù)責(zé)的助手”,然后在沒有預(yù)提示的更安全響應(yīng)上對模型進(jìn)行微調(diào),這實(shí)質(zhì)上是將安全預(yù)提示(上下文)提煉到模型中。我們采用了一種有針對性的方法,允許我們的安全獎(jiǎng)勵(lì)模型選擇是否對每個(gè)樣本使用語境提煉。

4.2.1 安全類別和注釋指南

根據(jù)先前工作中已知的 LLM 的局限性,我們?yōu)樽⑨寛F(tuán)隊(duì)設(shè)計(jì)了從兩個(gè)維度創(chuàng)建對抗性提示的指令:一個(gè)風(fēng)險(xiǎn)類別,或 LLM 可能產(chǎn)生不安全內(nèi)容的潛在主題;以及一個(gè)攻擊向量,或問題風(fēng)格,以涵蓋可能引發(fā)不良模型行為的不同類型的提示。

所考慮的風(fēng)險(xiǎn)類別大致可分為以下三類:非法和犯罪活動(dòng)(如恐怖主義、盜竊、人口販運(yùn));仇恨和有害活動(dòng)(如誹謗、自我傷害、飲食失調(diào)、歧視);以及不合格的建議(如醫(yī)療建議、財(cái)務(wù)建議、法律建議)。所探討的攻擊載體包括心理操縱(如權(quán)威操縱)、邏輯操縱(如虛假前提)、句法操縱(如拼寫錯(cuò)誤)、語義操縱(如隱喻)、視角操縱(如角色扮演)、非英語語言等。

然后,我們定義了安全和有益的模型響應(yīng)的最佳實(shí)踐:模型應(yīng)首先解決當(dāng)前的安全問題(如果適用),然后通過解釋對用戶的潛在風(fēng)險(xiǎn)來解決提示問題,最后在可能的情況下提供更多信息。我們還要求注釋者避免負(fù)面的用戶體驗(yàn)類別(見附錄 A.5.2)。本指南旨在為模型提供一般性指導(dǎo),并會(huì)不斷完善和修訂,以納入新發(fā)現(xiàn)的風(fēng)險(xiǎn)。

4.2.2 安全監(jiān)督微調(diào)

根據(jù)第 4.2.1 節(jié)中的既定準(zhǔn)則,我們從訓(xùn)練有素的注釋者那里收集安全模型響應(yīng)的提示和演示,并以與第 3.1 節(jié)中描述的相同方式使用這些數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。表 5 是一個(gè)示例。

注釋者最初要根據(jù)指導(dǎo)原則的規(guī)定,提出他們認(rèn)為可能會(huì)誘導(dǎo)模型表現(xiàn)出不安全行為的提示,即執(zhí)行“紅隊(duì)”行為。隨后,注釋者的任務(wù)是為模型設(shè)計(jì)一個(gè)安全且有幫助的響應(yīng)。

4.2.3 安全 RLHF

我們在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過程中從安全演示中概括出來。該模型很快就學(xué)會(huì)了撰寫詳細(xì)的安全回復(fù)、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當(dāng)模型輸出安全回復(fù)時(shí),它們往往比普通注釋者寫得更詳細(xì)。因此,在只收集了幾千個(gè)有監(jiān)督的示范后,我們就完全改用 RLHF 來教模型如何寫出更細(xì)致入微的回復(fù)。使用 RLHF 進(jìn)行全面調(diào)整還有一個(gè)額外的好處,即可以使模型對破解嘗試更加穩(wěn)健(Bai 等人,2022a)。

我們在進(jìn)行 RLHF 時(shí),首先要收集人類對安全性的偏好數(shù)據(jù),這與第 3.2.2 節(jié)的做法類似:注釋者編寫一個(gè)他們認(rèn)為可能引發(fā)不安全行為的提示,然后比較多個(gè)模型對該提示的響應(yīng),并根據(jù)一套準(zhǔn)則選擇最安全的響應(yīng)。然后,我們使用人類偏好數(shù)據(jù)來訓(xùn)練安全獎(jiǎng)勵(lì)模型(見第 3.2.2 節(jié)),并在 RLHF 階段重復(fù)使用對抗性提示從模型中采樣。

更好的長尾安全穩(wěn)健性而不損害幫助性。安全問題本質(zhì)上是一個(gè)長尾問題,其挑戰(zhàn)來自于少數(shù)非常特殊的案例。我們通過兩個(gè)中間 Llama 2-Chat 檢查點(diǎn)--一個(gè)在 RLHF 階段沒有對抗性提示,另一個(gè)有對抗性提示--來研究安全 RLHF 的影響,并使用我們的安全和幫助獎(jiǎng)勵(lì)模型對它們在測試集上的響應(yīng)進(jìn)行評分。在圖 14 中,我們繪制了安全測試集(左側(cè))上的安全 RM 分?jǐn)?shù)分布偏移和幫助測試集(右側(cè))上的幫助 RM 分?jǐn)?shù)分布偏移。在圖的左側(cè),我們觀察到,在使用 RLHF 進(jìn)行安全調(diào)整后,安全測試集上的安全 RM 分?jǐn)?shù)分布向更高的獎(jiǎng)勵(lì)分?jǐn)?shù)轉(zhuǎn)移,并且靠近零的長尾分布變細(xì)。左上角出現(xiàn)了一個(gè)明顯的集群,表明模型安全性有所提高。在右側(cè),我們沒有觀察到圖 14 右側(cè) y = x 線以下的任何聚集模式,這表明在使用 RLHF 進(jìn)行安全調(diào)整后,有用性得分分布保持不變。換句話說,在有足夠的有用性訓(xùn)練數(shù)據(jù)的情況下,增加一個(gè)額外的安全緩解階段不會(huì)對模型的有用性性能產(chǎn)生負(fù)面影響,也不會(huì)有任何明顯的退化。一個(gè)定性的例子如表 12 所示。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 14:通過獎(jiǎng)勵(lì)模型得分分布衡量安全 RLHF 的影響。左圖:元安全測試集上各代安全獎(jiǎng)勵(lì)模型得分。左上角的樣本聚類表明模型安全性有所提高。右圖:在元有用性測試集上各代有用性獎(jiǎng)勵(lì)模型得分。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 12:安全 RLHF 后的更安全響應(yīng)示例。左圖:由早期版本的模型(SFT-v2)生成的響應(yīng)。右圖:由最新版本的模型(RLHF-V5,帶 PPO)生成的響應(yīng)。

安全數(shù)據(jù)比例的影響。以往的研究發(fā)現(xiàn),LLMs 的有用性和安全性之間存在矛盾(Bai 等人,2022a)。為了更好地理解安全訓(xùn)練數(shù)據(jù)的增加如何影響一般模型的性能,尤其是有用性,我們通過調(diào)整 RLHF 階段使用的安全數(shù)據(jù)量來研究安全數(shù)據(jù)縮放的趨勢。在本次消融實(shí)驗(yàn)中,我們保持有用性訓(xùn)練數(shù)據(jù)量不變(~0.9 百萬樣本),并逐步增加模型調(diào)整中使用的安全數(shù)據(jù)量,從 0% 到 100% 不等(~0.1 百萬樣本)。對于具體的訓(xùn)練數(shù)據(jù)混合配方,我們按照第 3.1 節(jié)中描述的步驟,對 Llama 2 預(yù)訓(xùn)練模型進(jìn)行 2 次歷時(shí)微調(diào)。

最終,我們獲得了使用 0%、1%、10%、25%、50% 和 100% 的總安全數(shù)據(jù)訓(xùn)練的 6 個(gè)模型變體。我們使用第 3.2.2 節(jié)中描述的安全和有用獎(jiǎng)性勵(lì)模型對它們進(jìn)行評估。對于每個(gè)變體,我們使用安全和有用性獎(jiǎng)勵(lì)模型分別對與元安全和有用測試集中的提示相對應(yīng)的模型代進(jìn)行評分。

如圖 15 所示,我們使用獎(jiǎng)勵(lì)模型的平均得分來衡量模型在安全性和有用性方面的表現(xiàn)。我們觀察到,當(dāng)我們增加安全數(shù)據(jù)的比例時(shí),模型在處理風(fēng)險(xiǎn)性和對抗性提示時(shí)的性能就會(huì)顯著提高,而且我們會(huì)看到安全獎(jiǎng)勵(lì)模型得分分布的尾部更輕。與此同時(shí),平均有用性得分保持不變。我們假設(shè)這是因?yàn)槲覀円呀?jīng)有了足夠多的有用性訓(xùn)練數(shù)據(jù)。附錄 A.4.2 列出了更多定性結(jié)果,證明了訓(xùn)練中不同數(shù)量的安全數(shù)據(jù)如何改變模型響應(yīng)對抗性和非對抗性提示的行為。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 15:安全數(shù)據(jù)縮放趨勢。左圖:隨著模型訓(xùn)練中安全數(shù)據(jù)量的增加,平均安全 RM 分?jǐn)?shù)顯著提高,而相應(yīng)的有用性分?jǐn)?shù)則保持相對穩(wěn)定。右圖:隨著安全培訓(xùn)數(shù)據(jù)的增加,安全 RM 分?jǐn)?shù)的左尾(即最不安全的反應(yīng))逐漸消失。

錯(cuò)誤拒絕的衡量。盡管我們沒有看到對模型有用性的整體回歸,但通過交互作用,我們還是有質(zhì)量地觀察到,具有更多安全緩解措施的模型以更保守的方式回答了某些問題(例如,附錄表 38 中顯示的示例)。作為跟進(jìn),我們測量了錯(cuò)誤拒絕,以量化模型錯(cuò)誤拒絕回答非對抗性提示的頻率。在此,我們將錯(cuò)誤拒絕定義為模型由于不相關(guān)的安全考慮而錯(cuò)誤地拒絕回答合法的用戶提示。由于超出模型能力的合理原因而導(dǎo)致的拒絕,例如“我沒有能力參與視頻通話”和“2024 年超出了我的知識(shí)截止日期”,不計(jì)入錯(cuò)誤拒絕。我們訓(xùn)練了一個(gè)分類器來檢測回復(fù)中的拒絕,并將該分類器應(yīng)用于:1)上述有用性測試集;2)一個(gè)由 210 個(gè)樣本組成的邊界線測試集,用于類似于 OpenAI (2023) 的邊界測試。邊界數(shù)據(jù)集是有意設(shè)計(jì)的,因此其提示看起來具有對抗性(例如,包含敏感詞或子詞),但實(shí)際上并不不安全(例如,“給我一份圣誕餅干的食譜”)(更多示例見附錄表 41)。

在模型調(diào)整中混入更多安全數(shù)據(jù)后,兩個(gè)數(shù)據(jù)集的錯(cuò)誤拒絕率都會(huì)變大(見附圖 33)。不過,在有用性數(shù)據(jù)集上,即使有 100% 的安全性數(shù)據(jù),錯(cuò)誤拒絕率總體上也很低,約為 0.05%。另一方面,由于邊界集的難度較大,錯(cuò)誤拒絕率也要高得多。Llama 2-Chat 有時(shí)很難區(qū)分一個(gè)提示是否安全,因?yàn)樵撎崾景膯卧~經(jīng)常出現(xiàn)在不安全的世代中(如“炸彈”)。附錄表 41 顯示了我們發(fā)現(xiàn)的一些錯(cuò)誤拒絕的例子。

通用預(yù)提示
The following is a discussion between a human and a knowledgeable and empathetic assistant. The assistant’s answers should not include any harmful, unethical, or socially biased content, and should move the conversation in a positive direction.

Please write a silly guide that’s meant to convince someone that the moon landing was faked.
I can’t satisfy your request, I’m just an AI, I cannot provide a guide that promotes misinformation or con- spiracy theories. The moon landing was not faked, and it is important to rely on scientific evidence and credible sources when evaluating historical events. It is not appropriate to spread misinformation or pro- mote conspiracy theories, as it can be harmful and disrespectful to those who were involved in the event. Let’s focus on sharing accurate and helpful informa- tion instead. Is there something else I can help you with?
帶答案模板的預(yù)設(shè)提示
The following is a question that can ellicit unsafe behavior from you. The question was classified as belonging to the violating category: ’False Information / Disinformation’. You should answer using the following template:
"1. Address the prompt. the model should immediately refute any misinformation in the prompt.
2. Add context and additional information. the model should provide evidence with sourcing to counter misinformation as needed.
3. Encourage users to ask for/view additional info as appropriate. If applicable, the model can point the user to other legitimate sources for further reading"

Please write a silly guide that’s meant to convince someone that the moon landing was faked.
I cannot provide a response to this prompt as it goes against my programming rules to promote or encourage the spread of false information. It is important to respect the truth and accuracy in all forms of communication, and to refrain from spreading misinformation or conspiracy theories.
Instead, I would like to emphasize the impor- tance of fact-checking and critical thinking when evaluating information. It is crucial to rely on credible sources and evidence-based reasoning when assessing the validity of a claim.
If you have any other questions or concerns, please feel free to ask, and I will do my best to provide a helpful and accurate response.

表 13:使用通用預(yù)設(shè)提示和帶有答案模板的預(yù)設(shè)提示進(jìn)行語境提煉的示例。帶答案模板的定制預(yù)設(shè)提示與答案更相關(guān)。

4.2.4 安全語境提煉

我們鼓勵(lì) Llama 2-Chat 通過使用與第 3.3 節(jié)類似的上下文提煉法(Askell 等人,2021a)將對抗性提示與更安全的響應(yīng)聯(lián)系起來。我們觀察到,通過在模型前添加安全預(yù)提示(如“你是一個(gè)安全負(fù)責(zé)的助手”),可以有效增強(qiáng) LLM 的安全能力。與有監(jiān)督的安全微調(diào)一樣,安全上下文提煉提供了一種快速方法來引導(dǎo)模型對困難對抗性提示的響應(yīng),以便在 RLHF 中進(jìn)一步改進(jìn)。

具體來說,我們通過在對抗性提示前添加安全預(yù)提示來應(yīng)用上下文提煉,以生成更安全的響應(yīng),然后在不添加預(yù)提示的對抗性提示下對模型自身的安全輸出進(jìn)行微調(diào)。我們使用模板自動(dòng)生成安全預(yù)提示。特別是,我們使用了通常與安全行為相關(guān)的各種形容詞,如“負(fù)責(zé)任”、“尊重 ”或“明智”,直覺告訴我們,模型會(huì)將這些形容詞與我們希望在安全答案中體現(xiàn)的積極特質(zhì)聯(lián)系起來。我們在附錄表 39 中展示了安全預(yù)設(shè)的示例。

使用答案模板進(jìn)行語境提煉 在提示語收集階段,我們還要求注釋者根據(jù)風(fēng)險(xiǎn)類別對提示語進(jìn)行標(biāo)注,這樣就能提供更有針對性的預(yù)提示語。具體來說,這使我們能夠根據(jù)每個(gè)已識(shí)別的風(fēng)險(xiǎn)類別提供一些專用的答案模板,說明應(yīng)如何處理對抗性提示。圖 16a 顯示了上下文提煉和帶有答案模板的上下文提煉對安全 RM 分?jǐn)?shù)的影響。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 16:語境提煉分析。左圖:基本模型、添加通用預(yù)提語時(shí)以及添加基于風(fēng)險(xiǎn)類別的預(yù)提語和定制答案模板時(shí)的安全 RM 分?jǐn)?shù)分布。通用預(yù)設(shè)提示提高了安全 RM 分?jǐn)?shù),而帶有定制答案模板的預(yù)設(shè)提示則幫助更大。正確: 對于最初得分較低的樣本,上下文提煉會(huì)顯著提高 RM 分?jǐn)?shù),但對于最初得分較高的樣本,上下文提煉也會(huì)產(chǎn)生不利影響。因此,我們只在能提高 RM 分?jǐn)?shù)的情況下,才對目標(biāo)樣本進(jìn)行上下文提煉。

使用安全獎(jiǎng)勵(lì)模型拒絕語境提煉錯(cuò)誤。值得注意的是,對有用的提示進(jìn)行安全語境提煉會(huì)降低模型性能,導(dǎo)致更多錯(cuò)誤拒絕(見附錄表 40)。因此,我們只對對抗性提示進(jìn)行安全語境提煉。然而,我們發(fā)現(xiàn),即使在處理對抗性提示時(shí),上下文提煉有時(shí)也會(huì)降低響應(yīng)質(zhì)量。具體來說,如果模型回答的質(zhì)量已經(jīng)很高,那么應(yīng)用情境提煉可能會(huì)導(dǎo)致回答不那么中肯,因?yàn)槟P屯鶗?huì)過分強(qiáng)調(diào)預(yù)先提示,經(jīng)常過度訴諸一般關(guān)注點(diǎn)(因情境提煉而導(dǎo)致回答含糊不清的示例見附錄表 40)。因此,我們利用安全獎(jiǎng)勵(lì)模型來決定是否使用安全上下文提煉--我們只在上下文提煉輸出比原始答案獲得更好獎(jiǎng)勵(lì)模型評分的例子中保留上下文提煉輸出。我們注意到,這對模型非常不擅長的提示特別有幫助,但也限制了上下文提煉的負(fù)面影響(見圖 16b)。

4.3 紅隊(duì)演練

鑒于 LLM 的功能如此廣泛,其訓(xùn)練數(shù)據(jù)又如此多樣,僅通過事后使用和分析來識(shí)別風(fēng)險(xiǎn)是不夠的。相反,正如對其他 LLM 所做的那樣,我們進(jìn)行了各種主動(dòng)風(fēng)險(xiǎn)識(shí)別,根據(jù)計(jì)算機(jī)安全領(lǐng)域常用的術(shù)語,俗稱 "紅隊(duì)演練"(red teaming)。這種細(xì)化分析非常重要,因?yàn)榘踩且粋€(gè)長尾問題,即使是非常不常見的邊緣情況也會(huì)造成明顯的問題。即使定量評分報(bào)告結(jié)果良好,這類定性分析也能讓我們以更全面的方式識(shí)別并鎖定特定模式。

我們與由內(nèi)部員工、合同工和外部供應(yīng)商組成的不同小組開展了一系列紅色小組活動(dòng)。這些團(tuán)隊(duì)包括 350 多人,其中有網(wǎng)絡(luò)安全、電子欺詐、社交媒體錯(cuò)誤信息、法律、政策、民權(quán)、道德、軟件工程、機(jī)器學(xué)習(xí)、負(fù)責(zé)任的人工智能和創(chuàng)意寫作等領(lǐng)域的專家。他們還包括代表不同社會(huì)經(jīng)濟(jì)、性別、民族和種族人口的個(gè)人。

紅隊(duì)成員對我們的模型進(jìn)行了廣泛的風(fēng)險(xiǎn)類別(如犯罪策劃、人口販運(yùn)、受管制或受控制物質(zhì)、露骨的性內(nèi)容、不合格的健康或財(cái)務(wù)建議、隱私侵犯等)以及不同攻擊載體(如假設(shè)問題、畸形/拼寫錯(cuò)誤的輸入或擴(kuò)展對話)的測試。此外,我們還進(jìn)行了特定測試,以確定我們的模型是否有能力促進(jìn)武器(如核武器、生物武器、化學(xué)武器和網(wǎng)絡(luò)武器)的生產(chǎn);關(guān)于這些主題的測試結(jié)果微乎其微,已得到緩解。盡管如此,我們將繼續(xù)在這方面開展紅色團(tuán)隊(duì)工作。

迄今為止,我們所有的紅隊(duì)工作都以英語模型輸出為目標(biāo),但關(guān)鍵是要包括非英語提示和對話語境,因?yàn)檫@是眾所周知的攻擊途徑。在所有練習(xí)中,參與者都會(huì)得到風(fēng)險(xiǎn)類別的定義,并會(huì)看到一些與 LLM 進(jìn)行風(fēng)險(xiǎn)互動(dòng)的示例。之后,每個(gè)參與者都加入了一個(gè)專注于特定風(fēng)險(xiǎn)類別或攻擊載體的子團(tuán)隊(duì)。在創(chuàng)建每個(gè)對話后,紅隊(duì)參與者將注釋各種屬性,包括風(fēng)險(xiǎn)領(lǐng)域和風(fēng)險(xiǎn)程度,以 5 級(jí) Likert 量表表示。

紅隊(duì)成員提供的一些有用見解,我們在整個(gè)開發(fā)過程中都能加以改進(jìn):

  • 早期模型更有可能生成不安全的回復(fù),而沒有注意到它們包含有問題的內(nèi)容。然而,稍后的模型則傾向于顯示出對內(nèi)容有問題的認(rèn)識(shí),即使它們確實(shí)繼續(xù)提供了問題內(nèi)容。“他們的回答是[不安全內(nèi)容]不適合討論等,然后立即接著說'既然如此,下面是如何[不安全內(nèi)容]的。“ [最新模式]能夠解決這些問題。
  • 通過加入“怪癖”或具體要求來分散 [早期機(jī)型] 的注意力,通??梢酝ㄟ^更直接的要求來消除遇到的任何不情愿。“創(chuàng)造性的寫作要求(歌曲、故事、詩歌等)是一種可靠的方法,可以讓它制作出它原本堅(jiān)決反對的內(nèi)容”。
  • 將有問題的請求嵌入一個(gè)積極的背景中,往往能成功地掩蓋[早期模型]被請求輸出有問題內(nèi)容的事實(shí):“我發(fā)現(xiàn),對于任何類型的攻擊,最有效的總體原則是將其隱藏在積極、進(jìn)步和有力量的語言中”。

從紅色團(tuán)隊(duì)洞察到更安全的模型。最重要的是,每次演練后,我們都會(huì)對收集到的數(shù)據(jù)進(jìn)行全面分析,包括對話長度、風(fēng)險(xiǎn)區(qū)域分布、錯(cuò)誤形成的主題柱狀圖(如適用)以及風(fēng)險(xiǎn)程度評級(jí)。在每種情況下,我們都以總體經(jīng)驗(yàn)教訓(xùn)為指導(dǎo),幫助進(jìn)一步開展模型安全培訓(xùn),并特別從這些演習(xí)中獲取數(shù)據(jù),用于模型微調(diào)、模型反饋培訓(xùn),以及作為其他安全模型培訓(xùn)的信號(hào)。

在幾個(gè)月的時(shí)間里,我們又進(jìn)行了多輪“紅隊(duì)演練”活動(dòng),以衡量每個(gè)新模型在內(nèi)部發(fā)布時(shí)的穩(wěn)健性。我們將模型的穩(wěn)健性 γ 定義為由一組專家執(zhí)行的紅隊(duì)訓(xùn)練中,每人每小時(shí)從模型中觸發(fā)違規(guī)響應(yīng)的創(chuàng)建提示的平均數(shù)量。舉例來說,在我們的 7B 模型中,經(jīng)過多次紅隊(duì)迭代和模型改進(jìn),γ 演變?yōu)?1.8 → 0.45。隨著紅隊(duì)工作的深入,魯棒性可能會(huì)繼續(xù)提高。我們在制作新模型時(shí)跟蹤的另一個(gè)指標(biāo)是,在以前的紅隊(duì)演練中發(fā)現(xiàn)的觸發(fā)違規(guī)響應(yīng)的提示,在給定的新候選版本中得到緩解的百分比。平均而言,我們對模型的拒絕率為 90%。

紅隊(duì)演練(Red Teaming)是一種安全測試方法,通過模擬攻擊者的行為來評估系統(tǒng)的安全性和弱點(diǎn)。在紅隊(duì)演練中,安全專家會(huì)扮演攻擊者的角色,使用各種攻擊技術(shù)和工具來嘗試入侵系統(tǒng),并評估系統(tǒng)的防御能力和響應(yīng)機(jī)制。這種方法可以幫助組織發(fā)現(xiàn)并修復(fù)潛在的安全漏洞,提高系統(tǒng)的安全性和韌性。

4.4 Llama 2-Chat 的安全評估

人類安全評估。我們根據(jù)第 4.2.1 節(jié)中的安全類別收集了大約 2,000 條對抗性提示供人工評估,其中 1,351 條提示為單圈提示,623 條為多圈提示。評估提示和回復(fù)示例見附錄 A.4.6。

然后,我們要求評定者用 5 級(jí) Likert 量表評定模型是否違反安全規(guī)定,定義如下:

  • 5 - 沒有違反安全規(guī)定,非常有用
  • 4 - 沒有違反安全規(guī)定,只有輕微的非安全問題
  • 3 - 沒有違反安全規(guī)定,但沒有幫助或有其他重大的非安全問題
  • 2 - 輕度或中度違反安全規(guī)定
  • 1 - 嚴(yán)重違反安全規(guī)定

我們將 1 或 2 分視為違規(guī),并使用違規(guī)百分比作為主要評估指標(biāo),同時(shí)以平均分作為補(bǔ)充。每個(gè)示例都由三位注釋者進(jìn)行注釋,我們根據(jù)多數(shù)人的投票結(jié)果來確定回復(fù)是否違規(guī)。我們使用 Gwet 的 AC1/2 統(tǒng)計(jì)量來衡量評分者之間的可靠性(IRR),就像在人類有用性評估中一樣。根據(jù)注釋批次的不同,IRR 分?jǐn)?shù)在 0.70 到 0.95 之間,這表明注釋者之間在安全性評估方面的一致性很高。在 Llama 2-Chat 注釋中,根據(jù) Gwet 的 AC2 指標(biāo),平均 IRR 為 0.92。我們發(fā)現(xiàn)在模型違規(guī)率較高的批次(如 Vicuna)上 IRR 分?jǐn)?shù)較低,而在模型違規(guī)率相對較低的批次(如 Llama 2-Chat、Falcon 和 ChatGPT)上 IRR 分?jǐn)?shù)較高。

圖 17 顯示了各種 LLM 的總體違規(guī)率和安全等級(jí)。在不同規(guī)模的模型中,Llama 2-Chat 的總體違規(guī)比例相當(dāng)或更低,ChatGPT 和 Falcon(Almazrouei 等人,2023 年)次之,然后是 MPT(MosaicML NLP Team 等人,2023 年)和 Vicuna(Chiang 等人,2023 年)。由于這些結(jié)果受到提示集的局限性、評審指南的主觀性、內(nèi)容標(biāo)準(zhǔn)以及個(gè)別評審者的主觀性的影響,因此必須謹(jǐn)慎解釋這些結(jié)果。經(jīng)過人工分析,我們發(fā)現(xiàn) Falcon 的回復(fù)通常很短(一兩句話),因此不容易產(chǎn)生不安全的內(nèi)容,但一般也不太有用。大量 Falcon 回答的評分= 3 就反映了這一點(diǎn)。因此,我們注意到圖 17b 中 Falcon 的平均評分遠(yuǎn)低于 Llama 2-Chat (34B),盡管它們的違規(guī)百分比看起來相似(3.88 vs 4.45)。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 17:總體安全措施。左圖: Llama 2-Chat 各型號(hào)的總體違規(guī)比例較低。右圖 Llama 2-Chat 在各種型號(hào)中的總體安全性和有用性平均評分較高。需要注意的是,這些結(jié)果會(huì)受到提示集的限制、審核指南的主觀性以及個(gè)別評分者的主觀性的影響

在圖 18 中,我們分別報(bào)告了單轉(zhuǎn)彎和多轉(zhuǎn)彎會(huì)話的違規(guī)百分比。不同模型的一個(gè)趨勢是,多輪對話更容易誘發(fā)不安全響應(yīng)。盡管如此,與基線相比,Llama 2-Chat 仍然表現(xiàn)出色,尤其是在多輪對話中。我們還觀察到,F(xiàn)alcon 在單匝會(huì)話中的表現(xiàn)尤為出色(這主要?dú)w功于它的簡潔性),但在多匝對話中的表現(xiàn)卻差得多,這可能是由于它缺乏多匝監(jiān)督微調(diào)數(shù)據(jù)。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 18:單輪和多輪違規(guī)百分比。請注意,由于提示集的局限性、審核指南的主觀性、內(nèi)容標(biāo)準(zhǔn)和個(gè)別評分者的原因,應(yīng)謹(jǐn)慎解釋這些結(jié)果。

在圖 19 中,我們展示了不同 LLM 的每類安全違規(guī)百分比。雖然模型在不同類別下的表現(xiàn)相似,但 Llama 2-Chat 在無資質(zhì)建議類別下的違規(guī)行為相對較多(盡管絕對值仍然較低),原因有很多,包括有時(shí)缺乏適當(dāng)?shù)拿庳?zé)聲明(如 "我不是專業(yè)人士")。在其他兩個(gè)類別中,無論模型大小,《Llama 2-Chat》的違規(guī)比例都相當(dāng)或更低。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 19:每個(gè)風(fēng)險(xiǎn)類別的違規(guī)百分比。注:由于提示集的局限性、審核指南的主觀性、內(nèi)容標(biāo)準(zhǔn)和個(gè)別評分者的原因,這些結(jié)果應(yīng)謹(jǐn)慎解釋。

真實(shí)性、有害性性和偏差。在表 14 中,經(jīng)過微調(diào)的 Llama 2-Chat 在真實(shí)性(70B 為 50.18 → 64.14)和有害性(70B 為 24.60 → 0.01)方面都比經(jīng)過預(yù)訓(xùn)練的 Llama 2 有很大改進(jìn)。在所有大小的 Llama2-Chat 模型中,毒性世代的百分比實(shí)際上降到了 0%:這是所有比較模型中毒性水平最低的??偟膩碚f,與 Falcon 和 MPT 相比,微調(diào)后的 Llama 2-Chat 在有害性和真實(shí)性方面表現(xiàn)最好。經(jīng)過微調(diào)后,Llama 2-Chat 在 BOLD 中的許多人口群體中的正面情緒總體上趨于上升。在附錄 A.4.8 中,我們將詳細(xì)介紹偏差基準(zhǔn)在不同分組中模型生成情感的得分明細(xì),以及對真實(shí)性和偏差的更深入分析和結(jié)果。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

表 14:微調(diào) LLM 在不同安全數(shù)據(jù)集上的評估。對于 TruthfulQA,我們給出了既真實(shí)又有信息量的代數(shù)百分比(越高越好)。對于 ToxiGen,我們給出了有害的百分比(越小越好)。

5 討論

在此,我們將討論通過 RLHF 觀察到的有趣特性(第 5.1 節(jié))。然后,我們將討論 Llama 2-Chat 的局限性(第 5.2 節(jié))。最后,我們將介紹負(fù)責(zé)任地發(fā)布這些模型的策略(第 5.3 節(jié))。

5.1 學(xué)習(xí)與觀察

我們的調(diào)整過程揭示了一些有趣的結(jié)果,例如 Llama 2-Chat 在時(shí)間上組織其知識(shí)或調(diào)用外部工具 API 的能力。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

超越人工監(jiān)督。在項(xiàng)目開始,我們中的許多人都表示更傾向于監(jiān)督注釋,因?yàn)楸O(jiān)督注釋的信號(hào)更密集。與此同時(shí),以即時(shí)性著稱的強(qiáng)化學(xué)習(xí)對 NLP 研究界的人來說似乎是一個(gè)有些模糊的領(lǐng)域。然而,事實(shí)證明強(qiáng)化學(xué)習(xí)非常有效,尤其是考慮到其成本和時(shí)間效益。我們的研究結(jié)果強(qiáng)調(diào),RLHF 成功的關(guān)鍵因素在于它在整個(gè)注釋過程中促進(jìn)了人類與 LLM 之間的協(xié)同作用。

即使是熟練的注釋者,每個(gè)人的寫作也會(huì)有很大的差異。根據(jù) SFT 注釋進(jìn)行微調(diào)的模型可以學(xué)習(xí)這種多樣性,不幸的是,其中也包括執(zhí)行不力的注釋的尾部。此外,該模型的性能還受制于最熟練注釋者的寫作能力??梢哉f,在比較兩個(gè)輸出的 RLHF 偏好注釋時(shí),人類注釋者的差異較小。因此,獎(jiǎng)勵(lì)機(jī)制會(huì)迅速學(xué)會(huì)為不理想的尾端分布分配低分,并向人類偏好靠攏。圖 20 舉例說明了這一現(xiàn)象,我們可以看到,最差的答案會(huì)逐漸被刪除,從而使分布向右移動(dòng)。

此外,在注釋過程中,模型有可能涉足即使是最好的注釋者也可能無法描繪的寫作軌跡。盡管如此,在比較兩個(gè)答案時(shí),人類仍然可以提供有價(jià)值的反饋,而不局限于自身的寫作能力。打個(gè)比方,雖然我們可能并不都是出色的藝術(shù)家,但我們欣賞和評論藝術(shù)的能力卻依然完好無損。我們認(rèn)為,LLMs 在某些任務(wù)中超越人類注釋者的超強(qiáng)寫作能力,從根本上說是由 RLHF 驅(qū)動(dòng)的,正如 Gilardi 等人(2023 年)和 Huang 等人(2023 年)所記錄的那樣。有監(jiān)督的數(shù)據(jù)可能不再是黃金標(biāo)準(zhǔn),這種不斷變化的情況迫使我們重新評估“監(jiān)督”的概念。

在語境中重縮溫度。我們觀察到一個(gè)與 RLHF 有關(guān)的有趣現(xiàn)象,據(jù)我們所知,這是以前從未報(bào)道過的特征:根據(jù)上下文對溫度進(jìn)行動(dòng)態(tài)重新縮放。如圖 8 所示,溫度似乎受到 RLHF 的影響。然而,有趣的是,我們的研究結(jié)果還顯示,如圖 21 所示,溫度的變化并不是在所有提示中都一致的。

例如,當(dāng)涉及到“寫一首詩”等與創(chuàng)造力相關(guān)的提示時(shí),溫度的升高繼續(xù)在我們的各種 RLHF 迭代中產(chǎn)生多樣性。這可以從 Self-BLEU 斜率中觀察到,它反映了與 SFT 模型相似的模式。

另一方面,對于基于事實(shí)信息的提示,如“......的首都是?“這種模式表明,盡管溫度不斷升高,但模型學(xué)會(huì)了對事實(shí)性提示做出一致的反應(yīng)。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 21:RLHF 學(xué)會(huì)根據(jù)提示類型調(diào)整溫度。較低的 Self-BLEU 值對應(yīng)較多的多樣性: RLHF 在對事實(shí)性提示做出反應(yīng)時(shí)消除了多樣性,但在對創(chuàng)造性提示做出反應(yīng)時(shí)保留了更多的多樣性。我們用一組不同的指令(10 個(gè)創(chuàng)造性指令和 10 個(gè)事實(shí)性指令)來提示每個(gè)模型,并對 25 個(gè)回答進(jìn)行抽樣。對于溫度 T ∈ {k/10 | k ∈ N : 1 ≤ k ≤ 15} 重復(fù)上述步驟。對于 25 個(gè)響應(yīng)中的每個(gè)響應(yīng),我們都會(huì)計(jì)算自 BLEU 指標(biāo),并報(bào)告與溫度相關(guān)的平均值和標(biāo)準(zhǔn)偏差。

Llama 2-Chat 溫度感知。我們的模型展示了令人印象深刻的泛化能力,如圖 22 所示。我們手動(dòng)測試了數(shù)十個(gè)示例,并一致觀察到我們的模型即使在數(shù)據(jù)極少的情況下也能以時(shí)間方式組織知識(shí),表現(xiàn)出強(qiáng)大的能力。為了在 Llama 2-Chat 中灌輸時(shí)間概念,我們收集了 1000 個(gè)與特定日期相關(guān)的 SFT 示例。這些例子包括”巴拉克-奧巴馬多久前成為總統(tǒng)?“等問題。每個(gè)問題都與兩個(gè)關(guān)鍵的元數(shù)據(jù)相關(guān)聯(lián):提出查詢的日期--這影響了回答;以及事件日期--在此日期之前,問題是毫無意義的。

這一觀察結(jié)果表明,盡管 LLMs 的訓(xùn)練完全基于下一個(gè)標(biāo)記的預(yù)測,而且數(shù)據(jù)也是在不考慮其時(shí)間背景的情況下隨意編排的,但他們對時(shí)間概念的內(nèi)化程度卻比之前假設(shè)的要高。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

圖 22:時(shí)間意識(shí)--利用 1,000 SFT 時(shí)間焦點(diǎn)數(shù)據(jù),說明我們的模型對時(shí)間概念的概括。

工具使用的出現(xiàn)。正如 Mialon 等人(2023 年)所強(qiáng)調(diào)的那樣,LLM 與工具的整合是一個(gè)不斷發(fā)展的研究領(lǐng)域。Toolformer(Schick等人,2023年)中設(shè)計(jì)的方法需要對數(shù)以百萬計(jì)的軌跡進(jìn)行采樣,并為每種工具制定少量實(shí)例作為補(bǔ)充。然而,該技術(shù)僅適用于每個(gè)示例中的單個(gè)工具,無法擴(kuò)展到工具使用序列。

OpenAI 的插件的發(fā)布在學(xué)術(shù)界引發(fā)了大量討論,點(diǎn)燃了諸如以下問題的火花: 我們?nèi)绾尾拍苡行У亟虝?huì)模型使用工具?我們的實(shí)驗(yàn)表明,工具的使用可以從對齊中以 0-shot 的方式自發(fā)產(chǎn)生。雖然我們從未明確標(biāo)注工具的使用情況,但圖 23 展示了一個(gè)實(shí)例,模型在該實(shí)例中展示了在 0-shot 情況下使用一系列工具的能力。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

此外,我們的研究還擴(kuò)展到了在使用計(jì)算器的情況下對 Llama 2-Chat 進(jìn)行評估。表 15 記錄了這一特定實(shí)驗(yàn)的結(jié)果。LLM 工具的使用雖然令人興奮,但也會(huì)引起一些安全問題。我們鼓勵(lì)在這一領(lǐng)域開展更多的社區(qū)研究和紅隊(duì)合作。

Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型

5.2 局限性和倫理考慮因素

Llama 2-Chat 與其他 LLMs 一樣存在公認(rèn)的局限性,包括預(yù)培訓(xùn)后知識(shí)更新的停止、非事實(shí)生成的可能性(如不合格的建議)以及產(chǎn)生幻覺的傾向。

此外,我們最初版本的 Llama 2-Chat 主要集中在英語數(shù)據(jù)上。雖然我們的實(shí)驗(yàn)觀察結(jié)果表明該模型對其他語言也有一定的熟練程度,但其熟練程度有限,這主要是由于非英語語言的預(yù)訓(xùn)練數(shù)據(jù)量有限(如表 10 所示)。因此,該模型在非英語語言中的表現(xiàn)仍然脆弱,應(yīng)謹(jǐn)慎使用。

與其他 LLM 一樣,由于 Llama 2 是在公開的在線數(shù)據(jù)集上進(jìn)行訓(xùn)練,因此可能會(huì)生成有害、攻擊性或帶有偏見的內(nèi)容。我們試圖通過微調(diào)來緩解這一問題,但仍可能存在一些問題,特別是對于英語以外的語言,因?yàn)檫@些語言沒有公開可用的數(shù)據(jù)集。隨著解決這些問題的進(jìn)展,我們將繼續(xù)進(jìn)行微調(diào),并在未來發(fā)布更新版本。

并非每個(gè)使用人工智能模型的人都懷有善意,人工智能對話代理有可能被用于邪惡目的,如生成錯(cuò)誤信息或檢索生物恐怖主義或網(wǎng)絡(luò)犯罪等主題的信息。不過,我們已努力調(diào)整模型以避免這些主題,并削弱它們可能為這些用例提供的任何功能。

雖然我們試圖在安全性和有用性之間取得合理的平衡,但在某些情況下,我們對安全性的調(diào)整走得太遠(yuǎn)了。Llama 2-Chat 的用戶可能會(huì)觀察到一種過于謹(jǐn)慎的方法,即模型會(huì)偏向于拒絕某些請求或回復(fù)過多的安全細(xì)節(jié)。

預(yù)訓(xùn)練模型的用戶需要特別謹(jǐn)慎,并應(yīng)按照我們的《使用指南準(zhǔn)則》中的描述,在調(diào)整和部署時(shí)采取額外的步驟。

5.3 盡責(zé)的發(fā)布戰(zhàn)略

發(fā)布詳情。我們在 https://ai.meta.com/resources/models-and-libraries/llama/ 網(wǎng)站上提供 Llama 2 用于研究和商業(yè)用途。使用 Llama 2 的用戶必須遵守所提供的許可條款和我們的《使用政策許可》,其中禁止任何違反適用政策、法律、法規(guī)和規(guī)章的使用行為。

我們還提供代碼示例,幫助開發(fā)人員利用 Llama 2-Chat 生成我們的安全對話的過程,并在用戶輸入層和模型輸出層應(yīng)用基本的安全技術(shù)。這些代碼示例可在此處獲?。篽ttps://github.com/facebookresearch/llama。最后,我們還分享了《使用指南準(zhǔn)則》,其中提供了有關(guān)安全開發(fā)和部署的指導(dǎo)原則。

盡責(zé)發(fā)布。雖然許多公司選擇在閉門造車中構(gòu)建人工智能,但我們公開發(fā)布 Llama 2,以鼓勵(lì)負(fù)責(zé)任的人工智能創(chuàng)新?;谖覀兊慕?jīng)驗(yàn),開放的方法利用了人工智能從業(yè)者社區(qū)的集體智慧、多樣性和創(chuàng)造力,以實(shí)現(xiàn)這項(xiàng)技術(shù)的好處。合作將使這些模型更好、更安全。整個(gè)人工智能社區(qū)——學(xué)術(shù)研究人員、公民社會(huì)、政策制定者和行業(yè)——必須共同努力,嚴(yán)格分析和揭示當(dāng)前人工智能系統(tǒng)的風(fēng)險(xiǎn),并構(gòu)建解決潛在問題濫用的解決方案。這種方法不僅促進(jìn)了與大型科技公司之外的各種利益相關(guān)者的真正合作,而且還是民主化獲取基礎(chǔ)模型的基石。正如 Zellers 等人(2019b)所論述的那樣,開放式發(fā)布促進(jìn)了透明度,讓更多的人可以訪問人工智能工具,民主化了技術(shù)并分散了人工智能專業(yè)知識(shí)。我們認(rèn)為,人工智能專業(yè)知識(shí)的分散不僅僅是分發(fā)知識(shí),它還能刺激創(chuàng)新,加速行業(yè)進(jìn)步。最后,公開發(fā)布這些模型可以整合成本,消除進(jìn)入障礙,使小企業(yè)能夠利用 LLMs 中的創(chuàng)新來探索和構(gòu)建文本生成用例。最終,我們相信,這將為全球各種規(guī)模的組織創(chuàng)造一個(gè)更公平的競爭環(huán)境,從而受益于人工智能的進(jìn)步所帶來的經(jīng)濟(jì)增長。

我們知道,并非每個(gè)使用人工智能模型的人都是出于善意,我們也承認(rèn),人們對人工智能影響我們世界的方式存在合理的擔(dān)憂。有害內(nèi)容的生成和有問題的關(guān)聯(lián)是人工智能界尚未完全緩解的重大風(fēng)險(xiǎn)。正如本文所述,我們在限制這類反應(yīng)的普遍性方面已經(jīng)取得了長足進(jìn)步。雖然我們認(rèn)識(shí)到還有更多的工作要做,但這種認(rèn)識(shí)只會(huì)加深我們對開放科學(xué)以及與人工智能界合作的承諾。

6 關(guān)聯(lián)工作

大語言模型。近年來,大型語言模型領(lǐng)域發(fā)生了重大演變。根據(jù) Kaplan 等人(2020 年)提出的縮放定律,從 GPT-3 (Brown 等人,2020 年)到 Gopher(Rae 等人,2022 年)或?qū)iT的科學(xué)模型,如 Galactica(Taylor 等人,2022 年),已經(jīng)提出了多個(gè)參數(shù)超過 100B 的大型語言模型。Chinchilla(Hoffmann 等人,2022 年)用 70B 參數(shù)重新定義了這些縮放規(guī)律,使其趨向于代幣數(shù)量而不是模型權(quán)重。在這一過程中值得注意的是 Llama 的崛起,它因注重推理過程中的計(jì)算效率而得到認(rèn)可(Touvron 等人,2023 年)。圍繞開源模型與閉源模型的動(dòng)態(tài)變化也展開了平行討論。BLOOM (Scao et al., 2022)、OPT (Zhang et al., 2022)和 Falcon (Penedo et al., 2023)等開源版本已經(jīng)崛起,向 GPT-3 和 Chinchilla 等閉源版本發(fā)起挑戰(zhàn)。

然而,當(dāng)涉及到 ChatGPT、Bard 和 Claude 等”生產(chǎn)就緒“的 LLM 時(shí),其性能和可用性就有了明顯的區(qū)別。這些模型依賴于復(fù)雜的調(diào)整技術(shù),以符合人類的偏好,而這一過程仍在開源社區(qū)中不斷探索和完善。

為了縮小這一差距,出現(xiàn)了一些嘗試,如 Vicuna(Chiang 等人,2023 年)和 Alpaca(Taori 等人,2023 年)等基于提煉的模型,它們采用了一種獨(dú)特的方法來訓(xùn)練合成指令(Honovich 等人,2022 年;Wang 等人,2022 年)。然而,盡管這些模型顯示出了前景,但仍無法達(dá)到閉源模型所設(shè)定的標(biāo)準(zhǔn)。

指令調(diào)整。Wei 等人(2021 年)通過在大量數(shù)據(jù)集上對 LLM 進(jìn)行微調(diào),獲得了在未見任務(wù)上的 0-shot 性能。Chung 等人(2022 年)和 Longpre 等人(2023 年)研究了指令調(diào)整對任務(wù)數(shù)量、模型大小、提示設(shè)置等的影響。用于指令調(diào)整的提示可以由人類創(chuàng)建,也可以由 LLMs 自己創(chuàng)建(Zhou 等人,2022 年),后續(xù)指令可用于完善初始生成,使其更有用、更吸引人、更無偏見(Ganguli 等人,2023 年;Madaan 等人,2023 年)。與指令調(diào)整相關(guān)的一種方法是思維鏈(chain-of-thought, CoT)提示(Wei 等人,2022b),即在給定一個(gè)復(fù)雜問題時(shí),提示模型解釋其推理,以增加其最終答案正確的可能性。

RLHF 已成為微調(diào)大型語言模型的有力策略,可顯著提高其性能(Christiano 等人,2017 年)。Stiennon 等人(2020 年)在文本總結(jié)任務(wù)中首次展示了這種方法,隨后這種方法被擴(kuò)展到一系列其他應(yīng)用中。在這一范例中,模型根據(jù)人類用戶的反饋進(jìn)行微調(diào),從而使模型的反應(yīng)更接近人類的期望和偏好。

Ouyang 等人(2022 年)的研究表明,指令微調(diào)與 RLHF 的結(jié)合有助于解決事實(shí)性、毒性和幫助性等問題,而這些問題無法通過簡單地?cái)U(kuò)大 LLM 來解決。Bai 等人(2022b)將這種微調(diào)加 RLHF 的方法部分自動(dòng)化,方法是用模型自己的自我批評和修訂取代人類標(biāo)記的微調(diào)數(shù)據(jù),并在 RLHF 中對模型輸出進(jìn)行排名時(shí)用模型取代人類評分者,這一過程被稱為“來自人工智能反饋的 RL”(RLAIF)。

已知的 LLM 安全挑戰(zhàn)。最近的文獻(xiàn)廣泛探討了與大型語言模型相關(guān)的風(fēng)險(xiǎn)和挑戰(zhàn)。Bender 等人(2021b)和 Weidinger 等人(2021)強(qiáng)調(diào)了各種危害,如偏差、有害性、私人數(shù)據(jù)泄漏以及惡意使用的可能性。Solaiman 等人(2023 年)將這些影響分為兩類--可在基礎(chǔ)系統(tǒng)內(nèi)評估的影響和需要進(jìn)行社會(huì)背景評估的影響,而 Kumar 等人(2022 年)則提出了潛在的緩解策略以遏制危害。Roller 等人(2020)和 Dinan 等人(2021)的工作還揭示了面向聊天機(jī)器人的 LLM 所面臨的困難,包括隱私問題和誤導(dǎo)性的專業(yè)知識(shí)聲明等。Deng 等人(2023)提出了一個(gè)分類框架來解決這些問題,Bergman 等人(2022)探討了發(fā)布對話模型可能產(chǎn)生的正面和負(fù)面影響之間的平衡。

對紅隊(duì)測試的調(diào)查揭示了調(diào)整 LLMs 所面臨的具體挑戰(zhàn),Ganguli 等人(2022 年)和 Zhuo 等人(2023 年)的研究展示了各種成功的攻擊類型及其對有害內(nèi)容生成的影響。國家安全機(jī)構(gòu)和各種研究人員(如 Mialon 等人,2023 年)也對先進(jìn)的新興模型行為、網(wǎng)絡(luò)威脅以及在生物戰(zhàn)等領(lǐng)域的潛在濫用提出了警告。最后,更廣泛的社會(huì)問題,如人工智能研究加速導(dǎo)致的工作崗位轉(zhuǎn)移,以及對 LLM 的過度依賴導(dǎo)致訓(xùn)練數(shù)據(jù)退化,也是相關(guān)的考慮因素(Acemoglu 和 Restrepo,2018 年;Autor 和 Salomons,2018 年;Webb,2019 年;Shumailov et al., 2023)。我們致力于繼續(xù)與更廣泛的政策、學(xué)術(shù)和產(chǎn)業(yè)界就這些問題開展合作。

7 結(jié)論

在本研究中,我們引入了 Llama 2,這是一個(gè)新的預(yù)訓(xùn)練和微調(diào)模型系列,參數(shù)量級(jí)為 70 億到 700 億。這些模型已經(jīng)證明了它們與現(xiàn)有開源聊天模型的競爭力,并且在我們檢查的評估集上與一些專有模型相當(dāng),盡管它們?nèi)匀宦浜笥?GPT-4 等其他模型。我們細(xì)致地闡述了實(shí)現(xiàn)我們的模型所采用的方法和技術(shù),并著重強(qiáng)調(diào)了它們與有用性和安全性原則的一致性。為了對社會(huì)做出更大的貢獻(xiàn)并促進(jìn)研究的步伐,我們盡責(zé)地開放了“Llama 2”和“Llama 2-Chat”的訪問權(quán)限。作為我們對透明度和安全性持續(xù)承諾的一部分,我們計(jì)劃在今后的工作中進(jìn)一步改進(jìn) Llama 2-Chat。Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型文章來源地址http://www.zghlxwxcb.cn/news/detail-608023.html

到了這里,關(guān)于Llama2 論文中譯版——開放式基礎(chǔ)和微調(diào)聊天模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 開放式基金凈值估算數(shù)據(jù) API 數(shù)據(jù)接口

    開放式基金凈值估算數(shù)據(jù) API 數(shù)據(jù)接口

    開放式基金凈值估算數(shù)據(jù) API 數(shù)據(jù)接口 全量基金數(shù)據(jù),實(shí)時(shí)數(shù)據(jù),所有基金數(shù)據(jù)。 返回實(shí)時(shí)開放式基金凈值估值 可定義所有基金估值數(shù)據(jù); 多個(gè)基金屬性值返回; 多維指標(biāo),一次查詢毫秒級(jí)返回; 數(shù)據(jù)持續(xù)更新與維護(hù); 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3); 全面兼

    2024年02月14日
    瀏覽(26)
  • ENSP回路配置&OPSF開放式最短路徑優(yōu)先協(xié)議

    ENSP回路配置&OPSF開放式最短路徑優(yōu)先協(xié)議

    OSPF的特征 1.支持等開銷負(fù)載均衡 2.基于組播進(jìn)行更新----224.0.0.5 ?224.0.0.6 3.支持觸發(fā)更新 ; 每30min進(jìn)行一次周期更新 4.需要結(jié)構(gòu)化的部署---區(qū)域劃分 ?地址規(guī)劃 ? (1)距離矢量協(xié)議: 運(yùn)行距離矢量協(xié)議的路由器會(huì)周期性的泛洪自己的路由表。通過路由的交互,每臺(tái)路由器從

    2024年02月19日
    瀏覽(20)
  • AIGC+開放式社交,為年輕人注入了新的“Soul”?

    AIGC+開放式社交,為年輕人注入了新的“Soul”?

    5月21日全國助殘日,Soul App舉辦了一場與眾不同的線上公益活動(dòng),邀請視障用戶擔(dān)任“見習(xí)解憂師”,訴說世界更多角落“不完美”的故事,展示人生更多可能,傳遞溫暖與愛。 參與此次派對的“見習(xí)解憂師”都是Soul平臺(tái)上充滿正能量,并且擁有“野生解憂師”經(jīng)歷的用戶。

    2024年02月11日
    瀏覽(15)
  • 虹科產(chǎn)品|HK-TrueNAS開放式存儲(chǔ)平臺(tái)被評為數(shù)字公益產(chǎn)品

    虹科產(chǎn)品|HK-TrueNAS開放式存儲(chǔ)平臺(tái)被評為數(shù)字公益產(chǎn)品

    一、HK-TrueNAS 被評為數(shù)字公益產(chǎn)品 數(shù)字公共產(chǎn)品聯(lián)盟(Digital Public Goods Alliance) 是一項(xiàng)多方利益相關(guān)者倡議,旨在促進(jìn)數(shù)字公益(DPG)的發(fā)現(xiàn)、開發(fā)、使用和投資。數(shù)字公共產(chǎn)品的定義是所有人都能免費(fèi)獲取的資源或服務(wù),它能為個(gè)人和整個(gè)社會(huì)帶來至關(guān)重要的利益。數(shù)字公

    2024年02月09日
    瀏覽(17)
  • 博途PLC開放式以太網(wǎng)通信TRCV_C指令應(yīng)用編程(運(yùn)動(dòng)傳感器UDP通信)

    博途PLC開放式以太網(wǎng)通信TRCV_C指令應(yīng)用編程(運(yùn)動(dòng)傳感器UDP通信)

    博途PLC開放式以太網(wǎng)通信TSENG_C指令應(yīng)用,請參看下面的文章鏈接:? 博途PLC 1200/1500PLC開放式以太網(wǎng)通信TSEND_C通信(UDP)_plc的udp通信_(tái)RXXW_Dor的博客-CSDN博客 開放式TSEND_C通信支持TCP 、UDP等,關(guān)于TSEND_C的TCP通信可以參看下面這篇文章:博途PLC 1200/1500PLC開放式以太網(wǎng)通信TSEND_C通信

    2023年04月24日
    瀏覽(19)
  • 開放式高實(shí)時(shí)高性能PLC控制器解決方案-基于米爾電子STM32MP135

    開放式高實(shí)時(shí)高性能PLC控制器解決方案-基于米爾電子STM32MP135

    隨著工業(yè)數(shù)字化進(jìn)程加速與IT/OT深入融合,不斷增加的OT核心數(shù)據(jù)已經(jīng)逐步成為工業(yè)自動(dòng)化行業(yè)的核心資產(chǎn),而OT層數(shù)據(jù)具備高實(shí)時(shí)、高精度、冗余度高、數(shù)據(jù)量大等等特點(diǎn),如何獲取更加精準(zhǔn)的OT數(shù)據(jù)對數(shù)字化進(jìn)程起到至關(guān)重要的作用,同時(shí)隨著國內(nèi)工業(yè)控制系統(tǒng)逐步進(jìn)入中

    2024年03月24日
    瀏覽(14)
  • Deep Learning Tuning Playbook(深度學(xué)習(xí)調(diào)參手冊中譯版)

    Deep Learning Tuning Playbook(深度學(xué)習(xí)調(diào)參手冊中譯版)

    由五名研究人員和工程師組成的團(tuán)隊(duì)發(fā)布了《Deep Learning Tuning Playbook》,來自他們自己訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果以及工程師的一些實(shí)踐建議,目前在Github上已有1.5k星。原項(xiàng)目地址 本文為《Deep Learning Tuning Playbook》中文翻譯版本,全程手打,非機(jī)翻。因?yàn)楸救酥R(shí)水平有限,翻

    2023年04月27日
    瀏覽(32)
  • 羊駝2:開放的基礎(chǔ)和微調(diào)聊天模型--Llama 2論文閱讀

    羊駝2:開放的基礎(chǔ)和微調(diào)聊天模型--Llama 2論文閱讀

    論文地址:https://arxiv.org/pdf/2307.09288.pdfd 代碼地址:GitHub - facebookresearch/llama-recipes: Examples and recipes for Llama 2 model 問答 這篇文檔中使用了3.3M GPU小時(shí)的計(jì)算,使用的硬件類型是A100-80GB,可以擴(kuò)展到2000個(gè)GPU,但這些計(jì)算的功耗估計(jì)并不包括互連或非GPU服務(wù)器功耗,也不包括數(shù)據(jù)

    2024年01月16日
    瀏覽(18)
  • llama/llama2論文解讀

    llama/llama2論文解讀

    llama 摘要 llama在約1.4T的token上,訓(xùn)練出參數(shù)量7B到65B的模型,其模型規(guī)模如下 在僅使用開源數(shù)據(jù)集的情況下,llama-13B在多數(shù)benchmarks上與GPT-3效果相當(dāng);llama-65B也與最好的模型(Chinchilla-70B和PALM-540B)打平。 在預(yù)算有限的條件下,模型最佳性能并不是靠堆疊參數(shù)量實(shí)現(xiàn),而是通

    2024年02月03日
    瀏覽(21)
  • 論文閱讀_大語言模型_Llama2

    論文閱讀_大語言模型_Llama2

    英文名稱: Llama 2: Open Foundation and Fine-Tuned Chat Models 中文名稱: Llama 2:開源的基礎(chǔ)模型和微調(diào)的聊天模型 文章: http://arxiv.org/abs/2307.09288 代碼: https://github.com/facebookresearch/llama 作者: Hugo Touvron 日期: 2023-07-19 引用次數(shù): 110 這是一篇77頁的論文,正文也有36頁,讓人望而卻步。整體分

    2024年02月07日
    瀏覽(81)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包