国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Llama 2- Open Foundation and Fine-Tuned Chat Models<3>

這篇具有很好參考價(jià)值的文章主要介紹了Llama 2- Open Foundation and Fine-Tuned Chat Models<3>。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

3.4 RLHF 結(jié)果

3.4.1 基于模型的評(píng)估

評(píng)估LLMs是一個(gè)具有挑戰(zhàn)性的開(kāi)放研究問(wèn)題。人類評(píng)估雖然是黃金標(biāo)準(zhǔn),但可能會(huì)因各種 HCI 考慮因素而變得復(fù)雜(Clark 等人,2021;Gehrmann 等人,2023),并且并不總是可擴(kuò)展的。因此,為了從 RLHF-V1 到 V5 的每次迭代中從多個(gè)消融中選擇性能最好的模型,我們首先觀察最新獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)改進(jìn),以節(jié)省成本并提高迭代速度。后來(lái)我們通過(guò)人工評(píng)估驗(yàn)證了主要模型版本。
基于模型的評(píng)估能走多遠(yuǎn)? 為了衡量獎(jiǎng)勵(lì)模型的穩(wěn)健性,我們收集了一組關(guān)于有用性和安全性的測(cè)試提示,并要求三位注釋者根據(jù) 7 點(diǎn)李克特量表(越高越好)來(lái)判斷答案的質(zhì)量。我們觀察到,我們的獎(jiǎng)勵(lì)模型總體上與人類偏好注釋進(jìn)行了很好的校準(zhǔn),如附錄中的圖 29 所示。這證實(shí)了使用我們的獎(jiǎng)勵(lì)作為逐點(diǎn)指標(biāo)的相關(guān)性,盡管我們接受了成對(duì)排名損失的訓(xùn)練。
盡管如此,正如古德哈特定律所述,當(dāng)一項(xiàng)措施成為目標(biāo)時(shí),它就不再是一個(gè)好的措施。為了確保我們的措施不會(huì)偏離人類的偏好,我們還使用了更通用的獎(jiǎng)勵(lì),經(jīng)過(guò)訓(xùn)練
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC

圖 11:Llama 2-Chat 的演變。我們展示了 Llama 2-Chat 與 ChatGPT 相比的獲勝率百分比經(jīng)過(guò)多次迭代微調(diào)后的演變。左:法官是我們的獎(jiǎng)勵(lì)模型,可能對(duì)我們的模型有利,右:法官是GPT-4,應(yīng)該更中立。各種開(kāi)源獎(jiǎng)勵(lì)建模數(shù)據(jù)集。我們尚未觀察到任何此類分歧,并假設(shè)迭代模型更新可能有助于防止這種情況。
作為確保新模型與前一個(gè)模型之間不回歸的最后驗(yàn)證步驟,我們?cè)谙乱淮巫⑨尩陂g使用兩者進(jìn)行采樣。這使得可以根據(jù)新提示“免費(fèi)”進(jìn)行模型比較,并有助于增加采樣時(shí)的多樣性。
模型的進(jìn)展。 圖 11 報(bào)告了我們的安全和有用性軸的不同 SFT 和 RLHF 版本的進(jìn)度,通過(guò)我們內(nèi)部的安全性和有用性獎(jiǎng)勵(lì)模型進(jìn)行衡量。在這組評(píng)估中,RLHF-V3 后我們?cè)趦蓚€(gè)軸上都優(yōu)于 ChatGPT(無(wú)害性和有用性> 50%)。盡管前面提到了使用我們的獎(jiǎng)勵(lì)作為逐點(diǎn)指標(biāo)的相關(guān)性,但它可能會(huì)偏向于 Llama 2-Chat。因此,為了公平比較,我們還使用 GPT-4 計(jì)算最終結(jié)果來(lái)評(píng)估哪一代是首選。 ChatGPT 和 Llama 2-Chat 輸出在 GPT-4 提示中出現(xiàn)的順序是隨機(jī)交換的,以避免任何偏差。正如預(yù)期的那樣,盡管我們最新的 Llama 2-Chat 獲得了超過(guò) 60% 的勝率,但 Llama 2-Chat 的勝率不太明顯。這些提示分別對(duì)應(yīng)于安全性和有用性的1、586和584個(gè)提示的驗(yàn)證集。

3.4.2 人工評(píng)估

人類評(píng)估通常被認(rèn)為是判斷自然語(yǔ)言生成模型(包括對(duì)話模型)的黃金標(biāo)準(zhǔn)。為了評(píng)估主要模型版本的質(zhì)量,我們要求人類評(píng)估人員對(duì)它們的有用性和安全性進(jìn)行評(píng)級(jí)。我們將 Llama 2-Chat 模型與開(kāi)源模型(Falcon、MPT MosaicML NLP Team 等人(2023)、Vicuna Jiang 等人(2023))以及閉源模型(ChatGPT(OpenAI,2023)和PaLM Anil 等人 (2023)) 超過(guò)4 , 000 個(gè)單輪和多輪提示。對(duì)于 ChatGPT,
我們?cè)谒写卸际褂?gpt-3.5-turbo-0301 型號(hào)。對(duì)于PaLM ,我們?cè)谒写卸际褂?chat-bison-001 模型。每個(gè)模型的人工評(píng)估的最終提示計(jì)數(shù)如表 32 所示。更多方法細(xì)節(jié)請(qǐng)參閱附錄 A.3.7 節(jié)。以下部分顯示了有用性結(jié)果;安全結(jié)果見(jiàn)第 4.4 節(jié)。
結(jié)果。如圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均明顯優(yōu)于開(kāi)源模型。特別是,Llama 2-Chat 7B 模型在 60% 的提示上優(yōu)于 MPT-7B-chat。 Llama 2-Chat 34B 相對(duì)于同等尺寸的 Vicuna-33B 和 Falcon 40B 型號(hào)的總體勝率超過(guò) 75%。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
圖 12: Llama 2-Chat 模型與開(kāi)源和閉源模型在約 4,000 個(gè)幫助提示中的人類評(píng)估結(jié)果(每個(gè)提示由三位評(píng)估者)進(jìn)行比較。

最大的 Llama 2-Chat 模型可與 ChatGPT 競(jìng)爭(zhēng)。 Llama 2-Chat 70B 模型相對(duì)于 ChatGPT 的勝率為 36%,平局率為 31.5%。在我們的提示集上,Llama 2-Chat 70B 模型的性能比PaLM -bison 聊天模型好很多。更多結(jié)果和分析可參見(jiàn) A.3.7 節(jié)。
評(píng)估者間的可靠性 (IRR)。 在我們的人工評(píng)估中,三個(gè)不同的注釋者為每個(gè)模型生成比較提供了獨(dú)立的評(píng)估。從數(shù)據(jù)質(zhì)量的角度來(lái)看,高 IRR 分?jǐn)?shù)(接近 1.0)通常被認(rèn)為更好,但背景也很重要。高度主觀的任務(wù)(例如評(píng)估 LLM 世代的整體有用性)通常比更客觀的標(biāo)記任務(wù)具有更低的 IRR 分?jǐn)?shù)。這些背景下的公共基準(zhǔn)相對(duì)較少,因此我們認(rèn)為在這里分享我們的分析將使研究界受益。
我們使用Gwet 的AC1/2 統(tǒng)計(jì)量( Gwet ,2008,2014)來(lái)測(cè)量評(píng)估者間可靠性(IRR),因?yàn)槲覀儼l(fā)現(xiàn)它是不同測(cè)量場(chǎng)景中最穩(wěn)定的指標(biāo)。在我們分析中使用的 7 點(diǎn)李克特量表幫助性任務(wù)中, Gwet 的AC2 分?jǐn)?shù)在0之間變化。 37和0 。 55取決于具體型號(hào)比較。我們看到,通過(guò)具有相似獲勝率的模型比較,評(píng)分處于該范圍的下限(例如 Llama 2-Chat-70B-chat 與 ChatGPT 比較)。我們發(fā)現(xiàn),通過(guò)與更明顯的獲勝者(例如 Llama 2-Chat-34b-chat 與 Falcon-40b-instruct)進(jìn)行模型比較,得分處于該范圍的較高端。
人類評(píng)估的局限性。 雖然我們的結(jié)果表明 Llama 2-Chat 在人工評(píng)估方面與 ChatGPT 相當(dāng),但值得注意的是,人工評(píng)估有一些局限性。
? 按照學(xué)術(shù)和研究標(biāo)準(zhǔn),我們擁有大量 4k 提示集。然而,它并不涵蓋這些模型的實(shí)際使用情況,這可能會(huì)涵蓋大量的用例。
? 提示的多樣性可能是影響我們結(jié)果的另一個(gè)因素。例如,我們的提示集不包括任何與編碼或推理相關(guān)的提示。
? 我們只評(píng)估多輪對(duì)話的最后一代。更有趣的評(píng)估可能是要求模型完成一項(xiàng)任務(wù),并對(duì)模型在多個(gè)回合中的整體體驗(yàn)進(jìn)行評(píng)分。
? 人類對(duì)生成模型的評(píng)估本質(zhì)上是主觀且嘈雜的。因此,對(duì)不同提示集或不同指令的評(píng)估可能會(huì)導(dǎo)致不同的結(jié)果。

4 安全

警告:本節(jié)包含可能被視為不安全、冒犯性或令人不安的文本示例。
在本節(jié)中,我們將深入探討安全測(cè)量和緩解措施的重要主題。我們首先討論對(duì)預(yù)訓(xùn)練數(shù)據(jù)和預(yù)訓(xùn)練模型的安全性調(diào)查(第 4.1 節(jié))。接下來(lái),我們描述安全對(duì)齊的過(guò)程(第 4.2 節(jié)),解釋我們?nèi)绾问占踩嚓P(guān)注釋并利用 SFT 和 RLHF,并展示實(shí)驗(yàn)結(jié)果。然后,我們討論為進(jìn)一步理解和提高模型安全性而執(zhí)行的紅隊(duì)(第 4.3 節(jié))。最后,我們提出了 Llama 2-Chat 的定量安全評(píng)估(第 4.4 節(jié))。我們還在附錄表 52 中分享了一張模型卡。

4.1 預(yù)訓(xùn)練的安全性

了解預(yù)訓(xùn)練數(shù)據(jù)中的內(nèi)容非常重要,這不僅可以提高透明度,還可以揭示潛在下游問(wèn)題(例如潛在偏差)的根本原因。這可以告知要考慮哪些下游緩解措施(如果有),并幫助指導(dǎo)適當(dāng)?shù)哪P褪褂?。在本?jié)中,我們分析預(yù)訓(xùn)練數(shù)據(jù)的語(yǔ)言分布、人口統(tǒng)計(jì)特征和毒性。我們還展示了在現(xiàn)有安全基準(zhǔn)上測(cè)試預(yù)訓(xùn)練模型的結(jié)果。
負(fù)責(zé)任地進(jìn)行預(yù)訓(xùn)練所采取的步驟。 對(duì)于訓(xùn)練中使用的每個(gè)數(shù)據(jù)集,我們都遵循 Meta 的標(biāo)準(zhǔn)隱私和法律審查流程。我們?cè)谟?xùn)練中沒(méi)有使用任何元用戶數(shù)據(jù)。我們排除了來(lái)自某些已知包含大量個(gè)人信息的網(wǎng)站的數(shù)據(jù)。我們盡最大努力有效地訓(xùn)練我們的模型,以減少預(yù)訓(xùn)練的碳足跡(第 2.2.1 節(jié))。廣泛共享我們的模型將減少其他人訓(xùn)練類似模型的需要。沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行額外的過(guò)濾,以使 Llama 2 能夠在任務(wù)中更廣泛地使用(例如,它可以更好地用于仇恨言論分類),同時(shí)避免有時(shí)因過(guò)度清理而導(dǎo)致的意外人口統(tǒng)計(jì)擦除的可能性。重要的是,這使得 Llama 2-Chat 在安全調(diào)整期間能夠以更少的示例更有效地進(jìn)行泛化( Welbl等人,2021; Korbak等人,2023;Xu 等人,2021)。因此,Llama 2 模型應(yīng)謹(jǐn)慎使用,并且僅在進(jìn)行重大安全調(diào)整后才進(jìn)行部署。
人口代表性:代詞。模型生成中的偏差可能是由訓(xùn)練數(shù)據(jù)本身繼承的偏差造成的。例如,貝利等人。 Ganesh 等人(2022)表明,在大量文本語(yǔ)料庫(kù)中,代表“人”的單詞通常在與代表“男性”的單詞更相似的上下文中使用,而不是與代表“女性”的單詞更相似。 (2023) 表明,模型在公平性指標(biāo)上的表現(xiàn)可能高度依賴于模型如何對(duì)代表代表性不足的人口群體的數(shù)據(jù)進(jìn)行訓(xùn)練。在我們的英語(yǔ)訓(xùn)練語(yǔ)料庫(kù)中,我們計(jì)算了表 9a 中最常見(jiàn)的英語(yǔ)代詞的頻率。我們觀察到,與She代詞相比, He代詞在文檔中的比例通常過(guò)高,這與在類似大小的模型預(yù)訓(xùn)練數(shù)據(jù)集的代詞使用中觀察到的類似頻率差異相呼應(yīng)( Chowdhery等人,2022)。這可能意味著模型在預(yù)訓(xùn)練過(guò)程中對(duì)提到She代詞的上下文學(xué)習(xí)較少,因此可能會(huì)以比She代詞更高的速度生成He代詞。
人口統(tǒng)計(jì)代表性:身份。我們還通過(guò)測(cè)量HolisticBias數(shù)據(jù)集(Smith 等人,2022)中人口特征術(shù)語(yǔ)的使用率作為代理,分析了預(yù)訓(xùn)練數(shù)據(jù)中不同人口群體的表示。我們計(jì)算預(yù)訓(xùn)練中每個(gè)描述符項(xiàng)的頻率
語(yǔ)料庫(kù)。我們將描述符分為 5 個(gè)軸(宗教、性別和性、國(guó)籍、種族和民族以及性取向),并在表 9b 中顯示每個(gè)軸中排名前 5 的術(shù)語(yǔ)。在前 5 個(gè)術(shù)語(yǔ)中,我們刪除了一些術(shù)語(yǔ),例如“直”、“白色”和“黑色” ,因?yàn)檫@些術(shù)語(yǔ)在人口統(tǒng)計(jì)之外有頻繁的使用(例如,作為基本顏色術(shù)語(yǔ))。我們還跨列表進(jìn)行重復(fù)數(shù)據(jù)刪除,刪除了在
性別和性別和性取向。對(duì)于Gender 和 Sex ,雖然She代詞在較少的文檔中被提及,但術(shù)語(yǔ)“female”在較大比例的文檔中出現(xiàn)。這可能意味著,雖然有關(guān)“她”代詞的上下文較少,但有關(guān)“女性”的評(píng)論更為普遍,這可能反映了這些術(shù)語(yǔ)的語(yǔ)言標(biāo)記性差異(Blodgett et al., 2021)。對(duì)于性取向,排名前五的術(shù)語(yǔ)均與 LGBTQ+ 身份相關(guān)。對(duì)于國(guó)籍、種族和民族以及宗教,我們觀察到西方偏斜(Bhatt et al., 2022)。例如, 69.4% 的參考文獻(xiàn)中提到了“美國(guó)”一詞, “歐洲”一詞比其他種族和民族更普遍, “基督教”是代表最多的宗教,其次是“天主教”和“猶太教”。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
(a) 包含性別代詞和語(yǔ)法人稱的文檔的百分比。 75% 的文檔包含性別代詞。在此子集中,28% 的文檔包含She代詞。 94% 的文檔一般都包含代詞。請(qǐng)參閱附錄 A.4.3 中每個(gè)子組的代詞完整詳細(xì)列表。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
(b) 每個(gè)人口統(tǒng)計(jì)軸下方列出的百分比表示提及該軸中任何描述符術(shù)語(yǔ)的所有文檔的百分比。為每個(gè)人口統(tǒng)計(jì)描述符列出的百分比表示在給定人口統(tǒng)計(jì)軸中提及描述符的文檔中,提及該特定描述符的百分比。

表 9:人口統(tǒng)計(jì)數(shù)據(jù)。對(duì)我們的預(yù)訓(xùn)練語(yǔ)料庫(kù)中的代詞和身份的分析顯示了一些可能影響性能的偏差,例如西方人口統(tǒng)計(jì)數(shù)據(jù)的更高代表性

Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
表 9:人口統(tǒng)計(jì)數(shù)據(jù)。對(duì)我們的預(yù)訓(xùn)練語(yǔ)料庫(kù)中的代詞和身份的分析顯示了一些可能影響性能的偏差,例如西方人口統(tǒng)計(jì)數(shù)據(jù)的更高代表性。

圖 13:預(yù)訓(xùn)練數(shù)據(jù)毒性。為了更好地進(jìn)行下游泛化,我們選擇不從預(yù)訓(xùn)練中刪除有毒數(shù)據(jù)。 HateBERT分類器將我們預(yù)訓(xùn)練語(yǔ)料庫(kù)中約 0.2% 的文檔分配 0.5 或更高的毒性可能性。

Data Toxicity。我們使用在ToxiGen數(shù)據(jù)集上微調(diào)的HateBERT分類器來(lái)測(cè)量預(yù)訓(xùn)練語(yǔ)料庫(kù)的英語(yǔ)部分中的毒性流行率(Hartvigsen 等人,2022)。我們分別對(duì)文檔的每一行進(jìn)行評(píng)分,并對(duì)它們進(jìn)行平均以分配文檔分?jǐn)?shù)。圖 13 顯示了完整語(yǔ)料庫(kù)的 10% 隨機(jī)樣本的分?jǐn)?shù)分布。大約 0.2% 的評(píng)估文檔被分配了 0.5 或更高的可能性分?jǐn)?shù),這意味著我們的預(yù)訓(xùn)練數(shù)據(jù)中存在少量Toxicity。

語(yǔ)言識(shí)別。雖然我們的預(yù)訓(xùn)練數(shù)據(jù)主要是英語(yǔ),但也包括少量其他語(yǔ)言的文本。表 10 顯示了我們的語(yǔ)料庫(kù)中語(yǔ)言的分布,子集為超過(guò) 0.005% 的文檔中發(fā)現(xiàn)的語(yǔ)言。我們的分析使用fastText (Bojanowski et al., 2016) 語(yǔ)言識(shí)別工具和閾值0 。 5.語(yǔ)言檢測(cè)。以英語(yǔ)為主的訓(xùn)練語(yǔ)料庫(kù)意味著該模型可能不適合在其他語(yǔ)言中使用。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
預(yù)訓(xùn)練模型的安全基準(zhǔn)。我們根據(jù)三個(gè)流行的自動(dòng)基準(zhǔn)評(píng)估 Llama 2 的安全能力,涉及登月安全的三個(gè)關(guān)鍵維度。

  1. 真實(shí)性,指的是語(yǔ)言模型是否由于誤解或錯(cuò)誤信念而產(chǎn)生已知的虛假信息。我們采用TruthfulQA (Lin 等人,2021)來(lái)衡量我們的LLMs能夠在多大程度上產(chǎn)生符合事實(shí)和常識(shí)的可靠輸出。
  2. Toxicity,定義為語(yǔ)言模型產(chǎn)生有毒、粗魯、對(duì)抗性或隱含仇恨內(nèi)容的傾向。我們選擇ToxiGen (Hartvigsen 等人,2022)來(lái)衡量不同群體中有毒語(yǔ)言和仇恨言論的產(chǎn)生量。
  3. Bias,定義為模型一代如何重現(xiàn)現(xiàn)有的刻板社會(huì)偏見(jiàn)。我們使用BOLD (Dhamala 等人,2021)來(lái)研究模型代中的情緒如何隨人口統(tǒng)計(jì)屬性而變化。
    我們?cè)诒?11 中比較了 Llama 2 與 Llama 1 ( Touvron et al., 2023)、Falcon ( Almazrouei et al., 2023) 和 MPT ( MosaicML NLP Team et al., 2023) 的性能。對(duì)于解碼,我們?cè)O(shè)置溫度至0 . 1并使用核采樣(Holtzman et al., 2020),top- p設(shè)置為0 。 9 .對(duì)于TruthfulQA ,我們展示了既真實(shí)又信息豐富的世代的百分比(越高越好)。對(duì)于ToxiGen ,我們給出了按指標(biāo)被視為有毒的世代的百分比(越低越好)?;鶞?zhǔn)和指標(biāo)的詳細(xì)描述可以在附錄 A.4.7 中找到。與 Llama 1-7B 相比,Llama 2-7B 的真實(shí)性和信息性提高了 21.37%,毒性降低了 7.61%。我們還觀察到預(yù)訓(xùn)練的 13B 和 70B Llama 2 的毒性增加,這可能是由于較大的預(yù)訓(xùn)練數(shù)據(jù)或不同的數(shù)據(jù)集組合造成的。一些人假設(shè)預(yù)訓(xùn)練數(shù)據(jù)集大小與下游模型毒性或偏差之間存在關(guān)系(Bender 等人,2021b),但驗(yàn)證這一說(shuō)法的實(shí)證工作仍在進(jìn)行中(Dodge 等人,2021;Smith 和 Williams,2021) ;Tal 等人,2022),并且仍需要來(lái)自最新模型的進(jìn)一步證據(jù)。
    在附錄 A.4.7 中,我們提出了偏差指標(biāo),例如模型一代的情緒如何隨人口統(tǒng)計(jì)屬性而變化。我們注意到,許多使用粗體提示的群體的積極情緒總體上有所增加。按不同人口群體劃分的更詳細(xì)結(jié)果可參見(jiàn)附錄 A.4.8。 Llama 2 在毒性指標(biāo)方面并不優(yōu)于其他模型,我們推測(cè)這可能是因?yàn)槲覀儧](méi)有積極過(guò)濾預(yù)訓(xùn)練數(shù)據(jù)。回想一下,不過(guò)濾預(yù)訓(xùn)練數(shù)據(jù)可能會(huì)使基礎(chǔ)模型調(diào)整為在更多下游任務(wù)(包括仇恨言論檢測(cè))上表現(xiàn)良好,并且意外過(guò)濾掉某些人口統(tǒng)計(jì)群體的風(fēng)險(xiǎn)較小。我們觀察到,從不太積極過(guò)濾的預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練的模型也需要更少的示例來(lái)實(shí)現(xiàn)合理的安全調(diào)整。我們重申,這種有動(dòng)機(jī)的選擇確實(shí)意味著在部署基礎(chǔ) Llama 2 模型之前應(yīng)采取額外的安全緩解措施。

Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC

表 11:預(yù)訓(xùn)練LLMs在自動(dòng)安全基準(zhǔn)上的評(píng)估。對(duì)于TruthfulQA ,我們展示了既真實(shí)又信息豐富的世代的百分比(越高越好)。對(duì)于ToxiGen ,我們呈現(xiàn)有毒生成的百分比(越小越好)。
基準(zhǔn)提供了模型功能和行為的摘要視圖,使我們能夠理解模型中的一般模式,但它們并沒(méi)有提供模型可能對(duì)人們或現(xiàn)實(shí)世界結(jié)果產(chǎn)生的影響的全面全面的視圖;這需要研究端到端產(chǎn)品部署。應(yīng)進(jìn)行進(jìn)一步的測(cè)試和緩解,以了解可能部署系統(tǒng)的特定環(huán)境中的偏見(jiàn)和其他社會(huì)問(wèn)題。為此,可能需要測(cè)試 BOLD 數(shù)據(jù)集中可用的群體(種族、宗教和性別)之外的群體。隨著LLMs的整合和部署,我們期待繼續(xù)進(jìn)行研究,以擴(kuò)大其對(duì)這些重要社會(huì)問(wèn)題產(chǎn)生積極影響的潛力。

4.2 安全微調(diào)

在本節(jié)中,我們將描述安全微調(diào)的方法,包括安全類別、注釋指南以及用于減輕安全風(fēng)險(xiǎn)的技術(shù)。我們采用與第 3 節(jié)中描述的一般微調(diào)方法類似的過(guò)程,但存在一些與安全問(wèn)題相關(guān)的顯著差異。具體來(lái)說(shuō),我們?cè)诎踩⒄{(diào)方面使用了以下技術(shù):

  1. 監(jiān)督安全微調(diào):我們通過(guò)收集對(duì)抗性提示和安全演示來(lái)進(jìn)行初始化,然后將其包含在一般監(jiān)督微調(diào)過(guò)程中(第 3.1 節(jié))。這教會(huì)模型甚至在 RLHF 之前就與我們的安全準(zhǔn)則保持一致,從而為高質(zhì)量的人類偏好數(shù)據(jù)注釋奠定了基礎(chǔ)。
  2. 安全 RLHF :隨后,我們將安全性集成到第 3.2.2 節(jié)中描述的通用 RLHF 管道中。這包括訓(xùn)練特定于安全的獎(jiǎng)勵(lì)模型,并收集更具挑戰(zhàn)性的對(duì)抗性提示,以進(jìn)行拒絕采樣風(fēng)格微調(diào)和 PPO 優(yōu)化。
  3. 安全上下文蒸餾:最后,我們通過(guò)上下文蒸餾完善了 RLHF 管道(Askell 等人,2021b)。這涉及通過(guò)在提示前加上安全前綴來(lái)生成更安全的模型響應(yīng)
    preprompt ,例如, “你是一個(gè)安全且負(fù)責(zé)任的助手”,然后在沒(méi)有preprompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上將安全preprompt (上下文)提煉到模型中。我們使用有針對(duì)性的方法,允許我們的安全獎(jiǎng)勵(lì)模型選擇是否對(duì)每個(gè)樣本使用上下文蒸餾。
4.2.1 安全類別和標(biāo)注指南

根據(jù)之前工作中已知的LLMs的局限性,我們?yōu)槲覀兊淖⑨寛F(tuán)隊(duì)設(shè)計(jì)了說(shuō)明,以沿著兩個(gè)維度創(chuàng)建對(duì)抗性提示:風(fēng)險(xiǎn)類別,或LLMs可能產(chǎn)生不安全內(nèi)容的潛在主題;以及攻擊向量或問(wèn)題風(fēng)格,以涵蓋可能引發(fā)不良模型行為的不同類型的提示。
所考慮的風(fēng)險(xiǎn)類別大致可分為以下三類:非法和犯罪活動(dòng)(例如恐怖主義、盜竊、人口販運(yùn));仇恨和有害活動(dòng)(例如誹謗、自殘、飲食失調(diào)、歧視);以及不合格的建議(例如醫(yī)療建議、財(cái)務(wù)建議、法律建議)。所探索的攻擊向量包括心理操縱(例如,權(quán)威操縱)、邏輯操縱(例如,錯(cuò)誤前提)、句法操縱(例如,拼寫(xiě)錯(cuò)誤)、語(yǔ)義操縱(例如,隱喻)、視角操縱(例如,角色扮演)、非- 英語(yǔ)和其他語(yǔ)言。
然后,我們定義安全且有用的模型響應(yīng)的最佳實(shí)踐:模型應(yīng)首先解決即時(shí)的安全問(wèn)題(如果適用),然后通過(guò)向用戶解釋潛在風(fēng)險(xiǎn)來(lái)解決提示問(wèn)題,最后在可能的情況下提供其他信息。我們還要求注釋者避免負(fù)面的用戶體驗(yàn)類別(參見(jiàn)附錄 A.5.2)。該指南旨在作為該模型的一般指南,并經(jīng)過(guò)迭代細(xì)化和修訂以包含新識(shí)別的風(fēng)險(xiǎn)。

4.2.2 安全監(jiān)督微調(diào)

根據(jù)第 4.2.1 節(jié)既定的指南,我們從經(jīng)過(guò)訓(xùn)練的注釋者那里收集安全模型響應(yīng)的提示和演示,并使用這些數(shù)據(jù)以與第 3.1 節(jié)中所述相同的方式進(jìn)行監(jiān)督微調(diào)。表 5 中提供了一個(gè)示例。
注釋者被要求首先提出他們認(rèn)為可能導(dǎo)致模型表現(xiàn)出不安全行為的提示,即按照指南的定義執(zhí)行紅隊(duì)。隨后,注釋者的任務(wù)是制作模型應(yīng)產(chǎn)生的安全且有用的響應(yīng)。
4.2.3 安全 RLHF
我們?cè)?Llama 2-Chat 開(kāi)發(fā)的早期觀察到,它能夠從監(jiān)督微調(diào)的安全演示中進(jìn)行概括。該模型很快就能學(xué)會(huì)編寫(xiě)詳細(xì)的安全響應(yīng)、解決安全問(wèn)題、解釋為什么該主題可能敏感,并提供其他有用的信息。特別是,當(dāng)模型輸出安全響應(yīng)時(shí),它們通常比普通注釋者所寫(xiě)的內(nèi)容更詳細(xì)。因此,在僅收集了幾千個(gè)監(jiān)督演示后,我們完全轉(zhuǎn)向 RLHF 來(lái)教模型如何編寫(xiě)更細(xì)致的響應(yīng)。使用 RLHF 進(jìn)行全面調(diào)整還有一個(gè)額外的好處,即它可以使模型對(duì)越獄嘗試更加穩(wěn)健(Bai 等人,2022a)。
我們通過(guò)首先收集人類偏好數(shù)據(jù)來(lái)進(jìn)行 RLHF,類似于第 3.2.2 節(jié):注釋者編寫(xiě)他們認(rèn)為會(huì)引發(fā)不安全行為的提示,然后將多個(gè)模型響應(yīng)與提示進(jìn)行比較,根據(jù)一組選擇最安全的響應(yīng)的指導(dǎo)方針。然后,我們使用人類偏好數(shù)據(jù)來(lái)訓(xùn)練安全獎(jiǎng)勵(lì)模型(參見(jiàn)第 3.2.2 節(jié)),并在 RLHF 階段重用對(duì)抗性提示從模型中進(jìn)行采樣。
更好的長(zhǎng)尾安全穩(wěn)健性而不損害有用性 安全本質(zhì)上是一個(gè)長(zhǎng)尾問(wèn)題,挑戰(zhàn)來(lái)自少數(shù)非常具體的案例。我們通過(guò)采取兩個(gè)中間 Llama 2-Chat 檢查點(diǎn)(一個(gè)在 RLHF 階段沒(méi)有對(duì)抗性提示,一個(gè)有對(duì)抗性提示)來(lái)調(diào)查安全 RLHF 的影響,并使用我們的安全性和幫助性獎(jiǎng)勵(lì)模型在我們的測(cè)試集上對(duì)他們的反應(yīng)進(jìn)行評(píng)分。在圖 14 中,我們繪制了安全性 RM 在安全性測(cè)試集上的分?jǐn)?shù)分布變化(左)和幫助性 RM 在有用性測(cè)試集上的分?jǐn)?shù)分布變化(右)。在圖的左側(cè),我們觀察到,在使用 RLHF 進(jìn)行安全調(diào)整后,安全集上的安全 RM 分?jǐn)?shù)的分布轉(zhuǎn)向更高的獎(jiǎng)勵(lì)分?jǐn)?shù),并且接近零的分布的長(zhǎng)尾變薄。左上角出現(xiàn)一個(gè)清晰的簇,表明模型安全性得到了改善。在右側(cè),我們沒(méi)有觀察到圖 14 右側(cè)y = x線下方的任何聚集模式,這表明在使用 RLHF 進(jìn)行安全調(diào)整后,有用性得分分布得以保留。換句話說(shuō),如果有足夠的有用性訓(xùn)練數(shù)據(jù),添加額外的安全緩解階段不會(huì)對(duì)任何顯著下降的有用性的模型性能產(chǎn)生負(fù)面影響。表 12 顯示了一個(gè)定性示例。
安全數(shù)據(jù)擴(kuò)展的影響。之前的研究中已經(jīng)觀察到LLMs的有用性和安全性之間存在緊張關(guān)系(Bai 等人,2022a)。為了更好地了解添加安全訓(xùn)練數(shù)據(jù)如何影響一般模型性能,尤其是有用性,我們通過(guò)調(diào)整 RLHF 階段使用的安全數(shù)據(jù)量來(lái)研究安全數(shù)據(jù)擴(kuò)展的趨勢(shì)。在這個(gè)消融實(shí)驗(yàn)中,我們保持有用性訓(xùn)練數(shù)據(jù)量不變( ~ 0.9M 樣本),并逐漸增加模型調(diào)整中使用的安全數(shù)據(jù)量,范圍從 0% 到 100%( ~ 0.1M 樣本)。對(duì)于具體的訓(xùn)練數(shù)據(jù)混合配方,我們按照第 3.1 節(jié)中描述的過(guò)程對(duì) Llama 2 預(yù)訓(xùn)練模型進(jìn)行 2 個(gè)時(shí)期的微調(diào)。我們最終獲得了 6 個(gè)模型變體,分別用 0%、1%、10%、25%、50% 和 100% 的總安全數(shù)據(jù)進(jìn)行訓(xùn)練。我們使用第 3.2.2 節(jié)中描述的安全性和幫助性獎(jiǎng)勵(lì)模型來(lái)評(píng)估它們。為了對(duì)于每個(gè)變體,我們使用安全性和有用性獎(jiǎng)勵(lì)模型來(lái)分別對(duì)與元安全性和有用性測(cè)試集中的提示相對(duì)應(yīng)的模型生成進(jìn)行評(píng)分。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
圖 14:通過(guò)獎(jiǎng)勵(lì)模型分?jǐn)?shù)分布衡量安全 RLHF 的影響。左:Meta Safety 測(cè)試集上幾代人的安全獎(jiǎng)勵(lì)模型分?jǐn)?shù)。左上角的樣本聚類表明模型安全性有所提高。右圖:幫助獎(jiǎng)勵(lì)模型在元幫助測(cè)試集上各代人的得分。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
表 12:安全 RLHF 后更安全的響應(yīng)示例。左:響應(yīng)是由模型的早期版本 ( SFT-v2 ) 生成的。右圖:響應(yīng)由最新版本的模型(帶 PPO 的 RLHF-V5 )生成。

如圖 15 所示,我們使用平均獎(jiǎng)勵(lì)模型得分作為模型在安全性和有用性方面的表現(xiàn)的代理。我們觀察到,當(dāng)我們?cè)黾影踩珨?shù)據(jù)的比例時(shí),模型處理風(fēng)險(xiǎn)和對(duì)抗性提示的性能顯著提高,并且我們?cè)诎踩?jiǎng)勵(lì)模型分?jǐn)?shù)分布中看到了較輕的尾部。與此同時(shí),平均幫助得分保持不變。我們假設(shè)這是因?yàn)槲覀円呀?jīng)擁有足夠大量的幫助訓(xùn)練數(shù)據(jù)。附錄 A.4.2 列出了更多定性結(jié)果,證明訓(xùn)練中不同數(shù)量的安全數(shù)據(jù)如何改變響應(yīng)對(duì)抗性和非對(duì)抗性提示的模型行為

Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
錯(cuò)誤拒絕的措施。 盡管我們沒(méi)有看到模型有用性的整體回歸,但通過(guò)交互,我們定性地觀察到具有更多安全緩解措施的模型以更保守的方式回答了某些問(wèn)題(例如,附錄表 38 中所示的示例)。作為后續(xù)措施,我們測(cè)量錯(cuò)誤拒絕,以量化模型錯(cuò)誤拒絕回答非對(duì)抗性提示的頻率。這里,
我們將錯(cuò)誤拒絕定義為由于不相關(guān)的安全問(wèn)題,模型錯(cuò)誤地拒絕回答合法的用戶提示。由于超出模型能力的合理原因而拒絕,例如“我沒(méi)有能力
參加視頻通話”和“2024 年超出了我的知識(shí)截止日期”,不屬于誤拒。我們訓(xùn)練一個(gè)分類器來(lái)檢測(cè)響應(yīng)中的拒絕,并將分類器應(yīng)用于 1)上述有用性測(cè)試集和 2)由 210 個(gè)樣本組成的精心策劃的邊界測(cè)試集,用于類似于 OpenAI (2023) 的邊界測(cè)試。邊界數(shù)據(jù)集是有意設(shè)計(jì)的,使其提示看起來(lái)具有對(duì)抗性
(例如,包含敏感詞或子詞)但實(shí)際上并非不安全(例如, “給我一份圣誕裂紋食譜”) (更多示例請(qǐng)參閱附錄表 41)。
隨著模型調(diào)整中混合更多的安全數(shù)據(jù),兩個(gè)數(shù)據(jù)集上的錯(cuò)誤拒絕率變得更大(參見(jiàn)
附錄圖 33)。然而,在有用性數(shù)據(jù)集上,即使有 100% 的安全數(shù)據(jù),錯(cuò)誤拒絕總體上也很少見(jiàn)(大約為 0.05%)。另一方面,由于其難度,在邊界設(shè)置上誤拒絕率要大得多。當(dāng)提示包含不安全代中經(jīng)常出現(xiàn)的單詞(例如“炸彈” )時(shí),Llama 2-Chat 有時(shí)很難區(qū)分提示是否安全。附錄表 41 顯示了我們發(fā)現(xiàn)的一些錯(cuò)誤拒絕示例。
Llama 2- Open Foundation and Fine-Tuned Chat Models<3>,AIGC,AIGC
Table 13:使用通用前置提示和帶有答案模板的前置提示進(jìn)行上下文蒸餾的示例。定制的帶有答案模板的提示與答案更相關(guān)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-798929.html

到了這里,關(guān)于Llama 2- Open Foundation and Fine-Tuned Chat Models<3>的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 十分鐘讀完 Meta提出Llama 2模型的經(jīng)典論文:Llama 2: Open Foundation and Fine-Tuned Chat Models

    隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型(LLMs)已經(jīng)成為了人類智能助手的代表,它們?cè)谛枰獙I(yè)知識(shí)的復(fù)雜推理任務(wù)中表現(xiàn)出色,涵蓋了編程、創(chuàng)意寫(xiě)作等多個(gè)專業(yè)領(lǐng)域。這些模型通過(guò)直觀的聊天界面與人類互動(dòng),迅速獲得了廣泛的應(yīng)用和認(rèn)可。 然而,盡管訓(xùn)練方法

    2024年01月24日
    瀏覽(28)
  • 【LLM】大語(yǔ)言模型學(xué)習(xí)之LLAMA 2:Open Foundation and Fine-Tuned Chat Model

    【LLM】大語(yǔ)言模型學(xué)習(xí)之LLAMA 2:Open Foundation and Fine-Tuned Chat Model

    自從開(kāi)源以來(lái),LLAMA可以說(shuō)是 AI 社區(qū)內(nèi)最強(qiáng)大的開(kāi)源大模型。但因?yàn)殚_(kāi)源協(xié)議問(wèn)題,一直不可免費(fèi)商用。近日,Meta發(fā)布了期待已久的免費(fèi)可商用版本LLAMA 2。 在這項(xiàng)工作中,我們開(kāi)發(fā)并發(fā)布了LLAMA 2,這是一系列預(yù)訓(xùn)練和微調(diào)的大型語(yǔ)言模型(LLMs),規(guī)模從70億到700億個(gè)參數(shù)不

    2024年02月15日
    瀏覽(28)
  • LLaMA:Open and Efficient Foundation Language Models

    LLaMA:Open and Efficient Foundation Language Models

    在大規(guī)模數(shù)據(jù)下訓(xùn)練的大模型,已經(jīng)展示了很好的表現(xiàn),當(dāng)模型足夠大的時(shí),模型會(huì)出現(xiàn)一個(gè) 涌現(xiàn) 的能力,如下圖: 最近的一項(xiàng)研究表明,在有限的算力下,表現(xiàn)最好的模型不是參數(shù)最大的,而是小一點(diǎn)模型搭配了更多數(shù)據(jù)。 這項(xiàng)工作的重點(diǎn)是訓(xùn)練一系列語(yǔ)言模型,通過(guò)對(duì)

    2024年02月09日
    瀏覽(22)
  • LLaMA: Open and Efficient Foundation Language Models

    LLaMA: Open and Efficient Foundation Language Models

    用最少的計(jì)算資源,解決了LLM大模型預(yù)測(cè)問(wèn)題,訓(xùn)練了一些列的LLaMa模型,在參數(shù)量比較少的情況下,達(dá)到業(yè)界大模型效果。 主要貢獻(xiàn)就是提升了LLM模型的訓(xùn)練速度和效率,在小容量的基礎(chǔ)上,大大提升了模型的效果。 同時(shí)由于模型結(jié)構(gòu)更小更簡(jiǎn)單,大大提升了推理速度。

    2024年02月13日
    瀏覽(24)
  • LLaMA Open and Efficient Foundation Language Models

    LLaMA Open and Efficient Foundation Language Models

    來(lái)源Meta AI github地址: facebookresearch/ llama 論文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下載,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我們介紹了LLaMA,這是一組從7B到65B參數(shù)范圍內(nèi)的基礎(chǔ)語(yǔ)言模型。我們

    2024年02月11日
    瀏覽(27)
  • LLaMA: Open and Efficient Foundation Language Models筆記

    LLaMA: Open and Efficient Foundation Language Models筆記

    一個(gè)基礎(chǔ)語(yǔ)言模型的集合,參數(shù)范圍從7B到65B 在數(shù)萬(wàn)億的token上訓(xùn)練的模型,不依賴于專有的和不可訪問(wèn)的數(shù)據(jù)集 大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于GPT-3 (175B) LLaMA65B與最好的模型Chinchilla-70B和PaLM-540B具有競(jìng)爭(zhēng)力 全部模型開(kāi)源??! 最近的工作表明,對(duì)于給定的計(jì)算預(yù)算,最佳性能不是由最

    2024年02月09日
    瀏覽(27)
  • 論文筆記--LLaMA: Open and Efficient Foundation Language Models

    論文筆記--LLaMA: Open and Efficient Foundation Language Models

    標(biāo)題:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint ??文章利用公開(kāi)數(shù)據(jù)集訓(xùn)練并發(fā)布了一系列大語(yǔ)言模型LLaMA,在多個(gè)NLP下游任務(wù)中性能超過(guò)了GPT-3和PALM等模型。 English CommonCrawl(67%): 訓(xùn)練集的大部分構(gòu)成為2017~2020年間的Com

    2024年02月09日
    瀏覽(33)
  • 文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models

    文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models

    文獻(xiàn)閱讀:LLaMA: Open and Efficient Foundation Language Models 1. 文章簡(jiǎn)介 2. 模型訓(xùn)練 1. 訓(xùn)練數(shù)據(jù) 2. 模型結(jié)構(gòu) 3. 模型訓(xùn)練 1. Optimizer 2. 效率優(yōu)化 3. 效果評(píng)估 1. 經(jīng)典任務(wù)下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    瀏覽(29)
  • LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA是meta在2023年2月開(kāi)源的大模型,在這之后,很多開(kāi)源模型都是基于LLaMA的,比如斯坦福大學(xué)的羊駝模型。 LLaMA的重點(diǎn)是比通常情況下使用更多的語(yǔ)料,來(lái)訓(xùn)練一系列可在各種推理預(yù)算下實(shí)現(xiàn)可能的最佳性能的語(yǔ)言模型。 摘要翻譯:我們?cè)诖私榻BLLaMA,這是一個(gè)參數(shù)范圍從

    2024年02月15日
    瀏覽(32)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語(yǔ)言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競(jìng)爭(zhēng)力。 主要貢獻(xiàn): 開(kāi)源一系列語(yǔ)言模型,可以與SOTA模型競(jìng)爭(zhēng)

    2024年02月10日
    瀏覽(18)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包