3.2 人類反饋強化學習(RLHF)
RLHF 是一種模型訓練過程,應用于微調(diào)的語言模型,以進一步使模型行為與人類偏好和指令遵循保持一致。我們收集代表根據(jù)經(jīng)驗采樣的人類偏好的數(shù)據(jù),人類注釋者可以選擇他們更喜歡的兩個模型輸出中的哪一個。這種人類反饋隨后用于訓練獎勵模型,該模型學習人類注釋者的偏好模式,然后可以自動執(zhí)行偏好決策。
3.2.1 人類偏好數(shù)據(jù)收集
接下來,我們收集人類偏好數(shù)據(jù)以進行獎勵建模。我們選擇二進制比較協(xié)議而不是其他方案,主要是因為它使我們能夠最大限度地提高收集提示的多樣性。盡管如此,其他策略仍然值得考慮,我們將其留到未來的工作中。
我們的注釋過程如下。我們要求注釋者首先編寫提示,然后根據(jù)提供的標準在兩個采樣模型響應之間進行選擇。為了最大化多樣性,對給定提示的兩個響應是從兩個不同的模型變體中采樣的,并改變溫度超參數(shù)。除了給參與者一個強制選擇之外,我們還要求注釋者標記他們更喜歡自己選擇的答案而不是替代方案的程度:他們的選擇要么明顯更好,更好,稍微更好,或者可以忽略不計更好/不確定。
對于我們的偏好注釋集合,我們關注有用性和安全性。樂于助人是指如何
Llama 2-Chat 響應滿足用戶的請求并提供請求的信息;安全是指
Llama 2-Chat 的響應是否不安全,例如, “給出有關制造炸彈的詳細說明”可能被認為是有幫助的,但根據(jù)我們的安全指南是不安全的。將兩者分開使我們能夠?qū)γ總€應用特定的指導方針并更好地指導注釋者;例如,我們的安全注釋提供了關注對抗性提示的說明以及其他指導。
除了注釋指南的差異外,我們還在安全階段收集安全標簽。此附加信息將模型響應分為三類之一:1) 首選響應是安全的,其他響應不是,2) 兩個響應都是安全的,3) 兩個響應都是不安全的,分別為 18%、47% 和 35分別落入每個 bin 的安全數(shù)據(jù)集的百分比。我們不包括任何所選響應不安全而其他響應安全的示例,因為我們相信更安全的響應也會被人類更好/偏好。安全指南和有關安全注釋的更多詳細信息可以在第 4.2.1 節(jié)中找到。
每周分批收集人工注釋。隨著我們收集更多偏好數(shù)據(jù),我們的獎勵模型得到改進,并且我們能夠為 Llama 2-Chat 訓練逐漸更好的版本(參見第 5 節(jié),圖 20 中的結(jié)果)。 Llama 2-Chat 的改進也改變了模型的數(shù)據(jù)分布。由于如果不接觸這種新的樣本分布(即超專業(yè)化),獎勵模型的準確性可能會迅速下降( Scialom等人,2020b),因此在新的 Llama 2-Chat 調(diào)整迭代之前,使用以下方法收集新的偏好數(shù)據(jù)非常重要:最新的 Llama 2-Chat 迭代。此步驟有助于保持獎勵模型的分布并保持最新模型的準確獎勵。
在表 6 中,我們報告了我們隨時間收集的獎勵建模數(shù)據(jù)的統(tǒng)計數(shù)據(jù),并將它們與多個開源偏好數(shù)據(jù)集(包括 Anthropic Helpful 和 Harmless)進行比較(Bai 等人,
2022a)、OpenAI Summarize( Stiennon等人,2020)、OpenAI WebGPT (Nakano 等人,2021)、 StackExchange (Lambert 等人,2023)、Stanford Human Preferences(Ethayarajh 等人,2022)和 Synthetic GPT -J(哈夫里拉)。我們根據(jù)人類應用我們指定的指南收集了超過 100 萬個二進制比較的大型數(shù)據(jù)集,我們將其稱為元獎勵建模數(shù)據(jù)。請注意,提示和答案中的標記數(shù)量因文本域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,我們的偏好數(shù)據(jù)具有更多的對話輪次,并且平均時間更長。
3.2.2 獎勵模型
獎勵模型將模型響應及其相應的提示(包括之前回合的上下文)作為輸入,并輸出標量分數(shù)以指示模型生成的質(zhì)量(例如,有用性和安全性)。利用此類響應分數(shù)作為獎勵,我們可以在 RLHF 期間優(yōu)化 Llama 2-Chat,以實現(xiàn)更好的人類偏好調(diào)整并提高幫助性和安全性。
其他人發(fā)現(xiàn),幫助性和安全性有時會相互抵消(Bai 等人,2022a),這使得單一獎勵模型很難在兩者上都表現(xiàn)良好。為了解決這個問題,我們訓練了兩個單獨的獎勵模型,一個針對幫助性進行了優(yōu)化(稱為Helpativity RM ),另一種針對安全性進行了優(yōu)化( Safety RM )。我們從預訓練的聊天模型檢查點初始化獎勵模型,因為它確保兩個模型都受益于預訓練中獲得的知識。簡而言之,獎勵模型“知道”聊天模型的內(nèi)容知道。例如,這可以防止兩個模型出現(xiàn)信息不匹配的情況,從而導致偏向幻覺。模型架構和超參數(shù)與預訓練語言模型相同,只是替換了下一個標記預測的分類頭具有用于輸出標量獎勵的回歸頭。
表 6:獎勵建模的人類偏好數(shù)據(jù)統(tǒng)計。我們列出了用于獎勵建模的開源和內(nèi)部收集的人類偏好數(shù)據(jù)。請注意,二元人類偏好比較包含共享相同提示(和之前的對話)的 2 個響應(選擇和拒絕)。每個示例都包含一個提示(包括之前的對話,如果有的話)和一個響應,這是獎勵模型的輸入。我們報告比較次數(shù)、每個對話的平均輪數(shù)、每個示例、每個提示和每個響應的平均標記數(shù)。有關每批次元有用性和安全性數(shù)據(jù)的更多詳細信息,請參閱附錄 A.3.1。
訓練目標。 為了訓練獎勵模型,我們將收集的成對人類偏好數(shù)據(jù)轉(zhuǎn)換為二進制排名標簽格式(即選擇和拒絕),并強制選擇的響應比其對應的響應具有更高的分數(shù)。我們使用與 Ouyang 等人一致的二元排名損失。 (2022):
L排名 = ? log ( σ ( r θ ( x,y c ) ? r θ ( x,y r ))) (1)
其中r θ ( x,y )是提示x和完成y 的標量分數(shù)輸出,模型權重為θ 。 yc _ 是注釋者選擇的首選響應, y r 是被拒絕的對應方。
在此二元排名損失的基礎上,我們進一步單獨對其進行修改,以獲得更好的幫助和安全獎勵模型,如下所示。鑒于我們的偏好評級被分解為四分制(例如,顯著更好),如第 3.2.1 節(jié)所示,利用這些信息來明確地教導獎勵模型為各代分配更多差異的分數(shù)可能會很有用那些有更多的差異。為此,我們進一步在損失中添加保證金成分:
L排名 = ? log ( σ ( r θ ( x,y c ) ? r θ ( x,y r ) ? m ( r ))) (2)
其中邊際m ( r )是偏好評級的離散函數(shù)。當然,我們對于具有不同響應的配對使用較大的余量,對于具有相似響應的配對使用較小的余量(如表 27 所示)。我們發(fā)現(xiàn)這個保證金成分可以提高幫助獎勵模型的準確性,特別是在兩個響應更可分離的樣本上。更詳細的消融和分析可見附錄 A.3.3 中的表 28。
數(shù)據(jù)構成。 我們將新收集的數(shù)據(jù)與現(xiàn)有的開源偏好數(shù)據(jù)集相結(jié)合,形成更大的訓練數(shù)據(jù)集。最初,當我們收集偏好注釋數(shù)據(jù)的過程中,開源數(shù)據(jù)集被用來引導我們的獎勵模型。我們注意到,在本研究中的 RLHF 背景下,獎勵信號的作用是了解人類對 Llama 2-Chat 輸出而不是任何模型輸出的偏好。然而,在我們的實驗中,我們沒有觀察到開源偏好數(shù)據(jù)集的負遷移。因此,我們決定將它們保留在我們的數(shù)據(jù)混合中,因為它們可以使獎勵模型更好地泛化并防止獎勵黑客攻擊,即 Llama 2-Chat 利用我們獎勵的一些弱點,因此人為地夸大分數(shù),盡管執(zhí)行不太好。
利用不同來源的訓練數(shù)據(jù),我們對幫助性和安全性獎勵模型嘗試了不同的混合配方,以確定最佳設置。經(jīng)過廣泛的實驗,幫助獎勵模型最終在所有元幫助數(shù)據(jù)上進行訓練,并結(jié)合從元安全和開源數(shù)據(jù)集中均勻采樣的剩余數(shù)據(jù)的相等部分。元安全獎勵模型基于所有元安全和人為無害數(shù)據(jù)進行訓練,并以 90/10 的比例與元有用性和開源有用性數(shù)據(jù)混合。我們發(fā)現(xiàn),10% 有用性數(shù)據(jù)的設置對于樣本的準確性特別有利,其中所選響應和拒絕響應都被認為是安全的。
訓練細節(jié)。我們對訓練數(shù)據(jù)進行一個時期的訓練。在早期的實驗中,我們發(fā)現(xiàn)訓練時間較長會導致過度擬合。我們使用與基本模型相同的優(yōu)化器參數(shù)。 70B 參數(shù) Llama 2-Chat 的最大學習率為5 × 10 -6 ,其余參數(shù)為1 × 10 -5 。學習率按照余弦學習率計劃降低,降至最大學習率的 10%。我們使用總步數(shù) 3% 的預熱,最少 5 步。保持有效批量大小固定為 512 對,即每批 1024 行。
表 7:獎勵模型結(jié)果。我們最終的幫助和安全獎勵模型在一組不同的人類偏好基準上的表現(xiàn)。請注意,我們的模型是根據(jù)我們收集的數(shù)據(jù)進行微調(diào)的,而不是我們報告的其他基線。
表 8:每個偏好評級的細粒度獎勵模型準確性。我們報告了元有用性和安全性測試集上有用性和安全性獎勵模型的每個偏好評級的準確性。獎勵模型在更明顯的響應上顯示出較高的準確性(例如,顯著更好),而在相似的響應上顯示出較低的準確性(例如,可以忽略不計)
獎勵模型結(jié)果。 在獎勵建模的每批人類偏好注釋中,我們堅持
1000 個示例作為測試集來評估我們的模型。我們將相應測試集的所有提示的并集分別稱為“元有用性”和“元安全性”。
作為參考點,我們還評估了其他公開可用的替代方案作為基準: SteamSHP -XL
(Ethayarajh 等人,2022)基于 FLAN-T5-xl、基于DeBERTa V3 Large(He 等人,2020)的 Open Assistant( K?pf等人,2023)獎勵模型以及可通過 OpenAI 的 API 訪問的 GPT4 。請注意,與訓練相反,在推理時,所有獎勵模型都可以預測單個輸出的標量,而不需要訪問其配對輸出。對于 GPT-4,我們提出一個零樣本問題“選擇 A 和 B 之間的最佳答案”,其中 A 和 B 是用于比較的兩個答案。
我們在表 7 中報告了準確性方面的結(jié)果。正如預期的那樣,我們自己的獎勵模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最好,其中幫助獎勵模型在元幫助測試集上表現(xiàn)最好,并且同樣,安全獎勵模型在元安全測試集上表現(xiàn)最佳??傮w而言,我們的獎勵模型優(yōu)于所有基線,包括 GPT-4。有趣的是,GPT-4 的表現(xiàn)比其他非元獎勵模型更好,盡管沒有直接訓練也沒有專門針對此獎勵建模任務。
圖 6:獎勵模型的擴展趨勢。更多的數(shù)據(jù)和更大的模型通常會提高準確性,而且我們的模型似乎尚未從訓練數(shù)據(jù)的學習中飽和。
事實上,幫助性和安全性在各自領域表現(xiàn)最好可能是由于兩個目標之間的緊張關系(即,盡可能提供幫助與在必要時拒絕不安全的提示),
這可能會在訓練期間混淆獎勵模型。為了使單個模型在兩個維度上都表現(xiàn)良好,它不僅需要學習在給定提示的情況下選擇更好的響應,而且還需要學習區(qū)分對抗性提示和安全提示。因此,優(yōu)化兩個單獨的模型可以簡化獎勵建模任務。關于安全性和有用性之間的這種緊張關系的更詳細分析可以在附錄 A.4.1 中找到。當我們按照表 8 中的偏好評級對分數(shù)進行分組時,我們可以看到,
“明顯更好”的測試集,并隨著比較對變得更加相似而逐漸退化(例如,“稍微好一點”)。預計在兩個相似的模型響應之間做出決定時,學習對人類偏好進行建模會變得具有挑戰(zhàn)性,因為注釋者的主觀性以及他們對可能區(qū)分響應的細微細節(jié)的依賴。我們強調(diào),更明確的響應的準確性對于提高 Llama 2-Chat 的性能最為重要。與相似的配對相比,在更明顯的響應上,人類偏好注釋的一致性率也更高。
擴展趨勢。我們研究獎勵模型的數(shù)據(jù)和模型大小方面的擴展趨勢,根據(jù)每周收集的越來越多的獎勵模型數(shù)據(jù)來微調(diào)不同的模型大?。ㄕ垍㈤啽?26 中每批數(shù)據(jù)量的詳細信息)。圖 6 報告了這些趨勢,顯示了較大的模型對于相似數(shù)據(jù)量獲得更高性能的預期結(jié)果。更重要的是,考慮到用于訓練的現(xiàn)有數(shù)據(jù)注釋量,擴展性能尚未達到穩(wěn)定水平,這表明通過更多注釋還有進一步改進的空間。我們注意到,獎勵模型的準確性是 Llama 2-Chat 最終性能的最重要指標之一。雖然綜合評估生成模型的最佳實踐是一個開放的研究問題,但獎勵的排名任務沒有任何歧義。因此,在其他條件相同的情況下,獎勵模型的改進可以直接轉(zhuǎn)化為 Llama 2-Chat 的改進。
3.2.3 迭代微調(diào)
隨著我們收到更多批次的人類偏好數(shù)據(jù)注釋,我們能夠訓練更好的獎勵模型并收集更多提示。因此,我們訓練了 RLHF 模型的連續(xù)版本,此處稱為 RLHF-V1,…,RLHF-V5。
我們用兩種主要算法探索了 RLHF 微調(diào):
? 近端策略優(yōu)化(PPO) (Schulman et al., 2017),RLHF 文獻中的標準。
? 拒絕采樣微調(diào)。我們從模型中采樣K 個輸出,并根據(jù)獎勵選擇最佳候選者,這與 Bai 等人的觀點一致。 (2022b)。 Deng 等人也提出了相同的 LLM 重新排名策略。 (2019),其中獎勵被視為能量函數(shù)。在這里,我們更進一步,使用選定的輸出進行梯度更新。對于每個提示,獲取的樣本
圖 7:N 個樣本中的最大獎勵和中值獎勵, N ∈ [1 ,…, 100]在我們的提示訓練集中進行平均。最大值和中值之間的增量可以解釋為拒絕采樣的潛在增益。
最高獎勵分數(shù)被認為是新的黃金標準。類似于Scialom等人。 (2020a),然后我們在新的一組排名樣本上微調(diào)我們的模型,加強獎勵。
這兩種強化學習算法的主要區(qū)別在于:
? 廣度——在拒絕采樣中,模型針對給定的提示探索K個樣本,而 PPO 只進行了一代。
? 深度— 在 PPO 中,在步驟t的訓練期間 樣本是上一步梯度更新后從t ? 1開始更新的模型策略的函數(shù)。在拒絕采樣微調(diào)中,我們在給定模型初始策略的情況下對所有輸出進行采樣,以收集新的數(shù)據(jù)集,然后再應用類似于 SFT 的微調(diào)。然而,由于我們應用了迭代模型更新,兩種 RL 算法之間的根本差異就不那么明顯了。
在 RLHF (V4) 之前,我們僅使用拒絕采樣微調(diào),之后,我們按順序?qū)烧呓Y(jié)合起來,在再次采樣之前在生成的拒絕采樣檢查點之上應用 PPO。
Figure 8: 對 N 個輸出進行采樣并使用獎勵模型對其進行評分時,溫度對 RLHF 的影響
拒絕抽樣。我們僅使用最大的 70B Llama 2-Chat 進行拒絕抽樣。所有較小的模型都根據(jù)來自較大模型的拒絕采樣數(shù)據(jù)進行微調(diào),從而將大模型的功能提煉為較小的模型。我們將進一步分析這種蒸餾的效果以供將來的工作使用。
在每個迭代階段,我們都會從最新模型中為每個提示抽取K 個答案。我們根據(jù)實驗時可用的最佳獎勵模型對每個樣本進行評分,然后針對給定的提示選擇最佳答案。在我們模型的早期版本中,直到 RLHF V3,我們的方法是將答案選擇僅限于從先前迭代中收集的樣本“包”。例如,RLHF V3 僅使用 RLHF V2 的樣本進行訓練。然而,盡管這種方法不斷改進,但還是導致了某些能力的倒退。例如,通過定性分析發(fā)現(xiàn),RLHF V3 比以前的版本在詩歌中創(chuàng)作押韻詩句方面更加困難,這表明需要進一步調(diào)查遺忘的原因和緩解措施(Kirkpatrick 等人,2017 年;Nguyen 等人,2019 年; Ramasesh等人,2021)可能是未來研究的一個富有成果的領域。
作為回應,在后續(xù)迭代中,我們修改了策略,納入了所有先前迭代中表現(xiàn)最好的樣本,例如 RLHF-V1 和 RLHF-V2 中使用的樣本。盡管我們沒有提供具體數(shù)字,但此次調(diào)整顯示了性能的顯著提升,并有效解決了之前提到的問題。這種緩解措施可以被視為類似于Synnaeve等人。 (2019)和Vinyals等人。 (2019) RL 文獻中。
我們在圖 7 中說明了拒絕采樣的好處。最大曲線和中值曲線之間的增量可以解釋為最佳輸出微調(diào)的潛在增益。正如預期的那樣,這個增量隨著樣本的增加而增加,因為最大值增加(即更多的樣本,產(chǎn)生良好軌跡的機會更多),而中值保持不變。樣本中的探索與我們可以獲得的最大獎勵之間存在直接聯(lián)系。溫度參數(shù)對于探索也起著重要作用,因為更高的溫度使我們能夠?qū)Ω鄻踊妮敵鲞M行采樣。在圖 8 中,我們報告了 Llama 2-Chat-SFT(左)和 Llama 2-Chat-RLHF(右)的 N 個樣本之間的最大獎勵曲線(其中N ∈ [1 ,…, 100] ) ,對于不同的溫度。我們可以觀察到,在迭代模型更新過程中,最佳溫度并不是恒定的:RLHF 對重新調(diào)整溫度有直接影響。對于 Llama 2-Chat-RLHF,在 10 到 100 個輸出之間采樣時的最佳溫度是T ∈ [1 。 2 , 1 . 3] ??紤]到計算預算有限,因此有必要逐步重新調(diào)整溫度。請注意,對于每個模型,這種溫度重新縮放都會發(fā)生恒定數(shù)量的步驟,并且始終從每個新 RLHF 版本的基本模型開始。
聚苯醚。我們按照Stiennon等人的 RL 方案進一步訓練我們的語言模型。 (2020),它使用獎勵模型作為真實獎勵函數(shù)(人類偏好)的估計,并使用預訓練的語言模型作為優(yōu)化策略。在此階段,我們尋求優(yōu)化以下目標:
argmax E p ~D ,g ~ π [ R ( g | p )] (3) π
從數(shù)據(jù)集D中采樣提示p和從策略π中采樣生成g來迭代改進策略,并使用 PPO 算法和損失函數(shù)來實現(xiàn)這一目標。我們在優(yōu)化過程中使用的最終獎勵函數(shù),
R ( g | p ) = R ? c ( g | p ) ? βD KL ( π θ ( g | p ) ∥ π 0 ( g | p )) (4)
包含偏離原始策略π 0的懲罰項。正如在其他作品中觀察到的那樣( Stiennon et al., 2020; Ouyang et al., 2022),我們發(fā)現(xiàn)這種約束對于訓練穩(wěn)定性很有用,并且可以減少獎勵黑客行為,從而我們可以從獎勵模型中獲得高分,但得分較低來自人類的評價。我們定義Rc 是安全性( Rs )和有用性( Rh )獎勵模型的分段組合。我們在數(shù)據(jù)集中標記了可能引發(fā)潛在不安全響應的提示,并優(yōu)先考慮安全模型的分數(shù)。閾值為0 。選擇15來過濾不安全響應,對應于精度0 。 89和召回0 。 55在 Meta Safety 測試集上進行了評估。我們還發(fā)現(xiàn),為了提高穩(wěn)定性并與上面的 KL 懲罰項 ( β ) 適當平衡,美化最終的線性分數(shù)(此處通過使用 logit 函數(shù)反轉(zhuǎn) sigmoid 來顯示)很重要。
R R s ( g | p ) 如果is_safety ( p )或R s ( g | p ) < 0 。 15否則
R ~ c ( g | p ) =白化( logit ( R c ( g | p )))
對于所有模型,我們使用AdamW優(yōu)化器(Loshchilov 和 Hutter,2017),其中β 1 = 0 。 9 ,β 2 = 0 。 95 ,每股收益=
10 -5 。我們使用權重衰減0 。 1 、漸變裁剪1 . 0 ,恒定學習率為10 -6 。對于每次 PPO 迭代,我們使用批量大小512 ,PPO 剪輯閾值0 。如圖2所示,小批量大小為64 ,并且每個小批量采取一個梯度步驟。對于 7B 和 13B 模型,我們設置β = 0 。 01 (KL懲罰),對于34B和70B模型,我們設置β = 0 。 005 .
圖 9:多輪內(nèi)存問題(左)可以通過GAtt得到改善 (正確的)
我們對所有模型進行200到400次迭代訓練,并對保留的提示進行評估以提前停止。 70B 模型上的每次 PPO 迭代平均耗時約330秒。為了快速訓練大批量,我們使用 FSDP (Zhao et al., 2023)。這在使用 O(1) 前向或后向傳遞時非常有效,但在生成過程中會導致大幅減慢 ( ≈ 20× ),即使使用大批量大小和 KV 緩存也是如此。我們能夠通過在生成之前將模型權重合并到每個節(jié)點一次,然后在生成后釋放內(nèi)存,恢復訓練循環(huán)的其余部分來緩解這一問題。文章來源:http://www.zghlxwxcb.cn/news/detail-806038.html
3.3 多輪一致性的系統(tǒng)消息
在對話設置中,一些指令應該適用于所有對話回合,例如,簡潔地回應,或“充當”某個公眾人物。當我們向 Llama 2-Chat 提供此類指令時,后續(xù)響應應始終遵守該約束。然而,我們最初的 RLHF 模型在幾輪對話后往往會忘記最初的指令,如圖 9(左)所示。
為了解決這些限制,我們提出了 Ghost Attention ( GAtt ),這是一種受 Context 啟發(fā)的非常簡單的方法
蒸餾(Bai et al., 2022b),破解微調(diào)數(shù)據(jù)以幫助在多階段過程中集中注意力。 GAtt支持多輪對話控制,如圖 9(右)所示。
關貿(mào)總協(xié)定方法。 假設我們可以訪問兩個人(例如,用戶和助手)之間的多輪對話數(shù)據(jù)集,其中包含消息列表[ u 1 ,a 1 ,…, u n ,a n ] ,其中u n a n分別對應第n輪的用戶消息和助理消息。然后,我們定義一條指令inst ,在整個對話過程中都應遵守該指令。例如,安裝 可以是“充當”。然后,我們可以將該指令綜合連接到對話的所有用戶消息。
接下來,我們可以使用最新的 RLHF 模型從這些合成數(shù)據(jù)中進行采樣。我們現(xiàn)在有了一個上下文對話和樣本,可以用來微調(diào)模型,其過程類似于拒絕采樣。我們可以將指令放在除第一輪之外的所有輪次中,而不是用指令來增加所有上下文對話輪次,但這會導致系統(tǒng)消息之間的訓練時間不匹配,即最后一個輪次之前出現(xiàn)的所有中間輔助消息輪到我們的樣品了。為了解決這個可能會損害訓練的問題,我們只需將前一輪的所有標記(包括輔助消息)的損失設置為 0。
對于訓練說明,我們創(chuàng)建了一些綜合約束來進行采樣:愛好( “你喜歡打網(wǎng)球” )、語言( “說法語” )或公眾人物( “扮演拿破侖” )。為了獲得興趣愛好和公眾人物的列表,我們要求 Llama 2-Chat 生成它,避免指令和模型知識之間的不匹配(例如,要求模型扮演在訓練期間沒有遇到過的人)。為了使指令更加復雜和多樣化,我們通過隨機組合上述約束來構造最終指令。在為訓練數(shù)據(jù)構建最終的系統(tǒng)消息時,我們還修改了一半的原始指令以使其不那么冗長,例如“從現(xiàn)在開始永遠扮演拿破侖” -> “圖:拿破侖”。這些步驟生成一個 SFT 數(shù)據(jù)集,我們可以在該數(shù)據(jù)集上微調(diào) Llama 2-Chat。
關貿(mào)總協(xié)定評估。 我們在 RLHF V3 之后應用了GAtt 。我們報告的定量分析表明, GAtt在 20 多個回合內(nèi)保持一致,直到達到最大上下文長度(參見附錄 A.3.5)。我們嘗試在推理時設置GAtt訓練中不存在的約束,例如“始終用俳句回答”,對此模型保持一致,如附錄圖 28 所示。
GAtt 的對話的注意力可視化。我們考慮了整個網(wǎng)絡的最大激活,并將相鄰的令牌放在一起。
為了說明GAtt如何在微調(diào)過程中幫助重塑注意力,我們在圖 10 中顯示了模型的最大注意力激活。每個圖的左側(cè)對應于系統(tǒng)消息(“扮演 Oscar Wilde”)。我們可以看到,與沒有GAtt的模型(左)相比,配備GAtt 的模型(右)在大部分對話中對系統(tǒng)消息保持大量注意力激活。
GAtt當前的實現(xiàn)是普通的,對該技術的更多開發(fā)和迭代可能會進一步使該模型受益。例如,我們可以通過在微調(diào)期間集成此類數(shù)據(jù)來教導模型在對話期間更改系統(tǒng)消息。文章來源地址http://www.zghlxwxcb.cn/news/detail-806038.html
到了這里,關于Llama 2- Open Foundation and Fine-Tuned Chat Models<2>的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!