国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的研究現(xiàn)狀簡單調(diào)研

這篇具有很好參考價值的文章主要介紹了強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的研究現(xiàn)狀簡單調(diào)研。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1. 緒論

本文旨在深入探討強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的應(yīng)用,特別是在對齊優(yōu)化、提示詞優(yōu)化和經(jīng)驗記憶增強提示詞等方面的具體實踐。通過對現(xiàn)有研究的綜述,我們將揭示強化學(xué)習(xí)在提高生成式語言模型性能和人類對話交互的關(guān)鍵作用。雖然這些應(yīng)用展示了巨大的潛力,但也將討論現(xiàn)有方法的挑戰(zhàn)和可能的未來發(fā)展方向。
在當(dāng)今人工智能領(lǐng)域,生成式預(yù)訓(xùn)練語言模型的崛起成為自然語言處理和文本生成的一項重大突破。這一技術(shù)通過在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓(xùn)練,使得模型能夠?qū)W到語言的深層次結(jié)構(gòu)和模式,從而具備出色的生成能力。生成式預(yù)訓(xùn)練模型的出現(xiàn)引領(lǐng)了自然語言處理的新潮流,但也伴隨著一系列挑戰(zhàn),如模型的價值對齊、生成結(jié)果不可控、難以實現(xiàn)交互式學(xué)習(xí)與經(jīng)驗利用等問題。
強化學(xué)習(xí),作為一種通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)行為的方法,近年來在生成式預(yù)訓(xùn)練語言模型中得到了廣泛關(guān)注。將強化學(xué)習(xí)引入生成式模型的訓(xùn)練過程,不僅可以提高模型生成結(jié)果的質(zhì)量,還能夠使模型更好地適應(yīng)特定任務(wù)和領(lǐng)域。
本文的研究目的在于深入探討強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的應(yīng)用,著眼于理解其在不同階段的作用機制和效果。通過對該結(jié)合應(yīng)用的系統(tǒng)研究,我們旨在揭示強化學(xué)習(xí)如何優(yōu)化模型性能、對齊人類價值觀、以及優(yōu)化和增強提示詞等方面發(fā)揮的關(guān)鍵作用。
本文將圍繞生成式預(yù)訓(xùn)練語言模型與強化學(xué)習(xí)的結(jié)合展開,結(jié)構(gòu)安排如下:第二章將簡要介紹生成式人工智能與預(yù)訓(xùn)練微調(diào)范式的基本概念,為讀者提供理論基礎(chǔ)和背景知識。第三章將詳細闡述強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的應(yīng)用,包括對齊優(yōu)化、提示詞優(yōu)化、經(jīng)驗記憶增強等方面的研究與實踐。

2. 生成式預(yù)訓(xùn)練語言模型介紹

生成式預(yù)訓(xùn)練語言模型作為人工智能領(lǐng)域的熱點之一,其在自然語言生成和理解方面的表現(xiàn)引起了廣泛關(guān)注。這些模型的背后通常是龐大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中使用了生成式人工智能和遷移學(xué)習(xí)的思想,為其在不同任務(wù)上的靈活性和性能提供了基礎(chǔ)。

2.1 生成式人工智能

生成式人工智能是一種強調(diào)模型能夠自主創(chuàng)造新內(nèi)容和信息的人工智能范式。與傳統(tǒng)的判別式人工智能不同,生成式人工智能不僅能夠理解輸入數(shù)據(jù)的特征,還可以生成具有相似特征的全新數(shù)據(jù)。這使得生成式人工智能在語言生成、圖像創(chuàng)作、音樂合成等領(lǐng)域表現(xiàn)出色。其核心思想是通過學(xué)習(xí)數(shù)據(jù)的分布和模式,使模型能夠生成與訓(xùn)練數(shù)據(jù)類似但又不完全相同的新樣本,從而展現(xiàn)出一定的創(chuàng)造性和想象力。生成式人工智能的發(fā)展在許多應(yīng)用中取得了顯著成就,為人工智能的創(chuàng)新和進步提供了新的可能性。

2.2 遷移學(xué)習(xí)

大模型中常說的“預(yù)訓(xùn)練-微調(diào)”,其實是一種遷移學(xué)習(xí)下的范式,這一思想的核心在于將從一個領(lǐng)域中獲得的知識應(yīng)用到另一個相關(guān)領(lǐng)域,從而提升目標領(lǐng)域的學(xué)習(xí)性能。這種方法尤為重要,特別是在目標領(lǐng)域的數(shù)據(jù)相對稀缺或難以獲取的情況下。通過利用先前在一個領(lǐng)域上獲取的知識,模型能夠更有效地適應(yīng)新的任務(wù)或領(lǐng)域,為整體學(xué)習(xí)性能的改善提供了有力支持。這種遷移學(xué)習(xí)的范式為解決數(shù)據(jù)稀缺和難以獲得的問題提供了一種實用而有效的方法。

controlled decoding from language models.,機器學(xué)習(xí),語言模型,人工智能,機器學(xué)習(xí)
圖2-1 預(yù)訓(xùn)練范式示意圖

3.強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的應(yīng)用

強化學(xué)習(xí)作為一種強調(diào)在特定環(huán)境中通過試錯學(xué)習(xí)來最大化獎勵的學(xué)習(xí)范式,在生成式預(yù)訓(xùn)練語言模型中展現(xiàn)出了強大的潛力。本節(jié)將深入研究強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的應(yīng)用,從預(yù)訓(xùn)練、微調(diào)到推理等不同階段,揭示強化學(xué)習(xí)在優(yōu)化模型性能、對齊人類價值觀以及優(yōu)化提示詞等方面的關(guān)鍵作用。通過對相關(guān)方法和技術(shù)的介紹,我們將從多個方面了解強化學(xué)習(xí)如何推動生成式預(yù)訓(xùn)練語言模型的發(fā)展,為生成式人工智能領(lǐng)域的未來帶來更多可能性。

3.1對齊優(yōu)化

我們知道大語言模型 (Large Language Model, LLM)在經(jīng)歷預(yù)訓(xùn)練(Pre-Training)和有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)后,由于自監(jiān)督預(yù)訓(xùn)練任務(wù)通常只是簡單的詞預(yù)測任務(wù),因此仍然普遍存在忠實性、倫理道德、數(shù)據(jù)安全等多方面的缺陷,好似一個口無遮攔的模型。上述這些問題缺陷恰恰較難以用嚴格的數(shù)學(xué)形式進行描述定義,因為其通常是隱含在人類的價值觀中的一種主觀偏好。因此一個用于與人類交互的生成式預(yù)訓(xùn)練語言模型需要進行對齊 (Alignment),通俗地說,是將上游基礎(chǔ)模型和人類意圖價值這兩塊長短不一的板子給對齊了,得到一個更符合人類價值觀和意圖的大語言模型。
對齊的方法可以分為生成器優(yōu)化對齊(generator improvement)和推理時附加對齊(inference-time add-on)1,主要區(qū)別在與前者是需要進行參數(shù)更新的,而后者作用于推理階段故不用進行參數(shù)更新。

3.1.1 生成器優(yōu)化對齊

生成器優(yōu)化對齊中的生成器,指的是用于生成自然語言文本序列的模型,多數(shù)情況下都是預(yù)訓(xùn)練Transformer模型。而生成器優(yōu)化對齊,指在訓(xùn)練階段對模型進行參數(shù)微調(diào)對齊以達到優(yōu)化生成結(jié)果、與人類對齊的目的。舉例來說其實最常見的生成器優(yōu)化方法就是有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和人類反饋強化學(xué)習(xí)(Reinforcement Learning with Human Feedback, RLHF)。本小節(jié)將主要介紹基于人類反饋強化學(xué)習(xí)的對齊微調(diào)。
有監(jiān)督微調(diào)依賴于有標簽文本數(shù)據(jù),數(shù)量和質(zhì)量上存在限制,難以使模型高效學(xué)習(xí)到人類偏好。而ChatGPT發(fā)布之初能如此驚艷的一大功臣,就是基于人類反饋強化學(xué)習(xí)的微調(diào)對齊方法。
人類反饋強化學(xué)習(xí)的起源可以追溯到收錄于NIPS 2017的Christiano等人所著的“Deep reinforcement learning from human preferences”2, 其中RLHF被用于利用人類反饋優(yōu)化訓(xùn)練一個模擬環(huán)境中的火柴棒小人做后空翻。這篇文章很好地介紹了如何通過建模人類偏好讓強化學(xué)習(xí)agent學(xué)習(xí)到如何做一個人類認為好的后空翻,為后來RLHF被用于大語言模型奠定了基礎(chǔ)。
OpenAI在接連發(fā)布三代GPT后,發(fā)表了InstructGPT的論文3,公開了RLHF這項OpenAI的獨門秘籍,下面就簡單介紹一下這篇文章的RLHF方法。
文章在GPT3的基礎(chǔ)模型上進行微調(diào),微調(diào)分三步走,如下圖:
controlled decoding from language models.,機器學(xué)習(xí),語言模型,人工智能,機器學(xué)習(xí)
圖3-1 InstructGPT中的人類反饋強化學(xué)習(xí)方法的三個主要步驟

其中第二步的獎勵模型(Reward Model, RM)是一個從6B參數(shù)的SFT后的GPT模型開始進行梯度下降訓(xùn)練的,其最后的unembedding層被移除了。之所以不用175B參數(shù)的是因為不穩(wěn)定,文章附件有介紹這一原因。
RM的訓(xùn)練數(shù)據(jù)收集很有巧思,因為他們并不是只給兩個輸出結(jié)果要求人類標簽員去選一個好的,而是針對一個prompt生成K個結(jié)果,并要求標簽員對這些結(jié)果從好到壞排序,那么這樣一次排序任取其中兩個結(jié)果排列組合可以產(chǎn)生 C 2 K C_2^K C2K?個comparison pair,形如 ( x , y w , y l ) (x,y_w,y_l) (x,yw?,yl?),其中是輸入prompt, y w y_w yw?是比 y l y_l yl?更好的一個輸出結(jié)果(我猜下標w代表win,l代表lose)。
RM訓(xùn)練時的loss函數(shù)為:

l o s s ( θ ) = 1 C 2 K E ( x , y w , y l ) ~ D [ log ? ( σ ( r θ ( x , y l ) ) ) ] loss(\theta)=\frac{1}{C_2^K} E_{(x,y_w,y_l) \sim D} [\log{(\sigma(r_\theta(x,y_l)))}] loss(θ)=C2K?1?E(x,yw?,yl?)D?[log(σ(rθ?(x,yl?)))]

其中 r θ ( x , y ) r_\theta(x,y) rθ?(x,y)是獎勵模型的標量輸出, D D D是整個人類comparison pair數(shù)據(jù)集, E ( x , y w , y l ) ~ D E_{(x, y_w, y_l)\sim D} E(x,yw?,yl?)D?表示從數(shù)據(jù)分布 D D D中采樣一個提示詞輸入 x x x及其對應(yīng)的一好一壞兩個生成結(jié)果 y w y_w yw? y l y_l yl?
簡而言之,獎勵模型的訓(xùn)練采用了對比學(xué)習(xí)的思想,希望RM擴大正樣本和負樣本間的得分差異,且希望讓正樣本得分高于負樣本。
第三步的強化學(xué)習(xí)階段非常關(guān)鍵,其混合了PPO梯度和預(yù)訓(xùn)練梯度,并將這種混合梯度訓(xùn)練的模型稱為PPO-ptx, 具體來說RL訓(xùn)練時的混合目標函數(shù)為:

o b j e c t i v e ( ? ) = E ( x , y ) ~ D π ? R L [ r θ ( x , y ) ? β log ? ( π ? R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] + γ E x ~ D p r e t r a i n [ l o g ( π ? R L ( x ) ) ] objective(\phi)=E_{(x,y)\sim D_{\pi_{\phi}^{RL}}} [r_\theta(x,y)-\beta \log (\pi_{\phi}^{RL} (y | x) / \pi^{SFT} (y | x))] + \gamma E_{x \sim D_{pretrain}} [log (\pi_{\phi}^{RL} (x))] objective(?)=E(x,y)Dπ?RL???[rθ?(x,y)?βlog(π?RL?(yx)/πSFT(yx))]+γExDpretrain??[log(π?RL?(x))]

其中 π ? R L \pi_{\phi}^{RL} π?RL?是要學(xué)習(xí)的RL策略, π S F T \pi^{SFT} πSFT是有監(jiān)督微調(diào)過的模型, D p r e t r a i n D_{pretrain} Dpretrain?是預(yù)訓(xùn)練數(shù)據(jù)集分布, β \beta β是KL散度獎勵系數(shù), γ \gamma γ是預(yù)訓(xùn)練損失系數(shù)。
簡而言之,該目標函數(shù)希望RL模型可以最大化來自RM的獎勵,最小化RL策略和SFT模型的KL散度(即希望RL策略不偏離SFT模型,從而提高穩(wěn)定性和魯棒性),并且最后還將預(yù)訓(xùn)練梯度也納入考慮,希望提高穩(wěn)定性和訓(xùn)練效率。

3.1.2 推理時附加對齊

了解完大家最熟悉的基于RLHF的微調(diào)對齊,這里介紹一個作用于推理階段,不用更新模型參數(shù)的對齊方式:語言模型受控解碼,由Google Research的Mudgal1等人發(fā)表。
這篇論文提出了一種名為受控解碼(Controlled Decoding,簡稱CD)的新型off-policy強化學(xué)習(xí)方法,用于控制語言模型的自回歸生成過程,使其朝向高獎勵結(jié)果的推理路徑進行推理。CD通過一個名為前綴評分器(prefix scorer)的價值函數(shù)來解決離策略強化學(xué)習(xí)問題,該前綴評分器在推理階段用于引導(dǎo)生成過程朝向更高獎勵結(jié)果。文章中強化學(xué)習(xí)的應(yīng)用概括如下:
問題建模:作者將控制語言模型生成過程的問題建模為一個離策略強化學(xué)習(xí)問題。在這個問題中,目標是學(xué)習(xí)一個解碼策略(decoding policy),使得在給定上下文(prompt)的情況下,生成的文本序列能夠獲得更高的獎勵(reward)。
價值函數(shù)設(shè)計:作者提出了一個名為前綴評分器(prefix scorer)的價值函數(shù),用于預(yù)測從當(dāng)前部分解碼的響應(yīng)繼續(xù)解碼時的預(yù)期獎勵。這個前綴評分器可以在離策略數(shù)據(jù)上進行訓(xùn)練,從而避免了在線策略學(xué)習(xí)中的樣本效率問題。
推理策略:在推理階段,作者提出了兩種使用前綴評分器的策略。一種是逐個標記(token-wise)采樣,另一種是分塊(block-wise)采樣和重排。這兩種策略都可以在不改變訓(xùn)練時的模型結(jié)構(gòu)的情況下,實現(xiàn)對生成過程的有效控制。
多目標優(yōu)化:作者展示了如何通過調(diào)整前綴評分器的權(quán)重,實現(xiàn)在多個獎勵目標之間的權(quán)衡。這使得CD方法可以解決多目標強化學(xué)習(xí)問題,而無需增加額外的復(fù)雜性。

3.2 提示詞優(yōu)化

提示詞 (prompt)往往是一段自然語言文本序列,在研究中其還有連續(xù)形式,即一個多維向量。提示詞用于輸入到生成式預(yù)訓(xùn)練語言模型并引導(dǎo)其生成結(jié)果。經(jīng)驗表明,經(jīng)驗和研究表明,不同提示詞輸入到生成式預(yù)訓(xùn)練語言模型中會導(dǎo)致顯著的輸出結(jié)果差異。下面介紹利用強化學(xué)習(xí)對提示詞進行最優(yōu)搜索和增強的相關(guān)研究。

3.2.1 提示詞優(yōu)化搜索

文本形式的提示詞由于其離散性質(zhì),其優(yōu)化非常困難。針對提示詞優(yōu)化搜索的研究中,相關(guān)研究可根據(jù)提示詞的連續(xù)或離散而分別劃分為軟提示 (Soft Prompt, Continuous Prompt)和硬提示 (Hard Prompt, or Discrete Prompt)。其中軟提示需要訪問語言模型的梯度,而算梯度需要很高的計算成本 (有時梯度甚至并不可用),且軟提示的優(yōu)化結(jié)果不具有普適性,即一個模型上優(yōu)化的提示詞無法在別的模型上適用。此外由于軟提示本身是多維向量的數(shù)學(xué)形式,天然難以被人類閱讀和理解。針對上述軟提示缺點,硬提示作為離散文本形式,以無需訪問模型梯度、易于人類理解、普適性高等優(yōu)點被人們關(guān)注和研究。
然而,硬提示由于其離散性質(zhì),其優(yōu)化相比連續(xù)性的軟提示具有更大的困難。有研究為了解決這一困難,將離散文本提示優(yōu)化問題建模為強化學(xué)習(xí)問題4。其目標是在不需要訪問預(yù)訓(xùn)練語言模型梯度的情況下優(yōu)化提示詞。代理通過策略來逐步選擇提示的每個詞,并最大化根據(jù)輸出結(jié)果計算的獎勵。該研究使用了soft Q-Learning (SQL)方法的on-policy組件。其目標是最大化獎勵,即
max ? θ R ( y L M ( z ^ , x ) ) , z ~ ∏ t = 1 T π θ ( z t ∣ z < t ) \max_{\theta}R(\bold{y}_{LM}(\bold{\hat{z},\bold{x}})), \bold{z} \sim \prod_{t=1}^T \pi_{\bold{\theta}}(z_t | \bold{z}_{<t}) θmax?R(yLM?(z^,x)),zt=1T?πθ?(zt?z<t?)
其中 y L M ( z ^ , x ) \bold{y}_{LM}(\bold{\hat{z},\bold{x}}) yLM?(z^,x)是預(yù)語言模型以 x \bold{x} x為輸入,以 z ^ \bold{\hat{z}} z^為提示詞時,預(yù)語言模型的輸出結(jié)果。而 R ( y ) R(\bold{y}) R(y)是獎勵函數(shù),文章中針對不同的下游自然語言處理任務(wù)有不同的 R ( y ) R(\bold{y}) R(y)。例如對于文本分類 (text classification)任務(wù),文章中的獎勵函數(shù)為:

R ( x , c ) = λ 1 1 ? C o r r e c t λ 2 C o r r e c t G A P z ( c ) R(\bold{x},c)=\lambda_1^{1-Correct}\lambda_2^{Correct} GAP_{\bold{z}}(c) R(x,c)=λ11?Correct?λ2Correct?GAPz?(c)

對于無監(jiān)督文本風(fēng)格遷移,其獎勵函數(shù)為:

R ( x , y , s ) = C o n t e n t ( x , y ) + S t y l e ( y , s ) R(\bold{x},\bold{y},s)=Content(\bold{x},\bold{y})+Style(\bold{y},s) R(x,y,s)=Content(x,y)+Style(y,s)

此外,為了訓(xùn)練效率和穩(wěn)定性,該研究還對不同的下游任務(wù)特定的獎勵函數(shù)進行了統(tǒng)一處理,即提出z-score的獎勵函數(shù)后處理:

z ? s c o r e ( z , x ) = R x ( z ) ? m e a n z ′ ∈ Z ( x ) R x ( Z ′ ) s t d e v z ′ ∈ Z ( x ) R x ( Z ′ ) z-score(\bold{z},\bold{x})=\frac{R_{\bold{x}}(\bold{z})-mean_{z'\in Z(\bold{x})}R_{\bold{x}}(\bold{Z'})}{stdev_{z'\in Z(\bold{x})}R_{\bold{x}}(\bold{Z'})} z?score(z,x)=stdevzZ(x)?Rx?(Z)Rx?(z)?meanzZ(x)?Rx?(Z)?

其中 R x ( z ) R_{\bold{x}}(\bold{z}) Rx?(z) R ( y L M ) R(\bold{y}_{LM}) R(yLM?)的縮寫,stdev表示樣本標準差。
對于帶參數(shù) θ \bold{\theta} θ的策略網(wǎng)絡(luò),作者通過將一個簡單的下游任務(wù)特定的MLP層插入到凍結(jié)參數(shù)的用于生成提示詞的預(yù)訓(xùn)練語言模型中進行實現(xiàn),更具體地,是插入到LLM的輸出頭前。這使得該方法具有很好的普適性和的易用性,無需額外構(gòu)建大型的策略網(wǎng)絡(luò)。
上述這項研究中的提示詞優(yōu)化范式還可以應(yīng)用到其他領(lǐng)域,顯示出了提示詞優(yōu)化范式的應(yīng)用廣泛性。有研究5將基于策略梯度強化學(xué)習(xí)的離散提示詞優(yōu)化范式應(yīng)用到了分子信息學(xué)領(lǐng)域,基于生成式預(yù)訓(xùn)練Transformer (GPT)模型生成具有預(yù)期性質(zhì)的藥物分子的分子式SMILES字符串。不同于前文的離散提示詞優(yōu)化范式,此研究的提示詞優(yōu)化其實是需要訪問梯度的。其獎勵函數(shù)的設(shè)計特定于數(shù)據(jù)集類型,目標函數(shù)和策略梯度基于經(jīng)典策略梯度方法,并無改動。
該研究考慮以一種名為SMILES的字符串作為藥物分子的分子式表達,將具有空間結(jié)構(gòu)等復(fù)雜形態(tài)的藥物分子以計算機可以處理的字符串形式表示,進而可以利用語言建模任務(wù)在大量藥物分子的SMILES字符串上進行預(yù)訓(xùn)練,解決了藥物分子的分子式生成問題。

controlled decoding from language models.,機器學(xué)習(xí),語言模型,人工智能,機器學(xué)習(xí)
圖3-2環(huán)丙沙星的 SMILES表示過程(最下方為SMILES字符串)5

而為了生成更符合特定性質(zhì),例如抗癌的藥物性質(zhì)的分子式,該研究利用離散提示詞優(yōu)化來控制藥物分子式預(yù)訓(xùn)練模型的輸入提示詞,使得生成的分子式更貼合預(yù)期性質(zhì),如圖3-3。
針對生成結(jié)果,該研究利用了藥物分子的領(lǐng)域相關(guān)指標進行評估,包括Validity, Novelty, Diversity, QED, SAS. 分別評估生成分子式的有效性 (要符合基本的理化規(guī)則)、新穎性 (和已有的藥物至少不能重復(fù))、多樣性、類藥性 (在一定理化參數(shù)空間的化合物成為類藥物 ,即drug-like)、分子易合成性 (根據(jù)分子結(jié)構(gòu)復(fù)雜性計算是否難以在現(xiàn)實合成)。

controlled decoding from language models.,機器學(xué)習(xí),語言模型,人工智能,機器學(xué)習(xí)

圖3-3 基于策略梯度強化學(xué)習(xí)的藥物分子GPT的提示優(yōu)化與分子式生成過程

3.2.2 經(jīng)驗記憶增強提示詞

人類可以利用過往的經(jīng)驗和記憶中進行學(xué)習(xí),現(xiàn)有LLMs在部署后,受限于參數(shù)更新帶來的計算量,從而較難從交互中有效通過參數(shù)更新來學(xué)習(xí)新的經(jīng)驗。為了實現(xiàn)有效地交互式學(xué)習(xí),常見的方法是用RL對模型進行微調(diào),但微調(diào)需要大量計算,難以部署和長期實現(xiàn)交互式學(xué)習(xí)。也有方法無需進行微調(diào),而是利用LLMs上下文學(xué)習(xí)能力直接將歷史經(jīng)驗嵌入到提示詞。這種方法需要微調(diào)才能利用經(jīng)驗,且受LLMs輸入長度限制。
基于上述背景,有研究6考慮利用強化學(xué)習(xí)方法進行提示詞記憶增強。該研究提出了強化學(xué)習(xí)與經(jīng)驗記憶(RLEM)的方法。該方法通過強化學(xué)習(xí)的過程更新外部持久化的經(jīng)驗記憶,而不是調(diào)整LLM的參數(shù)。在LLM交互時,利用觀測到的狀態(tài)去檢索存儲在經(jīng)驗記憶中的若干經(jīng)驗,即一組觀察值Ox、動作Ax和對應(yīng)的Q值估計Qx . LLM再根據(jù)本次交互的觀測 、上次交互得到的反饋以及檢索到的經(jīng)驗決定接下來在環(huán)境中的動作,并與環(huán)境交互后得到相應(yīng)獎勵反饋。如此,本次交互產(chǎn)生一個新的元組并存儲到經(jīng)驗記憶中,有些類似Replay Buffer。

4. 參考文獻


  1. Mudgal S, Lee J, Ganapathy H, et al. Controlled Decoding from Language Models[J]. arXiv preprint arXiv:2310.17022, 2023. ?? ??

  2. Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30. ??

  3. Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback, 2022[J]. URL https://arxiv. org/abs/2203.02155, 2022, 13. ??

  4. Deng M, Wang J, Hsieh C P, et al. Rlprompt: Optimizing discrete text prompts with reinforcement learning[J]. arXiv preprint arXiv:2205.12548, 2022. ??

  5. Mazuz E, Shtar G, Shapira B, et al. Molecule generation using transformers and policy gradient reinforcement learning[J]. Scientific Reports, 2023, 13(1): 8799. ?? ??

  6. Zhang D, Chen L, Zhang S, et al. Large Language Model Is Semi-Parametric Reinforcement Learning Agent[J]. arXiv preprint arXiv:2306.07929, 2023. ??文章來源地址http://www.zghlxwxcb.cn/news/detail-809596.html

到了這里,關(guān)于強化學(xué)習(xí)在生成式預(yù)訓(xùn)練語言模型中的研究現(xiàn)狀簡單調(diào)研的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包