国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

| 一文讀懂ChatGPT中的強化學習

這篇具有很好參考價值的文章主要介紹了| 一文讀懂ChatGPT中的強化學習。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

原文:原創(chuàng) | 一文讀懂ChatGPT中的強化學習

ChatGPT基于OpenAI的GPT-3.5創(chuàng)造,是InstructGPT的衍生產(chǎn)品,它引入了一種新的方法,將人類反饋納入訓練過程中,使模型的輸出與用戶的意圖更好地結(jié)合。在OpenAI的2022年論文《通過人類反饋訓練語言模型以遵循指令》中對來自人類反饋的強化學習(RLHF)進行了深入描述。

創(chuàng)建者將監(jiān)督學習和強化學習相結(jié)合來微調(diào)ChatGPT,強化學習組件是ChatGPT的獨到之處。研究人員使用了“根據(jù)人類反饋強化學習(Reinforcement Learning from Human Feedback ,RLHF)”的特殊技術(shù),在訓練環(huán)路中使用人類反饋來盡量減少有害的、不真實的和/或有偏差的輸出。

該方法包括以下三個步驟:

第一步:帶監(jiān)督的微調(diào),預訓練語言模型對由標注人員管理的相對較少的演示數(shù)據(jù)進行微調(diào),以學習監(jiān)督策略(SFT模型),根據(jù)選定的提示列表生成輸出,這表示基線模型;

第二步:“模仿人類偏好”?:要求標注人員對相對較多的SFT模型輸出進行投票,創(chuàng)建一個由對比數(shù)據(jù)組成的新數(shù)據(jù)集。在該數(shù)據(jù)集上訓練一個新的獎勵模型(RM);

第三步:近端策略優(yōu)化(PPO):對獎勵模型進一步微調(diào)以改進SFT模型。這一步的結(jié)果就是所謂的策略模型。

步驟1只進行一次,而步驟2和步驟3可以連續(xù)迭代:在當前的最佳策略模型上收集更多的比較數(shù)據(jù),訓練出一個新的獎勵模型,然后在此基礎(chǔ)上再訓練出一個新的策略。

帶監(jiān)督的微調(diào)(SFT)模型

首先是收集演示數(shù)據(jù),以訓練一個帶監(jiān)督的策略模型,稱之為SFT模型。

數(shù)據(jù)收集:選擇一份提示列表,要求一組人工標注人員寫下預期的輸出響應。ChatGPT使用了兩種不同的提示來源:一些是直接從標注人員或開發(fā)人員那里獲取到的的,一些是從OpenAI的API請求中取樣的(即來自GPT-3客戶)。整個過程速度緩慢并且代價昂貴,輸出結(jié)果是一個相對較小的、高質(zhì)量的管理數(shù)據(jù)集(大概大約有12-15k個數(shù)據(jù)點),將利用該數(shù)據(jù)集微調(diào)預先訓練的語言模型。

模型選?。?/strong>開發(fā)人員選擇了在GPT-3.5系列中選擇一個預訓練模型,而不是對原來的GPT-3模型進行微調(diào)??墒褂米钚碌幕€模型——text-davinci-003,這也是一個GPT-3模型,對主要的編程代碼進行微調(diào)。

由于這一步的數(shù)據(jù)量有限,在此過程之后獲得的SFT模型很可能輸出用戶不太關(guān)注的文本,而且往往會出現(xiàn)錯位的問題。這里的問題是,監(jiān)督學習這一步存在很高的可擴展性成本。

為了克服上述問題,利用人工標記創(chuàng)建一個更大的數(shù)據(jù)集,這個速度緩慢而代價昂貴的過程,采用一個新的策略,為人工標記的SFT模型輸出創(chuàng)建一個獎勵模型——在下面的內(nèi)容中進行更詳細的解釋。

獎勵模型

在步驟1 中訓練 SFT 模型后,該模型會對用戶提示生成更一致的響應。接下來是訓練獎勵模型,其中模型輸入是一系列提示和響應,輸出是一個縮放值,稱為獎勵。需要獎勵模型以利用強化學習,在強化學習中模型學習產(chǎn)生輸出以最大化其獎勵。

直接從數(shù)據(jù)中學習出一個目標函數(shù)(獎勵模型)。這個函數(shù)的目的是給SFT模型的輸出給出一個分值,這一分值與人類對輸出的可取程度成比例。在實踐中,這將反映出選定的標記人員群體的具體偏好和他們同意遵循的準則。最后,這一過程將從數(shù)據(jù)中提取出一個模仿人類偏好的自動回答系統(tǒng)。其工作原理如下:

  • 選擇一個提示列表,SFT模型為每個提示生成多個SFT 模型輸出(在4個到9個之間);

  • 標注人員將輸出從好到壞進行排序,結(jié)果是生成一個新的標記數(shù)據(jù)集,其中的排名是標記。這個數(shù)據(jù)集的大小大約是SFT模型數(shù)據(jù)集的10倍;

  • 利用這些新數(shù)據(jù)訓練一個獎勵模型(RM)。該模型將某些SFT模型輸出作為輸入,并根據(jù)人類偏好對它們進行排序。

對于標注者來說,對輸出進行排序比從頭開始生成它們要容易得多,因此這個過程的縮放效率會更高。在實踐中,從30-40k個提示符(prompts)中生成一個數(shù)據(jù)集,要求將這些輸出從最好到最差進行排名,創(chuàng)建輸出排名組合。在排名階段,將不同標注的輸出呈現(xiàn)給不同的提示符。

利用近端策略優(yōu)化(PPO)算法微調(diào)SFT模型

接下來,利用強化學習微調(diào)SFT策略,讓它優(yōu)化獎勵模型。模型會收到隨機提示并返回響應。響應是使用模型在步驟2 中學習的“策略”生成的。策略表示機器已經(jīng)學會使用以實現(xiàn)其目標的策略;在這種情況下,最大化其獎勵?;谠诓襟E 2 中開發(fā)的獎勵模型,然后為提示和響應對確定縮放器獎勵值。然后獎勵反饋到模型中以改進策略。所使用的算法為近端策略優(yōu)化(PPO)算法,而微調(diào)后的模型稱為PPO模型。

2017年,舒爾曼等人。引入了近端策略優(yōu)化 (PPO),該方法用于在生成每個響應時更新模型的策略。PPO 包含來自 SFT 模型的每個代幣 Kullback–Leibler (KL)?懲罰。KL 散度衡量兩個分布函數(shù)的相似性并對極端距離進行懲罰。在這種情況下,使用 KL 懲罰會減少響應與步驟 1 中訓練的 SFT 模型輸出之間的距離,以避免過度優(yōu)化獎勵模型和與人類意圖數(shù)據(jù)集的偏差太大。PPO算法的具體實現(xiàn)已經(jīng)在前文4.4 節(jié)中進行了描述,這種方法的要點:

  • PPO是一種用于訓練強化學習中智能體的算法,為策略算法,正如DQN(深度q網(wǎng)絡)等算法一樣,它直接從當前策略中學習和更新策略,而非從過去的經(jīng)驗中學習算法。PPO根據(jù)智能體所采取的行動和它所獲得的獎勵,不斷地調(diào)整當前的政策;

  • PPO使用置信區(qū)間優(yōu)化方法對策略進行訓練,它將策略的變化限制在與先前策略的一定距離內(nèi),以確保穩(wěn)定性。這與其他策略梯度方法相反,其他策略梯度方法有時會對策略進行大量更新,從而使學習不穩(wěn)定;

  • PPO使用價值函數(shù)來估計給定狀態(tài)或動作的預期回報。利用價值函數(shù)計算優(yōu)勢函數(shù),它表示期望回報和當前回報之間的差值,使用優(yōu)勢函數(shù)通過比較當前策略所采取的動作與先前策略的本應采取的動作來更新策略,PPO能夠根據(jù)動作的估計值對策略進行更明智的更新。

在該步驟中,由SFT模型初始化PPO模型,由獎勵模型初始化價值函數(shù)。該環(huán)境是一個強盜環(huán)境(bandit environment),它顯示一個隨機的提示符,并期望對該提示符作出響應。給出提示和反響應之后,會生成獎勵(由獎勵模型決定)。在每個標注的SFT模型中添加各個標記的KL懲罰,以優(yōu)化獎勵模型。

結(jié)論

ChatGPT引入了強化學習近端策略優(yōu)化(PPO)算法微調(diào)SFT模型,將人類反饋納入模型訓練過程中,從而大幅度提高了模型訓練的準確度。文章來源地址http://www.zghlxwxcb.cn/news/detail-787461.html

到了這里,關(guān)于| 一文讀懂ChatGPT中的強化學習的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • ChatGPT 中的人類反饋強化學習 (RLHF) 實戰(zhàn)

    ChatGPT 中的人類反饋強化學習 (RLHF) 實戰(zhàn)

    團隊博客: CSDN AI小組 相關(guān)閱讀 ChatGPT 簡介 大語言模型淺探一 關(guān)于 ChatGPT 必看的 10 篇論文 從 ELMo 到 ChatGPT:歷數(shù) NLP 近 5 年必看大模型 在當今數(shù)字化的時代,ChatGPT 的火熱程度不斷升級。ChatGPT 可以處理復雜的語言任務,從而解放人力資源,提高工作效率,減少成本。ChatGPT

    2023年04月25日
    瀏覽(68)
  • 【AIGC】猴子拍照版權(quán)是誰的:一文讀懂AIGC和版權(quán)問題

    【AIGC】猴子拍照版權(quán)是誰的:一文讀懂AIGC和版權(quán)問題

    目錄 一、沒有明確的定義 1.AI畫作算作品嗎? 2.AI 繪畫的版權(quán)歸誰? 二、關(guān)注平臺的版權(quán)聲明 三、猴子拍照 1、是否應當給予AI作品版權(quán)? 2、AI創(chuàng)作的版權(quán)賦予誰? 寫文章,做圖片,AI無所不能,雖然有時也冒點傻氣,但是確實越來越像人類了。 而且畫的圖,除了有幾分無

    2024年02月05日
    瀏覽(25)
  • 一文讀懂:全網(wǎng)都在說的AIGC到底是什么?

    一文讀懂:全網(wǎng)都在說的AIGC到底是什么?

    AIGC( AI Generated Content)是利用人工智能來生成你所需要的內(nèi)容,GC的意思是創(chuàng)作內(nèi)容。與之相對應的概念中,比較熟知的還有PGC,是專業(yè)人員用來創(chuàng)作內(nèi)容;UGC是用戶自己創(chuàng)造內(nèi)容,顧名思義AIGC是利用人工智能來創(chuàng)造內(nèi)容。 AIGC是一種全新的人工智能技術(shù),完整名稱為Artifi

    2024年02月11日
    瀏覽(21)
  • 如何快速水出人生中的第一篇SCI系列:深度學習目標檢測算法常用評估指標——一文讀懂!

    如何快速水出人生中的第一篇SCI系列:深度學習目標檢測算法常用評估指標——一文讀懂!

    詳細的改進教程以及源碼,戳這!戳這??!戳這?。。站:AI學術(shù)叫叫獸 源碼在相簿的鏈接中,動態(tài)中也有鏈接,感謝支持!??蒲羞b遙領(lǐng)先! 截止到發(fā)稿,B站YOLOv8最新改進系列的源碼包已更新了22種! 排列組合2-4種后,約有6000-7000種! 部分改進教程視頻在這:詳細的改進

    2024年02月07日
    瀏覽(23)
  • 一文讀懂「AIGC,AI Generated Content」AI生成內(nèi)容

    一文讀懂「AIGC,AI Generated Content」AI生成內(nèi)容

    首先,讓我們理解一下這兩個概念。 AIGC ,或者稱之為人工智能生成內(nèi)容,是指使用AI算法和模型來自動生成全新的、原創(chuàng)的內(nèi)容。這種內(nèi)容可以包括文本、圖像、音頻、視頻等各種形式,甚至可以包括一些獨特的形式,比如新穎的創(chuàng)意和設(shè)計。AIGC的應用領(lǐng)域非常廣泛,包括

    2024年01月20日
    瀏覽(26)
  • 通用人工智能技術(shù)(深度學習,大模型,Chatgpt,多模態(tài),強化學習,具身智能)

    目錄 前言 1.通用人工智能 1.1 生物學分析 1.2具身智能 1.2.1當前的人工智能的局限 1.2.2?具身智能實現(xiàn)的基礎(chǔ) 1.2.3 強化學習(決策大模型) 2.結(jié)論 往期文章 參考文獻 ? ? ? 目前的人工智能實質(zhì)上只是強人工智能,或者說單個領(lǐng)域的通用人工智能。比方說Chatgpt它屬于自然語言

    2024年02月07日
    瀏覽(31)
  • 一文讀懂ChatGPT

    ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發(fā)的聊天機器人程序,于2022年11月30日發(fā)布。ChatGPT是人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完

    2024年02月06日
    瀏覽(33)
  • 一文讀懂ChatGPT(全文由ChatGPT撰寫)

    一文讀懂ChatGPT(全文由ChatGPT撰寫)

    最近ChatGPT爆火,相信大家或多或少都聽說過ChatGPT。到底ChatGPT是什么?有什么優(yōu)缺點呢? 今天就由ChatGPT自己來給大家答疑解惑~? 全文文案來自ChatGPT! ? 01 ChatGPT是什么 ChatGPT是一種基于人工智能技術(shù)的自然語言處理系統(tǒng),它由OpenAI開發(fā)。GPT是Generative Pre-trained Transformer的縮寫

    2024年02月08日
    瀏覽(17)
  • 讀懂ChatGPT、AIGC和元宇宙

    讀懂ChatGPT、AIGC和元宇宙

    參考來源: 斯克稱ChatGPT將顛覆世界; 微軟為ChatGPT投資數(shù)百億美元, 并計劃將其整合到Offce辦公軟件和Bing搜索引擎之中; 在一些高校和學術(shù)機構(gòu)中,興起了關(guān)于用ChatGPT寫論文是否合規(guī)的大討論; 甚至, 一些咨詢公司也開始擔心自己的飯碗會被搶走…… 2023年,應用ChatGPT的

    2024年02月01日
    瀏覽(13)
  • 一文讀懂Springboot如何使用ChatGPT

    封裝了豐富的OpenAI 接口可直接使用 申請外國虛擬信用卡【Depay】 充值USTD虛擬貨幣【歐易】 USTD充值到Depay Depay 的USTD 轉(zhuǎn) USD虛擬貨幣 將USD貨幣存入虛擬信用卡 通過虛擬信用卡充值到ChatGPT 優(yōu)先ChatGPT試用用戶 暢享絲滑的響應速度 優(yōu)先體驗新功能 原文 非常感謝你從頭到尾閱讀

    2024年02月02日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包