国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊

這篇具有很好參考價值的文章主要介紹了強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1.什么是人工智能對齊

人工智能對齊(AI Alignment)指讓人工智能的行為符合人的意圖和價值觀。

人工智能系統(tǒng)可能會出現(xiàn)“不對齊”(misalign)的問題。以ChatGPT這樣的問答系統(tǒng)為例,ChatGPT的回答可能會含有危害祖國統(tǒng)一、侮辱先烈、丑化中華民族、教唆暴力、出口成“臟”等違法或不符合社會主義核心價值觀的言論,也可能會出現(xiàn)阿諛奉承、威逼利誘、信口雌黃等干預用戶達到預定目標的情況。消除人工智能系統(tǒng)不對齊的過程就稱為人工智能對齊。

強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊,粉絲福利活動,python,人工智能,開發(fā)語言

圖 ChatGPT的不對齊行為

2.為什么要研究人工智能對齊

根據(jù)人工智能對齊的定義,所有的人工智能問題(包括AI倫理、AI治理、可解釋性AI,甚至是最基本的回歸和分類問題)都可以算是人工智能對齊問題。那么為什么學術(shù)界還要發(fā)明“人工智能對齊”這個新概念?研究“人工智能對齊”這個新概念有什么價值呢?

事實上,人工智能對齊這一概念和ChatGPT這樣的通用大模型的誕生密不可分。對于通用大模型而言,一個模型可以同時完成多種任務(wù),而且不同的任務(wù)有著不同的期望:有的任務(wù)希望能夠更有想象力,有的任務(wù)希望能夠更尊重事實;有的任務(wù)希望能夠理性客觀,有的任務(wù)希望能有細膩豐富的情感。任務(wù)的多樣性導致了需要對大模型進行全方面的對齊,而不僅僅是就某些方面進行對齊。傳統(tǒng)的研究往往針對某個方面進行對齊,對于ChatGPT這樣的通用模型會導致“按下葫蘆浮起瓢”,無法面面俱到。

隨著機器學習模型規(guī)模的不斷變大以及神經(jīng)網(wǎng)絡(luò)的大量應(yīng)用,人類已經(jīng)無法完全理解和解釋人工智能的某些行為。例如,用于圍棋AlphaGo下的某些棋迄今也不能被人類所完全理解。在未來,有可能會出現(xiàn)全方面碾壓人類的人工智能(比如《流浪地球》里的MOSS)。傳統(tǒng)的對齊方法顯然不能滿足對這樣的人工智能的對齊需求。

3.人工智能對齊的常見方法

人工智能對齊離不開人的接入。人對人工智能系統(tǒng)進行評估和反饋,可以確認人工智能中不對齊的情況,并指導其進行改進。

人工智能對齊的方法包括模仿學習和人類反饋強化學習。ChatGPT就采用了這些對齊方法。

強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊,粉絲福利活動,python,人工智能,開發(fā)語言

ChatGPT訓練步驟

(圖片來源:https://openai.com/blog/chatgpt)

上圖是ChatGPT的訓練步驟圖。步驟一利用收集到的數(shù)據(jù)進行監(jiān)督學習,這一部分就是在用模仿學習進行人工智能對齊。不過,ChatGPT的訓練團隊認為,僅僅用模仿學習并不能完全達到要求。

模仿學習不能完全滿足對齊需求的原因可能如下:模仿學習使用的數(shù)據(jù)集能覆蓋到的數(shù)據(jù)范圍是有限的,不可能包括所有的情況。用這樣數(shù)據(jù)集訓練出來的人工智能難免有些邊腳情形的表現(xiàn)不對齊。另外,雖然訓練后能夠讓訓練目標基本上達到最優(yōu),但是在訓練目標最優(yōu)情況下還是會出現(xiàn)在某些樣本點上表現(xiàn)不好的情況。而這些樣本點也許還挺重要,這些不好的樣本點可能會涉及到重大的法律或是輿論風險。

為此,ChatGPT的訓練過程進一步地使用了人類反饋強化學習。步驟圖中的第二步和第三步就用到了人類反饋強化學習。

第二步通過人類的反饋構(gòu)建獎勵模型。在這一步中,提供反饋的人可以就其認為需要重點關(guān)注的問題進行著重考察,來確保在哪些重要的問題上獎勵模型是正確的。并且在后續(xù)的測試中如果發(fā)現(xiàn)了之前沒有預料到的新問題,還可以通過提供更多反饋樣本來為獎勵模型打上補丁。這樣,通過人工干預、不斷迭代反饋,獎勵模型就趨于完善。這樣,就讓獎勵模型的人類的期望對齊。

在利用反饋進行獎勵模型對齊的訓練過程中,對于每個樣本,先由語言模型輸出幾個備選的回答,然后再由人類對這些回答進行排序。這樣的做法與直接讓用戶提供參考答案相比,更能夠激發(fā)語言模型本身的創(chuàng)造力,也能使得反饋更快更省錢。

第三步利用獎勵模型進行強化學習。步驟中提到的PPO算法就是一種強化學習算法。通過使用強化學習算法,使得系統(tǒng)的行為和獎勵模型對齊。

基于反饋的強化學習在ChatGPT等大模型上的成功應(yīng)用使得該算法稱為最受關(guān)注的大模型對齊算法。目前絕大多數(shù)的大模型都采用了這個技術(shù)進行對齊。

延伸閱讀

強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊,粉絲福利活動,python,人工智能,開發(fā)語言

《強化學習:原理與Python實戰(zhàn)》

肖智清 著

解密ChatGPT關(guān)鍵技術(shù)PPO和RLHF

理論完備:涵蓋強化學習主干理論和常見算法,帶你參透ChatGPT技術(shù)要點;

實戰(zhàn)性強:每章都有編程案例,深度強化學習算法提供TenorFlow和PyTorch對照實現(xiàn);

配套豐富:逐章提供知識點總結(jié),章后習題形式豐富多樣。還有Gym源碼解讀、開發(fā)環(huán)境搭建指南、習題答案等在線資源助力自學。

  • ??本次送書1~3本【取決于閱讀量,閱讀量越多,送的越多】??
  • ??活動時間:截止到2023-11月18號
  • ??參與方式:關(guān)注博主+三連(點贊、收藏、評論)

私信我進送書互三群有更多福利哦可以在文章末尾或主頁添加微信文章來源地址http://www.zghlxwxcb.cn/news/detail-754553.html

到了這里,關(guān)于強化學習:原理與Python實戰(zhàn)||一分鐘秒懂人工智能對齊的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 一分鐘秒懂人工智能對齊【十三期】

    一分鐘秒懂人工智能對齊【十三期】

    發(fā)現(xiàn)寶藏 前些天發(fā)現(xiàn)了一個巨牛的人工智能學習網(wǎng)站,通俗易懂,風趣幽默,忍不住分享一下給大家?!緦毑厝肟凇?。 人工智能對齊(AI Alignment)指讓人工智能的行為符合人的意圖和價值觀。 人工智能系統(tǒng)可能會出現(xiàn)“不對齊”(misalign)的問題。以ChatGPT這樣的問答系統(tǒng)為

    2024年02月05日
    瀏覽(22)
  • 一分鐘秒懂人工智能對齊 ( 文末送書 )

    一分鐘秒懂人工智能對齊 ( 文末送書 )

    送書系列: 送書第一期:考研必備書單 送書第二期:CTF那些事兒 送書第三期:數(shù)據(jù)要素安全流通 送書第四期:MLOps工程實踐:工具、技術(shù)與企業(yè)級應(yīng)用 送書第五期:Python數(shù)據(jù)挖掘:入門進階與實用案例分析 送書第六期:ChatGPT 驅(qū)動軟件開發(fā):AI 在軟件研發(fā)全流程中的革新與

    2024年02月05日
    瀏覽(42)
  • 從人工智能到機器學習到深度學習、強化學習,以及相關(guān)的算法原理、應(yīng)用場景等方面對人工智能技術(shù)的研究進行全面的綜述

    作者:禪與計算機程序設(shè)計藝術(shù) 2021年是一個重要的歷史節(jié)點,數(shù)字化時代正在席卷全球各個角落。大數(shù)據(jù)、云計算、區(qū)塊鏈等新興技術(shù)帶動著各行各業(yè)的變化與革命,機器學習(ML)、深度學習(DL)、強化學習(RL)等AI技術(shù)也越發(fā)成熟。隨之而來的,伴隨著人工智能應(yīng)用的

    2024年02月07日
    瀏覽(28)
  • AI人工智能中的概率論與統(tǒng)計學原理與Python實戰(zhàn):35. Python實現(xiàn)量子計算與量子機器學習...

    量子計算和量子機器學習是人工智能領(lǐng)域的一個重要分支,它們利用量子物理現(xiàn)象來解決一些傳統(tǒng)計算方法無法解決的問題。量子計算的核心是量子比特(qubit),它可以存儲多種信息,而不是傳統(tǒng)的二進制比特(bit)。量子機器學習則利用量子計算的優(yōu)勢,為機器學習問題提供更

    2024年04月14日
    瀏覽(23)
  • 7個最流行的強化學習算法實戰(zhàn)案例(附 Python 代碼)

    大家好,目前流行的強化學習算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 這些算法已被用于在游戲、機器人和決策制定等各種應(yīng)用中,并且這些流行的算法還在不斷發(fā)展和改進,本文我們將對其做一個簡單的介紹。 技術(shù)要學會分享、交流,不建議閉門造車。 本文技

    2024年02月16日
    瀏覽(23)
  • (六)人工智能應(yīng)用--深度學習原理與實戰(zhàn)--理解張量與運算圖

    (六)人工智能應(yīng)用--深度學習原理與實戰(zhàn)--理解張量與運算圖

    Tensorflow名稱中的Tensor即張量,不僅僅是Tensorflow,幾乎所有的深度學習平臺都以張量為基本的數(shù)據(jù)結(jié)構(gòu)。簡單來說,張量就是多維數(shù)組,本質(zhì)上是一種數(shù)據(jù)容器,它可以有任意維度,比如矩陣就是二維張量(二維數(shù)組)。 深度學習中使用張量來表示數(shù)據(jù),計算圖是由張量和張量

    2024年02月15日
    瀏覽(28)
  • (十)人工智能應(yīng)用--深度學習原理與實戰(zhàn)--模型的保存與加載使用

    (十)人工智能應(yīng)用--深度學習原理與實戰(zhàn)--模型的保存與加載使用

    目的:將訓練好的模型保存為文件,下次使用時直接加載即可,不必重復建模訓練。 神經(jīng)網(wǎng)絡(luò)模型訓練好之后,可以保存為文件以持久存儲,這樣下次使用時就不重新建模訓練,直接加載就可以。TensorfLow提供了靈活的模型保存方案,既可以同時保存網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重(即保存全模

    2024年02月13日
    瀏覽(38)
  • 強化學習Agent系列(一)——PyGame游戲編程,Python 貪吃蛇制作實戰(zhàn)教學

    強化學習Agent系列(一)——PyGame游戲編程,Python 貪吃蛇制作實戰(zhàn)教學

    大家好,未來的開發(fā)者們請上座 隨著人工智能的發(fā)展,強化學習基本會再次來到人們眼前,遂想制作一下相關(guān)的教程。強化學習第一步基本離不開虛擬環(huán)境的搭建,下面用大家耳熟能詳?shù)呢澇陨哂螒驗榛A(chǔ),制作一個Agent,完成對這個游戲的絕殺。 萬里長城第一步:用pytho

    2024年01月21日
    瀏覽(29)
  • Python深度強化學習實戰(zhàn) ——OpenAI Gym-CarRacing自動駕駛項目

    Python深度強化學習實戰(zhàn) ——OpenAI Gym-CarRacing自動駕駛項目

    ????? ?? 寫在前面: 本篇是關(guān)于 OpenAI Gym-CarRacing?自動駕駛項目的博客,面向掌握 Python 并有一定的深度強化學習基礎(chǔ)的讀者。 GYM-Box2D CarRacing 是一種在 OpenAI Gym 平臺上開發(fā)和比較強化學習算法的模擬環(huán)境。它是流行的 Box2D 物理引擎的一個版本,經(jīng)過修改以支持模擬汽車在

    2024年02月16日
    瀏覽(28)
  • 人工智能課程筆記(7)強化學習(基本概念 Q學習 深度強化學習 附有大量例題)

    人工智能課程筆記(7)強化學習(基本概念 Q學習 深度強化學習 附有大量例題)

    強化學習和深度學習都是機器學習的分支,但是兩者在方法和應(yīng)用場景上有所不同。 強化學習 : 強化學習概述 :強化學習是一種通過智能體與環(huán)境進行交互來學習最優(yōu)行動策略的算法。在強化學習中,智能體與環(huán)境不斷交互,觀察環(huán)境的狀態(tài)并采取不同的行動,從而獲得獎

    2024年01月17日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包