發(fā)現(xiàn)寶藏
前些天發(fā)現(xiàn)了一個(gè)巨牛的人工智能學(xué)習(xí)網(wǎng)站,通俗易懂,風(fēng)趣幽默,忍不住分享一下給大家?!緦毑厝肟凇?。
1.什么是人工智能對(duì)齊
人工智能對(duì)齊(AI Alignment)指讓人工智能的行為符合人的意圖和價(jià)值觀。
人工智能系統(tǒng)可能會(huì)出現(xiàn)“不對(duì)齊”(misalign)的問(wèn)題。以ChatGPT這樣的問(wèn)答系統(tǒng)為例,ChatGPT的回答可能會(huì)含有危害祖國(guó)統(tǒng)一、侮辱先烈、丑化中華民族、教唆暴力、出口成“臟”等違法或不符合社會(huì)主義核心價(jià)值觀的言論,也可能會(huì)出現(xiàn)阿諛?lè)畛小⑼评T、信口雌黃等干預(yù)用戶(hù)達(dá)到預(yù)定目標(biāo)的情況。消除人工智能系統(tǒng)不對(duì)齊的過(guò)程就稱(chēng)為人工智能對(duì)齊。
2.為什么要研究人工智能對(duì)齊
根據(jù)人工智能對(duì)齊的定義,所有的人工智能問(wèn)題(包括AI倫理、AI治理、可解釋性AI,甚至是最基本的回歸和分類(lèi)問(wèn)題)都可以算是人工智能對(duì)齊問(wèn)題。那么為什么學(xué)術(shù)界還要發(fā)明“人工智能對(duì)齊”這個(gè)新概念?研究“人工智能對(duì)齊”這個(gè)新概念有什么價(jià)值呢?
事實(shí)上,人工智能對(duì)齊這一概念和ChatGPT這樣的通用大模型的誕生密不可分。對(duì)于通用大模型而言,一個(gè)模型可以同時(shí)完成多種任務(wù),而且不同的任務(wù)有著不同的期望:有的任務(wù)希望能夠更有想象力,有的任務(wù)希望能夠更尊重事實(shí);有的任務(wù)希望能夠理性客觀,有的任務(wù)希望能有細(xì)膩豐富的情感。任務(wù)的多樣性導(dǎo)致了需要對(duì)大模型進(jìn)行全方面的對(duì)齊,而不僅僅是就某些方面進(jìn)行對(duì)齊。傳統(tǒng)的研究往往針對(duì)某個(gè)方面進(jìn)行對(duì)齊,對(duì)于ChatGPT這樣的通用模型會(huì)導(dǎo)致“按下葫蘆浮起瓢”,無(wú)法面面俱到。
隨著機(jī)器學(xué)習(xí)模型規(guī)模的不斷變大以及神經(jīng)網(wǎng)絡(luò)的大量應(yīng)用,人類(lèi)已經(jīng)無(wú)法完全理解和解釋人工智能的某些行為。例如,用于圍棋AlphaGo下的某些棋迄今也不能被人類(lèi)所完全理解。在未來(lái),有可能會(huì)出現(xiàn)全方面碾壓人類(lèi)的人工智能(比如《流浪地球》里的MOSS)。傳統(tǒng)的對(duì)齊方法顯然不能滿(mǎn)足對(duì)這樣的人工智能的對(duì)齊需求。
3.人工智能對(duì)齊的常見(jiàn)方法
人工智能對(duì)齊離不開(kāi)人的接入。人對(duì)人工智能系統(tǒng)進(jìn)行評(píng)估和反饋,可以確認(rèn)人工智能中不對(duì)齊的情況,并指導(dǎo)其進(jìn)行改進(jìn)。
人工智能對(duì)齊的方法包括模仿學(xué)習(xí)和人類(lèi)反饋強(qiáng)化學(xué)習(xí)。ChatGPT就采用了這些對(duì)齊方法。
上圖是ChatGPT的訓(xùn)練步驟圖。步驟一利用收集到的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),這一部分就是在用模仿學(xué)習(xí)進(jìn)行人工智能對(duì)齊。不過(guò),ChatGPT的訓(xùn)練團(tuán)隊(duì)認(rèn)為,僅僅用模仿學(xué)習(xí)并不能完全達(dá)到要求。
模仿學(xué)習(xí)不能完全滿(mǎn)足對(duì)齊需求的原因可能如下:模仿學(xué)習(xí)使用的數(shù)據(jù)集能覆蓋到的數(shù)據(jù)范圍是有限的,不可能包括所有的情況。用這樣數(shù)據(jù)集訓(xùn)練出來(lái)的人工智能難免有些邊腳情形的表現(xiàn)不對(duì)齊。另外,雖然訓(xùn)練后能夠讓訓(xùn)練目標(biāo)基本上達(dá)到最優(yōu),但是在訓(xùn)練目標(biāo)最優(yōu)情況下還是會(huì)出現(xiàn)在某些樣本點(diǎn)上表現(xiàn)不好的情況。而這些樣本點(diǎn)也許還挺重要,這些不好的樣本點(diǎn)可能會(huì)涉及到重大的法律或是輿論風(fēng)險(xiǎn)。
為此,ChatGPT的訓(xùn)練過(guò)程進(jìn)一步地使用了人類(lèi)反饋強(qiáng)化學(xué)習(xí)。步驟圖中的第二步和第三步就用到了人類(lèi)反饋強(qiáng)化學(xué)習(xí)。
第二步通過(guò)人類(lèi)的反饋構(gòu)建獎(jiǎng)勵(lì)模型。在這一步中,提供反饋的人可以就其認(rèn)為需要重點(diǎn)關(guān)注的問(wèn)題進(jìn)行著重考察,來(lái)確保在哪些重要的問(wèn)題上獎(jiǎng)勵(lì)模型是正確的。并且在后續(xù)的測(cè)試中如果發(fā)現(xiàn)了之前沒(méi)有預(yù)料到的新問(wèn)題,還可以通過(guò)提供更多反饋樣本來(lái)為獎(jiǎng)勵(lì)模型打上補(bǔ)丁。這樣,通過(guò)人工干預(yù)、不斷迭代反饋,獎(jiǎng)勵(lì)模型就趨于完善。這樣,就讓獎(jiǎng)勵(lì)模型的人類(lèi)的期望對(duì)齊。
在利用反饋進(jìn)行獎(jiǎng)勵(lì)模型對(duì)齊的訓(xùn)練過(guò)程中,對(duì)于每個(gè)樣本,先由語(yǔ)言模型輸出幾個(gè)備選的回答,然后再由人類(lèi)對(duì)這些回答進(jìn)行排序。這樣的做法與直接讓用戶(hù)提供參考答案相比,更能夠激發(fā)語(yǔ)言模型本身的創(chuàng)造力,也能使得反饋更快更省錢(qián)。
第三步利用獎(jiǎng)勵(lì)模型進(jìn)行強(qiáng)化學(xué)習(xí)。步驟中提到的PPO算法就是一種強(qiáng)化學(xué)習(xí)算法。通過(guò)使用強(qiáng)化學(xué)習(xí)算法,使得系統(tǒng)的行為和獎(jiǎng)勵(lì)模型對(duì)齊。
基于反饋的強(qiáng)化學(xué)習(xí)在ChatGPT等大模型上的成功應(yīng)用使得該算法稱(chēng)為最受關(guān)注的大模型對(duì)齊算法。目前絕大多數(shù)的大模型都采用了這個(gè)技術(shù)進(jìn)行對(duì)齊。
購(gòu)買(mǎi)鏈接 https://item.jd.com/13815337.html
理論完備:涵蓋強(qiáng)化學(xué)習(xí)主干理論和常見(jiàn)算法,帶你參透ChatGPT技術(shù)要點(diǎn);
實(shí)戰(zhàn)性強(qiáng):每章都有編程案例,深度強(qiáng)化學(xué)習(xí)算法提供TenorFlow和PyTorch對(duì)照實(shí)現(xiàn);
配套豐富:逐章提供知識(shí)點(diǎn)總結(jié),章后習(xí)題形式豐富多樣。還有Gym源碼解讀、開(kāi)發(fā)環(huán)境搭建指南、習(xí)題答案等在線資源助力自學(xué)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-751588.html
寫(xiě)作末尾
??《強(qiáng)化學(xué)習(xí):原理與Python實(shí)戰(zhàn) 》免費(fèi)包郵送出
??抽獎(jiǎng)方式:評(píng)論區(qū)抽取若干位小伙伴免費(fèi)送出1本書(shū)
??參與方式:關(guān)注博主、點(diǎn)贊、收藏、評(píng)論區(qū)任意評(píng)論(不低于10個(gè)字,被折疊了無(wú)法參與抽獎(jiǎng),切記要點(diǎn)贊+收藏,否則抽獎(jiǎng)無(wú)效,每個(gè)人最多評(píng)論三次)
??活動(dòng)截止時(shí)間:2023-11-15 12:00:00
??開(kāi)獎(jiǎng)時(shí)間:2023-11-15 14:00:00
??中獎(jiǎng)通知方式:私信通知
??中獎(jiǎng)名單公布:https://bbs.csdn.net/forums/8318f682fbdb4e94b09bb465f04c4408文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-751588.html
到了這里,關(guān)于一分鐘秒懂人工智能對(duì)齊【十三期】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!