HuggingFace發(fā)表了一篇博客,詳細(xì)講解了ChatGPT背后的技術(shù)原理——RLHF。
筆者讀過(guò)之后,覺(jué)得講解的還是蠻清晰的,因此提煉了一下核心脈絡(luò),希望給對(duì)ChatGPT技術(shù)原理感興趣的小伙伴帶來(lái)幫助。
此外,文末整理了幾篇關(guān)于 RLHF 最熱門的12篇必讀論文,賣萌醬打包好掛在公眾號(hào)后臺(tái)了,感興趣的小伙伴可以在公眾號(hào)“夕小瑤的賣萌屋”后臺(tái)回復(fù)【1212】領(lǐng)取。
在過(guò)去幾年里,基于prompt范式的AI生成模型取得了巨大的成功,誕生了不少有意思的AI應(yīng)用,例如AI寫小說(shuō),AI寫代碼,AI畫圖甚至AI做視頻等。
但其實(shí)這種生成模型很難訓(xùn)練。以語(yǔ)言模型為例,大多是采用“自回歸生成”的方式,通過(guò)循環(huán)解碼的方式來(lái)逐字或逐詞生成內(nèi)容。訓(xùn)練時(shí)往往簡(jiǎn)單的基于上下文信息去預(yù)測(cè)下一個(gè)詞,然后用交叉熵來(lái)計(jì)算每個(gè)詞的loss。顯然這種token-level的loss不能很好的從整體輸出的層面去指導(dǎo)模型優(yōu)化方向。
為了能刻畫模型輸出的整體質(zhì)量(而不是單個(gè)詞),人們往往用BLEU或ROUGH等評(píng)價(jià)指標(biāo)來(lái)刻畫模型輸出與人類偏好的相近程度,但這也僅僅是在評(píng)價(jià)的層面,模型在訓(xùn)練的時(shí)候是見(jiàn)不到這些人類真實(shí)的偏好的。
因此,訓(xùn)練階段,如果直接用人的偏好(或者說(shuō)人的反饋)來(lái)對(duì)模型整體的輸出結(jié)果計(jì)算reward或loss,顯然是要比上面?zhèn)鹘y(tǒng)的“給定上下文,預(yù)測(cè)下一個(gè)詞”的損失函數(shù)合理的多?;谶@個(gè)思想,便引出了本文要討論的對(duì)象——RLHF(Reinforcement Learning from Human Feedback):即,使用強(qiáng)化學(xué)習(xí)的方法,利用人類反饋信號(hào)直接優(yōu)化語(yǔ)言模型。
抱抱臉:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷論文_夕小瑤的博客-CSDN博客
從零實(shí)現(xiàn)ChatGPT——RLHF技術(shù)筆記 - 知乎文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-420896.html
Illustrating Reinforcement Learning from Human Feedback (RLHF)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-420896.html
到了這里,關(guān)于RLHF:基于人類反饋(Human Feedback)對(duì)語(yǔ)言模型進(jìn)行強(qiáng)化學(xué)習(xí)【Reinforcement Learning from Human Feedback】的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!