論文總結(jié)
以下是我閱讀完整篇論文做的個(gè)人總結(jié),基本包含了ChatGPT1設(shè)計(jì)的完整框架思路,可以僅看【論文總結(jié)】章節(jié)。
在GPT1實(shí)現(xiàn)的核心架構(gòu)中,包含兩個(gè)階段。
第一階段
在第一階段基于一個(gè)包含7000本書籍內(nèi)容的海量未標(biāo)注文本數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,該階段引入了一種Transformer模型的變形,GPT1增加了Transformer模型的中間層,并調(diào)整了部分模型結(jié)構(gòu)和參數(shù)。
第二階段
在第二階段,實(shí)驗(yàn)組引入12個(gè)更加具體的標(biāo)注文本數(shù)據(jù)集(諸如中學(xué)學(xué)校問(wèn)答文本、政府工作報(bào)告文檔、文本隱含情感標(biāo)注文檔)進(jìn)行參數(shù)微調(diào)?;诘谝浑A段的模型輸出,實(shí)驗(yàn)組基于標(biāo)注數(shù)據(jù)再訓(xùn)練一個(gè)二階段的線性學(xué)習(xí)模型。一、二兩個(gè)階段模型相加,就得到了最終的GPT1模型。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-447650.html
第二階段的輔助目標(biāo)學(xué)習(xí)
對(duì)于GPT1模型的架構(gòu),還有很重要的一步,就是在第二階段參數(shù)微調(diào)的過(guò)程中,還要引入特定的輔助目標(biāo)學(xué)習(xí),具體實(shí)現(xiàn)方式是將輸入文本進(jìn)行特定的轉(zhuǎn)化,例如修改分類文本輸入的數(shù)學(xué)表示格式(加入特定的分隔符用于標(biāo)注分詞含義)、修改相似語(yǔ)義句型的詞匯先后順序,這種輔助目標(biāo)學(xué)習(xí)可以顯著提升模型的泛化能力。
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-447650.html
到了這里,關(guān)于ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!