論文總結(jié)
以下是我閱讀完整篇論文做的個人總結(jié),包含了ChatGPT-2文章的主要內(nèi)容,可以僅看【論文總結(jié)】章節(jié)。
數(shù)據(jù)集
自制了一個網(wǎng)頁爬蟲,被抓取的網(wǎng)頁部分來自于社交平臺,這些網(wǎng)頁由人工進行過濾。最終生成WebText數(shù)據(jù)集,包含45000000個鏈接。另一部分來自于新聞網(wǎng)站,數(shù)據(jù)截止2017年12月,數(shù)據(jù)總量達到8000000篇文章,總共有40GB的文本內(nèi)容。文章還提到,包括wiki百科等文本也納入訓(xùn)練數(shù)據(jù)集,由全世界各地數(shù)百萬人參與來創(chuàng)建和清洗GPT-2訓(xùn)練所用的數(shù)據(jù)集。
輸入表示
設(shè)計了一種結(jié)合單詞級表示和字節(jié)級表示的混合輸入表示。針對過去的單詞級庫去除大量重復(fù)單詞,又引入字節(jié)級表示來提升泛化能力。
單詞級表示具有先驗優(yōu)勢,字節(jié)級表示具有泛化優(yōu)勢。
模型
針對GPT1進行了部分修改:
1.將層歸一化移動到每個子塊的輸入。
2.在自注意塊之后添加額外的層歸一化。
3.改進了初始化方法(初始化時將殘差層的權(quán)重按1/√N的倍數(shù)擴大,N是殘差層數(shù)量)。
4.詞典擴大,分詞擴大,指令集擴大,批處理大小擴大。
5.GPT包含117000000參數(shù),GPT-2包含1542000000參數(shù)。
實驗
因為只訓(xùn)練一次,卻想觀察模型在各個細分領(lǐng)域的表現(xiàn),因此所有實驗都可歸類為零次學(xué)習(xí)(zero-shot)。
測試項目 | 測試模型的哪方面能力 | 測試結(jié)果 |
---|---|---|
兒童書籍 | 識別不同類型的詞匯 | ACC從85.7提升至93.3 |
LAMBADA測試 | 識別文本中長依賴的能力 | PPL99.8降低至8.63 |
Winograd Schema Challenge | 常識性推理 | 63.7%提升至70.7% |
閱讀理解 | 需要模型具有一定記憶能力 | 4項測試3項刷新歷史記錄 |
摘要 | 對新聞文章提取摘要的能力 | 與歷史成績持平 |
翻譯 | 大模型自動學(xué)習(xí)的翻譯能力 | 英譯法較差,法譯英達到基準(zhǔn)水平 |
問答 | 模型對于似是而非問題回答正確的能力 | 準(zhǔn)確度提升5.3倍 |
總結(jié)
GPT-2論文的核心內(nèi)容,可以用一句話進行總結(jié):那就是在GPT模型的基礎(chǔ)上,作者提升了模型大小和訓(xùn)練數(shù)據(jù)集大小,結(jié)果發(fā)現(xiàn)GPT-2可以自動適應(yīng)并完成NLP不同領(lǐng)域的任務(wù)目標(biāo)的學(xué)習(xí)。
舉個例子來說,我們同時給一個固定的語言模型輸入日常對話文本和新聞報道文本的數(shù)據(jù)集,并且這個數(shù)據(jù)集足夠大、模型足夠大、訓(xùn)練時間足夠長。則最終產(chǎn)出的模型將會擁有區(qū)分日常對話和新聞報道的不同場景的能力,不僅如此模型還將自動擁有一些新的能力,例如編寫新聞?wù)哪芰Α?br> 這意味著大型語言模型具有很強的泛化能力,同時也意味著大型語言模型將會具有潛在自主意識。隨后本文針對作者列舉的幾個獨立領(lǐng)域,陳述了實驗結(jié)果。
相比于GPT論文中只提到Large Dataset,GPT-2論文中開始出現(xiàn)LLM(Large Language Model)的描述。文章來源:http://www.zghlxwxcb.cn/news/detail-476652.html
論文原文解讀
原論文地址:https://cdn.openai.com/better-language-models/language_models_are_uns文章來源地址http://www.zghlxwxcb.cn/news/detail-476652.html
到了這里,關(guān)于ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!