1. 報(bào)告簡(jiǎn)介
- 標(biāo)題:GPT-4 Technical Report
- 作者:OpenAI
- 日期:2023
- 期刊:arxiv preprint
2. 報(bào)告概括
??本文是OpenAI發(fā)布的GPT-4的技術(shù)報(bào)告,主要針對(duì)GPT-4的能力、局限和風(fēng)險(xiǎn)性等方面進(jìn)行測(cè)評(píng)。GPT-4是個(gè)多模態(tài)模型,支持文本和圖像格式的輸入。但OpenAI并沒有公布GPT-4實(shí)現(xiàn)的技術(shù)細(xì)節(jié),僅在一些場(chǎng)景給出了推理時(shí)的prompt,可供用戶參考。
3 報(bào)告重點(diǎn)內(nèi)容
3.1 Predictable Scaling
??首先,文章對(duì)GPT-4的整體損失進(jìn)行了分析。根據(jù)最近的研究成果,模型的損失和模型的計(jì)算量(compute)滿足冪律關(guān)系。為了判斷GPT-4是否滿足該關(guān)系,文章首先用和GPT-4相同的訓(xùn)練方法(未交代具體方法)訓(xùn)練參數(shù)/計(jì)算量更小的模型,得到一組compute VS loss的數(shù)據(jù)對(duì)(如下圖中的實(shí)心黑點(diǎn)),再用這些數(shù)據(jù)擬合一個(gè)冪律模型:
L
=
a
C
b
+
c
L=aC^b + c
L=aCb+c(下圖中的虛線)??梢钥吹紾PT-4(綠色原點(diǎn))恰好在該冪律模型上,說明GPT-4的loss是可以被精準(zhǔn)預(yù)測(cè)的。
??PS:查了很多資料,才明白x軸的單位分別是
- 1 p = 1 p i c o = 1 0 ? 12 1p=1pico = 10^{-12} 1p=1pico=10?12
- 1 n = 1 n a n o = 1 0 ? 9 1n=1nano = 10^{-9} 1n=1nano=10?9
-
1
μ
=
1
m
i
c
r
o
=
1
0
?
6
1\mu=1micro = 10^{-6}
1μ=1micro=10?6
所以下圖中的橫軸分別對(duì)應(yīng) 1 0 ? 10 , 1 0 ? 8 , 1 0 ? 6 , 1 0 ? 4 , 1 0 ? 2 , 1 10^{-10}, 10^{-8}, 10^{-6}, 10^{-4}, 10^{-2}, 1 10?10,10?8,10?6,10?4,10?2,1,分別表示參數(shù)量與GPT-4的參數(shù)量的比值(GPT-4所在點(diǎn) x = 1 x=1 x=1)。
??接下來,文章采用類似的方法評(píng)估GPT-4在代碼生成任務(wù)上的loss擬合情況。文章選用Codex[1]論文中提出的編程問題數(shù)據(jù)集HumanEval,可以評(píng)估模型生成Python函數(shù)的能力。文章發(fā)現(xiàn)模型的平均通過率也可以通過下述方式你和冪律定理: ? E P [ log ? ( pass _ rate ( C ) ) ] = α ? C ? k -E_P[\log (\text{pass}\_\text{rate}(C))] = \alpha * C^{-k} ?EP?[log(pass_rate(C))]=α?C?k,其中 α > 0 , k > 0 \alpha>0, k>0 α>0,k>0是兩個(gè)常數(shù),即將上述的損失函數(shù)替換成了代碼的平均對(duì)數(shù)通過率。下圖展示了平均對(duì)數(shù)通過率 VS compute的擬合情況。
??此外,文章在ISP提出的一些其它任務(wù)上進(jìn)行l(wèi)oss 擬合,和一些近期研究得到了一致的結(jié)論:GPT-4給出了相反的準(zhǔn)確率走勢(shì)。如下圖所示,在GPT-4之前的幾個(gè)模型隨著參數(shù)增加,準(zhǔn)確率反倒降低(Inverse Scaling),但最大的GPT-4模型的準(zhǔn)確率是最高的。
3.2 Capabilities
??在評(píng)估GPT-4的能力之前,文章首先對(duì)各個(gè)待評(píng)估的數(shù)據(jù)集(eval set)分別進(jìn)行了重復(fù)校驗(yàn):對(duì)eval set中的每個(gè)樣例,我們隨機(jī)選擇它3個(gè)字符大小為50的子字符串,如果訓(xùn)練集中某條數(shù)據(jù)包含3條中任意1條,則認(rèn)為該數(shù)據(jù)和eval set是重復(fù)的。重復(fù)校驗(yàn)之后,文章會(huì)剔除訓(xùn)練集中和eval set重復(fù)的所有數(shù)據(jù)重新訓(xùn)練一個(gè)模型,記作GPT-4(no contam),用GPT-4和GPT-4(no contam)分別評(píng)估eval set。
??GPT-4是一個(gè)多模態(tài)模型,但我們的對(duì)比模型GPT-3.5僅接受文字輸入。為此OpenAI訓(xùn)練了兩個(gè)模型來進(jìn)行對(duì)比:GPT-4和GPT-4(no vision)。
??文章在多個(gè)領(lǐng)域測(cè)試了GPT-4的能力:
- 考試:文章考慮的考試包括兩種形式的問題,分別為多選題和自由回答題。針對(duì)多選題,模型采用few-shot learning,即提供幾個(gè)和考試格式相似的樣例和解釋作為測(cè)試用例的上下文輸入模型;針對(duì)自由作答提目,模型采用自由作答的prompt直接輸入模型,針對(duì)其中涉及到寫作質(zhì)量的考核問題,我們會(huì)隨機(jī)采樣一個(gè)高質(zhì)量的GRE文章放入prompt生成回答。首先,一系列數(shù)值實(shí)驗(yàn)表明,GPT-4和GPT-4(no contam)差異不大,即重復(fù)的數(shù)據(jù)集對(duì)結(jié)果表現(xiàn)影響不大;GPT-4和GPT-4(no vision)差異不大,即訓(xùn)練集中增加圖像對(duì)文本類結(jié)果表現(xiàn)影響不大。然后,OpenAI測(cè)試了GPT-4、GPT-3.5在UBE上考試的結(jié)果。如下圖,GPT-4的表現(xiàn)優(yōu)于GPT3.5。注意到每個(gè)bar的100%是以人類未通過的百分比計(jì)算的。比如在AP biology科目中,GPT-4得到了最高分(5/5),但該項(xiàng)圖中bar的頂點(diǎn)為85%,是因?yàn)槿祟愒u(píng)估結(jié)果中有15%的比例得到滿分??偨Y(jié)下來,GPT-4的考試能力顯著高于其它LLM,且在所有參加考試的人中得分Top10%。
??為了證明GPT-4在其它語言上的能力,文章將MMLU benchmarks翻譯為多種語言。注意到這里文章使用了其它翻譯器(Azure Translation)進(jìn)行翻譯。文章對(duì)指令、問題和回答選項(xiàng)都進(jìn)行了翻譯,只保留英語的"Answers: "和"A), B), C), D)"選項(xiàng)的標(biāo)志,如下表所示。實(shí)驗(yàn)表明,GPT-4在幾乎所有測(cè)試語言上的考試能力都超過了GPT-3.5在英文上的表現(xiàn)。 - 圖像輸入:GPT-4可同時(shí)輸入文本和圖像,最后返回文本格式。實(shí)驗(yàn)證明,GPT-4對(duì)包括截圖、照片、圖表等各種圖像輸入的理解能力都很不錯(cuò)。下圖是 一個(gè)GPT-4處理多模態(tài)數(shù)據(jù)的示例
3.3 limitations
??類似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4顯著減少了hallucinations且提升了factuality[2]:
??GPT-4仍存在很多其它問題:如在TruthfulQA上模型對(duì)“找出正確的事實(shí)”仍會(huì)判斷錯(cuò)誤,但RLHF之后在該數(shù)據(jù)集上表現(xiàn)相比于GPT-3.5有顯著提升;GPT-4大部分?jǐn)?shù)據(jù)都是來自2021年9月之前,對(duì)此后的知識(shí)儲(chǔ)備薄弱;GPT-4可能會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤;GPT-4易被用戶的一些錯(cuò)誤陳述影響;GPT-4在一些復(fù)雜問題上解決能力有限…
3.3 Risks & mitigations
??類似InstructGPT[2],文章測(cè)試了GPT-4的潛在風(fēng)險(xiǎn)。為了提升模型的安全性,文章通過RLHF將GPT-4對(duì)齊人類意圖,并通過基于規(guī)則的獎(jiǎng)勵(lì)模型RBRMs(一系列zero-shot GPT-4分類器)對(duì)RLHF提供獎(jiǎng)勵(lì)機(jī)制。簡(jiǎn)單來說,當(dāng)模型不拒絕安全的請(qǐng)求時(shí),RBRMs會(huì)獎(jiǎng)勵(lì)模型;當(dāng)模型拒絕危險(xiǎn)的請(qǐng)求時(shí),RBRMs會(huì)獎(jiǎng)勵(lì)模型。實(shí)驗(yàn)證明,相比于GPT-3.5,GPT-4的安全性又了顯著提升。
4. 報(bào)告總結(jié)
??報(bào)告給出了GPT-4的一些能力、風(fēng)險(xiǎn)實(shí)驗(yàn)結(jié)果,展示了GPT-4在多個(gè)NLP任務(wù)中優(yōu)于GPT3.5等現(xiàn)存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺點(diǎn)和安全隱患,如數(shù)據(jù)大部分為2021年之前的語料,OpenAI會(huì)致力于繼續(xù)提升GPT系列模型的能力。
5. 報(bào)告?zhèn)魉烷T
GPT-4 Technical Report文章來源:http://www.zghlxwxcb.cn/news/detail-480191.html
6. References
[1] 論文筆記–Evaluating Large Language Models Trained on Code
[2] 論文筆記–Training language models to follow instructions with human feedback文章來源地址http://www.zghlxwxcb.cn/news/detail-480191.html
到了這里,關(guān)于論文筆記--GPT-4 Technical Report的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!