国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記--GPT-4 Technical Report

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記--GPT-4 Technical Report。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1. 報(bào)告簡(jiǎn)介

  • 標(biāo)題:GPT-4 Technical Report
  • 作者:OpenAI
  • 日期:2023
  • 期刊:arxiv preprint

2. 報(bào)告概括

??本文是OpenAI發(fā)布的GPT-4的技術(shù)報(bào)告,主要針對(duì)GPT-4的能力、局限和風(fēng)險(xiǎn)性等方面進(jìn)行測(cè)評(píng)。GPT-4是個(gè)多模態(tài)模型,支持文本和圖像格式的輸入。但OpenAI并沒有公布GPT-4實(shí)現(xiàn)的技術(shù)細(xì)節(jié),僅在一些場(chǎng)景給出了推理時(shí)的prompt,可供用戶參考。

3 報(bào)告重點(diǎn)內(nèi)容

3.1 Predictable Scaling

??首先,文章對(duì)GPT-4的整體損失進(jìn)行了分析。根據(jù)最近的研究成果,模型的損失和模型的計(jì)算量(compute)滿足冪律關(guān)系。為了判斷GPT-4是否滿足該關(guān)系,文章首先用和GPT-4相同的訓(xùn)練方法(未交代具體方法)訓(xùn)練參數(shù)/計(jì)算量更小的模型,得到一組compute VS loss的數(shù)據(jù)對(duì)(如下圖中的實(shí)心黑點(diǎn)),再用這些數(shù)據(jù)擬合一個(gè)冪律模型: L = a C b + c L=aC^b + c L=aCb+c(下圖中的虛線)??梢钥吹紾PT-4(綠色原點(diǎn))恰好在該冪律模型上,說明GPT-4的loss是可以被精準(zhǔn)預(yù)測(cè)的。
??PS:查了很多資料,才明白x軸的單位分別是

  • 1 p = 1 p i c o = 1 0 ? 12 1p=1pico = 10^{-12} 1p=1pico=10?12
  • 1 n = 1 n a n o = 1 0 ? 9 1n=1nano = 10^{-9} 1n=1nano=10?9
  • 1 μ = 1 m i c r o = 1 0 ? 6 1\mu=1micro = 10^{-6} 1μ=1micro=10?6
    所以下圖中的橫軸分別對(duì)應(yīng) 1 0 ? 10 , 1 0 ? 8 , 1 0 ? 6 , 1 0 ? 4 , 1 0 ? 2 , 1 10^{-10}, 10^{-8}, 10^{-6}, 10^{-4}, 10^{-2}, 1 10?10,10?8,10?6,10?4,10?2,1,分別表示參數(shù)量與GPT-4的參數(shù)量的比值(GPT-4所在點(diǎn) x = 1 x=1 x=1)。
    論文筆記--GPT-4 Technical Report
    ??接下來,文章采用類似的方法評(píng)估GPT-4在代碼生成任務(wù)上的loss擬合情況。文章選用Codex[1]論文中提出的編程問題數(shù)據(jù)集HumanEval,可以評(píng)估模型生成Python函數(shù)的能力。文章發(fā)現(xiàn)模型的平均通過率也可以通過下述方式你和冪律定理: ? E P [ log ? ( pass _ rate ( C ) ) ] = α ? C ? k -E_P[\log (\text{pass}\_\text{rate}(C))] = \alpha * C^{-k} ?EP?[log(pass_rate(C))]=α?C?k,其中 α > 0 , k > 0 \alpha>0, k>0 α>0,k>0是兩個(gè)常數(shù),即將上述的損失函數(shù)替換成了代碼的平均對(duì)數(shù)通過率。下圖展示了平均對(duì)數(shù)通過率 VS compute的擬合情況。論文筆記--GPT-4 Technical Report
    ??此外,文章在ISP提出的一些其它任務(wù)上進(jìn)行l(wèi)oss 擬合,和一些近期研究得到了一致的結(jié)論:GPT-4給出了相反的準(zhǔn)確率走勢(shì)。如下圖所示,在GPT-4之前的幾個(gè)模型隨著參數(shù)增加,準(zhǔn)確率反倒降低(Inverse Scaling),但最大的GPT-4模型的準(zhǔn)確率是最高的。
    論文筆記--GPT-4 Technical Report

3.2 Capabilities

??在評(píng)估GPT-4的能力之前,文章首先對(duì)各個(gè)待評(píng)估的數(shù)據(jù)集(eval set)分別進(jìn)行了重復(fù)校驗(yàn):對(duì)eval set中的每個(gè)樣例,我們隨機(jī)選擇它3個(gè)字符大小為50的子字符串,如果訓(xùn)練集中某條數(shù)據(jù)包含3條中任意1條,則認(rèn)為該數(shù)據(jù)和eval set是重復(fù)的。重復(fù)校驗(yàn)之后,文章會(huì)剔除訓(xùn)練集中和eval set重復(fù)的所有數(shù)據(jù)重新訓(xùn)練一個(gè)模型,記作GPT-4(no contam),用GPT-4和GPT-4(no contam)分別評(píng)估eval set。
??GPT-4是一個(gè)多模態(tài)模型,但我們的對(duì)比模型GPT-3.5僅接受文字輸入。為此OpenAI訓(xùn)練了兩個(gè)模型來進(jìn)行對(duì)比:GPT-4和GPT-4(no vision)。
??文章在多個(gè)領(lǐng)域測(cè)試了GPT-4的能力:

  1. 考試:文章考慮的考試包括兩種形式的問題,分別為多選題和自由回答題。針對(duì)多選題,模型采用few-shot learning,即提供幾個(gè)和考試格式相似的樣例和解釋作為測(cè)試用例的上下文輸入模型;針對(duì)自由作答提目,模型采用自由作答的prompt直接輸入模型,針對(duì)其中涉及到寫作質(zhì)量的考核問題,我們會(huì)隨機(jī)采樣一個(gè)高質(zhì)量的GRE文章放入prompt生成回答。首先,一系列數(shù)值實(shí)驗(yàn)表明,GPT-4和GPT-4(no contam)差異不大,即重復(fù)的數(shù)據(jù)集對(duì)結(jié)果表現(xiàn)影響不大;GPT-4和GPT-4(no vision)差異不大,即訓(xùn)練集中增加圖像對(duì)文本類結(jié)果表現(xiàn)影響不大。然后,OpenAI測(cè)試了GPT-4、GPT-3.5在UBE上考試的結(jié)果。如下圖,GPT-4的表現(xiàn)優(yōu)于GPT3.5。注意到每個(gè)bar的100%是以人類未通過的百分比計(jì)算的。比如在AP biology科目中,GPT-4得到了最高分(5/5),但該項(xiàng)圖中bar的頂點(diǎn)為85%,是因?yàn)槿祟愒u(píng)估結(jié)果中有15%的比例得到滿分??偨Y(jié)下來,GPT-4的考試能力顯著高于其它LLM,且在所有參加考試的人中得分Top10%。
    論文筆記--GPT-4 Technical Report
    ??為了證明GPT-4在其它語言上的能力,文章將MMLU benchmarks翻譯為多種語言。注意到這里文章使用了其它翻譯器(Azure Translation)進(jìn)行翻譯。文章對(duì)指令、問題和回答選項(xiàng)都進(jìn)行了翻譯,只保留英語的"Answers: "和"A), B), C), D)"選項(xiàng)的標(biāo)志,如下表所示。實(shí)驗(yàn)表明,GPT-4在幾乎所有測(cè)試語言上的考試能力都超過了GPT-3.5在英文上的表現(xiàn)。
    論文筆記--GPT-4 Technical Report
  2. 圖像輸入:GPT-4可同時(shí)輸入文本和圖像,最后返回文本格式。實(shí)驗(yàn)證明,GPT-4對(duì)包括截圖、照片、圖表等各種圖像輸入的理解能力都很不錯(cuò)。下圖是 一個(gè)GPT-4處理多模態(tài)數(shù)據(jù)的示例
    論文筆記--GPT-4 Technical Report

3.3 limitations

??類似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4顯著減少了hallucinations且提升了factuality[2]:
論文筆記--GPT-4 Technical Report
??GPT-4仍存在很多其它問題:如在TruthfulQA上模型對(duì)“找出正確的事實(shí)”仍會(huì)判斷錯(cuò)誤,但RLHF之后在該數(shù)據(jù)集上表現(xiàn)相比于GPT-3.5有顯著提升;GPT-4大部分?jǐn)?shù)據(jù)都是來自2021年9月之前,對(duì)此后的知識(shí)儲(chǔ)備薄弱;GPT-4可能會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤;GPT-4易被用戶的一些錯(cuò)誤陳述影響;GPT-4在一些復(fù)雜問題上解決能力有限…

3.3 Risks & mitigations

??類似InstructGPT[2],文章測(cè)試了GPT-4的潛在風(fēng)險(xiǎn)。為了提升模型的安全性,文章通過RLHF將GPT-4對(duì)齊人類意圖,并通過基于規(guī)則的獎(jiǎng)勵(lì)模型RBRMs(一系列zero-shot GPT-4分類器)對(duì)RLHF提供獎(jiǎng)勵(lì)機(jī)制。簡(jiǎn)單來說,當(dāng)模型不拒絕安全的請(qǐng)求時(shí),RBRMs會(huì)獎(jiǎng)勵(lì)模型;當(dāng)模型拒絕危險(xiǎn)的請(qǐng)求時(shí),RBRMs會(huì)獎(jiǎng)勵(lì)模型。實(shí)驗(yàn)證明,相比于GPT-3.5,GPT-4的安全性又了顯著提升。

4. 報(bào)告總結(jié)

??報(bào)告給出了GPT-4的一些能力、風(fēng)險(xiǎn)實(shí)驗(yàn)結(jié)果,展示了GPT-4在多個(gè)NLP任務(wù)中優(yōu)于GPT3.5等現(xiàn)存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺點(diǎn)和安全隱患,如數(shù)據(jù)大部分為2021年之前的語料,OpenAI會(huì)致力于繼續(xù)提升GPT系列模型的能力。

5. 報(bào)告?zhèn)魉烷T

GPT-4 Technical Report

6. References

[1] 論文筆記–Evaluating Large Language Models Trained on Code
[2] 論文筆記–Training language models to follow instructions with human feedback文章來源地址http://www.zghlxwxcb.cn/news/detail-480191.html

到了這里,關(guān)于論文筆記--GPT-4 Technical Report的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • GPT-3 論文閱讀筆記

    GPT-3 論文閱讀筆記

    GPT-3模型出自論文《Language Models are Few-Shot Learners》是OpenAI在2020年5月發(fā)布的。 論文摘要翻譯 :最近的工作表明,通過對(duì)大量文本進(jìn)行預(yù)訓(xùn)練,然后對(duì)特定任務(wù)進(jìn)行微調(diào)(fine-tuning),在許多NLP任務(wù)和基準(zhǔn)測(cè)試上取得了實(shí)質(zhì)性的進(jìn)展。雖然這種方法在架構(gòu)上通常與任務(wù)無關(guān),但它

    2024年02月12日
    瀏覽(29)
  • Cadence Allegro 導(dǎo)出Waived Design Rules Check Report報(bào)告詳解

    ???《上一篇》 ????《上級(jí)目錄》 ???《下一篇》

    2023年04月19日
    瀏覽(28)
  • Cadence Allegro 導(dǎo)出Unused Blind/Buired Via Report報(bào)告詳解

    ???《上一篇》 ????《上級(jí)目錄》 ???《下一篇》

    2023年04月10日
    瀏覽(18)
  • 在等GPT-5多模態(tài)?試試Genmo!Adobe AI首輪內(nèi)測(cè)報(bào)告;ChatGPT三條使用哲學(xué)與實(shí)踐;論文追更與閱讀神器 | ShowMeAI日?qǐng)?bào)

    在等GPT-5多模態(tài)?試試Genmo!Adobe AI首輪內(nèi)測(cè)報(bào)告;ChatGPT三條使用哲學(xué)與實(shí)踐;論文追更與閱讀神器 | ShowMeAI日?qǐng)?bào)

    ?? 日?qǐng)?bào)周刊合集 | ?? 生產(chǎn)力工具與行業(yè)應(yīng)用大全 | ?? 點(diǎn)贊關(guān)注評(píng)論拜托啦! 微軟正在嘗試在 New Bing 的聊天回復(fù)中投放廣告 。雖然廣告被明確標(biāo)識(shí)為 AD,但仍引發(fā)了討論和質(zhì)疑。 Bing 副總裁兼消費(fèi)者首席營(yíng)銷官 Yusuf Mehdi 在微軟官方博客中確認(rèn)了這一消息,并介紹了今后發(fā)

    2024年02月11日
    瀏覽(25)
  • midjourney指令筆記+踩坑日記+gpt論文潤(rùn)色指令

    midjourney指令筆記+踩坑日記+gpt論文潤(rùn)色指令

    跟人拼團(tuán)入手了midjourney,長(zhǎng)期記錄更新。 參考網(wǎng)址:prompttool 可以看到各種畫風(fēng) Pixar style character, delicate eyes, Cinematic lighting, marginal light, raytracing, soft colors, Disney style, IP Pop mart blind box, 3d, c4d, blander, OC rendering, chibi, dribblable, pintreset, epic detail, ultra-high definition, 8k 皮克斯

    2024年02月08日
    瀏覽(29)
  • [系統(tǒng)安全] 四十九.惡意軟件分析 (5)Cape沙箱分析結(jié)果Report報(bào)告的API序列批量提取詳解

    [系統(tǒng)安全] 四十九.惡意軟件分析 (5)Cape沙箱分析結(jié)果Report報(bào)告的API序列批量提取詳解

    終于忙完初稿,開心地寫一篇博客。 您可能之前看到過我寫的類似文章,為什么還要重復(fù)撰寫呢?只是想更好地幫助初學(xué)者了解病毒逆向分析和系統(tǒng)安全,更加成體系且不破壞之前的系列。因此,我重新開設(shè)了這個(gè)專欄,準(zhǔn)備系統(tǒng)整理和深入學(xué)習(xí)系統(tǒng)安全、逆向分析和惡意代

    2024年02月07日
    瀏覽(33)
  • [網(wǎng)絡(luò)安全提高篇] 一二一.惡意軟件動(dòng)態(tài)分析Cape沙箱Report報(bào)告的API序列批量提取詳解

    [網(wǎng)絡(luò)安全提高篇] 一二一.惡意軟件動(dòng)態(tài)分析Cape沙箱Report報(bào)告的API序列批量提取詳解

    終于忙完初稿,開心地寫一篇博客。 “網(wǎng)絡(luò)安全提高班”新的100篇文章即將開啟,包括Web滲透、內(nèi)網(wǎng)滲透、靶場(chǎng)搭建、CVE復(fù)現(xiàn)、攻擊溯源、實(shí)戰(zhàn)及CTF總結(jié),它將更加聚焦,更加深入,也是作者的慢慢成長(zhǎng)史。換專業(yè)確實(shí)挺難的,Web滲透也是塊硬骨頭,但我也試試,看看自己未

    2024年02月13日
    瀏覽(25)
  • 最近火出圈的GPT-4 技術(shù)Report出來了,快進(jìn)來看看逐文對(duì)照翻譯!

    最近火出圈的GPT-4 技術(shù)Report出來了,快進(jìn)來看看逐文對(duì)照翻譯!

    近期OpenAI發(fā)布的GPT-4的效果好得讓人驚艷!碾壓了之前火到出圈的ChatGPT,通過同步發(fā)布的GPT-4 Technical Report一同看看到底發(fā)生了什么! No.0 摘要 We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many

    2024年02月14日
    瀏覽(24)
  • [論文筆記] chatgpt DeepSpeed-chat 簡(jiǎn)介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub ?? DeepSpeed-Chat:簡(jiǎn)單,快速和負(fù)擔(dān)得起的RLHF訓(xùn)練的類chatgpt模型 ?? 一個(gè)快速、經(jīng)濟(jì)、可擴(kuò)展和開放的系統(tǒng)框架,用于實(shí)現(xiàn)端到端的強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練體驗(yàn),以在所有尺度上生成高質(zhì)量的類chat

    2024年02月02日
    瀏覽(18)
  • 【論文筆記】——從transformer、bert、GPT-1、2、3到ChatGPT

    【論文筆記】——從transformer、bert、GPT-1、2、3到ChatGPT

    18年有bert和gpt這兩個(gè)語言模型,分別源自transformer的編碼器和解碼器,都是無監(jiān)督方式訓(xùn)練的 GPT-1用的是無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào) GPT-2用的是純無監(jiān)督預(yù)訓(xùn)練。提升了網(wǎng)絡(luò)層數(shù)和訓(xùn)練數(shù)據(jù)量 GPT-3沿用了GPT-2的純無監(jiān)督預(yù)訓(xùn)練,但是數(shù)據(jù)大了好幾個(gè)量級(jí) InstructGPT在GPT-3上用來自人

    2024年02月09日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包