ChatGPT真的“無(wú)敵”了嗎????
1.簡(jiǎn)介
我們邀請(qǐng)ChatGPT參加一項(xiàng)關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的本科計(jì)算機(jī)科學(xué)考試。我們把它的答案手抄到一張考卷上,然后在盲測(cè)的情況下,隨機(jī)選200名參與的學(xué)生。我們發(fā)現(xiàn)ChatGPT以20.5(滿分40分)的成績(jī)勉強(qiáng)通過(guò)了考試。這一令人印象深刻的表現(xiàn)表明,ChatGPT確實(shí)可以成功完成大學(xué)考試等具有挑戰(zhàn)性的任務(wù)。同時(shí),我們考試中的問(wèn)題在結(jié)構(gòu)上與其他考試相似,解決的家庭作業(yè)題,以及可以在網(wǎng)上找到的教學(xué)材料,這些材料可能是ChatGPT訓(xùn)練數(shù)據(jù)的一部分。因此,從這個(gè)實(shí)驗(yàn)中得出ChatGPT對(duì)計(jì)算機(jī)科學(xué)有任何理解的結(jié)論是不充分的。我們也評(píng)估了GPT-4帶來(lái)的改進(jìn)。我們發(fā)現(xiàn),GPT-4比GPT-3.5多獲得17%的考試分?jǐn)?shù),達(dá)到了普通學(xué)生的表現(xiàn)。
2.介紹
許多人已經(jīng)注意到ChatGPT1的功能OpenAI的一種新型聊天機(jī)器人模型令人印象深刻,該模型甚至可以成功完成大學(xué)考試等具有挑戰(zhàn)性的現(xiàn)實(shí)任務(wù)。事實(shí)上,已有證據(jù)表明這可能是事實(shí)。此外,對(duì)模型響應(yīng)的評(píng)估通常不是盲目的,這可能是有問(wèn)題的,因?yàn)楸娝苤狢hatGPT會(huì)產(chǎn)生需要解釋的奇怪答案。因此,盡管有很多關(guān)于這個(gè)話題的討論,到目前為止,關(guān)于ChatGPT在大學(xué)考試中的能力的系統(tǒng)證據(jù)很少。
3.ChatGPT(GPT-4對(duì)比GPT-3.5)參加計(jì)算機(jī)考試實(shí)驗(yàn)
我們提出了一個(gè)簡(jiǎn)單但嚴(yán)格的實(shí)驗(yàn)的結(jié)果,評(píng)估的能力。關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的本科生計(jì)算機(jī)科學(xué)考試。我們?cè)诔R?guī)大學(xué)考試的同時(shí)進(jìn)行了這個(gè)實(shí)驗(yàn),這使我們能夠在一個(gè)盲設(shè)置中與學(xué)生一起評(píng)估模型的反應(yīng)。我們以簡(jiǎn)單的標(biāo)準(zhǔn)化格式提出了不同的考試問(wèn)題,使ChatGPT能夠?qū)λ锌荚噯?wèn)題給出明確的答案。
表1:在我們的考試中,ChatGPT在10個(gè)不同的練習(xí)中獲得的分?jǐn)?shù),與參加我們考試的200名學(xué)生獲得的平均分?jǐn)?shù)進(jìn)行比較。
- 第一行描述了ChatGPT使用GPT-3.5基本模型獲得的點(diǎn)。這是本文討論的主要實(shí)驗(yàn)的結(jié)果,其中模型反應(yīng)與學(xué)生反應(yīng)一起盲目評(píng)分。ChatGPT-3.5獲得了20.5分(滿分40分)。
- 第二行描述了ChatGPT使用GPT-4基本模型獲得的點(diǎn)。在這里,模型響應(yīng)根據(jù)主實(shí)驗(yàn)中使用的相同評(píng)分方案進(jìn)行評(píng)分,但評(píng)分不是盲目的。我們估計(jì)ChatGPT-4將獲得約24分,達(dá)到平均學(xué)生的表現(xiàn)。
- 第三行表示參加考試的200名學(xué)生獲得的平均分?jǐn)?shù)。
實(shí)驗(yàn)的結(jié)果是,ChatGPT將以20.5分(滿分40分)的成績(jī)僥幸通過(guò)考試。這令人印象深刻,但也突出了當(dāng)前模型版本的局限性。特別是,該模型的表現(xiàn)比參加考試的平均學(xué)生的表現(xiàn)更差(平均學(xué)生獲得約24分,比較表1)。就考試相對(duì)標(biāo)準(zhǔn)化而言,ChatGPT的混合表現(xiàn)是有趣的。類似的考試在世界各地都有,并且涵蓋了很多關(guān)于主題的信息。
我們也評(píng)估了GPT-4帶來(lái)的改進(jìn)。我們發(fā)現(xiàn),使用GPT-4基礎(chǔ)模型的ChatGPT在考試中比使用GPT-3.5基礎(chǔ)模型的ChatGPT多獲得17%的分?jǐn)?shù),達(dá)到了普通學(xué)生的成績(jī)。
4.實(shí)驗(yàn)設(shè)計(jì)
4.1實(shí)驗(yàn)介紹
我們考慮一個(gè)關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的入門(mén)課程的考試??荚噧?nèi)容包括排序算法、圖遍歷和動(dòng)態(tài)規(guī)劃??偟膩?lái)說(shuō),考試涵蓋的主題在世界各地都以類似的方式進(jìn)行教學(xué)。考試包含不同類型的問(wèn)題,包括多項(xiàng)選擇題、寫(xiě)小題、寫(xiě)偽代碼和畫(huà)圖。進(jìn)行這個(gè)實(shí)驗(yàn)的想法并沒(méi)有把考試中的練習(xí)偏向于ChatGPT的能力。
4.2 對(duì)ChatGPT提出問(wèn)題
我們?cè)谂c模型的19個(gè)不同的對(duì)話中提出了考試問(wèn)題,依賴于考試的latex源文件。我們告訴模型,我們正在問(wèn)計(jì)算機(jī)科學(xué)考試中關(guān)于算法的問(wèn)題,并要求它提供簡(jiǎn)短、準(zhǔn)確的答案,在整個(gè)過(guò)程中,我們并沒(méi)有試圖設(shè)計(jì)提示來(lái)引導(dǎo)模型走向更好或更差的答案,唯一的目標(biāo)是,該模型將為所有問(wèn)題提供明確的答案。
一些考試題目涉及數(shù)學(xué)、偽代碼或圖形。在本例中,我們簡(jiǎn)單地使用來(lái)自考試的latex源代碼提示模型,如下例所示:
例如,當(dāng)我們要求模型寫(xiě)一個(gè)小的證明時(shí),它會(huì)用乳膠方程來(lái)回應(yīng)。類似地,當(dāng)我們要求模型完成偽代碼時(shí),它以有效的方式完成了給定的偽代碼。
在與模型進(jìn)行對(duì)話之后,我們將答案手寫(xiě)在一張?jiān)嚲砩希谶@樣做的過(guò)程中,我們當(dāng)然將模型的所有乳膠輸出“渲染”到紙張上。
4.3測(cè)試結(jié)果
在本節(jié)中,我們將討論GPT-3.5的主要實(shí)驗(yàn)結(jié)果。所帶來(lái)的改善GPT-4將在下一節(jié)討論。主要結(jié)果是,ChatGPT獲得20.5分(滿分40分),通過(guò)了考試。由于要通過(guò)考試至少需要20分,ChatGPT僅以非常微弱的優(yōu)勢(shì)通過(guò)。
在考試的其他部分,ChatGPT給出了錯(cuò)誤的答案,有時(shí)甚至是奇怪的答案,(如下圖)特別是,該模型在涉及結(jié)構(gòu)化輸出(不是偽代碼)的所有練習(xí)中都遇到了困難。
5. GTP-4
在本節(jié)中,除了本文考慮的主要實(shí)驗(yàn)外,我們還評(píng)估了GPT-4帶來(lái)的改進(jìn)。GPT-4技術(shù)報(bào)告在許多不同的考試中比較了GPT-4和GPT-3.5,并報(bào)告了巨大的性能提升(OpenAI, 2023)。然而,由于報(bào)告中使用的數(shù)據(jù)集不可用,因此很難復(fù)制和評(píng)估這些結(jié)果。然而,有人指出,有證據(jù)可以對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試。
總的來(lái)說(shuō),ChatGPT-4獲得了24分(滿分40分)。這是3.5個(gè)百分點(diǎn),即17%ChatGPT與GPT-3.5基礎(chǔ)模型。有趣的是,這意味著ChatGPT-4在我們的考試中與普通學(xué)生的表現(xiàn)相當(dāng)。雖然改進(jìn)看起來(lái)很小,但實(shí)際上它確實(shí)意味著ChatGPT-4能夠回答一些更有挑戰(zhàn)性的多項(xiàng)選擇題,這些問(wèn)題是以前版本的模型難以回答的。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-410195.html
6. 討論
我們的實(shí)驗(yàn)結(jié)果與現(xiàn)有的研究一致,這些研究記錄了大型語(yǔ)言模型令人印象深刻的能力,以及它們嚴(yán)重的局限性。我們想強(qiáng)調(diào)的是,ChatGPT能夠通過(guò)我們的考試這一事實(shí)并不意味著它對(duì)計(jì)算機(jī)科學(xué)有任何理解,就像我們可能期望它能夠通過(guò)考試的人那樣。當(dāng)然可以合理地假設(shè)ChatGPT在培訓(xùn)過(guò)程中看到了許多與我們考試中相似的練習(xí)和解決方案。一般來(lái)說(shuō),為了了解像ChatGPT這樣的模型的能力和局限性,需要進(jìn)行更多的研究。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-410195.html
到了這里,關(guān)于【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!