国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)

這篇具有很好參考價(jià)值的文章主要介紹了【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ChatGPT真的“無(wú)敵”了嗎????

1.簡(jiǎn)介

我們邀請(qǐng)ChatGPT參加一項(xiàng)關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的本科計(jì)算機(jī)科學(xué)考試。我們把它的答案手抄到一張考卷上,然后在盲測(cè)的情況下,隨機(jī)選200名參與的學(xué)生。我們發(fā)現(xiàn)ChatGPT以20.5(滿分40分)的成績(jī)勉強(qiáng)通過(guò)了考試。這一令人印象深刻的表現(xiàn)表明,ChatGPT確實(shí)可以成功完成大學(xué)考試等具有挑戰(zhàn)性的任務(wù)。同時(shí),我們考試中的問(wèn)題在結(jié)構(gòu)上與其他考試相似,解決的家庭作業(yè)題,以及可以在網(wǎng)上找到的教學(xué)材料,這些材料可能是ChatGPT訓(xùn)練數(shù)據(jù)的一部分。因此,從這個(gè)實(shí)驗(yàn)中得出ChatGPT對(duì)計(jì)算機(jī)科學(xué)有任何理解的結(jié)論是不充分的。我們也評(píng)估了GPT-4帶來(lái)的改進(jìn)。我們發(fā)現(xiàn),GPT-4比GPT-3.5多獲得17%的考試分?jǐn)?shù),達(dá)到了普通學(xué)生的表現(xiàn)。

2.介紹

許多人已經(jīng)注意到ChatGPT1的功能OpenAI的一種新型聊天機(jī)器人模型令人印象深刻,該模型甚至可以成功完成大學(xué)考試等具有挑戰(zhàn)性的現(xiàn)實(shí)任務(wù)。事實(shí)上,已有證據(jù)表明這可能是事實(shí)。此外,對(duì)模型響應(yīng)的評(píng)估通常不是盲目的,這可能是有問(wèn)題的,因?yàn)楸娝苤狢hatGPT會(huì)產(chǎn)生需要解釋的奇怪答案。因此,盡管有很多關(guān)于這個(gè)話題的討論,到目前為止,關(guān)于ChatGPT在大學(xué)考試中的能力的系統(tǒng)證據(jù)很少。

3.ChatGPT(GPT-4對(duì)比GPT-3.5)參加計(jì)算機(jī)考試實(shí)驗(yàn)

我們提出了一個(gè)簡(jiǎn)單但嚴(yán)格的實(shí)驗(yàn)的結(jié)果,評(píng)估的能力。關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的本科生計(jì)算機(jī)科學(xué)考試。我們?cè)诔R?guī)大學(xué)考試的同時(shí)進(jìn)行了這個(gè)實(shí)驗(yàn),這使我們能夠在一個(gè)盲設(shè)置中與學(xué)生一起評(píng)估模型的反應(yīng)。我們以簡(jiǎn)單的標(biāo)準(zhǔn)化格式提出了不同的考試問(wèn)題,使ChatGPT能夠?qū)λ锌荚噯?wèn)題給出明確的答案。
【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)

表1:在我們的考試中,ChatGPT在10個(gè)不同的練習(xí)中獲得的分?jǐn)?shù),與參加我們考試的200名學(xué)生獲得的平均分?jǐn)?shù)進(jìn)行比較。

  • 第一行描述了ChatGPT使用GPT-3.5基本模型獲得的點(diǎn)。這是本文討論的主要實(shí)驗(yàn)的結(jié)果,其中模型反應(yīng)與學(xué)生反應(yīng)一起盲目評(píng)分。ChatGPT-3.5獲得了20.5分(滿分40分)。
  • 第二行描述了ChatGPT使用GPT-4基本模型獲得的點(diǎn)。在這里,模型響應(yīng)根據(jù)主實(shí)驗(yàn)中使用的相同評(píng)分方案進(jìn)行評(píng)分,但評(píng)分不是盲目的。我們估計(jì)ChatGPT-4將獲得約24分,達(dá)到平均學(xué)生的表現(xiàn)。
  • 第三行表示參加考試的200名學(xué)生獲得的平均分?jǐn)?shù)。

實(shí)驗(yàn)的結(jié)果是,ChatGPT將以20.5分(滿分40分)的成績(jī)僥幸通過(guò)考試。這令人印象深刻,但也突出了當(dāng)前模型版本的局限性。特別是,該模型的表現(xiàn)比參加考試的平均學(xué)生的表現(xiàn)更差(平均學(xué)生獲得約24分,比較表1)。就考試相對(duì)標(biāo)準(zhǔn)化而言,ChatGPT的混合表現(xiàn)是有趣的。類似的考試在世界各地都有,并且涵蓋了很多關(guān)于主題的信息。
我們也評(píng)估了GPT-4帶來(lái)的改進(jìn)。我們發(fā)現(xiàn),使用GPT-4基礎(chǔ)模型的ChatGPT在考試中比使用GPT-3.5基礎(chǔ)模型的ChatGPT多獲得17%的分?jǐn)?shù),達(dá)到了普通學(xué)生的成績(jī)。

4.實(shí)驗(yàn)設(shè)計(jì)

4.1實(shí)驗(yàn)介紹

我們考慮一個(gè)關(guān)于算法和數(shù)據(jù)結(jié)構(gòu)的入門(mén)課程的考試??荚噧?nèi)容包括排序算法、圖遍歷和動(dòng)態(tài)規(guī)劃??偟膩?lái)說(shuō),考試涵蓋的主題在世界各地都以類似的方式進(jìn)行教學(xué)。考試包含不同類型的問(wèn)題,包括多項(xiàng)選擇題、寫(xiě)小題、寫(xiě)偽代碼和畫(huà)圖。進(jìn)行這個(gè)實(shí)驗(yàn)的想法并沒(méi)有把考試中的練習(xí)偏向于ChatGPT的能力。

4.2 對(duì)ChatGPT提出問(wèn)題

【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)
我們?cè)谂c模型的19個(gè)不同的對(duì)話中提出了考試問(wèn)題,依賴于考試的latex源文件。我們告訴模型,我們正在問(wèn)計(jì)算機(jī)科學(xué)考試中關(guān)于算法的問(wèn)題,并要求它提供簡(jiǎn)短、準(zhǔn)確的答案,在整個(gè)過(guò)程中,我們并沒(méi)有試圖設(shè)計(jì)提示來(lái)引導(dǎo)模型走向更好或更差的答案,唯一的目標(biāo)是,該模型將為所有問(wèn)題提供明確的答案。
一些考試題目涉及數(shù)學(xué)、偽代碼或圖形。在本例中,我們簡(jiǎn)單地使用來(lái)自考試的latex源代碼提示模型,如下例所示:
【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)
例如,當(dāng)我們要求模型寫(xiě)一個(gè)小的證明時(shí),它會(huì)用乳膠方程來(lái)回應(yīng)。類似地,當(dāng)我們要求模型完成偽代碼時(shí),它以有效的方式完成了給定的偽代碼。
在與模型進(jìn)行對(duì)話之后,我們將答案手寫(xiě)在一張?jiān)嚲砩希谶@樣做的過(guò)程中,我們當(dāng)然將模型的所有乳膠輸出“渲染”到紙張上。

4.3測(cè)試結(jié)果

在本節(jié)中,我們將討論GPT-3.5的主要實(shí)驗(yàn)結(jié)果。所帶來(lái)的改善GPT-4將在下一節(jié)討論。主要結(jié)果是,ChatGPT獲得20.5分(滿分40分),通過(guò)了考試。由于要通過(guò)考試至少需要20分,ChatGPT僅以非常微弱的優(yōu)勢(shì)通過(guò)。
在考試的其他部分,ChatGPT給出了錯(cuò)誤的答案,有時(shí)甚至是奇怪的答案,(如下圖)特別是,該模型在涉及結(jié)構(gòu)化輸出(不是偽代碼)的所有練習(xí)中都遇到了困難。
【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)

5. GTP-4

在本節(jié)中,除了本文考慮的主要實(shí)驗(yàn)外,我們還評(píng)估了GPT-4帶來(lái)的改進(jìn)。GPT-4技術(shù)報(bào)告在許多不同的考試中比較了GPT-4和GPT-3.5,并報(bào)告了巨大的性能提升(OpenAI, 2023)。然而,由于報(bào)告中使用的數(shù)據(jù)集不可用,因此很難復(fù)制和評(píng)估這些結(jié)果。然而,有人指出,有證據(jù)可以對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試。
總的來(lái)說(shuō),ChatGPT-4獲得了24分(滿分40分)。這是3.5個(gè)百分點(diǎn),即17%ChatGPT與GPT-3.5基礎(chǔ)模型。有趣的是,這意味著ChatGPT-4在我們的考試中與普通學(xué)生的表現(xiàn)相當(dāng)。雖然改進(jìn)看起來(lái)很小,但實(shí)際上它確實(shí)意味著ChatGPT-4能夠回答一些更有挑戰(zhàn)性的多項(xiàng)選擇題,這些問(wèn)題是以前版本的模型難以回答的。

6. 討論

我們的實(shí)驗(yàn)結(jié)果與現(xiàn)有的研究一致,這些研究記錄了大型語(yǔ)言模型令人印象深刻的能力,以及它們嚴(yán)重的局限性。我們想強(qiáng)調(diào)的是,ChatGPT能夠通過(guò)我們的考試這一事實(shí)并不意味著它對(duì)計(jì)算機(jī)科學(xué)有任何理解,就像我們可能期望它能夠通過(guò)考試的人那樣。當(dāng)然可以合理地假設(shè)ChatGPT在培訓(xùn)過(guò)程中看到了許多與我們考試中相似的練習(xí)和解決方案。一般來(lái)說(shuō),為了了解像ChatGPT這樣的模型的能力和局限性,需要進(jìn)行更多的研究。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-410195.html

到了這里,關(guān)于【ChatGPT】參加計(jì)算機(jī)科學(xué)考試(GPT-4對(duì)比GPT-3.5)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 第一次參加計(jì)算機(jī)會(huì)議報(bào)告注意事項(xiàng)以及心得

    接下來(lái)的會(huì)議注意事項(xiàng)分為:(1)參會(huì)前,(2)參會(huì)中,(3)參會(huì)后 參會(huì)前,一般被邀請(qǐng)參加會(huì)議的有兩種情況,一種是中了paper的,另一種是投poster的。接下來(lái)主要是說(shuō)中了paper的情況,應(yīng)該準(zhǔn)備些什么。 準(zhǔn)備好演講的 PPT , 并預(yù)匯報(bào)至熟練脫稿. 特別是PPT的邏輯需要特別

    2024年02月13日
    瀏覽(23)
  • 機(jī)器學(xué)習(xí)周刊 第4期:動(dòng)手實(shí)戰(zhàn)人工智能、計(jì)算機(jī)科學(xué)熱門(mén)論文、免費(fèi)的基于ChatGPT API的安卓端語(yǔ)音助手、每日數(shù)學(xué)、檢索增強(qiáng) (RAG) 生成技術(shù)綜述

    機(jī)器學(xué)習(xí)周刊 第4期:動(dòng)手實(shí)戰(zhàn)人工智能、計(jì)算機(jī)科學(xué)熱門(mén)論文、免費(fèi)的基于ChatGPT API的安卓端語(yǔ)音助手、每日數(shù)學(xué)、檢索增強(qiáng) (RAG) 生成技術(shù)綜述

    機(jī)器學(xué)習(xí)周刊第4期聚焦了AI實(shí)戰(zhàn)教程、熱門(mén)計(jì)算機(jī)科學(xué)論文、基于ChatGPT的安卓端語(yǔ)音助手、數(shù)學(xué)定理分享以及前沿的檢索增強(qiáng)(RAG)生成技術(shù)綜述。

    2024年02月02日
    瀏覽(35)
  • 為什么很多計(jì)算機(jī)專業(yè)大學(xué)生畢業(yè)后還會(huì)參加培訓(xùn)?

    為什么很多計(jì)算機(jī)專業(yè)大學(xué)生畢業(yè)后還會(huì)參加培訓(xùn)?

    基于IT互聯(lián)網(wǎng)行業(yè)越來(lái)越卷的現(xiàn)狀,就算是科班出身,很多也是達(dá)不到用人單位的要求。面對(duì)這樣的現(xiàn)實(shí)情況,有的同學(xué)會(huì)選擇繼續(xù)深造,比如考個(gè)研,去年考研人數(shù)457萬(wàn)人次,可見(jiàn)越來(lái)越的同學(xué)是傾向考研提升學(xué)歷來(lái)達(dá)到提升競(jìng)爭(zhēng)力的目的。但也有部分選擇畢業(yè)后直接就業(yè)

    2024年01月16日
    瀏覽(29)
  • 計(jì)算機(jī)科學(xué)速成課

    建議看看 計(jì)算機(jī)科學(xué)速成課 ,一門(mén)很全面的計(jì)算機(jī)原理入門(mén)課程,短短10分鐘可以把大學(xué)老師十幾節(jié)課講的東西講清楚!整個(gè)系列一共41個(gè)視頻,B站上有中文字幕版。 每個(gè)視頻都是一個(gè)特定的主題,例如軟件工程、人工智能、操作系統(tǒng)等,主題之間都是緊密相連的,比國(guó)內(nèi)

    2024年02月05日
    瀏覽(21)
  • 數(shù)據(jù)結(jié)構(gòu)與算法:計(jì)算機(jī)科學(xué)的基石

    數(shù)據(jù)結(jié)構(gòu)與算法:計(jì)算機(jī)科學(xué)的基石

    ??歡迎來(lái)到數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)專欄~數(shù)據(jù)結(jié)構(gòu)與算法:計(jì)算機(jī)科學(xué)的基石 ☆* o(≧▽≦)o *☆嗨~我是IT·陳寒?? ?博客主頁(yè):IT·陳寒的博客 ??該系列文章專欄:數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí) ??其他專欄:Java學(xué)習(xí)路線 Java面試技巧 Java實(shí)戰(zhàn)項(xiàng)目 AIGC人工智能 ??文章作者技術(shù)和水平有限,如果文中

    2024年02月11日
    瀏覽(28)
  • 【人工智能課程】計(jì)算機(jī)科學(xué)博士作業(yè)一

    【人工智能課程】計(jì)算機(jī)科學(xué)博士作業(yè)一

    模型擬合:用深度神經(jīng)網(wǎng)絡(luò)擬合一個(gè)回歸模型。從各種角度對(duì)其改進(jìn),評(píng)價(jià)指標(biāo)為MSE。 掌握技巧: 熟悉并掌握深度學(xué)習(xí)模型訓(xùn)練的基本技巧。 提高PyTorch的使用熟練度。 掌握改進(jìn)深度學(xué)習(xí)的方法。 數(shù)據(jù)集下載: Kaggle下載數(shù)據(jù): https://www.kaggle.com/competitions/ml2022spring-hw1 百度云

    2024年01月23日
    瀏覽(41)
  • 浙大pta《計(jì)算機(jī)科學(xué)與基礎(chǔ)》經(jīng)典例題

    1.執(zhí)行語(yǔ)句print(100.5//5)的結(jié)果是20 注意答案:False 結(jié)果是20.0,//——整除,/——浮點(diǎn)數(shù)除法 2.高級(jí)語(yǔ)言程序要被機(jī)器執(zhí)行,只有用解釋器來(lái)解釋執(zhí)行 答案:False 3.下面程序輸入是 3 5 ,輸出是8 注意:Python輸入是默認(rèn)為字符串,所以此題輸出應(yīng)該為:‘3’‘5’; 答案:False 4

    2023年04月18日
    瀏覽(32)
  • 【人工智能課程】計(jì)算機(jī)科學(xué)博士作業(yè)三

    【人工智能課程】計(jì)算機(jī)科學(xué)博士作業(yè)三

    來(lái)源:李宏毅2022課程第10課的作業(yè) 圖片攻擊是指故意對(duì)數(shù)字圖像進(jìn)行修改,以使機(jī)器學(xué)習(xí)模型產(chǎn)生錯(cuò)誤的輸出或者產(chǎn)生預(yù)期之外的結(jié)果。這種攻擊是通過(guò)將微小的、通常對(duì)人類難以察覺(jué)的擾動(dòng)應(yīng)用于輸入圖像來(lái)實(shí)現(xiàn)的。圖片攻擊是對(duì)深度學(xué)習(xí)系統(tǒng)中的魯棒性和安全性的一種測(cè)

    2024年03月16日
    瀏覽(34)
  • 小白怎么系統(tǒng)的自學(xué)計(jì)算機(jī)科學(xué)和黑客技術(shù)?

    小白怎么系統(tǒng)的自學(xué)計(jì)算機(jī)科學(xué)和黑客技術(shù)?

    我把csdn上有關(guān)自學(xué)網(wǎng)絡(luò)安全、零基礎(chǔ)入門(mén)網(wǎng)絡(luò)安全的回答大致都瀏覽了一遍,最大的感受就是“太復(fù)雜”,新手看了之后只會(huì)更迷茫,還是不知道如何去做,所以站在新手的角度去寫(xiě)回答,應(yīng)該把回答寫(xiě)的簡(jiǎn)單易懂,“傻瓜式”的一步步告訴他們應(yīng)該怎么去做 在文章的后半

    2023年04月14日
    瀏覽(20)
  • 計(jì)算機(jī)軟件工程、計(jì)算機(jī)科學(xué)與技術(shù)、大數(shù)據(jù)專業(yè)開(kāi)題報(bào)告如何撰寫(xiě)?不懂的可以看下以下模板

    題目: 基于web的 在線音樂(lè)網(wǎng)站的設(shè)計(jì) 一、 立題意義及國(guó)內(nèi)外的研究現(xiàn)狀與存在問(wèn)題,主要研究?jī)?nèi)容及擬解決的關(guān)鍵性問(wèn)題 (含文獻(xiàn)綜述) 1、立題意義 因新冠疫情的影響,音樂(lè)網(wǎng)站的發(fā)展達(dá)到了一個(gè)新的高度,音樂(lè)網(wǎng)站的出現(xiàn)對(duì)于個(gè)人、社會(huì)、國(guó)家都是極為重要的,人們

    2024年02月15日
    瀏覽(32)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包