這是LLM相關(guān)的系列文章,針對(duì)《A Survey on Evaluation of Large Language Models》的翻譯。
摘要
大型語(yǔ)言模型(LLM)由于其在各種應(yīng)用中前所未有的性能,在學(xué)術(shù)界和工業(yè)界都越來(lái)越受歡迎。隨著LLM在研究和日常使用中繼續(xù)發(fā)揮重要作用,其評(píng)估變得越來(lái)越重要,不僅在任務(wù)層面,而且在社會(huì)層面,以更好地了解其潛在風(fēng)險(xiǎn)。在過(guò)去的幾年里,我們做出了重大努力,從不同的角度來(lái)調(diào)研LLM。本文對(duì)LLM的這些評(píng)估方法進(jìn)行了全面的回顧,重點(diǎn)關(guān)注三個(gè)關(guān)鍵維度:評(píng)估什么、在哪里評(píng)估以及如何評(píng)估。首先,我們從評(píng)估任務(wù)的角度進(jìn)行了概述,包括一般的自然語(yǔ)言處理任務(wù)、推理、醫(yī)學(xué)使用、倫理、教育、自然科學(xué)和社會(huì)科學(xué)、代理應(yīng)用和其他領(lǐng)域。其次,我們通過(guò)深入研究評(píng)估方法和基準(zhǔn)來(lái)回答“在哪里”和“如何”的問(wèn)題,這些方法和基準(zhǔn)是評(píng)估LLM績(jī)效的關(guān)鍵組成部分。然后,我們總結(jié)了LLM在不同任務(wù)中的成功和失敗案例。最后,我們闡明了LLM評(píng)估未來(lái)面臨的幾個(gè)挑戰(zhàn)。我們的目標(biāo)是為L(zhǎng)LM評(píng)估領(lǐng)域的研究人員提供寶貴的見解,從而幫助開發(fā)更熟練的LLM。我們的重點(diǎn)是,評(píng)估應(yīng)被視為一門基本學(xué)科,以更好地幫助LLM的發(fā)展。我們將一致地相關(guān)開源材料保存在:https://github.com/MLGroupJLU/LLM-eval-survey.
1 引言
理解智能的本質(zhì)并確定機(jī)器是否體現(xiàn)了它,這對(duì)科學(xué)家來(lái)說(shuō)是一個(gè)令人信服的問(wèn)題。人們普遍認(rèn)為,真實(shí)的智力使我們具備推理能力,使我們能夠檢驗(yàn)假設(shè),并為未來(lái)的可能發(fā)生做好準(zhǔn)備。特別是,人工智能(AI)研究人員專注于基于機(jī)器的智能的發(fā)展,而不是基于生物的智能。正確的測(cè)量有助于理解智力。例如,衡量人類個(gè)體的一般智力通常包括智商測(cè)試。
在人工智能的范圍內(nèi),圖靈測(cè)試是一種被廣泛認(rèn)可的測(cè)試,通過(guò)辨別反應(yīng)是來(lái)自人類還是機(jī)器來(lái)評(píng)估智能,一直是人工智能進(jìn)化的長(zhǎng)期目標(biāo)。研究人員普遍認(rèn)為,一臺(tái)成功通過(guò)圖靈測(cè)試的計(jì)算機(jī)可以被視為智能機(jī)器。因此,從更寬的角度來(lái)看,人工智能的編年史可以被描述為智能模型和算法的創(chuàng)建和評(píng)估的時(shí)間線。隨著每一種新的人工智能模型或算法的出現(xiàn),研究人員總是通過(guò)使用特定且具有挑戰(zhàn)性的任務(wù)進(jìn)行評(píng)估,來(lái)仔細(xì)檢查其在現(xiàn)實(shí)世界場(chǎng)景中的能力。例如,感知器算法,在20世紀(jì)50年代被吹捧為一種人工通用智能(AGI)方法,后來(lái)由于無(wú)法解決XOR問(wèn)題而被發(fā)現(xiàn)是不充分的。隨后,支持向量機(jī)(SVM)和深度學(xué)習(xí)的興起和應(yīng)用標(biāo)志著人工智能領(lǐng)域的進(jìn)步和挫折。從以前的嘗試中得出的一個(gè)重要結(jié)論是人工智能評(píng)估的至關(guān)重要性,它是識(shí)別當(dāng)前系統(tǒng)局限性并為更強(qiáng)大的模型設(shè)計(jì)提供信息的關(guān)鍵工具。
最近,大型語(yǔ)言模型(LLM)在學(xué)術(shù)和工業(yè)領(lǐng)域都引起了極大的興趣。正如現(xiàn)有工作所證明的那樣,LLM的出色性能為它們?cè)谶@個(gè)時(shí)代成為AGI帶來(lái)了希望。LLM具有解決各種任務(wù)的能力,與之前僅限于解決特定任務(wù)的模型形成對(duì)比。由于LLM在處理不同應(yīng)用程序(如一般自然語(yǔ)言任務(wù)和特定領(lǐng)域任務(wù))方面的出色性能,它越來(lái)越多地被有關(guān)鍵信息需求的個(gè)人(如學(xué)生或患者)使用。
由于以下幾個(gè)原因,評(píng)估對(duì)于LLM的成功至關(guān)重要。首先,評(píng)估LLM有助于我們更好地了解LLM的優(yōu)勢(shì)和劣勢(shì)。例如,PromptBench基準(zhǔn)測(cè)試表明,當(dāng)前的LLM對(duì)對(duì)抗性提示很敏感,因此需要仔細(xì)的提示工程才能獲得更好的性能。其次,更好的評(píng)估可以為人類LLM交互提供更好的指導(dǎo),這可以啟發(fā)未來(lái)的交互設(shè)計(jì)和實(shí)現(xiàn)。第三,LLM的廣泛適用性強(qiáng)調(diào)了確保其安全性和可靠性的至關(guān)重要性,特別是在金融機(jī)構(gòu)和醫(yī)療機(jī)構(gòu)等安全敏感部門。最后,隨著LLM越來(lái)越大,具有更多的應(yīng)急能力,現(xiàn)有的評(píng)估協(xié)議可能不足以評(píng)估其能力和潛在風(fēng)險(xiǎn)。因此,我們旨在通過(guò)審查當(dāng)前的評(píng)估協(xié)議,喚起社區(qū)對(duì)LLM評(píng)估重要性的認(rèn)識(shí),最重要的是,為未來(lái)設(shè)計(jì)新LLM評(píng)估協(xié)議的研究提供線索。
隨著ChatGPT和GPT-4的引入,已經(jīng)進(jìn)行了許多研究工作,旨在從不同方面評(píng)估ChatGPT和其他LLM(圖2),包括一系列因素,如自然語(yǔ)言任務(wù)、推理、穩(wěn)健性、可信度、醫(yī)學(xué)應(yīng)用和倫理考慮。盡管作出了這些努力,但仍然缺乏一個(gè)涵蓋所有評(píng)價(jià)的全面概覽。此外,LLM的不斷發(fā)展也為評(píng)估提供了新的方面,從而挑戰(zhàn)了現(xiàn)有的評(píng)估協(xié)議,并加強(qiáng)了對(duì)全面、多方面評(píng)估技術(shù)的需求。雖然現(xiàn)有的研究,如聲稱GPT-4可以被視為AGI的火花,但由于其評(píng)估方法的啟發(fā)式性質(zhì),其他人對(duì)這一說(shuō)法提出了質(zhì)疑。
本文是對(duì)大型語(yǔ)言模型評(píng)價(jià)的第一次全面綜述。如圖1所示,我們從三個(gè)維度探索現(xiàn)有工作:1) 評(píng)估內(nèi)容,2)在哪里評(píng)估,以及3)如何評(píng)估。具體而言,“評(píng)估內(nèi)容”概括了LLM的現(xiàn)有評(píng)估任務(wù),“在哪里評(píng)估”涉及選擇適當(dāng)?shù)臄?shù)據(jù)集和基準(zhǔn)進(jìn)行評(píng)估,而“如何評(píng)估”涉及給定適當(dāng)任務(wù)和數(shù)據(jù)集的評(píng)估過(guò)程。這三個(gè)維度是LLM評(píng)估不可或缺的組成部分。我們隨后討論了LLM評(píng)估領(lǐng)域未來(lái)可能面臨的挑戰(zhàn)。
本文的貢獻(xiàn)如下:
- 1) 我們從三個(gè)方面全面概述了LLM評(píng)估:評(píng)估什么、在哪里評(píng)估以及如何評(píng)估。我們的分類是一般性的,涵蓋了LLM評(píng)估的整個(gè)生命周期。
- 2) 關(guān)于評(píng)估內(nèi)容,我們總結(jié)了各個(gè)領(lǐng)域的現(xiàn)有任務(wù),并就LLM的成功和失敗案例得出了有見地的結(jié)論(第6節(jié)),為未來(lái)的研究提供了經(jīng)驗(yàn)。
- 3) 至于在哪里進(jìn)行評(píng)估,我們總結(jié)了評(píng)估指標(biāo)、數(shù)據(jù)集和基準(zhǔn),以深入了解當(dāng)前的LLM評(píng)估。在如何評(píng)估方面,我們探索了當(dāng)前的協(xié)議,并總結(jié)了新的評(píng)估方法。
- 4) 我們進(jìn)一步討論了評(píng)估LLM的未來(lái)挑戰(zhàn)。我們開源并維護(hù)LLM評(píng)估的相關(guān)材料https://github.com/MLGroupJLU/LLM,以促進(jìn)合作社區(qū)進(jìn)行更好的評(píng)估。
本文組織如下。在第2節(jié)中,我們提供了LLM和人工智能模型評(píng)估的基本信息。然后,第3節(jié)從“評(píng)估什么”的角度回顧了現(xiàn)有的工作。之后,第4節(jié)是“評(píng)估的地方”部分,總結(jié)了現(xiàn)有的數(shù)據(jù)集和基準(zhǔn)測(cè)試。第5節(jié)討論了如何進(jìn)行評(píng)估。在第6節(jié)中,我們總結(jié)了本文的主要發(fā)現(xiàn)。我們?cè)诘?節(jié)和第8節(jié)討論了未來(lái)的重大挑戰(zhàn)。
2 背景
2.1 大語(yǔ)言模型
語(yǔ)言模型(LMs)是一種具有理解和生成人類語(yǔ)言能力的計(jì)算模型。LMs具有預(yù)測(cè)單詞序列的可能性或基于給定輸入生成新文本的轉(zhuǎn)換能力。N-gram模型是最常見的LM類型,基于前面的上下文來(lái)估計(jì)單詞概率。然而,LMs也面臨著挑戰(zhàn),例如稀有或看不見的單詞問(wèn)題、過(guò)擬合問(wèn)題以及捕捉復(fù)雜語(yǔ)言現(xiàn)象的困難。研究人員正在不斷改進(jìn)LM架構(gòu)和訓(xùn)練方法,以應(yīng)對(duì)這些挑戰(zhàn)。
大型語(yǔ)言模型(LLM)由于其在自然語(yǔ)言處理任務(wù)中的卓越能力,近年來(lái)受到了廣泛關(guān)注。許多LLM(如GPT-3、Instruct GPT和GPT-4)背后的核心模塊是Transformer中的自注意模塊,它是語(yǔ)言建模任務(wù)的基本構(gòu)建塊。Transformers以其高效處理順序數(shù)據(jù)的能力徹底改變了NLP領(lǐng)域,允許并行化并捕獲文本中的長(zhǎng)范圍依賴關(guān)系。LLM的一個(gè)關(guān)鍵特征是無(wú)文本學(xué)習(xí),其中模型被訓(xùn)練為基于給定的上下文或提示生成文本。這使LLM能夠生成更連貫和上下文相關(guān)的響應(yīng),使其適用于交互式和會(huì)話應(yīng)用程序。從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)是LLM的另一個(gè)關(guān)鍵方面。這項(xiàng)技術(shù)包括使用人為反應(yīng)作為獎(jiǎng)勵(lì)來(lái)微調(diào)模型,使模型能夠從錯(cuò)誤中吸取教訓(xùn),并隨著時(shí)間的推移提高性能。
在自回歸語(yǔ)言模型中,如GPT-3和PaLM,給定上下文序列
X
X
X,LM任務(wù)旨在預(yù)測(cè)下一個(gè)token
y
y
y。通過(guò)最大化上下文條件下給定token序列的概率來(lái)訓(xùn)練模型,即
P
(
y
∣
X
)
=
P
(
y
∣
x
1
,
x
2
,
?
?
,
x
t
?
1
)
P(y|X)=P(y|x_1,x_2,\cdots,x_{t-1})
P(y∣X)=P(y∣x1?,x2?,?,xt?1?),其中
x
1
,
x
2
,
?
?
,
x
t
?
1
x_1,x_2,\cdots,x_{t-1}
x1?,x2?,?,xt?1?是上下文序列中的標(biāo)記,
t
t
t是當(dāng)前位置。通過(guò)使用鏈?zhǔn)揭?guī)則,條件概率可以分解為每個(gè)位置的概率的乘積:
P
(
y
∣
X
)
=
∏
t
=
1
T
P
(
y
t
∣
x
1
,
x
2
,
?
?
,
x
t
?
1
)
,
P(y|X)=\prod^T_{t=1}P(y_t|x_1,x_2,\cdots,x_{t-1}),
P(y∣X)=t=1∏T?P(yt?∣x1?,x2?,?,xt?1?),
其中T是序列長(zhǎng)度。通過(guò)這種方式,模型以自回歸的方式預(yù)測(cè)每個(gè)位置的每個(gè)標(biāo)記,生成完整的文本序列。
與LLM交互的一種常見方法是提示工程,用戶設(shè)計(jì)并提供特定的提示文本,以指導(dǎo)LLM生成所需響應(yīng)或完成特定任務(wù)。這在現(xiàn)有的評(píng)價(jià)工作中被廣泛采用。人們還可以參與問(wèn)答互動(dòng),向模型提出問(wèn)題并獲得答案,或者參與對(duì)話互動(dòng),與LLM進(jìn)行自然語(yǔ)言對(duì)話??傊?,LLM憑借其Transformer架構(gòu)、上下文學(xué)習(xí)和RLHF功能,已經(jīng)徹底改變了NLP,并在各種應(yīng)用中具有前景。表1提供了傳統(tǒng)ML、深度學(xué)習(xí)和LLM的簡(jiǎn)要比較。
2.2 AI模型評(píng)估
人工智能模型評(píng)估是評(píng)估模型性能的重要步驟。有一些標(biāo)準(zhǔn)的模型評(píng)估協(xié)議,包括K-fold交叉驗(yàn)證、Holdout驗(yàn)證、Leave One Out交叉驗(yàn)證(LOOCV)、Bootstrap和Reduced Set。例如,k次交叉驗(yàn)證將數(shù)據(jù)集劃分為k個(gè)部分,其中一部分作為測(cè)試集,其余部分作為訓(xùn)練集,這可以減少訓(xùn)練數(shù)據(jù)的損失,并獲得相對(duì)更準(zhǔn)確的模型性能評(píng)估;Holdout驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,計(jì)算量較小,但可能存在更顯著的偏差;LOOCV是一種獨(dú)特的K折疊交叉驗(yàn)證方法,其中僅使用一個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試集;約簡(jiǎn)集用一個(gè)數(shù)據(jù)集訓(xùn)練模型,并用其余數(shù)據(jù)對(duì)其進(jìn)行測(cè)試,這在計(jì)算上很簡(jiǎn)單,但適用性有限。應(yīng)根據(jù)具體問(wèn)題和數(shù)據(jù)特征選擇適當(dāng)?shù)脑u(píng)估方法,以獲得更可靠的績(jī)效指標(biāo)。
圖3展示了包括LLM在內(nèi)的人工智能模型的評(píng)估過(guò)程。由于廣泛的訓(xùn)練規(guī)模,一些評(píng)估協(xié)議可能不適用于評(píng)估深度學(xué)習(xí)模型。因此,長(zhǎng)期以來(lái),對(duì)靜態(tài)驗(yàn)證集的評(píng)估一直是深度學(xué)習(xí)模型的標(biāo)準(zhǔn)選擇。例如,計(jì)算機(jī)視覺(jué)模型利用靜態(tài)測(cè)試集,如ImageNet和MS COCO進(jìn)行評(píng)估。LLM也使用GLUE或SuperGLUE作為常見的測(cè)試集。
隨著LLM越來(lái)越受歡迎,其可解釋性甚至更差,現(xiàn)有的評(píng)估協(xié)議可能不足以徹底評(píng)估LLM的真實(shí)能力。我們將在第5節(jié)介紹LLM的最新評(píng)估。
3 評(píng)估什么
我們應(yīng)該評(píng)估哪些任務(wù)來(lái)展示LLM的性能?在哪些任務(wù)上,我們可以宣稱LLM的優(yōu)勢(shì)和劣勢(shì)?在本節(jié)中,我們將現(xiàn)有任務(wù)分為以下類別:自然語(yǔ)言處理任務(wù)、倫理和偏見、醫(yī)學(xué)應(yīng)用、社會(huì)科學(xué)、自然科學(xué)和工程任務(wù)、代理應(yīng)用(使用LLM作為代理)和其他。
3.1 自然語(yǔ)言處理任務(wù)
開發(fā)語(yǔ)言模型,特別是大型語(yǔ)言模型的最初目標(biāo)是提高自然語(yǔ)言處理任務(wù)的性能,包括理解和生成。因此,大多數(shù)評(píng)價(jià)研究主要集中在自然語(yǔ)言任務(wù)上。表2總結(jié)了現(xiàn)有研究的評(píng)估方面,我們主要在下面強(qiáng)調(diào)了他們的結(jié)論。
3.1.1 自然語(yǔ)言理解
自然語(yǔ)言理解代表了一系列旨在更好地理解輸入序列的任務(wù)。我們從幾個(gè)方面總結(jié)了LLM評(píng)估的最新進(jìn)展。
情感分析是一項(xiàng)分析和解讀文本以確定情感傾向的任務(wù)。它通常是一個(gè)二元(正和負(fù))或三元(正、中性和負(fù))類分類問(wèn)題。評(píng)估情緒分析任務(wù)是一個(gè)流行的方向。梁等;曾等人表明,模型性能往往很高。ChatGPT的情緒分析預(yù)測(cè)性能優(yōu)于傳統(tǒng)的情緒分析方法,接近GPT3.5。在低資源學(xué)習(xí)環(huán)境中,LLM比小語(yǔ)言模型表現(xiàn)出顯著的優(yōu)勢(shì),但ChatGPT理解低資源語(yǔ)言的能力有限。總之,LLM在情緒分析任務(wù)中表現(xiàn)出了值得稱贊的表現(xiàn)。未來(lái)的工作應(yīng)該側(cè)重于提高他們用資源不足的語(yǔ)言理解情緒的能力。
文本分類和情感分析是相關(guān)的領(lǐng)域,文本分類不僅關(guān)注情感,還包括對(duì)所有文本和任務(wù)的處理。梁等人表明,GLM-130B是性能最好的模型,對(duì)雜項(xiàng)文本分類的總體準(zhǔn)確率為85.8%。Yang和Menczer發(fā)現(xiàn),ChatGPT可以為各種新聞媒體提供可信度評(píng)級(jí),這些評(píng)級(jí)與人類專家的評(píng)級(jí)具有適度相關(guān)性。此外,ChatGPT在二元分類場(chǎng)景中達(dá)到了可接受的準(zhǔn)確性(AUC=0.89)。Pena等人討論了公共事務(wù)文檔的主題分類問(wèn)題,并表明使用LLM主干與SVM分類器相結(jié)合是在公共事務(wù)領(lǐng)域進(jìn)行多標(biāo)簽主題分類任務(wù)的有用策略,準(zhǔn)確率超過(guò)85%??傮w而言,LLM在文本分類方面表現(xiàn)良好,甚至可以在非常規(guī)問(wèn)題設(shè)置中處理文本分類任務(wù)。
自然語(yǔ)言推理(NLI)的任務(wù)是確定給定的“假設(shè)”是否從“前提”邏輯上遵循。秦等人表明,ChatGPT在NLI任務(wù)方面優(yōu)于GPT-3.5。他們還發(fā)現(xiàn),ChatGPT在處理事實(shí)輸入方面表現(xiàn)出色,這可歸因于其RLHF訓(xùn)練過(guò)程有利于人類反饋。然而,Lee等人觀察到LLM在NLI范圍內(nèi)表現(xiàn)不佳,并且在代表人類分歧方面進(jìn)一步失敗,這表明LLM在該領(lǐng)域仍有很大的改進(jìn)空間。
語(yǔ)義理解是指對(duì)語(yǔ)言及其相關(guān)概念的含義或理解。它涉及到對(duì)單詞、短語(yǔ)、句子以及它們之間的關(guān)系的解釋和理解。語(yǔ)義處理超越了表面層面,側(cè)重于理解潛在的含義和意圖。陶等人全面評(píng)估了LLM的事件語(yǔ)義處理能力,包括對(duì)事件語(yǔ)義的理解、推理和預(yù)測(cè)。結(jié)果表明,LLM具有對(duì)單個(gè)事件的理解,但其感知事件之間語(yǔ)義相似性的能力受到限制。在推理任務(wù)中,LLM在因果關(guān)系和意向關(guān)系中表現(xiàn)出強(qiáng)大的推理能力,但在其他關(guān)系類型中的表現(xiàn)相對(duì)較弱。在預(yù)測(cè)任務(wù)中,LLM通過(guò)增加上下文信息來(lái)增強(qiáng)對(duì)未來(lái)事件的預(yù)測(cè)能力。Riccardi和Desai探討了LLM的語(yǔ)義熟練度,并表明這些模型在評(píng)估基本短語(yǔ)方面表現(xiàn)不佳。此外,GPT-3.5和Bard無(wú)法區(qū)分有意義的短語(yǔ)和無(wú)意義的短語(yǔ),始終將高度無(wú)意義的詞語(yǔ)歸類為有意義的。GPT-4表現(xiàn)出顯著的改進(jìn),但其性能仍明顯低于人類??傊琇LM在語(yǔ)義理解任務(wù)中的性能較差。未來(lái),我們可以從這方面入手,重點(diǎn)提高它在這個(gè)應(yīng)用程序上的性能。
在社會(huì)知識(shí)理解領(lǐng)域,Choi等人評(píng)估了模型在學(xué)習(xí)和識(shí)別社會(huì)知識(shí)概念方面的表現(xiàn),結(jié)果表明,盡管參數(shù)數(shù)量小得多,但BERT等監(jiān)督模型的微調(diào)比使用最先進(jìn)LLM的零樣本模型的性能好得多,如GPT、GPT-J-6B等。這表明監(jiān)督模型顯著優(yōu)于零樣本模型,并且在這種情況下,更多參數(shù)并不能保證更多的社會(huì)知識(shí)。
3.1.2 推理
從表2可以發(fā)現(xiàn),評(píng)估LLM的推理能力是一個(gè)流行的方向,越來(lái)越多的文章專注于探索其推理能力。對(duì)于智能人工智能模型來(lái)說(shuō),推理任務(wù)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。它要求模型不僅要理解給定的信息,還要在沒(méi)有直接答案的情況下,從現(xiàn)有的上下文中推理和推斷。目前,對(duì)推理任務(wù)的評(píng)價(jià)大致可以分為數(shù)學(xué)推理、常識(shí)推理、邏輯推理、專業(yè)領(lǐng)域推理等。
ChatGPT在大多數(shù)算術(shù)推理任務(wù)上優(yōu)于GPT-3.5,表明ChatGPT具有較強(qiáng)的算術(shù)推理能力,但ChatGPT仍缺乏數(shù)學(xué)推理能力。在符號(hào)推理任務(wù)中,ChatGPT大多比GPT-3.5差,這可能是因?yàn)镃hatGPT容易產(chǎn)生不確定的響應(yīng),導(dǎo)致性能差。在邏輯推理方面,劉等人指出,ChatGPT和GPT-4在大多數(shù)邏輯推理基準(zhǔn)上都優(yōu)于傳統(tǒng)的微調(diào)方法,證明了它們?cè)谶壿嬐评碇械膬?yōu)越性。然而,這兩種模型在處理新數(shù)據(jù)和分布外數(shù)據(jù)時(shí)都面臨挑戰(zhàn)。ChatGPT的性能不如其他LLM,包括GPT3.5和BARD。這是因?yàn)镃hatGPT是專門為聊天而設(shè)計(jì)的,所以它在保持理性方面做得很好。FLANT5、LLaMA、GPT-3.5和PaLM在一般演繹推理任務(wù)中表現(xiàn)良好。GPT-3.5不善于在歸納環(huán)境中保持面向推理。對(duì)于多步驟推理,F(xiàn)u等人表明,PaLM和Claude2是僅有的兩個(gè)實(shí)現(xiàn)了與GPT模型族類似性能(但仍比GPT模型家族差)的模型族。此外,LLaMA-65B是迄今為止最強(qiáng)大的開源LLM,其性能與代碼-davinci-002非常接近。一些論文分別評(píng)估了ChatGPT在一些推理任務(wù)上的性能:ChatGPT通常在常識(shí)推理任務(wù)上表現(xiàn)不佳,但相對(duì)優(yōu)于非文本語(yǔ)義推理。同時(shí),ChatGPT也缺乏空間推理能力,但表現(xiàn)出更好的時(shí)間推理能力。最后,雖然ChatGPT在因果推理和類比推理方面的性能是可以接受的,但它在多跳推理能力方面表現(xiàn)不佳,這與其他LLM在復(fù)雜推理方面的弱點(diǎn)相似。在專業(yè)領(lǐng)域推理任務(wù)中,zeroshot InstructionGPT和Codex能夠完成復(fù)雜的醫(yī)學(xué)推理任務(wù),但仍需進(jìn)一步改進(jìn)。在語(yǔ)言洞察力問(wèn)題方面,證明了ChatGPT解決語(yǔ)言洞察力問(wèn)題的潛力,因?yàn)镃hatGPT的表現(xiàn)與人類參與者相當(dāng)。需要注意的是,上述結(jié)論大多是針對(duì)特定數(shù)據(jù)集得出的??傮w而言,LLM在推理方面顯示出巨大的潛力,并呈現(xiàn)出持續(xù)改進(jìn)的趨勢(shì),但仍面臨許多挑戰(zhàn)和局限,需要更深入的研究和優(yōu)化。
3.1.3 自然語(yǔ)言生成
自然語(yǔ)言生成(NLG)評(píng)估LLM生成特定文本的能力,該文本由幾個(gè)任務(wù)組成,包括摘要、對(duì)話生成、機(jī)器翻譯、問(wèn)答和其他開放式生成應(yīng)用程序。
摘要是一項(xiàng)生成任務(wù),旨在學(xué)習(xí)給定句子的簡(jiǎn)明摘要。在這條評(píng)估線中,梁等人表明,TNLG v2(530B)在兩種情況下得分最高,OPT(175B)排名第二。令人失望的是,ChatGPT有時(shí)會(huì)生成比輸入文檔更長(zhǎng)的摘要。微調(diào)Bart仍優(yōu)于零樣本ChatGPT。具體而言,ChatGPT與text-davinci-002具有相似的零樣本性能,但性能不如GPT-3.5。在可控文本摘要中,Pu和Demberg表明,與人類摘要相比,ChatGPT摘要的提取性略強(qiáng)(即包含更多直接從源復(fù)制的內(nèi)容)。以上表明,LLM,尤其是ChatGPT,在總結(jié)任務(wù)方面表現(xiàn)一般,但總結(jié)和概括能力仍有待提高。
評(píng)估LLM在對(duì)話任務(wù)中的性能對(duì)于開發(fā)對(duì)話系統(tǒng)和改善人機(jī)交互至關(guān)重要。通過(guò)這樣的評(píng)估,可以提高模型的自然語(yǔ)言處理能力、上下文理解能力和生成能力,從而實(shí)現(xiàn)更智能、更自然的對(duì)話系統(tǒng)。與GPT-3.5相比,Claude和ChatGPT通常在所有維度上都實(shí)現(xiàn)了更好的性能。在比較Claude和ChatGPT模型時(shí),這兩個(gè)模型在不同的評(píng)估維度上都表現(xiàn)出了競(jìng)爭(zhēng)力,其中Claude在特定配置上略優(yōu)于ChatGPT。Bang等人測(cè)試了ChatGPT在各種對(duì)話設(shè)置中的響應(yīng)生成:1)基于知識(shí)的開放領(lǐng)域?qū)υ捄?)面向任務(wù)的對(duì)話。自動(dòng)評(píng)估結(jié)果顯示,與在基于知識(shí)的開放域?qū)υ挃?shù)據(jù)集上微調(diào)的GPT2相比,ChatGPT的性能相對(duì)較低。在面向任務(wù)的對(duì)話中,ChatGPT的性能是可以接受的,但當(dāng)出現(xiàn)以下問(wèn)題時(shí),它很容易出錯(cuò):長(zhǎng)期多回合依賴、基本推理失敗和外在幻覺(jué)。
雖然LLM沒(méi)有針對(duì)翻譯任務(wù)進(jìn)行明確的訓(xùn)練,但它確實(shí)可以顯示出強(qiáng)大的性能。王等人表明,與商業(yè)機(jī)器翻譯(MT)系統(tǒng)相比,ChatGPT和GPT-4在人類評(píng)估方面表現(xiàn)出了優(yōu)越的性能,并且在sacreBLEU方面優(yōu)于大多數(shù)文檔級(jí)NMT方法。在對(duì)比測(cè)試中,將ChatGPT與傳統(tǒng)翻譯模型進(jìn)行比較時(shí),其準(zhǔn)確性較低。另一方面,GPT-4在解釋話語(yǔ)知識(shí)方面表現(xiàn)出強(qiáng)大的能力,盡管可能會(huì)選擇不正確的翻譯候選者。(Bang等人)中的結(jié)果表明,ChatGPT可以執(zhí)行
X
→
Eng
X\rightarrow \text{Eng}
X→Eng翻譯不錯(cuò),但仍缺乏能力執(zhí)行
Eng
→
X
\text{Eng}\rightarrow X
Eng→X翻譯。總之,盡管LLM在翻譯任務(wù)中表現(xiàn)令人滿意,但仍有改進(jìn)的空間。具體而言,應(yīng)優(yōu)先提高從英語(yǔ)到非英語(yǔ)的翻譯能力。
問(wèn)答是人機(jī)交互領(lǐng)域的關(guān)鍵技術(shù)之一,已廣泛應(yīng)用于搜索引擎、智能客服、智能問(wèn)答等應(yīng)用場(chǎng)景。測(cè)量QA模型的準(zhǔn)確性和效率將對(duì)這些應(yīng)用具有重要意義。梁等人表明,在所有評(píng)估的模型中,InstructionGPT davinci v2(175B)在9個(gè)問(wèn)答場(chǎng)景的準(zhǔn)確性、穩(wěn)健性和公平性方面表現(xiàn)最好。GPT-3.5和ChatGPT在回答一般知識(shí)問(wèn)題的任務(wù)上比GPT-3有了顯著的改進(jìn)。ChatGPT在大多數(shù)領(lǐng)域的表現(xiàn)優(yōu)于GPT3.5超過(guò)2%。然而,ChatGPT在CommonsenseQA和Social IQA方面略微落后于GPT3.5。這是因?yàn)镃hatGPT可能很謹(jǐn)慎,在沒(méi)有足夠信息的情況下拒絕給出答案。包括Vicuna和ChatGPT在內(nèi)的微調(diào)模型在得分方面表現(xiàn)出近乎完美的性能,遠(yuǎn)遠(yuǎn)優(yōu)于沒(méi)有監(jiān)督微調(diào)的模型??傮w而言,LLM在QA任務(wù)上表現(xiàn)完美,未來(lái)可以進(jìn)一步提高社交、事件和時(shí)間常識(shí)知識(shí)的表現(xiàn)。
還有其他生成任務(wù)。在句子風(fēng)格遷移領(lǐng)域,Pu和Demberg表明,ChatGPT通過(guò)在同一子集上訓(xùn)練進(jìn)行小樣本學(xué)習(xí),表現(xiàn)優(yōu)于先前的監(jiān)督SOTA模型,這從較高的BLEU分?jǐn)?shù)中可以明顯看出。在控制句子風(fēng)格的正式性方面,與人類行為相比,ChatGPT的表現(xiàn)仍然表現(xiàn)出顯著差異。在寫作任務(wù)中,Chia等人發(fā)現(xiàn)LLM在基于寫作的任務(wù)中表現(xiàn)一致,包括信息性、專業(yè)性、議論文和創(chuàng)造性寫作類別,顯示了他們的一般寫作能力。在文本生成質(zhì)量方面,Chen等人表明,在沒(méi)有參考文本的情況下,ChatGPT能夠從各種角度有效評(píng)估文本質(zhì)量,并且優(yōu)于大多數(shù)現(xiàn)有的自動(dòng)化指標(biāo)。在各種測(cè)試方法中,使用ChatGPT生成文本質(zhì)量的數(shù)字分?jǐn)?shù)被認(rèn)為是最可靠和有效的方法。
3.1.4 多語(yǔ)言任務(wù)
許多LLM是根據(jù)混合語(yǔ)言訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的。雖然英語(yǔ)是主要語(yǔ)言,但多語(yǔ)言數(shù)據(jù)的結(jié)合確實(shí)有助于LLM獲得用不同語(yǔ)言處理輸入和生成響應(yīng)的能力,使其在全球范圍內(nèi)被廣泛采用和接受。然而,鑒于這項(xiàng)技術(shù)的出現(xiàn)相對(duì)較晚,LLM主要根據(jù)英語(yǔ)數(shù)據(jù)進(jìn)行評(píng)估,而評(píng)估其多語(yǔ)言性能是一個(gè)不可忽視的重要方面。幾篇文章以不同的非英語(yǔ)語(yǔ)言對(duì)LLM在各種NLP任務(wù)中的表現(xiàn)進(jìn)行了全面、開放和獨(dú)立的評(píng)估,為未來(lái)的研究和應(yīng)用提供了適當(dāng)?shù)囊暯恰?br> Abdelali等人評(píng)估了ChatGPT在標(biāo)準(zhǔn)阿拉伯語(yǔ)NLP任務(wù)中的性能,發(fā)現(xiàn)在大多數(shù)任務(wù)的零樣本設(shè)置中,ChatGPT的性能低于SOTA。Bang等人;賴等人張等人在更多的數(shù)據(jù)集上使用了更多的語(yǔ)言,涵蓋了更多的任務(wù),并對(duì)LLM進(jìn)行了更全面的評(píng)估。結(jié)果顯示,LLM(包括BLOOM、Vicuna、Claude、ChatGPT和GPT-4)在非拉丁語(yǔ)言和低資源語(yǔ)言中的表現(xiàn)更差。盡管語(yǔ)言資源豐富,Bang等人強(qiáng)調(diào),ChatGPT在翻譯非拉丁文字語(yǔ)言的句子方面面臨限制。上述情況表明,LLM在多語(yǔ)言任務(wù)方面存在許多挑戰(zhàn)和充足的機(jī)會(huì)。未來(lái)的研究應(yīng)該關(guān)注多語(yǔ)言的平衡,努力解決非拉丁語(yǔ)言和低資源語(yǔ)言的問(wèn)題,以更好地支持世界各地的用戶。同時(shí),應(yīng)注意語(yǔ)言的公正性和中立性,以避免模型的英語(yǔ)偏見或其他偏見對(duì)多語(yǔ)言應(yīng)用程序的影響。
3.1.5 事實(shí)
LLM背景下的事實(shí)性是指模型提供的信息或答案與真實(shí)世界的真相和可驗(yàn)證的事實(shí)一致的程度。LLM中的事實(shí)性對(duì)各種任務(wù)和下游應(yīng)用程序產(chǎn)生了重大影響,如問(wèn)答系統(tǒng)、信息提取、文本摘要、對(duì)話系統(tǒng)和自動(dòng)事實(shí)核查,其中不正確或不一致的信息可能會(huì)導(dǎo)致嚴(yán)重的誤解。為了信任和有效地使用這些模型,評(píng)估真實(shí)性非常重要。這包括這些模型能夠與已知事實(shí)保持一致,避免產(chǎn)生誤導(dǎo)或虛假信息(稱為“事實(shí)幻覺(jué)”),并有效地學(xué)習(xí)和回憶事實(shí)知識(shí)。已經(jīng)提出了一系列方法來(lái)衡量和提高LLM的真實(shí)性。
王等人通過(guò)讓大型模型直接回答基于自然問(wèn)題和TriviaQA數(shù)據(jù)集的開放式問(wèn)題,評(píng)估大型模型的內(nèi)部知識(shí),特別是InstructionGPT、ChatGPT-3.5、ChatGPT-4和BingChat。評(píng)估是通過(guò)人為評(píng)估進(jìn)行的。論文發(fā)現(xiàn),雖然ChatGPT-4和BingChat可以正確回答80%以上的問(wèn)題,但要實(shí)現(xiàn)完全準(zhǔn)確,仍有15%以上的差距。Honovich等人回顧了現(xiàn)有的事實(shí)一致性評(píng)估方法,指出與二元標(biāo)簽相比,缺乏統(tǒng)一的比較,相關(guān)分?jǐn)?shù)的參考值有限。它們將現(xiàn)有的與事實(shí)一致性相關(guān)的任務(wù)轉(zhuǎn)換為二進(jìn)制標(biāo)簽,只考慮與輸入文本存在事實(shí)沖突的情況,而不考慮外部知識(shí)。研究發(fā)現(xiàn),基于自然語(yǔ)言推理(NLI)和問(wèn)題生成問(wèn)答(QG-QA)的事實(shí)評(píng)價(jià)方法表現(xiàn)最好,并且可以相互補(bǔ)充。Pezeshkpour提出了一種基于信息論的新度量標(biāo)準(zhǔn),用于衡量LLM中是否包含特定知識(shí)。它使用知識(shí)中的不確定性來(lái)衡量真實(shí)性,通過(guò)LLM填寫提示并檢查答案的概率分布來(lái)計(jì)算。討論了兩種注入知識(shí)的方法:顯式地通過(guò)在提示中包含知識(shí),隱式地通過(guò)微調(diào)知識(shí)片上的LLM。論文表明,該方法在準(zhǔn)確性上優(yōu)于傳統(tǒng)的排名方法指標(biāo)30%以上。Gekhman等人改進(jìn)了摘要任務(wù)的事實(shí)一致性評(píng)估方法。它建議在由多個(gè)模型生成并由LLM注釋的摘要上訓(xùn)練學(xué)生NLI模型,以實(shí)現(xiàn)事實(shí)一致性。然后,將這個(gè)經(jīng)過(guò)訓(xùn)練的學(xué)生模型用于總結(jié)事實(shí)一致性評(píng)估。Manakul等人對(duì)LLM如何產(chǎn)生事實(shí)或幻覺(jué)反應(yīng)的兩個(gè)假設(shè)進(jìn)行了操作。它建議使用三個(gè)公式(BERTScore、MQAG、n-gram)來(lái)評(píng)估事實(shí)性,并利用替代LLM來(lái)收集黑箱語(yǔ)言模型的token概率。研究發(fā)現(xiàn),僅僅計(jì)算句子的可能性或熵就有助于驗(yàn)證回答的真實(shí)性。Min等人將LLM生成的文本分解為單獨(dú)的“原子”事實(shí),然后對(duì)其正確性進(jìn)行評(píng)估。FActScore用于通過(guò)計(jì)算F1分?jǐn)?shù)來(lái)衡量估計(jì)器的性能。本文測(cè)試了各種估計(jì)量,并揭示了當(dāng)前的估計(jì)量離有效地解決這一任務(wù)還有一段路要走。林等人介紹了TruthfulQA數(shù)據(jù)集,該數(shù)據(jù)集旨在導(dǎo)致模型出錯(cuò)。幾個(gè)語(yǔ)言模型在提供事實(shí)答案方面進(jìn)行了測(cè)試。研究結(jié)果表明,簡(jiǎn)單地?cái)U(kuò)大模型規(guī)??赡懿粫?huì)提高其真實(shí)性,并為訓(xùn)練方法提供了建議。該數(shù)據(jù)集被廣泛用于評(píng)估LLM的真實(shí)性。
3.2 健壯、道德、偏見和可信度
LLM的評(píng)估包括穩(wěn)健性、道德、偏見和可信度等關(guān)鍵方面。這些因素在全面評(píng)估LLM績(jī)效方面變得越來(lái)越重要。
3.2.1 健壯性
魯棒性研究系統(tǒng)在面對(duì)意外輸入時(shí)的穩(wěn)定性。具體而言,分布外(OOD)和對(duì)抗性魯棒性是魯棒性的兩個(gè)熱門研究課題。王等人是一項(xiàng)早期工作,使用現(xiàn)有的基準(zhǔn),如AdvGLUE、ANLI和DDXPlus數(shù)據(jù)集,從對(duì)抗性和面向?qū)ο蟮慕嵌仍u(píng)估了ChatGPT和其他LLM。卓等人評(píng)估了語(yǔ)義解析的穩(wěn)健性。楊等人通過(guò)擴(kuò)展GLUE數(shù)據(jù)集來(lái)評(píng)估OOD的穩(wěn)健性。這項(xiàng)研究的結(jié)果強(qiáng)調(diào)了在操縱視覺(jué)輸入時(shí)對(duì)整個(gè)系統(tǒng)安全的潛在風(fēng)險(xiǎn)。對(duì)于視覺(jué)語(yǔ)言模型,趙等人評(píng)估了LLM對(duì)視覺(jué)輸入的影響,并將其轉(zhuǎn)移到其他視覺(jué)語(yǔ)言模型中,揭示了視覺(jué)輸入的脆弱性。李等人概述了語(yǔ)言模型的面向?qū)ο笤u(píng)價(jià):對(duì)抗性魯棒性、領(lǐng)域泛化和數(shù)據(jù)集偏差。作者比較并統(tǒng)一了三條研究路線,總結(jié)了每條路線的數(shù)據(jù)生成過(guò)程和評(píng)估協(xié)議,并強(qiáng)調(diào)了未來(lái)工作的挑戰(zhàn)和機(jī)遇。
關(guān)于對(duì)抗性魯棒性,朱等人通過(guò)提出一個(gè)名為PromptBench的統(tǒng)一基準(zhǔn)來(lái)評(píng)估LLM對(duì)提示的魯棒性。他們從多個(gè)層面(字符、單詞、句子和語(yǔ)義)綜合評(píng)估了對(duì)抗性文本攻擊。結(jié)果表明,當(dāng)代LLM容易受到對(duì)抗性提示的影響,這突出了模型在面對(duì)對(duì)抗性輸入時(shí)魯棒性的重要性。
3.2.2 道德和偏見
LLM被發(fā)現(xiàn)會(huì)內(nèi)化、傳播并潛在地放大爬取訓(xùn)練語(yǔ)料庫(kù)中存在的有害信息,通常是有毒語(yǔ)言,如攻擊性、仇恨言論和侮辱,以及社會(huì)偏見,如對(duì)具有特定人口身份(如性別、種族、宗教、職業(yè)和意識(shí)形態(tài))的人的刻板印象。最近,Zhuo等人使用傳統(tǒng)的測(cè)試集和指標(biāo)對(duì)ChatGPT的毒性和社會(huì)偏見進(jìn)行了系統(tǒng)評(píng)估,發(fā)現(xiàn)它在一定程度上仍然表現(xiàn)出有害內(nèi)容。更進(jìn)一步,Deshpande等人在模型中引入了角色扮演,并觀察到產(chǎn)生的毒性增加了6倍。此外,這種角色扮演也造成了對(duì)特定實(shí)體的偏見毒性。與簡(jiǎn)單地測(cè)量社會(huì)偏見不同,F(xiàn)errara調(diào)查了ChatGPT可能產(chǎn)生的這些偏見的來(lái)源、潛在機(jī)制和相應(yīng)的倫理后果。除了社會(huì)偏見之外,LLM還通過(guò)政治傾向和人格特征進(jìn)行了評(píng)估,基于政治指南針測(cè)試和MBTI測(cè)試等問(wèn)卷,證明了進(jìn)步觀點(diǎn)的傾向和ENFJ人格類型。此外,GPT-3等LLM被發(fā)現(xiàn)在道德基礎(chǔ)理論方面存在道德偏見;還觀察到ChatGPT對(duì)文化價(jià)值觀表現(xiàn)出一定的偏見。所有這些道德問(wèn)題都可能引發(fā)嚴(yán)重風(fēng)險(xiǎn),阻礙LLM的部署,并對(duì)社會(huì)產(chǎn)生深遠(yuǎn)的負(fù)面影響。
3.2.3 可信度
最后,一些工作側(cè)重于其他可信度。王等人進(jìn)行的研究發(fā)現(xiàn)了GPT模型中的可信度漏洞,揭示了其容易被誤導(dǎo),并產(chǎn)生有害的、有偏見的輸出,這些輸出可能會(huì)暴露私人信息。雖然GPT-4在標(biāo)準(zhǔn)化評(píng)估中通常比GPT-3.5表現(xiàn)出更高的可信度,但它也更容易受到攻擊。在Hagendorff和Fabi的另一項(xiàng)研究中,對(duì)認(rèn)知能力增強(qiáng)的LLM進(jìn)行了評(píng)估。研究人員發(fā)現(xiàn),這些模型可以避免人類常見的直覺(jué)和認(rèn)知錯(cuò)誤,表現(xiàn)出超理性的表現(xiàn)。通過(guò)認(rèn)知反射測(cè)試和語(yǔ)義錯(cuò)覺(jué)實(shí)驗(yàn),研究人員深入了解了LLM的心理方面。這種方法為評(píng)估模型偏見和道德問(wèn)題提供了新的視角,這些問(wèn)題以前可能沒(méi)有被發(fā)現(xiàn)。
3.3 社會(huì)科學(xué)
社會(huì)科學(xué)涉及對(duì)人類社會(huì)和個(gè)人行為的研究,包括經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、政治學(xué)、法學(xué)等學(xué)科。評(píng)估LLM在社會(huì)科學(xué)領(lǐng)域的表現(xiàn)對(duì)學(xué)術(shù)研究、政策制定和社會(huì)問(wèn)題解決具有重要意義。這種評(píng)價(jià)有助于提高社會(huì)科學(xué)模型的適用性和質(zhì)量,增進(jìn)對(duì)人類社會(huì)的了解,促進(jìn)社會(huì)進(jìn)步。
吳等人評(píng)估了LLM在解決社會(huì)科學(xué)中的縮放和測(cè)量問(wèn)題方面的潛在用途,發(fā)現(xiàn)LLM可以產(chǎn)生關(guān)于政治意識(shí)形態(tài)的有意義的反應(yīng),并顯著改進(jìn)社會(huì)科學(xué)中文本作為數(shù)據(jù)的方法。
在計(jì)算社會(huì)科學(xué)(CSS)任務(wù)中,Ziems等人對(duì)幾個(gè)CSS任務(wù)的LLM進(jìn)行了全面評(píng)估。在分類任務(wù)中,LLM在事件論點(diǎn)提取、人物比喻、隱含仇恨和移情分類方面表現(xiàn)出最低的絕對(duì)性能,準(zhǔn)確率低于40%。這些任務(wù)要么涉及復(fù)雜的結(jié)構(gòu)(事件自變量),要么涉及語(yǔ)義與LLM預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)到的語(yǔ)義不同的主觀專家分類法。相反,LLM在錯(cuò)誤信息、立場(chǎng)和情緒分類方面的絕對(duì)表現(xiàn)最高。當(dāng)涉及到生成任務(wù)時(shí),LLM通常會(huì)產(chǎn)生超過(guò)眾包工作者提供的黃金參考質(zhì)量的解釋??傊?,雖然LLM可以極大地增強(qiáng)傳統(tǒng)的CSS研究管道,但它們不能完全取代它。
一些文章還對(duì)法律任務(wù)方面的LLM進(jìn)行了評(píng)估。LLM在案件判決總結(jié)中的零樣本表現(xiàn)平庸。LLM有幾個(gè)問(wèn)題,包括不完整的句子和單詞,多個(gè)句子被毫無(wú)意義地合并,以及更嚴(yán)重的錯(cuò)誤,如信息不一致和產(chǎn)生幻覺(jué)。研究結(jié)果表明,LLM有必要進(jìn)一步改進(jìn),以便于法律專家對(duì)案件判決進(jìn)行總結(jié)。Nay等人指出,LLM,特別是與提示增強(qiáng)和正確的法律文本相結(jié)合時(shí),可以表現(xiàn)得更好,但還沒(méi)有達(dá)到稅務(wù)律師的專業(yè)水平。
總之,盡管這些模型在各種任務(wù)中表現(xiàn)出了出色的性能,但現(xiàn)有的模型主要是為單任務(wù)系統(tǒng)設(shè)計(jì)的,缺乏足夠的表達(dá)和交互能力,這在它們的能力與實(shí)際臨床需求之間造成了差距。盡管這些模型為交互式醫(yī)療系統(tǒng)帶來(lái)了希望,但它們?nèi)匀幻媾R著產(chǎn)生錯(cuò)誤輸出和幻覺(jué)等挑戰(zhàn),這使得它們目前不適合在現(xiàn)實(shí)世界場(chǎng)景中直接應(yīng)用。
3.4 自然科學(xué)與工程
評(píng)估LLM在自然科學(xué)和工程領(lǐng)域的性能有助于指導(dǎo)科學(xué)研究、技術(shù)開發(fā)和工程研究中的應(yīng)用和發(fā)展。
3.4.1 數(shù)學(xué)
對(duì)于基本的數(shù)學(xué)問(wèn)題,大多數(shù)大型語(yǔ)言模型(LLM)都表現(xiàn)出加減法的熟練程度,并具有一定的乘法能力。然而,當(dāng)涉及到除法、求冪、三角函數(shù)和對(duì)數(shù)函數(shù)時(shí),它們面臨著挑戰(zhàn)。另一方面,LLM在處理十進(jìn)制數(shù)、負(fù)數(shù)和無(wú)理數(shù)方面表現(xiàn)出能力。就性能而言,GPT-4和ChatGPT顯著優(yōu)于其他模型,顯示了它們?cè)诮鉀Q數(shù)學(xué)任務(wù)方面的優(yōu)勢(shì)。這兩個(gè)模型在處理大量(大于1e12)和復(fù)雜、冗長(zhǎng)的數(shù)學(xué)查詢時(shí)具有明顯的優(yōu)勢(shì)。GPT-4優(yōu)于ChatGPT,由于其卓越的除法和三角運(yùn)算能力、對(duì)無(wú)理數(shù)的正確理解以及對(duì)長(zhǎng)表達(dá)式的一致逐步計(jì)算,其精度顯著提高了10個(gè)百分點(diǎn),相對(duì)誤差減少了50%。當(dāng)面對(duì)復(fù)雜且具有挑戰(zhàn)性的數(shù)學(xué)問(wèn)題時(shí),LLM表現(xiàn)出較差的性能。具體而言,GPT3表現(xiàn)出幾乎隨機(jī)的性能,而GPT-3.5表現(xiàn)出改進(jìn),GPT-4表現(xiàn)最好。然而,即使在新模型上取得了進(jìn)步,最高性能仍低于40%。代數(shù)運(yùn)算和計(jì)算的具體任務(wù)繼續(xù)給GPT帶來(lái)挑戰(zhàn)。GPT-4在這些任務(wù)中性能低下的主要原因是代數(shù)操作中的錯(cuò)誤和檢索相關(guān)領(lǐng)域特定概念的困難。吳等人評(píng)估了GPT-4在高中競(jìng)賽難題上的使用,GPT-4對(duì)一半類別的準(zhǔn)確率達(dá)到60%。中間代數(shù)和前微積分只能以大約20%的低準(zhǔn)確率求解。ChatGPT不擅長(zhǎng)回答有關(guān)導(dǎo)數(shù)和應(yīng)用、Oxyz空間微積分和空間幾何等主題的問(wèn)題。表明,ChatGPT的表現(xiàn)隨著任務(wù)難度的增加而惡化:它在識(shí)別水平上正確回答了83%的問(wèn)題,在理解水平上正確答復(fù)了62%,在應(yīng)用水平上正確解答了27%,在最高認(rèn)知復(fù)雜度水平上僅正確回答了10%。鑒于這些問(wèn)題在更高的知識(shí)水平上往往更復(fù)雜,需要深入的理解和解決問(wèn)題的技能,這樣的結(jié)果是意料之中的。這些結(jié)果表明,LLM的能力很容易受到問(wèn)題復(fù)雜性的影響。它對(duì)設(shè)計(jì)用于處理此類具有挑戰(zhàn)性任務(wù)的優(yōu)化人工智能系統(tǒng)具有重要意義。
3.4.2 一般科學(xué)
LLMs在化學(xué)中的應(yīng)用仍處于初級(jí)階段。Castro Nascimento和Pimentel在化學(xué)的不同亞區(qū)提出了五項(xiàng)簡(jiǎn)單的任務(wù),以評(píng)估ChatGPT對(duì)化學(xué)的理解,準(zhǔn)確率從25%到100%不等。表明,LLM在物理問(wèn)題上的表現(xiàn)比化學(xué)問(wèn)題差,這可能是因?yàn)樵谶@種情況下,化學(xué)問(wèn)題的推理復(fù)雜度比物理問(wèn)題低。普通科學(xué)中對(duì)LLM的評(píng)價(jià)研究很少,現(xiàn)有的評(píng)價(jià)結(jié)果表明LLM在該領(lǐng)域的表現(xiàn)仍有待提高。
3.4.3 工程
在工程領(lǐng)域,任務(wù)從容易到困難可以安排為代碼生成、軟件工程和常識(shí)規(guī)劃。在代碼生成任務(wù)中,為任務(wù)訓(xùn)練的較小LLM在性能上具有競(jìng)爭(zhēng)力,并且CODEGEN-16B在性能上與使用較大參數(shù)設(shè)置的ChatGPT相當(dāng),達(dá)到約78%的匹配。在軟件工程任務(wù)中,ChatGPT通常表現(xiàn)可靠,其響應(yīng)詳細(xì),通常比人工專家輸出或SOTA輸出更好。然而,在其他一些任務(wù)的情況下,如代碼漏洞檢測(cè)和基于信息檢索的測(cè)試優(yōu)先級(jí),當(dāng)前形式的ChatGPT無(wú)法提供準(zhǔn)確的答案,因此不適合此類任務(wù)。在常識(shí)性的規(guī)劃任務(wù)中,LLM可能并不好,即使在人類擅長(zhǎng)的簡(jiǎn)單規(guī)劃任務(wù)中也是如此。Pallagani等人證明,微調(diào)的CodeT5模型在所有考慮的領(lǐng)域中表現(xiàn)最好,推理時(shí)間最少。此外,它還探討了LLM是否能夠進(jìn)行計(jì)劃概括,并發(fā)現(xiàn)概括能力似乎有限。事實(shí)證明,LLM可以處理簡(jiǎn)單的工程任務(wù),但在復(fù)雜的工程任務(wù)上表現(xiàn)不佳。
3.5 醫(yī)學(xué)應(yīng)用
LLM在醫(yī)學(xué)領(lǐng)域的應(yīng)用最近受到了極大的關(guān)注。在本節(jié)中,我們回顧了將LLM應(yīng)用于醫(yī)療應(yīng)用的現(xiàn)有努力。具體而言,我們將其分為四個(gè)方面,如表5所示:醫(yī)療質(zhì)量保證、醫(yī)療檢查、醫(yī)療評(píng)估和醫(yī)療教育。
3.5.1 醫(yī)學(xué)QA
表5顯示,在醫(yī)學(xué)應(yīng)用中,LLM的大多數(shù)評(píng)估都是在醫(yī)學(xué)問(wèn)答中進(jìn)行的。出現(xiàn)這種趨勢(shì)的原因可能是醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用以及對(duì)準(zhǔn)確可靠答案的需求。由于LLM強(qiáng)大的自然語(yǔ)言處理和推理能力,它們已被廣泛應(yīng)用于醫(yī)療QA系統(tǒng)中,以提供準(zhǔn)確及時(shí)的醫(yī)療信息。
已經(jīng)進(jìn)行了幾項(xiàng)研究來(lái)評(píng)估ChatGPT在醫(yī)學(xué)QA中的性能,證明了其在人類受訪者、減肥手術(shù)患者的QA。至于局限性,Thirunavukarasu等人評(píng)估了其在初級(jí)保健方面的表現(xiàn),發(fā)現(xiàn)ChatGPT在學(xué)生綜合評(píng)估中的平均分?jǐn)?shù)低于及格分?jǐn)?shù),這表明還有改進(jìn)的空間。Chervenak等人強(qiáng)調(diào),雖然ChatGPT可以在與受精相關(guān)的臨床提示中產(chǎn)生與現(xiàn)有來(lái)源類似的反應(yīng),但其在可靠引用來(lái)源方面的局限性和編造信息的潛力限制了其臨床實(shí)用性。
3.5.2 醫(yī)學(xué)檢驗(yàn)
Gilson等人;Kung等人;Sharma等人評(píng)估LLM在醫(yī)學(xué)考試評(píng)估中的表現(xiàn),旨在探索其在美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE)中的潛在應(yīng)用。
在中,ChatGPT在回答USMLE第1步和第2步考試問(wèn)題時(shí)的表現(xiàn)是使用新穎的多項(xiàng)選擇題集進(jìn)行評(píng)估的。結(jié)果表明,ChatGPT在不同的數(shù)據(jù)集上實(shí)現(xiàn)了不同的準(zhǔn)確性。然而,與NBME-Free-Step1和NBME-Free Step2數(shù)據(jù)集中的正確答案相比,發(fā)現(xiàn)文本外信息的存在較低。Kung等人表明,在沒(méi)有經(jīng)過(guò)專門訓(xùn)練的情況下,ChatGPT在這些考試中達(dá)到或接近了及格門檻。該模型表現(xiàn)出高度的一致性和洞察力,表明其有助于醫(yī)學(xué)教育和臨床決策的潛力。ChatGPT可以用作回答醫(yī)學(xué)問(wèn)題、提供解釋和支持決策過(guò)程的工具。這為醫(yī)學(xué)生和臨床醫(yī)生的教育和臨床實(shí)踐提供了額外的資源和支持。Sharma等人指出,與谷歌搜索結(jié)果相比,ChatGPT生成的答案更具上下文意識(shí),具有更好的演繹推理能力。
3.5.3 醫(yī)學(xué)教育
幾項(xiàng)研究評(píng)估了ChatGPT在醫(yī)學(xué)教育領(lǐng)域的表現(xiàn)和可行性。在Oh等人的研究中,ChatGPT,特別是GPT-3.5和GPT-4模型,根據(jù)其對(duì)外科臨床信息的理解及其對(duì)外科教育和訓(xùn)練的潛在影響進(jìn)行了評(píng)估。結(jié)果表明,GPT-3.5和GPT-4的總體準(zhǔn)確率分別為46.8%和76.4%,表明兩個(gè)模型之間存在顯著的性能差異。值得注意的是,GPT-4在不同的亞專業(yè)中始終表現(xiàn)良好,這表明它有能力理解復(fù)雜的臨床信息并加強(qiáng)外科教育和訓(xùn)練。Lyu等人的另一項(xiàng)研究探討了在臨床教育中使用ChatGPT的可行性,特別是將放射學(xué)報(bào)告翻譯成易于理解的語(yǔ)言。研究結(jié)果表明,ChatGPT有效地將放射學(xué)報(bào)告翻譯成可訪問(wèn)的語(yǔ)言,并提供一般建議。此外,與GPT-4相比,ChatGPT的質(zhì)量已經(jīng)顯示出改進(jìn)。這些發(fā)現(xiàn)表明,在臨床教育中采用大規(guī)模的語(yǔ)言模型是可行的,盡管需要進(jìn)一步努力來(lái)解決局限性并釋放其全部潛力。
3.5.4 醫(yī)學(xué)助手
評(píng)估LLM在醫(yī)療援助方向上的研究主要包括以下四個(gè)方面:(1)LLM在胃腸病領(lǐng)域的潛在應(yīng)用:Lahat等人評(píng)估了chatGPT在確定胃腸道疾病研究重點(diǎn)方面的潛力。通過(guò)與專家組對(duì)關(guān)鍵主題的評(píng)估進(jìn)行比較,chatGPT提出了相關(guān)且明確的研究問(wèn)題,但缺乏獨(dú)創(chuàng)性。(2) LLM在醫(yī)療保健領(lǐng)域的應(yīng)用和限制:Cascella等人強(qiáng)調(diào)了LLM在衛(wèi)生保健領(lǐng)域的潛在應(yīng)用和限制。它側(cè)重于ChatGPT在支持臨床實(shí)踐、科學(xué)生產(chǎn)、解決潛在濫用和公共衛(wèi)生主題推理方面的可行性。(3) LLM在癡呆診斷中的潛力:王等人探索了LLM(如GPT-4)在癡呆診斷方面超越傳統(tǒng)人工智能工具的潛力。結(jié)果表明,目前像GPT-4這樣的LLM在癡呆癥診斷方面確實(shí)優(yōu)于傳統(tǒng)的人工智能工具。(4) LLM在加速新冠肺炎文獻(xiàn)評(píng)估方面的潛力:Khan等人利用新冠肺炎開放研究數(shù)據(jù)集(CORD-19)生成兩個(gè)數(shù)據(jù)集:合成新冠肺炎和真實(shí)摘要。這些數(shù)據(jù)集用于訓(xùn)練名為covLLM的LLM模型,以加快對(duì)冠狀病毒文獻(xiàn)的評(píng)估。
3.6 代理應(yīng)用
LLM不是只關(guān)注一般的語(yǔ)言任務(wù),而是可以作為各種領(lǐng)域的強(qiáng)大工具來(lái)使用。為L(zhǎng)LM配備外部工具可以極大地?cái)U(kuò)展模型的功能。
Huang等人介紹了KOSMOS-1,它能夠理解一般模式,遵循指令,并基于上下文進(jìn)行學(xué)習(xí)。Karpas等人強(qiáng)調(diào),知道何時(shí)以及如何使用這些外部符號(hào)工具至關(guān)重要,而這些知識(shí)是由LLM的能力決定的,尤其是當(dāng)這些工具能夠可靠地發(fā)揮作用時(shí)。此外,另外兩項(xiàng)研究,TALM和Toolformer,也對(duì)LMs進(jìn)行了微調(diào),以學(xué)習(xí)外部工具API的使用。根據(jù)添加的API調(diào)用注釋是否可以提高模型輸出的質(zhì)量,對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)展。提出了HuggingGPT框架,該框架利用LLM連接機(jī)器學(xué)習(xí)社區(qū)內(nèi)的各種人工智能模型(如Hugging Face),旨在解決人工智能任務(wù)。
3.7 其他應(yīng)用
除了上述類別外,還對(duì)LLM在其他各個(gè)領(lǐng)域進(jìn)行了評(píng)估,包括教育、搜索和推薦、個(gè)性測(cè)試和特定應(yīng)用。
3.7.1 教育
LLM在教育領(lǐng)域的革命中顯示出了希望。它們有可能在幾個(gè)領(lǐng)域做出重大貢獻(xiàn),例如幫助學(xué)生提高寫作技能,促進(jìn)對(duì)復(fù)雜概念的更好理解,加快信息的傳遞,以及提供個(gè)性化反饋以提高學(xué)生的參與度。這些應(yīng)用程序旨在創(chuàng)造更高效和互動(dòng)的學(xué)習(xí)體驗(yàn),為學(xué)生提供更廣泛的教育機(jī)會(huì)。然而,為了充分利用LLM在教育中的潛力,需要進(jìn)行廣泛的研究和不斷完善。
(1) 教育助理:評(píng)估LLM的教育援助旨在調(diào)查和評(píng)估其對(duì)教育領(lǐng)域的潛在貢獻(xiàn)。這種評(píng)價(jià)可以從各種角度進(jìn)行。根據(jù)Dai等人的說(shuō)法,ChatGPT展示了產(chǎn)生詳細(xì)、流暢和連貫反饋的能力,超過(guò)了人類教師。它可以準(zhǔn)確評(píng)估學(xué)生的作業(yè),并提供任務(wù)完成情況的反饋,從而有助于學(xué)生技能的發(fā)展。然而,正如王和Demszky所提到的,ChatGPT的回應(yīng)可能缺乏新穎性或?qū)虒W(xué)改進(jìn)的深刻見解。此外,Hellas等人進(jìn)行的研究表明,LLM可以成功識(shí)別學(xué)生代碼中的至少一個(gè)實(shí)際問(wèn)題,盡管也觀察到誤判的情況??傊?,LLM的使用在解決程序邏輯問(wèn)題方面顯示出了希望,盡管在熟練掌握輸出格式方面仍然存在挑戰(zhàn)。值得注意的是,盡管這些模型可以提供有價(jià)值的見解,但它們?nèi)钥赡墚a(chǎn)生與學(xué)生所犯錯(cuò)誤類似的錯(cuò)誤。
(2) 學(xué)術(shù)考試:在教育測(cè)試領(lǐng)域,研究人員旨在評(píng)估LLM在教育評(píng)估中的應(yīng)用效果,包括自動(dòng)評(píng)分、問(wèn)題生成和學(xué)習(xí)指導(dǎo)。de Winter顯示,ChatGPT在1至10分的范圍內(nèi)獲得了7.18分的平均成績(jī),與所有參與學(xué)生的平均成績(jī)相當(dāng)。隨后,使用較新版本的ChatGPT(GPT-4)進(jìn)行評(píng)估,獲得8.33分。此外,該研究證明了使用通過(guò)“溫度”參數(shù)結(jié)合隨機(jī)性的自舉方法診斷錯(cuò)誤答案的有效性。張等人聲稱,GPT-3.5可以解決麻省理工學(xué)院數(shù)學(xué)和EECS考試,GPT-4可以獲得更好的成績(jī)。然而,這并不公平,因?yàn)樗麄儾恍⌒脑谔崾局休斎肓苏_的答案。
3.7.2 搜索與推薦
在搜索和推薦中對(duì)LLM的評(píng)估可以大致分為兩個(gè)領(lǐng)域:
首先,在信息檢索領(lǐng)域,Sun等人研究了生成排名算法(如ChatGPT和GPT-4)對(duì)信息檢索任務(wù)的有效性。實(shí)驗(yàn)結(jié)果表明,引導(dǎo)式ChatGPT和GPT-4在流行的基準(zhǔn)測(cè)試中表現(xiàn)出有競(jìng)爭(zhēng)力的性能,甚至優(yōu)于監(jiān)督方法。此外,與在BEIR數(shù)據(jù)集中的400K注釋MS MARCO數(shù)據(jù)上訓(xùn)練相比,在10K ChatGPT生成的數(shù)據(jù)上訓(xùn)練時(shí),將ChatGPT的排名功能提取到專門模型中顯示出優(yōu)越的性能。
其次,在推薦系統(tǒng)領(lǐng)域,LLM通過(guò)利用自然語(yǔ)言處理能力來(lái)理解用戶偏好、項(xiàng)目描述和上下文信息,發(fā)揮著至關(guān)重要的作用。將LLM納入推薦管道使系統(tǒng)能夠提供更準(zhǔn)確和個(gè)性化的推薦,從而增強(qiáng)用戶體驗(yàn)并提高整體推薦質(zhì)量。張等人強(qiáng)調(diào)了使用ChatGPT進(jìn)行推薦的潛在風(fēng)險(xiǎn),因?yàn)樗话l(fā)現(xiàn)會(huì)產(chǎn)生不公平的推薦。這突出了在使用LLM進(jìn)行推薦時(shí)評(píng)估公平性的重要性。此外,Xu等人進(jìn)行了一項(xiàng)隨機(jī)在線實(shí)驗(yàn),通過(guò)搜索引擎和聊天機(jī)器人工具測(cè)試用戶在信息檢索任務(wù)上的行為差異。參與者被分為兩組:一組使用類似于ChatGPT的工具,另一組使用相似于谷歌搜索的工具。結(jié)果表明,ChatGPT組在所有任務(wù)上花費(fèi)的時(shí)間較少,這兩組之間的差異并不顯著。
3.7.3 人格測(cè)試
人格測(cè)試旨在測(cè)量個(gè)體的人格特征和行為傾向,LLM作為強(qiáng)大的自然語(yǔ)言處理模型已被廣泛應(yīng)用于此類任務(wù)。進(jìn)行的研究調(diào)查了使用GPT3 Davinci-003作為聊天機(jī)器人的人格特征,并發(fā)現(xiàn)其答案的一致性存在差異,盡管表現(xiàn)出親社會(huì)特征。然而,聊天機(jī)器人的反應(yīng)是由有意識(shí)的自我反思還是算法過(guò)程驅(qū)動(dòng)的,仍存在不確定性。宋等人研究了人格在語(yǔ)言模型中的表現(xiàn),發(fā)現(xiàn)許多模型在自我評(píng)估測(cè)試中表現(xiàn)不可靠,并表現(xiàn)出固有的偏見。因此,有必要開發(fā)特定的機(jī)器個(gè)性測(cè)量工具來(lái)提高可靠性。這些研究為深入理解和改進(jìn)LLM在人格測(cè)試中的應(yīng)用提供了重要的參考和見解。Safdari等人提出了一種綜合方法,對(duì)廣泛使用的LLM生成的文本中表現(xiàn)出的人格特征進(jìn)行有效的心理測(cè)量測(cè)試。
Jentzsch和Kersting討論了將幽默融入LLM的挑戰(zhàn),特別是ChatGPT。雖然ChatGPT在NLP任務(wù)中表現(xiàn)出了令人印象深刻的能力,但它在產(chǎn)生幽默的反應(yīng)方面還不夠。文章強(qiáng)調(diào)了幽默在人類交流中的重要性,以及LLM在捕捉幽默的微妙之處和依賴上下文的本質(zhì)時(shí)所面臨的困難。它討論了當(dāng)前方法的局限性,并強(qiáng)調(diào)需要進(jìn)一步研究,以開發(fā)更復(fù)雜的模型,從而有效地理解和產(chǎn)生幽默。
3.7.4 特定應(yīng)用
此外,一些研究調(diào)查了大型語(yǔ)言模型(LLM)在不同任務(wù)中的應(yīng)用和評(píng)估,如游戲設(shè)計(jì)、模型性能評(píng)估和日志解析。這些研究為L(zhǎng)LM的潛力和局限性提供了有價(jià)值的見解,以及在特定情況下提高其性能和可靠性的策略??傊?,這些發(fā)現(xiàn)有助于我們理解在各種任務(wù)中使用大型語(yǔ)言模型的實(shí)際意義,突出其潛力和局限性,并為提高其整體性能和可靠性提供有價(jià)值的指導(dǎo)。
4 在哪里評(píng)估:數(shù)據(jù)集與基準(zhǔn)
LLM評(píng)估數(shù)據(jù)集用于測(cè)試和比較不同語(yǔ)言模型在各種任務(wù)上的性能,如第3節(jié)所述。這些數(shù)據(jù)集,如GLUE和SuperGLUE,旨在模擬真實(shí)世界的語(yǔ)言處理場(chǎng)景,涵蓋文本分類、機(jī)器翻譯、閱讀理解和對(duì)話生成等多種任務(wù)。本節(jié)將不討論語(yǔ)言模型的任何單個(gè)數(shù)據(jù)集,而是討論LLM的基準(zhǔn)測(cè)試。
隨著LLM基準(zhǔn)的不斷發(fā)展,我們?cè)诒?中列出了13個(gè)流行的基準(zhǔn)。每個(gè)基準(zhǔn)都側(cè)重于不同的方面和評(píng)估標(biāo)準(zhǔn),為各自的領(lǐng)域提供了寶貴的貢獻(xiàn)。為了更好地總結(jié),我們將這些基準(zhǔn)分為兩類:一般語(yǔ)言任務(wù)的基準(zhǔn)和特定下游任務(wù)的基準(zhǔn)。
4.1 一般任務(wù)基準(zhǔn)
LLM設(shè)計(jì)用于解決絕大多數(shù)任務(wù)。為此,現(xiàn)有的基準(zhǔn)往往會(huì)評(píng)估不同任務(wù)的性能。
HELM提供了對(duì)LLM的全面評(píng)估,而不是關(guān)注具體任務(wù)和評(píng)估指標(biāo)。它評(píng)估語(yǔ)言模型的各個(gè)方面,如語(yǔ)言理解、生成、連貫性、上下文敏感性、常識(shí)推理和特定領(lǐng)域知識(shí)。HELM旨在全面評(píng)估語(yǔ)言模型在不同任務(wù)和領(lǐng)域中的性能。然后,KoLA是一個(gè)面向知識(shí)的LLM評(píng)估基準(zhǔn),專門用于評(píng)估LLM的語(yǔ)言理解和推理能力。它強(qiáng)調(diào)對(duì)語(yǔ)義知識(shí)和推理的理解和利用。KoLA是研究人員評(píng)估LLM理解和推理深度的重要平臺(tái),從而推動(dòng)語(yǔ)言理解模型的進(jìn)步。為了在語(yǔ)言任務(wù)中進(jìn)行眾包評(píng)估,DynaBench旨在進(jìn)行動(dòng)態(tài)基準(zhǔn)測(cè)試。它探索了令人興奮的新研究方向,如循環(huán)內(nèi)集成的影響、分布變化的特征、探索注釋器效率、研究專家注釋器的影響,以及增強(qiáng)模型在交互環(huán)境中對(duì)抗性攻擊的魯棒性。此外,它有助于推進(jìn)動(dòng)態(tài)數(shù)據(jù)收集的研究,并在通用人機(jī)交互領(lǐng)域進(jìn)行跨任務(wù)分析。
AlpacaEval是一個(gè)自動(dòng)評(píng)估基準(zhǔn),其重點(diǎn)是評(píng)估LLM在各種自然語(yǔ)言處理任務(wù)中的性能。它提供了一系列度量、穩(wěn)健性度量和多樣性評(píng)估,以衡量LLM的能力。AlpacaEval為推進(jìn)LLM在不同領(lǐng)域的發(fā)展和促進(jìn)對(duì)其性能的更深入了解做出了重大貢獻(xiàn)。AGIEval專門設(shè)計(jì)用于評(píng)估基礎(chǔ)模型在以人為中心的標(biāo)準(zhǔn)化考試中的表現(xiàn)。Leaderboard提供了一個(gè)公共競(jìng)爭(zhēng)平臺(tái),用于比較和評(píng)估不同LLM模型在各種任務(wù)上的表現(xiàn),以此作為評(píng)估基準(zhǔn)。它鼓勵(lì)研究人員提交他們的模型,并在不同的任務(wù)上進(jìn)行競(jìng)爭(zhēng),推動(dòng)LLM研究領(lǐng)域的進(jìn)步和競(jìng)爭(zhēng)。
至于超出標(biāo)準(zhǔn)性能的任務(wù),有一些基準(zhǔn)是為OOD、對(duì)抗性魯棒性和微調(diào)而設(shè)計(jì)的。GLUE-X是一種新的嘗試,旨在創(chuàng)建一個(gè)統(tǒng)一的基準(zhǔn),旨在評(píng)估面向?qū)ο髨?chǎng)景中NLP模型的穩(wěn)健性。該基準(zhǔn)強(qiáng)調(diào)了NLP中穩(wěn)健性的重要性,并為測(cè)量和增強(qiáng)模型的穩(wěn)健性提供了見解。PromptBench專注于提示工程在微調(diào)LLM中的重要性。它提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估框架來(lái)比較不同的提示工程技術(shù),并評(píng)估它們對(duì)模型性能的影響。PromptBench有助于增強(qiáng)和優(yōu)化LLM的微調(diào)方法。為了進(jìn)行公開和公平的評(píng)估,PandaLM作為一種有區(qū)別的大規(guī)模語(yǔ)言模型,通過(guò)訓(xùn)練來(lái)區(qū)分多個(gè)高熟練度的LLM(語(yǔ)言模型)。與主要關(guān)注客觀正確性的傳統(tǒng)評(píng)估數(shù)據(jù)集不同,PandaLM考慮了重要的主觀因素,如相對(duì)簡(jiǎn)潔、清晰、遵守指示、全面性和正式性。
4.2 特定下游任務(wù)基準(zhǔn)
除了一般任務(wù)的基準(zhǔn)之外,還有專門為某些下游任務(wù)設(shè)計(jì)的基準(zhǔn)。
MultiMedQA是一個(gè)醫(yī)學(xué)QA基準(zhǔn),專注于醫(yī)學(xué)檢查、醫(yī)學(xué)研究和消費(fèi)者醫(yī)療保健問(wèn)題。它由七個(gè)與醫(yī)療QA相關(guān)的數(shù)據(jù)集組成,包括六個(gè)現(xiàn)有數(shù)據(jù)集和一個(gè)新數(shù)據(jù)集。該基準(zhǔn)的目標(biāo)是評(píng)估LLM在臨床知識(shí)和QA能力方面的表現(xiàn)。Big Bench介紹了來(lái)自132個(gè)機(jī)構(gòu)的450位作者貢獻(xiàn)的204項(xiàng)具有挑戰(zhàn)性的任務(wù)。這些任務(wù)涵蓋了語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見和軟件開發(fā)等各個(gè)領(lǐng)域。Big Bench的主要目標(biāo)是評(píng)估超出當(dāng)前語(yǔ)言模型能力的任務(wù)。
其他具體的基準(zhǔn)包括C-Eval,這是第一個(gè)旨在評(píng)估中國(guó)背景下基礎(chǔ)模型的高級(jí)知識(shí)和推理能力的綜合評(píng)估套件。M3Exam提供了一個(gè)獨(dú)特而全面的評(píng)估框架,該框架包含多種語(yǔ)言、模式和級(jí)別,以測(cè)試LLM在不同背景下的一般能力。SOCKET是一個(gè)NLP基準(zhǔn),專門用于評(píng)估LLM在學(xué)習(xí)和識(shí)別社會(huì)知識(shí)概念方面的表現(xiàn)。它包括多項(xiàng)任務(wù)和案例研究,以揭示LLM在社交能力方面的局限性。
除了現(xiàn)有的評(píng)估基準(zhǔn)外,在評(píng)估LLM工具的有效性方面還存在研究空白。為了解決這一差距,引入了API-Bank基準(zhǔn),作為第一個(gè)明確為工具增強(qiáng)型LLM設(shè)計(jì)的基準(zhǔn)。它包括一個(gè)全面的Tool-Augmented LLM工作流,包括53個(gè)常用的API工具和264個(gè)帶注釋的對(duì)話,共包含568個(gè)API調(diào)用。此外,ToolBench項(xiàng)目旨在授權(quán)開發(fā)能夠有效利用通用工具功能的大型語(yǔ)言模型。通過(guò)提供一個(gè)創(chuàng)建優(yōu)化指令數(shù)據(jù)集的平臺(tái),ToolBench項(xiàng)目旨在推動(dòng)語(yǔ)言模型的進(jìn)步并增強(qiáng)其實(shí)際應(yīng)用。
5 如何評(píng)估
在本節(jié)中,我們介紹了兩種常見的評(píng)估方法:自動(dòng)評(píng)估和人工評(píng)估。
5.1 自動(dòng)評(píng)估
LLM的自動(dòng)評(píng)估是一種常見的評(píng)估方法。自動(dòng)評(píng)估通常使用各種指標(biāo)和評(píng)估工具,如BLEU、ROUGE、BERTScore等,來(lái)量化模型生成的文本與參考文本之間的相似性和質(zhì)量。與人工評(píng)估相比,自動(dòng)評(píng)估不需要人工參與,節(jié)省了評(píng)估成本,耗時(shí)更少。Qin等人和Bang等人都使用自動(dòng)化評(píng)估方法來(lái)評(píng)估大量任務(wù)。最近,隨著LLM的發(fā)展,一些先進(jìn)的自動(dòng)評(píng)估技術(shù)也被設(shè)計(jì)來(lái)幫助評(píng)估。提出了LLM-EVAL,這是一種用于LLM開放域會(huì)話的統(tǒng)一多維自動(dòng)評(píng)估方法。可以實(shí)現(xiàn)可復(fù)制和自動(dòng)化的語(yǔ)言模型評(píng)估。
5.2 人類評(píng)估
在一些非標(biāo)準(zhǔn)的情況下,自動(dòng)評(píng)估是不合適的,例如對(duì)于開放生成任務(wù),其中嵌入的相似性度量(如BERTScore)是不夠的,人工評(píng)估更可靠。LLM的人工評(píng)估是通過(guò)人工參與來(lái)評(píng)估模型生成結(jié)果的質(zhì)量和準(zhǔn)確性的一種方式。與自動(dòng)評(píng)估相比,手動(dòng)評(píng)估更接近實(shí)際應(yīng)用場(chǎng)景,可以提供更全面、準(zhǔn)確的反饋。在LLM的手動(dòng)評(píng)估中,通常會(huì)邀請(qǐng)?jiān)u估人員(如專家、研究人員或普通用戶)對(duì)模型產(chǎn)生的結(jié)果進(jìn)行評(píng)估。例如,Ziems等人使用專家的注釋進(jìn)行生成。通過(guò)人工評(píng)估,對(duì)6個(gè)模型的摘要和虛假信息場(chǎng)景進(jìn)行了人工評(píng)估,Bang評(píng)估了類比推理任務(wù)。Bubeck等人發(fā)現(xiàn)GPT4在多項(xiàng)任務(wù)上的表現(xiàn)接近甚至超過(guò)人類。這種評(píng)估需要人工評(píng)估人員實(shí)際測(cè)試和比較模型的性能,而不僅僅是通過(guò)自動(dòng)評(píng)估指標(biāo)來(lái)評(píng)估模型。請(qǐng)注意,即使是人類的評(píng)估也可能具有高度的方差和不穩(wěn)定性,這可能是由于文化和個(gè)人差異造成的。在實(shí)際應(yīng)用中,結(jié)合實(shí)際情況對(duì)這兩種評(píng)價(jià)方法進(jìn)行了考慮和權(quán)衡。
6 總結(jié)
在本節(jié)中,我們根據(jù)第3、4和5節(jié)中的綜述總結(jié)了主要發(fā)現(xiàn)。
6.1 任務(wù):LLM成功和失敗的案例
我們現(xiàn)在總結(jié)LLM在不同任務(wù)中的成功和失敗案例。請(qǐng)注意,以下所有結(jié)論都是基于現(xiàn)有的評(píng)估工作得出的,結(jié)果僅取決于特定的數(shù)據(jù)集。
6.1.1 LLM能做得好的地方
- LLM通過(guò)產(chǎn)生流暢和精確的語(yǔ)言表達(dá)來(lái)展示生成文本的能力。
- LLM在涉及語(yǔ)言理解的任務(wù)中表現(xiàn)出令人印象深刻的表現(xiàn),如情感分析和文本分類。
- LLM表現(xiàn)出強(qiáng)大的上下文理解能力,使其能夠生成與給定輸入一致的連貫響應(yīng)。
- LLM在幾個(gè)自然語(yǔ)言處理任務(wù)中取得了值得稱贊的性能,包括機(jī)器翻譯、文本生成和問(wèn)答。
6.1.2 LLM什么時(shí)候會(huì)失敗
- LLM在生成過(guò)程中可能表現(xiàn)出偏差和不準(zhǔn)確,導(dǎo)致產(chǎn)生有偏差的輸出。
- LLM理解復(fù)雜邏輯和推理任務(wù)的能力有限,經(jīng)常在復(fù)雜的環(huán)境中遇到困惑或出錯(cuò)。
- LLM在處理大量數(shù)據(jù)集和長(zhǎng)期記憶方面面臨限制,這可能會(huì)對(duì)處理涉及長(zhǎng)期依賴的冗長(zhǎng)文本和任務(wù)帶來(lái)挑戰(zhàn)。
- LLM在整合實(shí)時(shí)或動(dòng)態(tài)信息方面存在局限性,使其不太適合需要最新知識(shí)或快速適應(yīng)不斷變化的環(huán)境的任務(wù)。
- LLM對(duì)提示很敏感,尤其是對(duì)抗性提示,這會(huì)觸發(fā)新的評(píng)估和算法來(lái)提高其穩(wěn)健性。
- 在文本摘要領(lǐng)域,據(jù)觀察,大型模型可能在特定的評(píng)估指標(biāo)上表現(xiàn)出較差的性能,這可能歸因于這些特定指標(biāo)中的固有局限性或不足之處。
6.2 基準(zhǔn)和評(píng)估協(xié)議
隨著LLM的快速發(fā)展和廣泛使用,評(píng)估LLM在實(shí)際應(yīng)用和研究中的重要性變得至關(guān)重要。這一評(píng)估過(guò)程不僅應(yīng)包括任務(wù)層面的評(píng)估,還應(yīng)從社會(huì)角度深入了解其構(gòu)成的潛在風(fēng)險(xiǎn)。在本節(jié)中,我們?cè)诒?中總結(jié)了現(xiàn)有的基準(zhǔn)測(cè)試和評(píng)估協(xié)議。
首先,從客觀計(jì)算轉(zhuǎn)向人在環(huán)測(cè)試,在評(píng)估過(guò)程中允許更多的人的反饋。AdaVision是一個(gè)測(cè)試視覺(jué)模型的交互式過(guò)程,使用戶能夠標(biāo)記少量數(shù)據(jù)以確保模型的正確性,這有助于用戶識(shí)別和修復(fù)連貫的故障模式。在AdaTest中,用戶僅通過(guò)選擇高質(zhì)量測(cè)試并將其組織成語(yǔ)義相關(guān)的主題來(lái)過(guò)濾LLM建議的測(cè)試樣本。
其次,從靜態(tài)測(cè)試集轉(zhuǎn)向眾包測(cè)試集變得越來(lái)越普遍。DynaBench、DynaBoard和DynaTask等工具依賴眾包工作者來(lái)創(chuàng)建和測(cè)試硬樣本。此外,DynamicTempLAMA允許動(dòng)態(tài)構(gòu)建時(shí)間相關(guān)測(cè)試。
第三,在評(píng)估機(jī)器學(xué)習(xí)模型時(shí),從統(tǒng)一環(huán)境轉(zhuǎn)變?yōu)榫哂刑魬?zhàn)性的環(huán)境。雖然統(tǒng)一設(shè)置涉及對(duì)任何特定任務(wù)沒(méi)有偏好的測(cè)試集,但具有挑戰(zhàn)性的設(shè)置會(huì)為特定任務(wù)創(chuàng)建測(cè)試集。DeepTest等工具使用種子生成用于測(cè)試的輸入轉(zhuǎn)換,CheckList基于模板構(gòu)建測(cè)試集,AdaFilter反向構(gòu)建測(cè)試。然而,值得注意的是,AdaFilter可能并不完全公平,因?yàn)樗蕾囉趯?duì)抗性的例子。HELM從不同方面評(píng)估LLM,而Big Bench平臺(tái)用于設(shè)計(jì)機(jī)器學(xué)習(xí)模型要處理的硬任務(wù)。PromptBench旨在通過(guò)創(chuàng)建對(duì)抗性提示來(lái)評(píng)估LLM的對(duì)抗性魯棒性,這更具挑戰(zhàn)性,結(jié)果表明當(dāng)前LLM對(duì)對(duì)抗性提示不具有魯棒性。
7 重大挑戰(zhàn)
評(píng)估作為一門新學(xué)科:我們對(duì)LLM評(píng)估的總結(jié)啟發(fā)我們重新設(shè)計(jì)廣泛的方面。在本節(jié)中,我們提出了幾個(gè)重大挑戰(zhàn)。我們的重點(diǎn)是,評(píng)估應(yīng)該被視為推動(dòng)LLM和其他人工智能模型成功的一個(gè)重要學(xué)科。現(xiàn)有的協(xié)議不足以徹底評(píng)估LLM,這可能會(huì)為未來(lái)LLM評(píng)估研究帶來(lái)新的機(jī)會(huì)。
7.1 設(shè)計(jì)AGI的基準(zhǔn)
正如我們前面所討論的,雖然所有任務(wù)都有可能作為L(zhǎng)LM的評(píng)估工具,但問(wèn)題仍然是誰(shuí)可以真正衡量AGI能力。正如我們期望LLM展示AGI能力一樣,全面了解人類和AGI能力之間的差異對(duì)于創(chuàng)建AGI基準(zhǔn)至關(guān)重要。主流趨勢(shì)似乎將AGI概念化為超人實(shí)體,從而利用教育、心理學(xué)和社會(huì)科學(xué)等領(lǐng)域的跨學(xué)科知識(shí)來(lái)設(shè)計(jì)創(chuàng)新基準(zhǔn)。盡管如此,仍然有許多懸而未決的問(wèn)題。例如,將人類價(jià)值觀作為測(cè)試構(gòu)建的起點(diǎn)有意義嗎?還是應(yīng)該考慮其他視角?制定適當(dāng)?shù)腁GI基準(zhǔn)的過(guò)程提出了許多有待進(jìn)一步探索的懸而未決的問(wèn)題。
7.2 完整的行為評(píng)估
一個(gè)想法AGI評(píng)估不僅應(yīng)該包含常見任務(wù)的標(biāo)準(zhǔn)基準(zhǔn),還應(yīng)該包含開放任務(wù)的評(píng)估,如完整的行為測(cè)試。所謂行為測(cè)試,我們的意思是AGI模型也應(yīng)該在開放的環(huán)境中進(jìn)行評(píng)估。例如,通過(guò)將LLM視為中心控制器,我們可以對(duì)LLM操縱的機(jī)器人進(jìn)行評(píng)估,以測(cè)試其在實(shí)際情況下的行為。通過(guò)將LLM視為一個(gè)完全智能的機(jī)器,還應(yīng)該考慮對(duì)其多模態(tài)維度的評(píng)估。事實(shí)上,完整的行為評(píng)估是對(duì)標(biāo)準(zhǔn)AGI基準(zhǔn)的補(bǔ)充,它們應(yīng)該協(xié)同工作以進(jìn)行更好的測(cè)試。
7.3 魯棒性評(píng)估
除了一般任務(wù)外,鑒于LLM廣泛融入日常生活,LLM必須保持對(duì)各種輸入的穩(wěn)健性,以便為最終用戶提供最佳性能。例如,相同的提示但具有不同的語(yǔ)法和表達(dá)式可能導(dǎo)致ChatGPT和其他LLM生成不同的結(jié)果,這表明當(dāng)前LLM對(duì)輸入不健壯。雖然之前有一些關(guān)于穩(wěn)健性評(píng)估的工作,但仍有很大的進(jìn)步空間,例如包括更多樣的評(píng)估集,檢查更多的評(píng)估方面,以及開發(fā)更有效的評(píng)估來(lái)生成穩(wěn)健性任務(wù)。與此同時(shí),穩(wěn)健性的概念和定義也在不斷演變。因此,至關(guān)重要的是要考慮更新評(píng)價(jià)制度,以便更好地符合與道德操守和偏見有關(guān)的新要求。
7.4 動(dòng)態(tài)和演化評(píng)估
大多數(shù)人工智能任務(wù)的現(xiàn)有評(píng)估協(xié)議依賴于靜態(tài)和公共基準(zhǔn),即評(píng)估數(shù)據(jù)集和協(xié)議通常是公開的。雖然這有助于在社區(qū)內(nèi)進(jìn)行快速方便的評(píng)估,但鑒于LLM的快速發(fā)展,它無(wú)法準(zhǔn)確評(píng)估其不斷發(fā)展的能力。LLM的能力可能會(huì)隨著時(shí)間的推移而增強(qiáng),而現(xiàn)有的靜態(tài)基準(zhǔn)無(wú)法對(duì)其進(jìn)行一致的評(píng)估。另一方面,隨著LLM隨著模型大小和訓(xùn)練集大小的增大而變得越來(lái)越強(qiáng)大,LLM可能會(huì)記住靜態(tài)和公共基準(zhǔn),從而導(dǎo)致潛在的訓(xùn)練數(shù)據(jù)污染。因此,開發(fā)動(dòng)態(tài)和不斷發(fā)展的評(píng)估系統(tǒng)是公平評(píng)估LLM的關(guān)鍵。
7.5 原則和可信評(píng)估
在引入評(píng)估系統(tǒng)時(shí),確定其完整性和可信度至關(guān)重要。因此,可信計(jì)算的必要性也延伸到了對(duì)可靠評(píng)估系統(tǒng)的要求。這提出了一個(gè)具有挑戰(zhàn)性的研究問(wèn)題,該問(wèn)題與測(cè)量理論、概率和許多其他領(lǐng)域交織在一起。例如,我們?nèi)绾未_保動(dòng)態(tài)測(cè)試真正生成分布外的示例?這一領(lǐng)域的研究很少,希望未來(lái)的工作不僅要仔細(xì)審查算法,還要仔細(xì)審查評(píng)估系統(tǒng)本身。
7.6 支持所有LLM任務(wù)的統(tǒng)一評(píng)估
LLM還有許多其他研究領(lǐng)域,我們需要開發(fā)能夠支持各種任務(wù)的評(píng)估系統(tǒng),如價(jià)值校準(zhǔn)、安全、驗(yàn)證、跨學(xué)科研究、微調(diào)等。例如,PandaLM是一個(gè)評(píng)估系統(tǒng),通過(guò)提供開源評(píng)估模型來(lái)幫助LLM微調(diào),該模型可以自動(dòng)評(píng)估微調(diào)的性能。我們預(yù)計(jì),更多的評(píng)估系統(tǒng)將變得更加通用,并可用于某些LLM任務(wù)。
7.7 超越評(píng)估:LLM增強(qiáng)
歸根結(jié)底,評(píng)價(jià)不是最終目標(biāo),而是起點(diǎn)。在評(píng)估之后,無(wú)疑會(huì)得出關(guān)于性能、穩(wěn)健性、穩(wěn)定性和其他因素的結(jié)論。一個(gè)熟練的評(píng)估系統(tǒng)不僅應(yīng)該提供基準(zhǔn)結(jié)果,還應(yīng)該為未來(lái)的研究和開發(fā)提供富有洞察力的分析、建議和指導(dǎo)。例如,PromptBench不僅提供了對(duì)抗性提示的穩(wěn)健性評(píng)估結(jié)果,還通過(guò)注意力可視化進(jìn)行了全面分析,闡明了對(duì)抗性文本如何導(dǎo)致錯(cuò)誤反應(yīng)。該系統(tǒng)還提供了詞頻分析,以識(shí)別測(cè)試集中的魯棒和非魯棒單詞,從而為最終用戶提供提示工程指導(dǎo)。后續(xù)研究可以利用這些發(fā)現(xiàn)來(lái)增強(qiáng)LLM。因此,這項(xiàng)任務(wù)超出了單獨(dú)評(píng)估協(xié)議的設(shè)計(jì)范圍。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-542233.html
8 結(jié)論
評(píng)估具有深遠(yuǎn)的意義,在人工智能模型的發(fā)展中變得勢(shì)在必行,尤其是在大型語(yǔ)言模型的背景下。本文首次從評(píng)估內(nèi)容、評(píng)估方式和評(píng)估地點(diǎn)三個(gè)方面對(duì)LLM的評(píng)估進(jìn)行了全面綜述。通過(guò)封裝評(píng)估任務(wù)、協(xié)議和基準(zhǔn),我們的目標(biāo)是增強(qiáng)對(duì)LLM現(xiàn)狀的理解,闡明其優(yōu)勢(shì)和局限性,并為未來(lái)LLM的發(fā)展提供見解。
我們的綜述顯示,當(dāng)前的LLM在許多任務(wù)中表現(xiàn)出一定的局限性,尤其是推理和穩(wěn)健性任務(wù)。與此同時(shí),現(xiàn)代評(píng)估系統(tǒng)適應(yīng)和發(fā)展的必要性仍然很明顯,以確保準(zhǔn)確評(píng)估LLM的固有能力和局限性。我們確定了未來(lái)研究應(yīng)該解決的幾個(gè)重大挑戰(zhàn),希望LLM能夠逐步加強(qiáng)對(duì)人類的服務(wù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-542233.html
到了這里,關(guān)于A Survey on Evaluation of Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!