編者按:近期幾乎每隔一段時(shí)間,就有新的大語(yǔ)言模型發(fā)布,但是當(dāng)下仍然沒(méi)有一個(gè)通用的標(biāo)準(zhǔn)來(lái)評(píng)估這些大型語(yǔ)言模型的質(zhì)量,我們急需一個(gè)可靠的、綜合的LLM評(píng)估框架。
本文說(shuō)明了為什么我們需要一個(gè)全面的大模型評(píng)估框架,并介紹了市面上這些現(xiàn)有的評(píng)估框架,同時(shí)指出這些框架存在的問(wèn)題,最后說(shuō)明如何評(píng)估大型語(yǔ)言模型(LLM),評(píng)估時(shí)應(yīng)該考慮哪些因素。
以下是譯文,Enjoy!
作者 |?Gyan Prakash Tripathi
編譯?|?岳揚(yáng)
目錄
- 01 簡(jiǎn)介
- 02 為什么急需一個(gè)全面的LLMs評(píng)估框架?
- 03 現(xiàn)有的LLMs評(píng)估框架有哪些?
- 04 現(xiàn)有評(píng)估框架存在的問(wèn)題
- 05 在評(píng)估LLMs時(shí)應(yīng)考慮哪些因素?
- 06 結(jié)論
01 簡(jiǎn)介 Introduction
隨著ChatGPT和其他大型語(yǔ)言模型(LLMs)的發(fā)布,可用模型數(shù)量大量增加,現(xiàn)在幾乎每天都有新的LLMs發(fā)布。盡管如此,當(dāng)下仍然沒(méi)有一個(gè)通用的標(biāo)準(zhǔn)來(lái)評(píng)估這些大型語(yǔ)言模型的質(zhì)量。本文將回顧現(xiàn)有的大型語(yǔ)言模型(LLMs)和基于LLMs的體系化評(píng)估框架。此外,我們還將嘗試分析LLMs哪些因素應(yīng)該受到評(píng)估。
Source: Cobus Greyling
02 為什么急需一個(gè)全面的LLMs評(píng)估框架?
在某項(xiàng)技術(shù)發(fā)展的早期階段,大家很容易確定哪些地方需要改進(jìn)。然而,隨著技術(shù)進(jìn)步和各種新的替代方案出現(xiàn),我們?cè)絹?lái)越難確定哪種方案選擇最好。因此,擁有一個(gè)可靠的評(píng)估框架來(lái)準(zhǔn)確評(píng)判LLMs的質(zhì)量變得非常重要。
對(duì)于LLMs,當(dāng)下迫切需要一個(gè)真正的評(píng)估框架。這種框架可用于以下三種方式評(píng)估LLMs:
- 能夠幫助管理機(jī)構(gòu)和其他相關(guān)機(jī)構(gòu)評(píng)估模型的安全性、準(zhǔn)確性、可靠性或可用性問(wèn)題。
- 目前,這些大型科技公司似乎在盲目地爭(zhēng)先恐后發(fā)布LLMs,許多公司只是在其產(chǎn)品上附加免責(zé)聲明來(lái)試圖撇清責(zé)任。因此制定一個(gè)全面的評(píng)估框架將有助于這些公司更負(fù)責(zé)任地發(fā)布這些模型。
- 如果擁有一個(gè)全面的評(píng)估框架,能夠幫助這些LLMs的用戶確定在哪里以及如何微調(diào)這些大模型,并使他們清楚應(yīng)該使用哪些額外的數(shù)據(jù)來(lái)完成部署。
在接下來(lái)的內(nèi)容中,我們將會(huì)回顧當(dāng)前的模型評(píng)估模式。
03 現(xiàn)有的LLMs評(píng)估框架有哪些?
評(píng)估大語(yǔ)言模型來(lái)確定它們?cè)诟鞣N應(yīng)用中的質(zhì)量和實(shí)用性是比較重要的。市面上已經(jīng)存在多個(gè)評(píng)估LLMs的框架,但是沒(méi)有一個(gè)框架足夠全面,可以覆蓋所有自然語(yǔ)言處理任務(wù)。讓我們看一下這些現(xiàn)有的主流評(píng)估框架。
框架名稱 | 評(píng)估時(shí)考慮的因素 | 框架鏈接 |
---|---|---|
Big Bench | 泛化能力 | https://github.com/google/BIG-bench |
GLUE Benchmark | 語(yǔ)法、釋義、文本相似度、推理、文本關(guān)聯(lián)性、解決代詞引用問(wèn)題的能力 | https://gluebenchmark.com/ |
SuperGLUE Benchmark | 自然語(yǔ)言理解、推理,理解訓(xùn)練數(shù)據(jù)之外的復(fù)雜句子,連貫和規(guī)范的自然語(yǔ)言生成,與人對(duì)話,常識(shí)推理(日常場(chǎng)景、社會(huì)規(guī)范和慣例),信息檢索,閱讀理解 | https://super.gluebenchmark.com/ |
OpenAI Moderation API | 過(guò)濾有害或不安全的內(nèi)容 | https://platform.openai.com/docs/api-reference/moderations |
MMLU | 跨各種任務(wù)和領(lǐng)域的語(yǔ)言理解 | https://github.com/hendrycks/test |
EleutherAI LM Eval | 在最小程度的微調(diào)情況下,使用小樣本進(jìn)行評(píng)估,并能夠在多種任務(wù)發(fā)揮性能的能力。 | https://github.com/EleutherAI/lm-evaluation-harness |
OpenAI Evals | https://github.com/EleutherAI/lm-evaluation-harness 文本生成的準(zhǔn)確性,多樣性,一致性,魯棒性,可轉(zhuǎn)移性,效率,公平性 | https://github.com/openai/evals |
Adversarial NLI (ANLI) | 魯棒性,泛化性,對(duì)推理的連貫性解釋,在類似示例中推理的一致性,資源使用方面的效率(內(nèi)存使用、推理時(shí)間和訓(xùn)練時(shí)間) | https://github.com/facebookresearch/anli |
LIT (Language Interpretability Tool) | 以用戶定義的指標(biāo)進(jìn)行評(píng)估的平臺(tái)。了解其優(yōu)勢(shì)、劣勢(shì)和潛在的偏見(jiàn) | https://pair-code.github.io/lit/ |
ParlAI | 準(zhǔn)確率,F(xiàn)1分?jǐn)?shù),困惑度(模型在預(yù)測(cè)序列中下一個(gè)單詞的表現(xiàn)),按相關(guān)性,流暢性和連貫性等標(biāo)準(zhǔn)進(jìn)行人工評(píng)估,速度和資源利用率,魯棒性(評(píng)估模型在不同條件下的表現(xiàn),如噪聲輸入、對(duì)抗攻擊或不同水平的數(shù)據(jù)質(zhì)量),泛化性 | https://github.com/facebookresearch/ParlAI |
CoQA | 理解文本段落并回答出現(xiàn)在對(duì)話中的一系列相互關(guān)聯(lián)的問(wèn)題。 | https://stanfordnlp.github.io/coqa/ |
LAMBADA | 預(yù)測(cè)一段文本的最后一個(gè)詞。 | https://zenodo.org/record/2630551#.ZFUKS-zML0p |
HellaSwag | 推理能力 | https://rowanzellers.com/hellaswag/ |
LogiQA | 邏輯推理能力 | https://github.com/lgw863/LogiQA-dataset |
MultiNLI | 了解不同體裁的句子之間的關(guān)系 | https://cims.nyu.edu/~sbowman/multinli/ |
SQUAD | 閱讀理解任務(wù) | https://rajpurkar.github.io/SQuAD-explorer/ |
04 現(xiàn)有評(píng)估框架存在的問(wèn)題
上述評(píng)估大型語(yǔ)言模型的方法各有其優(yōu)勢(shì)。然而,有幾個(gè)重要因素使得以上這些方法似乎都并不足夠完善:
- 以上任何一個(gè)框架都沒(méi)有將安全性作為評(píng)估因素考慮在內(nèi)。盡管“OpenAI Moderation API”在某種程度上涉及這個(gè)問(wèn)題,但這并不足夠。
- 上述框架在評(píng)估模型因素方面是分散的。它們中沒(méi)有一個(gè)因素是足夠全面綜合的。
在下一節(jié)中,我們將嘗試列出所有應(yīng)該在一個(gè)綜合的評(píng)估框架中存在的重要因素。
05 在評(píng)估LLMs時(shí)應(yīng)考慮哪些因素?
經(jīng)過(guò)審查現(xiàn)有的大模型評(píng)估框架存在的問(wèn)題之后,下一步是確定在評(píng)估大型語(yǔ)言模型(LLMs)的質(zhì)量時(shí)應(yīng)考慮哪些因素。我們聽取12名數(shù)據(jù)科學(xué)專業(yè)人員的意見(jiàn),這12名專家對(duì)LLMs的工作原理和工作能力有一定的了解,并且他們?cè)?jīng)嘗試過(guò)測(cè)試多個(gè)LLMs。該調(diào)查旨在根據(jù)他們的理解列出所有重要因素,并在此基礎(chǔ)之上評(píng)估LLMs的質(zhì)量。
最終,我們發(fā)現(xiàn)有幾個(gè)關(guān)鍵因素應(yīng)該被考慮:
1. 真實(shí)性
LLMs生成的結(jié)果準(zhǔn)確性至關(guān)重要。包括事實(shí)的正確性以及推理和解決方案的準(zhǔn)確性。
2. 速度
模型產(chǎn)生結(jié)果的速度很重要,特別是當(dāng)大模型需要部署到關(guān)鍵功能(critical use cases)時(shí)。雖然在某些情況下速度較慢的大模型可能可以可接受,但這些rapid action團(tuán)隊(duì)需要速度更快的模型。
3. 正確的語(yǔ)法和可讀性
LLMs必須以具備可讀性的格式生成自然語(yǔ)言。確保正確、合適的語(yǔ)法和句子結(jié)構(gòu)至關(guān)重要。
4. 沒(méi)有偏見(jiàn)
LLMs必須不受與性別、種族和其他因素相關(guān)的社會(huì)偏見(jiàn)影響。
5. 回溯回答的參考來(lái)源
了解模型回答的來(lái)源對(duì)于我們來(lái)說(shuō)是十分必要的,以便我們可以重復(fù)檢查其 basis。如果沒(méi)有這個(gè),LLMs的性能將始終是一個(gè)黑匣子。
6. 安全和責(zé)任
AI模型的安全保障是必要的。盡管大多數(shù)公司正在努力使這些大模型安全,但仍然有顯著的改進(jìn)空間。
7. 理解上下文
當(dāng)人類向AI聊天機(jī)器人咨詢有關(guān)個(gè)人生活的建議時(shí),重要的是該模型需要基于特定的條件提供更好的解決方案。在不同的上下文中提出同樣的問(wèn)題可能會(huì)有不同的答案。
8. 文本操作
LLMs需要能夠執(zhí)行基本的文本操作,如文本分類、翻譯、摘要等。
9. 智商
智商是用來(lái)評(píng)判人類智力的一項(xiàng)指標(biāo),也可以應(yīng)用于機(jī)器。
10. 情商
情商是人類智力的另一方面,也可應(yīng)用于LLMs。具有更高情商的模型將更安全地被使用。
11. 具備多功能
模型可以涵蓋的領(lǐng)域和語(yǔ)言數(shù)量是另一個(gè)重要因素,可以用于將模型分類為通用AI或特定領(lǐng)域的AI。
12. 實(shí)時(shí)更新
一個(gè)能夠?qū)崟r(shí)進(jìn)行信息更新的模型可以做出更大范圍的貢獻(xiàn),產(chǎn)生更好的結(jié)果。
13. 成本
開發(fā)和運(yùn)維成本也應(yīng)該考慮在內(nèi)。
14. 一致性
相同或類似的提示應(yīng)該產(chǎn)生相同或幾乎相同的響應(yīng),否則確保部署于商業(yè)環(huán)境的質(zhì)量將會(huì)很困難。
15. 提示工程的需要程度
需要使用多少詳細(xì)和結(jié)構(gòu)化的提示工程才能獲得最佳響應(yīng),也可以用來(lái)比較兩個(gè)模型。
06 總結(jié)
大型語(yǔ)言模型(LLMs)的發(fā)展徹底改變了自然語(yǔ)言處理領(lǐng)域。然而,當(dāng)下仍需一個(gè)全面性的和標(biāo)準(zhǔn)化的評(píng)估框架來(lái)評(píng)估這些模型的質(zhì)量?,F(xiàn)有的框架提供了有價(jià)值的參考,但它們?nèi)狈?strong>全面性和標(biāo)準(zhǔn)化,并且沒(méi)有將安全作為評(píng)估因素。
可靠的評(píng)估框架應(yīng)該考慮諸如真實(shí)性、速度、正確的語(yǔ)法和可讀性、沒(méi)有偏見(jiàn)、回溯回答的參考來(lái)源、安全和責(zé)任、理解上下文、文本操作、智商、情商、具備多功能和實(shí)時(shí)更新等因素。 開發(fā)這樣的框架將幫助這些公司更負(fù)責(zé)任地發(fā)布LLMs,并能夠確保其質(zhì)量、可用性和安全性。與相關(guān)機(jī)構(gòu)和專家合作,建立一個(gè)真實(shí)和全面的LLMs評(píng)估框架是十分有必要的。
END
本文經(jīng)原作者授權(quán),由Baihai IDP編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。
原文鏈接:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-496357.html
https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-a-large-language-model-llm/文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-496357.html
到了這里,關(guān)于如何評(píng)估大型語(yǔ)言模型(LLM)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!