国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

如何評(píng)估大型語(yǔ)言模型(LLM)?

這篇具有很好參考價(jià)值的文章主要介紹了如何評(píng)估大型語(yǔ)言模型(LLM)?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

編者按:近期幾乎每隔一段時(shí)間,就有新的大語(yǔ)言模型發(fā)布,但是當(dāng)下仍然沒(méi)有一個(gè)通用的標(biāo)準(zhǔn)來(lái)評(píng)估這些大型語(yǔ)言模型的質(zhì)量,我們急需一個(gè)可靠的、綜合的LLM評(píng)估框架。

本文說(shuō)明了為什么我們需要一個(gè)全面的大模型評(píng)估框架,并介紹了市面上這些現(xiàn)有的評(píng)估框架,同時(shí)指出這些框架存在的問(wèn)題,最后說(shuō)明如何評(píng)估大型語(yǔ)言模型(LLM),評(píng)估時(shí)應(yīng)該考慮哪些因素。

以下是譯文,Enjoy!

作者 |?Gyan Prakash Tripathi

編譯?|?岳揚(yáng)

目錄
  • 01 簡(jiǎn)介
  • 02 為什么急需一個(gè)全面的LLMs評(píng)估框架?
  • 03 現(xiàn)有的LLMs評(píng)估框架有哪些?
  • 04 現(xiàn)有評(píng)估框架存在的問(wèn)題
  • 05 在評(píng)估LLMs時(shí)應(yīng)考慮哪些因素?
  • 06 結(jié)論

01 簡(jiǎn)介 Introduction

隨著ChatGPT和其他大型語(yǔ)言模型(LLMs)的發(fā)布,可用模型數(shù)量大量增加,現(xiàn)在幾乎每天都有新的LLMs發(fā)布。盡管如此,當(dāng)下仍然沒(méi)有一個(gè)通用的標(biāo)準(zhǔn)來(lái)評(píng)估這些大型語(yǔ)言模型的質(zhì)量。本文將回顧現(xiàn)有的大型語(yǔ)言模型(LLMs)和基于LLMs的體系化評(píng)估框架。此外,我們還將嘗試分析LLMs哪些因素應(yīng)該受到評(píng)估。

如何評(píng)估大型語(yǔ)言模型(LLM)?

Source: Cobus Greyling

02 為什么急需一個(gè)全面的LLMs評(píng)估框架?

在某項(xiàng)技術(shù)發(fā)展的早期階段,大家很容易確定哪些地方需要改進(jìn)。然而,隨著技術(shù)進(jìn)步和各種新的替代方案出現(xiàn),我們?cè)絹?lái)越難確定哪種方案選擇最好。因此,擁有一個(gè)可靠的評(píng)估框架來(lái)準(zhǔn)確評(píng)判LLMs的質(zhì)量變得非常重要。

對(duì)于LLMs,當(dāng)下迫切需要一個(gè)真正的評(píng)估框架。這種框架可用于以下三種方式評(píng)估LLMs:

  • 能夠幫助管理機(jī)構(gòu)和其他相關(guān)機(jī)構(gòu)評(píng)估模型的安全性、準(zhǔn)確性、可靠性或可用性問(wèn)題。
  • 目前,這些大型科技公司似乎在盲目地爭(zhēng)先恐后發(fā)布LLMs,許多公司只是在其產(chǎn)品上附加免責(zé)聲明來(lái)試圖撇清責(zé)任。因此制定一個(gè)全面的評(píng)估框架將有助于這些公司更負(fù)責(zé)任地發(fā)布這些模型。
  • 如果擁有一個(gè)全面的評(píng)估框架,能夠幫助這些LLMs的用戶確定在哪里以及如何微調(diào)這些大模型,并使他們清楚應(yīng)該使用哪些額外的數(shù)據(jù)來(lái)完成部署。

在接下來(lái)的內(nèi)容中,我們將會(huì)回顧當(dāng)前的模型評(píng)估模式。

03 現(xiàn)有的LLMs評(píng)估框架有哪些?

評(píng)估大語(yǔ)言模型來(lái)確定它們?cè)诟鞣N應(yīng)用中的質(zhì)量和實(shí)用性是比較重要的。市面上已經(jīng)存在多個(gè)評(píng)估LLMs的框架,但是沒(méi)有一個(gè)框架足夠全面,可以覆蓋所有自然語(yǔ)言處理任務(wù)。讓我們看一下這些現(xiàn)有的主流評(píng)估框架。

框架名稱 評(píng)估時(shí)考慮的因素 框架鏈接
Big Bench 泛化能力 https://github.com/google/BIG-bench
GLUE Benchmark 語(yǔ)法、釋義、文本相似度、推理、文本關(guān)聯(lián)性、解決代詞引用問(wèn)題的能力 https://gluebenchmark.com/
SuperGLUE Benchmark 自然語(yǔ)言理解、推理,理解訓(xùn)練數(shù)據(jù)之外的復(fù)雜句子,連貫和規(guī)范的自然語(yǔ)言生成,與人對(duì)話,常識(shí)推理(日常場(chǎng)景、社會(huì)規(guī)范和慣例),信息檢索,閱讀理解 https://super.gluebenchmark.com/
OpenAI Moderation API 過(guò)濾有害或不安全的內(nèi)容 https://platform.openai.com/docs/api-reference/moderations
MMLU 跨各種任務(wù)和領(lǐng)域的語(yǔ)言理解 https://github.com/hendrycks/test
EleutherAI LM Eval 在最小程度的微調(diào)情況下,使用小樣本進(jìn)行評(píng)估,并能夠在多種任務(wù)發(fā)揮性能的能力。 https://github.com/EleutherAI/lm-evaluation-harness
OpenAI Evals https://github.com/EleutherAI/lm-evaluation-harness 文本生成的準(zhǔn)確性,多樣性,一致性,魯棒性,可轉(zhuǎn)移性,效率,公平性 https://github.com/openai/evals
Adversarial NLI (ANLI) 魯棒性,泛化性,對(duì)推理的連貫性解釋,在類似示例中推理的一致性,資源使用方面的效率(內(nèi)存使用、推理時(shí)間和訓(xùn)練時(shí)間) https://github.com/facebookresearch/anli
LIT (Language Interpretability Tool) 以用戶定義的指標(biāo)進(jìn)行評(píng)估的平臺(tái)。了解其優(yōu)勢(shì)、劣勢(shì)和潛在的偏見(jiàn) https://pair-code.github.io/lit/
ParlAI 準(zhǔn)確率,F(xiàn)1分?jǐn)?shù),困惑度(模型在預(yù)測(cè)序列中下一個(gè)單詞的表現(xiàn)),按相關(guān)性,流暢性和連貫性等標(biāo)準(zhǔn)進(jìn)行人工評(píng)估,速度和資源利用率,魯棒性(評(píng)估模型在不同條件下的表現(xiàn),如噪聲輸入、對(duì)抗攻擊或不同水平的數(shù)據(jù)質(zhì)量),泛化性 https://github.com/facebookresearch/ParlAI
CoQA 理解文本段落并回答出現(xiàn)在對(duì)話中的一系列相互關(guān)聯(lián)的問(wèn)題。 https://stanfordnlp.github.io/coqa/
LAMBADA 預(yù)測(cè)一段文本的最后一個(gè)詞。 https://zenodo.org/record/2630551#.ZFUKS-zML0p
HellaSwag 推理能力 https://rowanzellers.com/hellaswag/
LogiQA 邏輯推理能力 https://github.com/lgw863/LogiQA-dataset
MultiNLI 了解不同體裁的句子之間的關(guān)系 https://cims.nyu.edu/~sbowman/multinli/
SQUAD 閱讀理解任務(wù) https://rajpurkar.github.io/SQuAD-explorer/

04 現(xiàn)有評(píng)估框架存在的問(wèn)題

上述評(píng)估大型語(yǔ)言模型的方法各有其優(yōu)勢(shì)。然而,有幾個(gè)重要因素使得以上這些方法似乎都并不足夠完善:

  1. 以上任何一個(gè)框架都沒(méi)有將安全性作為評(píng)估因素考慮在內(nèi)。盡管“OpenAI Moderation API”在某種程度上涉及這個(gè)問(wèn)題,但這并不足夠。
  2. 上述框架在評(píng)估模型因素方面是分散的。它們中沒(méi)有一個(gè)因素是足夠全面綜合的

在下一節(jié)中,我們將嘗試列出所有應(yīng)該在一個(gè)綜合的評(píng)估框架中存在的重要因素。

05 在評(píng)估LLMs時(shí)應(yīng)考慮哪些因素?

經(jīng)過(guò)審查現(xiàn)有的大模型評(píng)估框架存在的問(wèn)題之后,下一步是確定在評(píng)估大型語(yǔ)言模型(LLMs)的質(zhì)量時(shí)應(yīng)考慮哪些因素。我們聽取12名數(shù)據(jù)科學(xué)專業(yè)人員的意見(jiàn),這12名專家對(duì)LLMs的工作原理和工作能力有一定的了解,并且他們?cè)?jīng)嘗試過(guò)測(cè)試多個(gè)LLMs。該調(diào)查旨在根據(jù)他們的理解列出所有重要因素,并在此基礎(chǔ)之上評(píng)估LLMs的質(zhì)量。

最終,我們發(fā)現(xiàn)有幾個(gè)關(guān)鍵因素應(yīng)該被考慮:

1. 真實(shí)性

LLMs生成的結(jié)果準(zhǔn)確性至關(guān)重要。包括事實(shí)的正確性以及推理和解決方案的準(zhǔn)確性。

2. 速度

模型產(chǎn)生結(jié)果的速度很重要,特別是當(dāng)大模型需要部署到關(guān)鍵功能(critical use cases)時(shí)。雖然在某些情況下速度較慢的大模型可能可以可接受,但這些rapid action團(tuán)隊(duì)需要速度更快的模型。

3. 正確的語(yǔ)法和可讀性

LLMs必須以具備可讀性的格式生成自然語(yǔ)言。確保正確、合適的語(yǔ)法和句子結(jié)構(gòu)至關(guān)重要。

4. 沒(méi)有偏見(jiàn)

LLMs必須不受與性別、種族和其他因素相關(guān)的社會(huì)偏見(jiàn)影響。

5. 回溯回答的參考來(lái)源

了解模型回答的來(lái)源對(duì)于我們來(lái)說(shuō)是十分必要的,以便我們可以重復(fù)檢查其 basis。如果沒(méi)有這個(gè),LLMs的性能將始終是一個(gè)黑匣子。

6. 安全和責(zé)任

AI模型的安全保障是必要的。盡管大多數(shù)公司正在努力使這些大模型安全,但仍然有顯著的改進(jìn)空間。

7. 理解上下文

當(dāng)人類向AI聊天機(jī)器人咨詢有關(guān)個(gè)人生活的建議時(shí),重要的是該模型需要基于特定的條件提供更好的解決方案。在不同的上下文中提出同樣的問(wèn)題可能會(huì)有不同的答案。

8. 文本操作

LLMs需要能夠執(zhí)行基本的文本操作,如文本分類、翻譯、摘要等。

9. 智商

智商是用來(lái)評(píng)判人類智力的一項(xiàng)指標(biāo),也可以應(yīng)用于機(jī)器。

10. 情商

情商是人類智力的另一方面,也可應(yīng)用于LLMs。具有更高情商的模型將更安全地被使用。

11. 具備多功能

模型可以涵蓋的領(lǐng)域和語(yǔ)言數(shù)量是另一個(gè)重要因素,可以用于將模型分類為通用AI或特定領(lǐng)域的AI。

12. 實(shí)時(shí)更新

一個(gè)能夠?qū)崟r(shí)進(jìn)行信息更新的模型可以做出更大范圍的貢獻(xiàn),產(chǎn)生更好的結(jié)果。

13. 成本

開發(fā)和運(yùn)維成本也應(yīng)該考慮在內(nèi)。

14. 一致性

相同或類似的提示應(yīng)該產(chǎn)生相同或幾乎相同的響應(yīng),否則確保部署于商業(yè)環(huán)境的質(zhì)量將會(huì)很困難。

15. 提示工程的需要程度

需要使用多少詳細(xì)和結(jié)構(gòu)化的提示工程才能獲得最佳響應(yīng),也可以用來(lái)比較兩個(gè)模型。

06 總結(jié)

大型語(yǔ)言模型(LLMs)的發(fā)展徹底改變了自然語(yǔ)言處理領(lǐng)域。然而,當(dāng)下仍需一個(gè)全面性的和標(biāo)準(zhǔn)化的評(píng)估框架來(lái)評(píng)估這些模型的質(zhì)量?,F(xiàn)有的框架提供了有價(jià)值的參考,但它們?nèi)狈?strong>全面性和標(biāo)準(zhǔn)化,并且沒(méi)有將安全作為評(píng)估因素

可靠的評(píng)估框架應(yīng)該考慮諸如真實(shí)性、速度、正確的語(yǔ)法和可讀性、沒(méi)有偏見(jiàn)、回溯回答的參考來(lái)源、安全和責(zé)任、理解上下文、文本操作、智商、情商、具備多功能和實(shí)時(shí)更新等因素。 開發(fā)這樣的框架將幫助這些公司更負(fù)責(zé)任地發(fā)布LLMs,并能夠確保其質(zhì)量、可用性和安全性。與相關(guān)機(jī)構(gòu)和專家合作,建立一個(gè)真實(shí)和全面的LLMs評(píng)估框架是十分有必要的。

END

本文經(jīng)原作者授權(quán),由Baihai IDP編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接

https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-a-large-language-model-llm/文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-496357.html

到了這里,關(guān)于如何評(píng)估大型語(yǔ)言模型(LLM)?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 《大型語(yǔ)言模型自然語(yǔ)言生成評(píng)估》綜述

    《大型語(yǔ)言模型自然語(yǔ)言生成評(píng)估》綜述

    在快速發(fā)展的自然語(yǔ)言生成(NLG)評(píng)估領(lǐng)域中,引入大型語(yǔ)言模型(LLMs)為評(píng)估生成內(nèi)容質(zhì)量開辟了新途徑,例如,連貫性、創(chuàng)造力和上下文相關(guān)性。本綜述旨在提供一個(gè)關(guān)于利用LLMs進(jìn)行NLG評(píng)估的全面概覽,這是一個(gè)缺乏系統(tǒng)分析的新興領(lǐng)域。 我們提出了一個(gè)連貫的分類體

    2024年01月23日
    瀏覽(26)
  • 大型語(yǔ)言模型 (LLM)全解讀

    大型語(yǔ)言模型 (LLM)全解讀

    大型語(yǔ)言模型 是 一種深度學(xué)習(xí)算法 ,可以 執(zhí)行各種自然語(yǔ)言處理 (NLP) 任務(wù) 。 大型語(yǔ)言模型底層 使用多個(gè)轉(zhuǎn)換器模型 , 底層轉(zhuǎn)換器是一組神經(jīng)網(wǎng)絡(luò) 。 大型語(yǔ)言模型是 使用海量數(shù)據(jù)集 進(jìn)行訓(xùn)練的超大型深度學(xué)習(xí)模型。 這也是它們能夠識(shí)別、翻譯、預(yù)測(cè)或生成文本或其他

    2024年01月23日
    瀏覽(34)
  • 大型語(yǔ)言模型LLM的基礎(chǔ)應(yīng)用

    大型語(yǔ)言模型LLM的基礎(chǔ)應(yīng)用

    ChatGPT是由人工智能研究實(shí)驗(yàn)室OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型,一款人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具。它能夠通過(guò)學(xué)習(xí)和理解人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流,甚至能完成撰寫郵件、視頻腳本、文案

    2024年02月09日
    瀏覽(62)
  • 大語(yǔ)言模型(LLM)綜述(五):使用大型語(yǔ)言模型的主要方法

    大語(yǔ)言模型(LLM)綜述(五):使用大型語(yǔ)言模型的主要方法

    隨著人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的迅速發(fā)展,語(yǔ)言模型已經(jīng)從簡(jiǎn)單的詞袋模型(Bag-of-Words)和N-gram模型演變?yōu)楦鼮閺?fù)雜和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。在這一進(jìn)程中,大型語(yǔ)言模型(LLM)尤為引人注目,它們不僅在自然語(yǔ)言處理(NLP)任務(wù)中表現(xiàn)出色,而且在各種跨領(lǐng)域應(yīng)用中也展示

    2024年02月06日
    瀏覽(23)
  • 【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

    【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

    怎么學(xué)習(xí)?——給定輸入和輸出: 但是這樣做不現(xiàn)實(shí),因?yàn)檫@樣輸入-輸出需要成對(duì)的資料,而chatgpt 成功解決了這一個(gè)難題。 chatgpt不需要成對(duì)的資料,只需要一段有用的資料,便可以自己學(xué)習(xí)內(nèi)容,如下: 初代和第二代gpt 第二代到第三代 gpt3還會(huì)寫代碼 其性能表現(xiàn) 但是

    2024年02月09日
    瀏覽(39)
  • 【LLM GPT】李宏毅大型語(yǔ)言模型課程

    【LLM GPT】李宏毅大型語(yǔ)言模型課程

    怎么學(xué)習(xí)?——給定輸入和輸出: 但是這樣做不現(xiàn)實(shí),因?yàn)檫@樣輸入-輸出需要成對(duì)的資料,而chatgpt 成功解決了這一個(gè)難題。 chatgpt不需要成對(duì)的資料,只需要一段有用的資料,便可以自己學(xué)習(xí)內(nèi)容,如下: 初代和第二代gpt 第二代到第三代 gpt3還會(huì)寫代碼 其性能表現(xiàn) 但是

    2024年02月10日
    瀏覽(24)
  • 【人工智能】LLM 大型語(yǔ)言模型發(fā)展歷史
  • ChatGPT和大型語(yǔ)言模型(LLM)是什么關(guān)系?

    什么是語(yǔ)言模型:\\\" 語(yǔ)言模型的本質(zhì)是一個(gè)數(shù)學(xué)模型,用于捕捉和理解人類語(yǔ)言的結(jié)構(gòu)和規(guī)律 。它通過(guò)分析大量文本數(shù)據(jù)中的單詞或字符之間的關(guān)系,以概率的方式預(yù)測(cè)在給定上下文情況下下一個(gè)可能出現(xiàn)的單詞或字符。這種模型允許計(jì)算機(jī)在生成文本、翻譯語(yǔ)言、問(wèn)答等任

    2024年02月10日
    瀏覽(16)
  • 8大倫理考量:大型語(yǔ)言模型(LLM)如GPT-4

    大語(yǔ)言模型(LLM)如ChatGPT、GPT-4、PaLM、LaMDA等,具有生成和分析類人文本的能力。然而,它們也可能會(huì)產(chǎn)生有害內(nèi)容,如仇恨言論、極端主義宣傳、種族主義或性別歧視語(yǔ)言等,對(duì)特定個(gè)人或群體造成傷害。盡管LLM本身并不具有偏見(jiàn)或危害性,但它們所訓(xùn)練的數(shù)據(jù)可能反映了社

    2024年03月22日
    瀏覽(38)
  • 【人工智能】LLM 大型語(yǔ)言模型和 Transformer 架構(gòu)簡(jiǎn)介

    【人工智能】LLM 大型語(yǔ)言模型和 Transformer 架構(gòu)簡(jiǎn)介

    目錄 大型語(yǔ)言模型 (LLM) 一、LLM的起源 二、LLM的發(fā)展階段 三、LLM的應(yīng)用領(lǐng)域

    2024年02月14日
    瀏覽(37)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包