国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái)

這篇具有很好參考價(jià)值的文章主要介紹了微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

微軟亞洲研究院、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)技術(shù)大學(xué)和卡內(nèi)基梅隆大學(xué)聯(lián)合開源了,用于評(píng)估、分析大語(yǔ)言模型的統(tǒng)一測(cè)試平臺(tái)——PromptBench。

Prompt Bench支持目前主流的開源、閉源大語(yǔ)言模型,例如,ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench內(nèi)置了豐富的評(píng)估工具,包括提示構(gòu)建、提示工程、數(shù)據(jù)集和模型、對(duì)抗性提示攻擊、性能評(píng)測(cè)等。用戶可以根據(jù)實(shí)際開發(fā)情況靈活配置,非常簡(jiǎn)單高效。

開源地址:https://github.com/microsoft/promptbench

論文地址:https://arxiv.org/abs/2312.07910

微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái),chatgpt

對(duì)大型語(yǔ)言模型進(jìn)行評(píng)估、分析是理解其真實(shí)輸出、減少潛在風(fēng)險(xiǎn)的重要開發(fā)環(huán)節(jié)。

研究人員表示,目前多數(shù)大型語(yǔ)言模型對(duì)文本提示非常敏感,容易受到對(duì)抗性提示攻擊,同時(shí)易受到數(shù)據(jù)污染的影響,這給安全和隱私帶來(lái)了巨大挑戰(zhàn)

雖然有很多類似lm-eval-harness的評(píng)估框架,但其評(píng)估模塊和功能較少,無(wú)法滿足飛速發(fā)展的大語(yǔ)言模型領(lǐng)域。

所以,微軟等研究人員希望開發(fā)一個(gè)統(tǒng)一的評(píng)估平臺(tái),幫助開發(fā)者提升測(cè)試效率,同時(shí)減少大模型的非法內(nèi)容輸出。

PromptBench簡(jiǎn)單介紹

PromptBench可以從多個(gè)維度對(duì)大語(yǔ)言模型進(jìn)行評(píng)估,涵蓋多個(gè)任務(wù)、評(píng)估協(xié)議、對(duì)抗性提示攻擊和提示工程技術(shù)、數(shù)據(jù)集等。

評(píng)估協(xié)議是PromptBench的核心模塊之一,主要定義了評(píng)估大語(yǔ)言模型性能的方法和流程。

微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái),chatgpt

PromptBench支持多種評(píng)估協(xié)議,包括靜態(tài)評(píng)估和動(dòng)態(tài)評(píng)估。靜態(tài)評(píng)估是,通過提供預(yù)定義的提示來(lái)測(cè)試大語(yǔ)言模型的性能;

動(dòng)態(tài)評(píng)估,則允許在交互過程中動(dòng)態(tài)生成和修改提示。這種靈活性使研究人員能夠更全面地評(píng)估大語(yǔ)言模型的能力和魯棒性。

對(duì)抗性提示攻擊,是評(píng)估大語(yǔ)言模型安全性的重要方法之一。PromptBench提供了多種對(duì)抗性提示攻擊的測(cè)試方法,包括,字符級(jí)修改、詞級(jí)替換、句級(jí)添加和語(yǔ)義級(jí)改寫等攻擊。有效模擬了提示使用中可能遇到的各類偏差情況,檢驗(yàn)了模型的攻擊魯棒性。

數(shù)據(jù)集是評(píng)估大語(yǔ)言模型性能的關(guān)鍵部分。PromptBench提供了20多個(gè)公開的評(píng)估數(shù)據(jù)集,涵蓋了文本分類、語(yǔ)法糾錯(cuò)、句子相似度判定、自然語(yǔ)言推理、多任務(wù)問答、閱讀理解、翻譯、數(shù)學(xué)推理、邏輯推理等,可以充分測(cè)試大語(yǔ)言模型在不同場(chǎng)景下的表現(xiàn)和能力。

支持哪些大語(yǔ)言模型

PromptBench支持目前市面上主流的開源、閉源大語(yǔ)言模型,包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX;

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。

微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái),chatgpt

研究人員表示,未來(lái)會(huì)持續(xù)更新對(duì)大語(yǔ)言模型的支持,將打造成一個(gè)涵蓋模型最多、評(píng)估功能最全的統(tǒng)一測(cè)試平臺(tái)。

本文素材來(lái)源PromptBench論文,如有侵權(quán)請(qǐng)聯(lián)系刪除

END文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-813066.html

到了這里,關(guān)于微軟等開源評(píng)估ChatGPT、Phi、Llma等,統(tǒng)一測(cè)試平臺(tái)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【軟件測(cè)試】學(xué)習(xí)筆記-統(tǒng)一測(cè)試數(shù)據(jù)平臺(tái)

    【軟件測(cè)試】學(xué)習(xí)筆記-統(tǒng)一測(cè)試數(shù)據(jù)平臺(tái)

    這篇文章主要探討全球大型電商企業(yè)中關(guān)于準(zhǔn)備測(cè)試數(shù)據(jù)的最佳實(shí)踐,從全球大型電商企業(yè)早期的測(cè)試數(shù)據(jù)準(zhǔn)備實(shí)踐談起,分析這些測(cè)試數(shù)據(jù)準(zhǔn)備方法在落地時(shí)遇到的問題,以及如何在實(shí)踐中解決這些問題。其實(shí),這種分析問題、解決問題的思路,也是推動(dòng)著測(cè)試數(shù)據(jù)準(zhǔn)備時(shí)

    2024年01月17日
    瀏覽(31)
  • 微軟近日推出了Phi-2,這是一款小型語(yǔ)言模型,但其性能卻十分強(qiáng)大

    微軟近日推出了Phi-2,這是一款小型語(yǔ)言模型,但其性能卻十分強(qiáng)大

    每周跟蹤AI熱點(diǎn)新聞動(dòng)向和震撼發(fā)展 想要探索生成式人工智能的前沿進(jìn)展嗎?訂閱我們的簡(jiǎn)報(bào),深入解析最新的技術(shù)突破、實(shí)際應(yīng)用案例和未來(lái)的趨勢(shì)。與全球數(shù)同行一同,從行業(yè)內(nèi)部的深度分析和實(shí)用指南中受益。不要錯(cuò)過這個(gè)機(jī)會(huì),成為AI領(lǐng)域的領(lǐng)跑者。點(diǎn)擊訂閱,與未

    2024年02月04日
    瀏覽(18)
  • Google DeepMind發(fā)布Imagen 2文字到圖像生成模型;微軟在 HuggingFace 上發(fā)布了 Phi-2 的模型

    Google DeepMind發(fā)布Imagen 2文字到圖像生成模型;微軟在 HuggingFace 上發(fā)布了 Phi-2 的模型

    ?? AI新聞 ?? Google DeepMind發(fā)布Imagen 2文字到圖像生成模型 摘要 :谷歌的Imagen 2是一種先進(jìn)的文本到圖像技術(shù),可以生成與用戶提示緊密對(duì)齊的高質(zhì)量、逼真的圖像。它通過使用訓(xùn)練數(shù)據(jù)的自然分布來(lái)生成更逼真的圖像,而不是采用預(yù)先編程的風(fēng)格。該技術(shù)還改善了圖像-標(biāo)題

    2024年02月04日
    瀏覽(28)
  • 【大數(shù)據(jù) AI】視覺ChatGPT來(lái)了,微軟發(fā)布,代碼已開源

    ? GitHub - microsoft/visual-chatgpt: VisualChatGPT Visual ChatGPT 將 ChatGPT 和一系列可視化基礎(chǔ)模型連接起來(lái),以支持在聊天過程中發(fā)送和接收?qǐng)D像。 近年來(lái),大型語(yǔ)言模型(LLM)取得了令人難以置信的進(jìn)展,尤其是去年 11 月 30 日,OpenAI 重磅推出的聊天對(duì)話模型 ChatGPT,短短三個(gè)月席卷社

    2024年02月03日
    瀏覽(20)
  • 重磅!微軟開源Deep Speed Chat,人人擁有ChatGPT!

    重磅!微軟開源Deep Speed Chat,人人擁有ChatGPT!

    4月12日,微軟宣布開源了Deep Speed Chat,幫助用戶輕松訓(xùn)練類ChatGPT等大語(yǔ)言模型,使得人人都能擁有自己的ChatGPT?。ㄩ_源地址:https://github.com/microsoft/DeepSpeed)? 據(jù)悉,Deep Speed Chat是基于微軟Deep Speed深度學(xué)習(xí)優(yōu)化庫(kù)開發(fā)而成,具備訓(xùn)練、強(qiáng)化推理等功能,還使用了RLHF(人工反

    2024年02月02日
    瀏覽(22)
  • 特制自己的ChatGPT:多接口統(tǒng)一的輕量級(jí)LLM-IFT平臺(tái)

    特制自己的ChatGPT:多接口統(tǒng)一的輕量級(jí)LLM-IFT平臺(tái)

    ?PaperWeekly 原創(chuàng) ·?作者 |? 佀慶一 單位 |? 中科院信息工程研究所 研究方向 |? 視覺問答 項(xiàng)目簡(jiǎn)稱: Alpaca-CoT(當(dāng)羊駝?dòng)錾纤季S鏈) 項(xiàng)目標(biāo)題: Alpaca-CoT: An Instruction Fine-Tuning Platform with Instruction Data Collection and Unified Large Language Models Interface 項(xiàng)目鏈接: https://github.com/PhoebusSi

    2024年02月04日
    瀏覽(17)
  • 微軟重磅開源 Visual ChatGPT! 一個(gè)月內(nèi)斬獲30K star

    微軟重磅開源 Visual ChatGPT! 一個(gè)月內(nèi)斬獲30K star

    點(diǎn)擊上方“Github中文社區(qū)”,關(guān)注 大家好,我是Huber。 今年由于大環(huán)境惡化,為了生活本人這一年在某外企從事某個(gè)秘密項(xiàng)目(正經(jīng)的那種)的研發(fā),所以沒有時(shí)間(動(dòng)力)和精力(錢)更新推文,最近項(xiàng)目已經(jīng)交付完成,這里向大家說(shuō)聲對(duì)不起,很開心再一次和大家相見(

    2023年04月22日
    瀏覽(24)
  • 【AIGC】重磅!微軟開源Deep Speed Chat,人人擁有ChatGPT的時(shí)代正在到來(lái)!

    專注AIGC領(lǐng)域的專業(yè)社區(qū),關(guān)注GPT-4、百度文心一言、華為盤古等大語(yǔ)言模型(LLM)的發(fā)展和 應(yīng)用 落地,以及國(guó)內(nèi)LLM的發(fā)展和市場(chǎng)研究,歡迎關(guān)注! 目錄 Deep Speed Chat:基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí) 微軟為什么開源Deep Speed Chat

    2024年02月08日
    瀏覽(20)
  • 微軟開源的這個(gè)自動(dòng)化測(cè)試神器,我知道的太晚了

    微軟開源的這個(gè)自動(dòng)化測(cè)試神器,我知道的太晚了

    2020 年初,微軟發(fā)布了一個(gè)自動(dòng)化測(cè)試工具——Playwright,不少人稱它是小白神器。 Playwright是針對(duì)Python語(yǔ)言的純自動(dòng)化工具,它可以通過單個(gè)API自動(dòng)執(zhí)行Chromium,F(xiàn)irefox 和 WebKit 瀏覽器,連代碼都不用寫,就能實(shí)現(xiàn)自動(dòng)化功能。 Playwright具有以下功能特性: 任何瀏覽器 ? 任何平

    2024年02月05日
    瀏覽(28)
  • 突發(fā)!谷歌版“ChatGPT”開放測(cè)試,直面硬剛微軟Bing

    突發(fā)!谷歌版“ChatGPT”開放測(cè)試,直面硬剛微軟Bing

    谷歌在 2 月份發(fā)布了其 Bard 對(duì)話式 AI 后,一直在努力改進(jìn)聊天機(jī)器人的回答,因?yàn)樗?Twitter 上首次亮相時(shí)就傳播了錯(cuò)誤信息。最近該公司將生成式 AI 功能添加到幾乎所有服務(wù)中,而對(duì) Bard 聊天機(jī)器人的訪問仍然是少數(shù)人的專屬。 3月21日深夜,谷歌博客官方宣布,向公眾開

    2024年02月02日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包