国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái)

2年前作者：RPA中國(guó)分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

微軟亞洲研究院、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)技術(shù)大學(xué)和卡內(nèi)基梅隆大學(xué)聯(lián)合開源了，用于評(píng)估、分析大語(yǔ)言模型的統(tǒng)一測(cè)試平臺(tái)——PromptBench。

Prompt Bench支持目前主流的開源、閉源大語(yǔ)言模型，例如，ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench內(nèi)置了豐富的評(píng)估工具，包括提示構(gòu)建、提示工程、數(shù)據(jù)集和模型、對(duì)抗性提示攻擊、性能評(píng)測(cè)等。用戶可以根據(jù)實(shí)際開發(fā)情況靈活配置，非常簡(jiǎn)單高效。

開源地址：https://github.com/microsoft/promptbench

論文地址：https://arxiv.org/abs/2312.07910

微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái),chatgpt

對(duì)大型語(yǔ)言模型進(jìn)行評(píng)估、分析是理解其真實(shí)輸出、減少潛在風(fēng)險(xiǎn)的重要開發(fā)環(huán)節(jié)。

研究人員表示，目前多數(shù)大型語(yǔ)言模型對(duì)文本提示非常敏感，容易受到對(duì)抗性提示攻擊，同時(shí)易受到數(shù)據(jù)污染的影響，這給安全和隱私帶來(lái)了巨大挑戰(zhàn)。

雖然有很多類似lm-eval-harness的評(píng)估框架，但其評(píng)估模塊和功能較少，無(wú)法滿足飛速發(fā)展的大語(yǔ)言模型領(lǐng)域。

所以，微軟等研究人員希望開發(fā)一個(gè)統(tǒng)一的評(píng)估平臺(tái)，幫助開發(fā)者提升測(cè)試效率，同時(shí)減少大模型的非法內(nèi)容輸出。

PromptBench簡(jiǎn)單介紹

PromptBench可以從多個(gè)維度對(duì)大語(yǔ)言模型進(jìn)行評(píng)估，涵蓋多個(gè)任務(wù)、評(píng)估協(xié)議、對(duì)抗性提示攻擊和提示工程技術(shù)、數(shù)據(jù)集等。

評(píng)估協(xié)議是PromptBench的核心模塊之一，主要定義了評(píng)估大語(yǔ)言模型性能的方法和流程。

微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái),chatgpt

PromptBench支持多種評(píng)估協(xié)議，包括靜態(tài)評(píng)估和動(dòng)態(tài)評(píng)估。靜態(tài)評(píng)估是，通過提供預(yù)定義的提示來(lái)測(cè)試大語(yǔ)言模型的性能；

動(dòng)態(tài)評(píng)估，則允許在交互過程中動(dòng)態(tài)生成和修改提示。這種靈活性使研究人員能夠更全面地評(píng)估大語(yǔ)言模型的能力和魯棒性。

對(duì)抗性提示攻擊，是評(píng)估大語(yǔ)言模型安全性的重要方法之一。PromptBench提供了多種對(duì)抗性提示攻擊的測(cè)試方法，包括，字符級(jí)修改、詞級(jí)替換、句級(jí)添加和語(yǔ)義級(jí)改寫等攻擊。有效模擬了提示使用中可能遇到的各類偏差情況,檢驗(yàn)了模型的攻擊魯棒性。

數(shù)據(jù)集是評(píng)估大語(yǔ)言模型性能的關(guān)鍵部分。PromptBench提供了20多個(gè)公開的評(píng)估數(shù)據(jù)集，涵蓋了文本分類、語(yǔ)法糾錯(cuò)、句子相似度判定、自然語(yǔ)言推理、多任務(wù)問答、閱讀理解、翻譯、數(shù)學(xué)推理、邏輯推理等，可以充分測(cè)試大語(yǔ)言模型在不同場(chǎng)景下的表現(xiàn)和能力。

支持哪些大語(yǔ)言模型

PromptBench支持目前市面上主流的開源、閉源大語(yǔ)言模型，包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX；

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。

微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái),chatgpt

研究人員表示，未來(lái)會(huì)持續(xù)更新對(duì)大語(yǔ)言模型的支持，將打造成一個(gè)涵蓋模型最多、評(píng)估功能最全的統(tǒng)一測(cè)試平臺(tái)。

本文素材來(lái)源PromptBench論文，如有侵權(quán)請(qǐng)聯(lián)系刪除

END文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-813066.html

到了這里，關(guān)于微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【軟件測(cè)試】學(xué)習(xí)筆記-統(tǒng)一測(cè)試數(shù)據(jù)平臺(tái)
這篇文章主要探討全球大型電商企業(yè)中關(guān)于準(zhǔn)備測(cè)試數(shù)據(jù)的最佳實(shí)踐，從全球大型電商企業(yè)早期的測(cè)試數(shù)據(jù)準(zhǔn)備實(shí)踐談起，分析這些測(cè)試數(shù)據(jù)準(zhǔn)備方法在落地時(shí)遇到的問題，以及如何在實(shí)踐中解決這些問題。其實(shí)，這種分析問題、解決問題的思路，也是推動(dòng)著測(cè)試數(shù)據(jù)準(zhǔn)備時(shí)
2024年01月17日
瀏覽(31)
微軟近日推出了Phi-2，這是一款小型語(yǔ)言模型，但其性能卻十分強(qiáng)大
每周跟蹤AI熱點(diǎn)新聞動(dòng)向和震撼發(fā)展想要探索生成式人工智能的前沿進(jìn)展嗎？訂閱我們的簡(jiǎn)報(bào)，深入解析最新的技術(shù)突破、實(shí)際應(yīng)用案例和未來(lái)的趨勢(shì)。與全球數(shù)同行一同，從行業(yè)內(nèi)部的深度分析和實(shí)用指南中受益。不要錯(cuò)過這個(gè)機(jī)會(huì)，成為AI領(lǐng)域的領(lǐng)跑者。點(diǎn)擊訂閱，與未
2024年02月04日
瀏覽(18)
Google DeepMind發(fā)布Imagen 2文字到圖像生成模型；微軟在 HuggingFace 上發(fā)布了 Phi-2 的模型
?? AI新聞 ?? Google DeepMind發(fā)布Imagen 2文字到圖像生成模型摘要：谷歌的Imagen 2是一種先進(jìn)的文本到圖像技術(shù)，可以生成與用戶提示緊密對(duì)齊的高質(zhì)量、逼真的圖像。它通過使用訓(xùn)練數(shù)據(jù)的自然分布來(lái)生成更逼真的圖像，而不是采用預(yù)先編程的風(fēng)格。該技術(shù)還改善了圖像-標(biāo)題
2024年02月04日
瀏覽(28)
【大數(shù)據(jù) AI】視覺ChatGPT來(lái)了，微軟發(fā)布，代碼已開源
? GitHub - microsoft/visual-chatgpt: VisualChatGPT Visual ChatGPT 將 ChatGPT 和一系列可視化基礎(chǔ)模型連接起來(lái)，以支持在聊天過程中發(fā)送和接收?qǐng)D像。近年來(lái)，大型語(yǔ)言模型（LLM）取得了令人難以置信的進(jìn)展，尤其是去年 11 月 30 日，OpenAI 重磅推出的聊天對(duì)話模型 ChatGPT，短短三個(gè)月席卷社
2024年02月03日
瀏覽(20)
重磅！微軟開源Deep Speed Chat，人人擁有ChatGPT！
4月12日，微軟宣布開源了Deep Speed Chat，幫助用戶輕松訓(xùn)練類ChatGPT等大語(yǔ)言模型，使得人人都能擁有自己的ChatGPT?。ㄩ_源地址：https://github.com/microsoft/DeepSpeed）? 據(jù)悉，Deep Speed Chat是基于微軟Deep Speed深度學(xué)習(xí)優(yōu)化庫(kù)開發(fā)而成，具備訓(xùn)練、強(qiáng)化推理等功能，還使用了RLHF（人工反
2024年02月02日
瀏覽(22)
特制自己的ChatGPT：多接口統(tǒng)一的輕量級(jí)LLM-IFT平臺(tái)
?PaperWeekly 原創(chuàng) ·?作者 |? 佀慶一單位 |? 中科院信息工程研究所研究方向 |? 視覺問答項(xiàng)目簡(jiǎn)稱： Alpaca-CoT（當(dāng)羊駝?dòng)錾纤季S鏈）項(xiàng)目標(biāo)題： Alpaca-CoT: An Instruction Fine-Tuning Platform with Instruction Data Collection and Unified Large Language Models Interface 項(xiàng)目鏈接： https://github.com/PhoebusSi
2024年02月04日
瀏覽(17)
微軟重磅開源 Visual ChatGPT！一個(gè)月內(nèi)斬獲30K star
點(diǎn)擊上方“Github中文社區(qū)”，關(guān)注大家好，我是Huber。今年由于大環(huán)境惡化，為了生活本人這一年在某外企從事某個(gè)秘密項(xiàng)目（正經(jīng)的那種）的研發(fā)，所以沒有時(shí)間（動(dòng)力）和精力（錢）更新推文，最近項(xiàng)目已經(jīng)交付完成，這里向大家說(shuō)聲對(duì)不起，很開心再一次和大家相見（
2023年04月22日
瀏覽(24)
【AIGC】重磅！微軟開源Deep Speed Chat，人人擁有ChatGPT的時(shí)代正在到來(lái)！
專注AIGC領(lǐng)域的專業(yè)社區(qū)，關(guān)注GPT-4、百度文心一言、華為盤古等大語(yǔ)言模型（LLM）的發(fā)展和應(yīng)用落地，以及國(guó)內(nèi)LLM的發(fā)展和市場(chǎng)研究，歡迎關(guān)注！目錄 Deep Speed Chat：基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí) 微軟為什么開源Deep Speed Chat
2024年02月08日
瀏覽(20)
微軟開源的這個(gè)自動(dòng)化測(cè)試神器，我知道的太晚了
2020 年初，微軟發(fā)布了一個(gè)自動(dòng)化測(cè)試工具——Playwright，不少人稱它是小白神器。 Playwright是針對(duì)Python語(yǔ)言的純自動(dòng)化工具，它可以通過單個(gè)API自動(dòng)執(zhí)行Chromium，F(xiàn)irefox 和 WebKit 瀏覽器，連代碼都不用寫，就能實(shí)現(xiàn)自動(dòng)化功能。 Playwright具有以下功能特性：任何瀏覽器 ? 任何平
2024年02月05日
瀏覽(28)
突發(fā)！谷歌版“ChatGPT”開放測(cè)試，直面硬剛微軟Bing
谷歌在 2 月份發(fā)布了其 Bard 對(duì)話式 AI 后，一直在努力改進(jìn)聊天機(jī)器人的回答，因?yàn)樗?Twitter 上首次亮相時(shí)就傳播了錯(cuò)誤信息。最近該公司將生成式 AI 功能添加到幾乎所有服務(wù)中，而對(duì) Bard 聊天機(jī)器人的訪問仍然是少數(shù)人的專屬。 3月21日深夜，谷歌博客官方宣布，向公眾開
2024年02月02日
瀏覽(24)

<optgroup id="nre6b"></optgroup>