国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<dd id="v78e3"></dd>

<kbd id="v78e3"></kbd>

開放 LLM 排行榜: 深入研究 DROP

2年前作者：HuggingFace分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了開放 LLM 排行榜: 深入研究 DROP。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

最近，開放 LLM 排行榜迎來了 3 個新成員: Winogrande、GSM8k 以及 DROP，它們都使用了 EleutherAI Harness 的原始實現(xiàn)。一眼望去，我們就會發(fā)現(xiàn) DROP 的分數(shù)有點古怪: 絕大多數(shù)模型的 F1 分數(shù)都低于 10 分 (滿分 100 分)！我們對此進行了深入調(diào)查以一探究竟，請隨我們一起踏上發(fā)現(xiàn)之旅吧！

初步觀察

在 DROP (Discrete Reasoning Over Paragraphs，段落級離散推理) 評估中，模型需要先從英文文段中提取相關(guān)信息，然后再對其執(zhí)行離散推理 (例如，對目標對象進行排序或計數(shù)以得出正確答案，如下圖中的例子)。其使用的指標是自定義 F1 以及精確匹配分數(shù)。

基于文段的推理示例

三周前，我們將 DROP 添加至開放 LLM 排行榜中，然后我們觀察到預(yù)訓(xùn)練模型的 DROP F1 分數(shù)有個奇怪的趨勢: 當(dāng)我們把排行榜所有原始基準 (ARC、HellaSwag、TruthfulQA 和 MMLU) 的平均分 (我們認為其一定程度上代表了模型的總體性能) 和 DROP 分數(shù)作為兩個軸繪制散點圖時，我們本來希望看到 DROP 分數(shù)與原始均分呈正相關(guān)的關(guān)系 (即原始均值高的模型，DROP 分數(shù)也應(yīng)更高)。然而，事實證明只有少數(shù)模型符合這一預(yù)期，其他大多數(shù)模型的 DROP F1 分數(shù)都非常低，低于 10。

該圖展現(xiàn)了兩類趨勢: 少部分模型 DROP 分數(shù)與原始均分正相關(guān) (對角線那幾個點)，大多數(shù)模型則不管原始均分多少，DROP 分數(shù)統(tǒng)一集中在 5 左右 (圖左側(cè)的垂直線)。

文本規(guī)范化的鍋

第一站，我們觀察到文本規(guī)范化的結(jié)果與預(yù)期不符: 在某些情況下，當(dāng)正確的數(shù)字答案后面直接跟有除空格之外的其他空白字符 (如: 換行符) 時，規(guī)范化操作導(dǎo)致即使答案正確也無法匹配。舉個例子，假設(shè)生成的文本是 10\n\nPassage: The 2011 census recorded a population of 1,001,360 ，而對應(yīng)的標準答案為 10 。

測試基準會先對生成文本和標準答案文本都進行文本規(guī)范化，整個過程分為多個步驟:

按分隔符 (| 、- 或 ) 分詞
生成文本的開頭 10\n\nPassage: 并不包含分隔符，因此會被放進同一個詞元 (即第一個詞元) ;
刪除標點符號
刪除標點后，第一個詞元會變?yōu)?10\n\nPassage (: 被刪除);
數(shù)字均質(zhì)化
每個可以轉(zhuǎn)換為浮點數(shù)的字符串都會被視為數(shù)字并轉(zhuǎn)換為浮點數(shù)，然后再重新轉(zhuǎn)回字符串。 10\n\nPassage 保持不變，因為它不能被轉(zhuǎn)換為浮點數(shù)，而標準答案的 10 變成了 10.0 。
其他步驟
隨后繼續(xù)執(zhí)行其他規(guī)范化步驟 (如刪除冠詞、刪除其他空格等)，最終得到的規(guī)范化文本是: 10 passage 2011.0 census recorded population of 1001360.0 。

最終得分并不是根據(jù)字符串計算而得，而是根據(jù)從字符串中提取的詞袋 (bag of words，BOW) 計算而得。仍用上例，規(guī)范化后的生成文本詞袋為 {'recorded', 'population', 'passage', 'census', '2011.0', ' 1001360.0', '10'} ，而規(guī)范化后的標準答案詞袋為 {10.0} ，兩者求交，正如你所看到的，即使模型生成了正確答案，兩者交集也為 0！

總之，如果一個數(shù)字后面跟著除標準空格字符外的任何其它表示空格的字符，目前的文本規(guī)范化實現(xiàn)就不會對該數(shù)字進行規(guī)范化，因此如果此時標準答案也是一個數(shù)字，那么兩者就永遠無法匹配了！這個問題可能給最終分數(shù)帶來嚴重影響，但顯然這并是導(dǎo)致 DROP 分數(shù)如此低的唯一罪魁禍首。我們決定繼續(xù)調(diào)查。

對結(jié)果進行深入研究

我們在 Zeno 的朋友加入了調(diào)查并對結(jié)果進行了更深入的探索，他們選擇了 5 個有代表性的模型進行深入分析: falcon-180B 和 mistra-7B 表現(xiàn)低于預(yù)期，Yi-34B 和 Tigerbot-70B 的 DROP 分數(shù)與原始均分正相關(guān)，而 facebook/xglm-7.5B 則落在中間。

如果你有興趣的話，也可以試試在這個 Zeno 項目上分析一把。

Zeno 團隊發(fā)現(xiàn)了兩件更麻煩的事情:

如果答案是浮點數(shù)，沒有一個模型的結(jié)果是正確的
擅長生成長答案的高質(zhì)量模型 F1 分數(shù)反而更低

最后，我們認為這兩件事情實際上是同一個根因引起的，即: 使用 . 作為停止詞 (以結(jié)束生成):

浮點數(shù)答案在生成過程中直接被截斷了 [譯者注: 小數(shù)點被當(dāng)成句號直接中斷輸出了。]
更高質(zhì)量的模型，為了嘗試匹配少樣本提示格式，其生成會像這樣 Answer\n\nPlausible prompt for the next question. ，而按照當(dāng)前停止詞的設(shè)定，該行為僅會在結(jié)果生成后且遇到第一個 . 停止，因此模型會生成太多多余的單詞從而導(dǎo)致糟糕的 F1 分數(shù)。

我們假設(shè)這兩個問題都可以通過使用 \n 而不是 . 來充當(dāng)停止詞而得到解決。

更改生成停止詞

我們對此進行了初步實驗！我們試驗了在現(xiàn)有的生成文本上使用 \n 作為結(jié)束符。如果生成的答案中有 \n ，我們就在遇到第一個 \n 時截斷文本，并基于截斷文本重新計算分數(shù)。

請注意，這只能近似正確結(jié)果，因為它不會修復(fù)由于 . 而過早截斷的答案 (如浮點數(shù)答案)。但同時，它也不會給任何模型帶來不公平的優(yōu)勢，因為所有模型都受這個問題的影響。因此，這是我們在不重新運行模型的情況下 (因為我們希望盡快向社區(qū)發(fā)布進展) 能做的最好的事情了。

結(jié)果如下。使用 \n 作為停止詞后，DROP 分數(shù)與原始均分的相關(guān)度提高不少，因此模型的 DROP 分數(shù)與模型原始的總體表現(xiàn)相關(guān)度也變高了。

我們可以看到橙色部分表示在處理后的新答案上計算的分數(shù)，其與模型原始均分的相關(guān)性更好。

那下一步咋整

快速估算一下，重新對所有模型運行完整評估的成本相當(dāng)高 (全部更新需花 8 個 GPU 年，DROP 占用了其中的很大一部分)。因此，我們對僅重新運行失敗的例子所需要的成本進行了估算。

有 10% 樣本的標準答案是浮點數(shù) (如 12.25 )，且模型輸出以正確答案開頭 (本例中為 12 )，但在 . 處被截斷 - 這種情況如果繼續(xù)生成的話，有可能答案是正確的，因此我們肯定要重新運行！但這 10% 尚不包括以數(shù)字結(jié)尾的句子，這類句子也可能會被不當(dāng)截斷 (在剩下的 90% 中占 40%)，也不包括被規(guī)范化操作搞亂掉的情況。

因此，為了獲得正確的結(jié)果，我們需要重新運行超過 50% 的樣本，這需要大量的 GPU 時！我們需要確保這次要運行的代碼是正確的。

于是，我們與 EleutherAI 團隊通過 GitHub 及內(nèi)部渠道進行了廣泛的討論，他們指導(dǎo)我們理解代碼并幫助我們進行調(diào)查，很明顯，LM Eval Harness 的實現(xiàn)嚴格遵循了“官方 DROP 代碼”的實現(xiàn)，因此這不是 LM Eval Harness 的 bug，而是需要開發(fā) DROP 基準評估的新版本！

因此，我們決定暫時從 Open LLM 排行榜中刪除 DROP，直到新版本出現(xiàn)為止。

從本次調(diào)查中我們學(xué)到的一點是，通過社區(qū)協(xié)作對基準測試進行檢閱，能發(fā)現(xiàn)以前遺漏的錯誤，這一點很有價值。開源、社區(qū)和開放式研發(fā)的力量再次閃耀，有了這些，我們甚至可以透明地調(diào)查一個已經(jīng)存在數(shù)年的基準上的問題并找到根因。

我們希望有興趣的社區(qū)成員與發(fā)明 DROP 評估的學(xué)者聯(lián)手，以解決其在評分及文本規(guī)范化上的問題。我們希望能再次使用它，因為數(shù)據(jù)集本身非常有趣而且很酷。如國你對如何評估 DROP 有任何見解，請不要猶豫，告訴我們。

感謝眾多社區(qū)成員指出 DROP 分數(shù)的問題，也非常感謝 EleutherAI Harness 和 Zeno 團隊在此問題上的大力協(xié)助。

英文原文: https://hf.co/blog/leaderboard-drop-dive

原文作者: Clémentine Fourrier，Alex Cabrera，Stella Biderman，Nathan Habib，Thomas Wolf

譯者: Matrix Yao (姚偉峰)，英特爾深度學(xué)習(xí)工程師，工作方向為 transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。文章來源地址http://www.zghlxwxcb.cn/news/detail-792040.html

到了這里，關(guān)于開放 LLM 排行榜: 深入研究 DROP的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

全球熱門 AI 排行榜出爐！
以下文章來源于無敵信息差?，作者無敵剛剛過去的 2023 年，可以說是 AI 元年。隨著技術(shù)的飛速發(fā)展，AI 行業(yè)在這一年再次迎來了爆炸式的增長。近日，Writerbuddy 研究了? 3000 多個 AI ?的數(shù)據(jù)，出具了一份行業(yè)報告：該報告細致地盤點了全球 50 大熱門 AI 工具。讓無敵來帶
2024年02月22日
瀏覽(22)
unity微信小游戲——排行榜
設(shè)置時記住排行榜唯一標識此處建議使用官方案例的UI進行修改 minigame-unity-webgl-transform: Unity WebGL 微信小游戲適配方案 (gitee.com) DemoRanking這個項目就是 1.新建Canvas 此處要選擇Overlay 否則排行榜會無法拖動此處RankingBox默認狀態(tài)為SetActive(false) bg：排行榜背景也可以把背景讓在
2024年02月02日
瀏覽(23)
排序7-2 奧運排行榜 PTA 數(shù)據(jù)結(jié)構(gòu)
7-2 奧運排行榜分數(shù) 25 全屏瀏覽題目切換布局作者?陳越單位?浙江大學(xué) 每年奧運會各大媒體都會公布一個排行榜，但是細心的讀者發(fā)現(xiàn)，不同國家的排行榜略有不同。比如中國金牌總數(shù)列第一的時候，中國媒體就公布“金牌榜”；而美國的獎牌總數(shù)第一，于是美國媒體就
2024年02月02日
瀏覽(27)
【面試題】微博、百度等大廠的排行榜如何實現(xiàn)？
現(xiàn)如今每個互聯(lián)網(wǎng)平臺都會提供一個排行版的功能，供人們預(yù)覽最新最有熱度的一些消息，比如百度：再比如微博：我們要知道，這些互聯(lián)網(wǎng)平臺每天產(chǎn)生的數(shù)據(jù)是非常大，如果我們使用MySQL的話，db實現(xiàn)小時、天、周、月的排行榜，難度及其大，而且表結(jié)構(gòu)的設(shè)計也非常難
2024年04月10日
瀏覽(26)
Redis 實現(xiàn)用戶積分和積分排行榜微服務(wù)優(yōu)化
在之前的博客中我通過 MySQL數(shù)據(jù)庫實現(xiàn)了積分和積分排行榜功能，在數(shù)據(jù)量大和并發(fā)量高的情況下會有以下缺點： SQL編寫復(fù)雜；數(shù)據(jù)量大，執(zhí)行統(tǒng)計SQL慢；高并發(fā)下會拖累其他業(yè)務(wù)表的操作，導(dǎo)致系統(tǒng)變慢；使用 Sorted Sets 保存用戶的積分總數(shù)，因為 Sorted Sets 有 score 屬性，
2024年02月03日
瀏覽(20)
SRM的主要功能是什么？國內(nèi)SRM主流排行榜
SRM的主要功能是什么？國內(nèi)SRM主流排行榜現(xiàn)在國內(nèi)很多中大型企業(yè)都在用SRM來優(yōu)化企業(yè)采購業(yè)務(wù)，作為SRM行業(yè)從業(yè)者，我今天和大家聊聊主流SRM的功能，以及國內(nèi)做SRM比較好的服務(wù)商，給大家參考。 SRM的主流功能，主要包括以下6點： 1、優(yōu)化供應(yīng)商的管理供應(yīng)商管理是企業(yè)
2024年02月04日
瀏覽(24)
【python】爬取酷狗音樂Top500排行榜【附源碼】
英杰社區(qū) https://bbs.csdn.net/topics/617804998 ??? 這篇博客將介紹如何使用Python編寫一個爬蟲程序，從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請求和接收響應(yīng)，以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報錯 ??????? 進入控
2024年02月05日
瀏覽(29)
微服務(wù)SpringBoot 整合Redis 實現(xiàn)點贊、點贊排行榜
本博文參考黑馬程序員B站 Redis課程系列在點評項目中，有這樣的需求，如何實現(xiàn)筆記的點贊、以及點贊的排行榜功能？使用Redis 的 Set集合、ZSet集合實現(xiàn)點贊功能 Redis 如此強大！如何發(fā)布探店筆記呢，該部分需求為如下：要求可上傳圖片，可輸入標題、內(nèi)容即可發(fā)布按
2024年01月21日
瀏覽(22)
AI寫作軟件哪個好?國內(nèi)AI寫作軟件排行榜前十名
近年來，AI寫作軟件的出現(xiàn)為寫作領(lǐng)域提供更多的便利和資源。這些軟件利用機器學(xué)習(xí)和自然語言處理等技術(shù)，能夠自動生成文章、寫作建議和編輯指導(dǎo)，為寫作者提供了極大的便利。然而，市場上的AI寫作軟件琳瑯滿目，究竟哪些軟件是最好的呢？下面將為大家介紹國內(nèi)AI寫
2024年01月23日
瀏覽(19)
貴金屬實時行情看盤軟件排行榜（top 10）
貴金屬實時行情看盤軟件哪個好，還是得看MT4軟件，MT4是俄羅斯軟件公司MetaQuotes生產(chǎn)的一款以外匯和貴金屬交易為主的軟件，其功能十分全面，目前全球有超過100家貴金屬公司和30個國家的銀行選擇MT4軟件作為網(wǎng)絡(luò)交易平臺。MT4綜合行情圖表、技術(shù)分析、下單交易四大功能于
2024年02月03日
瀏覽(20)