国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

開放 LLM 排行榜: 深入研究 DROP

這篇具有很好參考價值的文章主要介紹了開放 LLM 排行榜: 深入研究 DROP。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

最近,開放 LLM 排行榜 迎來了 3 個新成員: Winogrande、GSM8k 以及 DROP,它們都使用了 EleutherAI Harness 的原始實現(xiàn)。一眼望去,我們就會發(fā)現(xiàn) DROP 的分數(shù)有點古怪: 絕大多數(shù)模型的 F1 分數(shù)都低于 10 分 (滿分 100 分)!我們對此進行了深入調(diào)查以一探究竟,請隨我們一起踏上發(fā)現(xiàn)之旅吧!

初步觀察

在 DROP (Discrete Reasoning Over Paragraphs,段落級離散推理) 評估中,模型需要先從英文文段中提取相關(guān)信息,然后再對其執(zhí)行離散推理 (例如,對目標對象進行排序或計數(shù)以得出正確答案,如下圖中的例子)。其使用的指標是自定義 F1 以及精確匹配分數(shù)。

基于文段的推理示例

三周前,我們將 DROP 添加至開放 LLM 排行榜中,然后我們觀察到預(yù)訓(xùn)練模型的 DROP F1 分數(shù)有個奇怪的趨勢: 當(dāng)我們把排行榜所有原始基準 (ARC、HellaSwag、TruthfulQA 和 MMLU) 的平均分 (我們認為其一定程度上代表了模型的總體性能) 和 DROP 分數(shù)作為兩個軸繪制散點圖時,我們本來希望看到 DROP 分數(shù)與原始均分呈正相關(guān)的關(guān)系 (即原始均值高的模型,DROP 分數(shù)也應(yīng)更高)。然而,事實證明只有少數(shù)模型符合這一預(yù)期,其他大多數(shù)模型的 DROP F1 分數(shù)都非常低,低于 10。

該圖展現(xiàn)了兩類趨勢: 少部分模型 DROP 分數(shù)與原始均分正相關(guān) (對角線那幾個點),大多數(shù)模型則不管原始均分多少,DROP 分數(shù)統(tǒng)一集中在 5 左右 (圖左側(cè)的垂直線)。

文本規(guī)范化的鍋

第一站,我們觀察到文本規(guī)范化的結(jié)果與預(yù)期不符: 在某些情況下,當(dāng)正確的數(shù)字答案后面直接跟有除空格之外的其他空白字符 (如: 換行符) 時,規(guī)范化操作導(dǎo)致即使答案正確也無法匹配。舉個例子,假設(shè)生成的文本是 10\n\nPassage: The 2011 census recorded a population of 1,001,360 ,而對應(yīng)的標準答案為 10 。

測試基準會先對生成文本和標準答案文本都進行文本規(guī)范化,整個過程分為多個步驟:

  1. 按分隔符 (|- ) 分詞
    生成文本的開頭 10\n\nPassage: 并不包含分隔符,因此會被放進同一個詞元 (即第一個詞元) ;
  2. 刪除標點符號
    刪除標點后,第一個詞元會變?yōu)?10\n\nPassage (: 被刪除);
  3. 數(shù)字均質(zhì)化
    每個可以轉(zhuǎn)換為浮點數(shù)的字符串都會被視為數(shù)字并轉(zhuǎn)換為浮點數(shù),然后再重新轉(zhuǎn)回字符串。 10\n\nPassage 保持不變,因為它不能被轉(zhuǎn)換為浮點數(shù),而標準答案的 10 變成了 10.0 。
  4. 其他步驟
    隨后繼續(xù)執(zhí)行其他規(guī)范化步驟 (如刪除冠詞、刪除其他空格等),最終得到的規(guī)范化文本是: 10 passage 2011.0 census recorded population of 1001360.0

最終得分并不是根據(jù)字符串計算而得,而是根據(jù)從字符串中提取的詞袋 (bag of words,BOW) 計算而得。仍用上例,規(guī)范化后的生成文本詞袋為 {'recorded', 'population', 'passage', 'census', '2011.0', ' 1001360.0', '10'} ,而規(guī)范化后的標準答案詞袋為 {10.0} ,兩者求交,正如你所看到的,即使模型生成了正確答案,兩者交集也為 0!

總之,如果一個數(shù)字后面跟著除標準空格字符外的任何其它表示空格的字符,目前的文本規(guī)范化實現(xiàn)就不會對該數(shù)字進行規(guī)范化,因此如果此時標準答案也是一個數(shù)字,那么兩者就永遠無法匹配了!這個問題可能給最終分數(shù)帶來嚴重影響,但顯然這并是導(dǎo)致 DROP 分數(shù)如此低的唯一罪魁禍首。我們決定繼續(xù)調(diào)查。

對結(jié)果進行深入研究

我們在 Zeno 的朋友加入了調(diào)查并對結(jié)果 進行了更深入的探索,他們選擇了 5 個有代表性的模型進行深入分析: falcon-180B 和 mistra-7B 表現(xiàn)低于預(yù)期,Yi-34B 和 Tigerbot-70B 的 DROP 分數(shù)與原始均分正相關(guān),而 facebook/xglm-7.5B 則落在中間。

如果你有興趣的話,也可以試試在 這個 Zeno 項目 上分析一把。

Zeno 團隊發(fā)現(xiàn)了兩件更麻煩的事情:

  1. 如果答案是浮點數(shù),沒有一個模型的結(jié)果是正確的
  2. 擅長生成長答案的高質(zhì)量模型 F1 分數(shù)反而更低

最后,我們認為這兩件事情實際上是同一個根因引起的,即: 使用 . 作為停止詞 (以結(jié)束生成):

  1. 浮點數(shù)答案在生成過程中直接被截斷了 [譯者注: 小數(shù)點被當(dāng)成句號直接中斷輸出了。]
  2. 更高質(zhì)量的模型,為了嘗試匹配少樣本提示格式,其生成會像這樣 Answer\n\nPlausible prompt for the next question. ,而按照當(dāng)前停止詞的設(shè)定,該行為僅會在結(jié)果生成后且遇到第一個 . 停止,因此模型會生成太多多余的單詞從而導(dǎo)致糟糕的 F1 分數(shù)。

我們假設(shè)這兩個問題都可以通過使用 \n 而不是 . 來充當(dāng)停止詞而得到解決。

更改生成停止詞

我們對此進行了初步實驗!我們試驗了在現(xiàn)有的生成文本上使用 \n 作為結(jié)束符。如果生成的答案中有 \n ,我們就在遇到第一個 \n 時截斷文本,并基于截斷文本重新計算分數(shù)。

請注意,這只能近似正確結(jié)果,因為它不會修復(fù)由于 . 而過早截斷的答案 (如浮點數(shù)答案)。但同時,它也不會給任何模型帶來不公平的優(yōu)勢,因為所有模型都受這個問題的影響。因此,這是我們在不重新運行模型的情況下 (因為我們希望盡快向社區(qū)發(fā)布進展) 能做的最好的事情了。

結(jié)果如下。使用 \n 作為停止詞后,DROP 分數(shù)與原始均分的相關(guān)度提高不少,因此模型的 DROP 分數(shù)與模型原始的總體表現(xiàn)相關(guān)度也變高了。

我們可以看到橙色部分表示在處理后的新答案上計算的分數(shù),其與模型原始均分的相關(guān)性更好。

那下一步咋整

快速估算一下,重新對所有模型運行完整評估的成本相當(dāng)高 (全部更新需花 8 個 GPU 年,DROP 占用了其中的很大一部分)。因此,我們對僅重新運行失敗的例子所需要的成本進行了估算。

有 10% 樣本的標準答案是浮點數(shù) (如 12.25 ),且模型輸出以正確答案開頭 (本例中為 12 ),但在 . 處被截斷 - 這種情況如果繼續(xù)生成的話,有可能答案是正確的,因此我們肯定要重新運行!但這 10% 尚不包括以數(shù)字結(jié)尾的句子,這類句子也可能會被不當(dāng)截斷 (在剩下的 90% 中占 40%),也不包括被規(guī)范化操作搞亂掉的情況。

因此,為了獲得正確的結(jié)果,我們需要重新運行超過 50% 的樣本,這需要大量的 GPU 時!我們需要確保這次要運行的代碼是正確的。

于是,我們與 EleutherAI 團隊通過 GitHub 及內(nèi)部渠道進行了廣泛的討論,他們指導(dǎo)我們理解代碼并幫助我們進行調(diào)查,很明顯,LM Eval Harness 的實現(xiàn)嚴格遵循了“官方 DROP 代碼”的實現(xiàn),因此這不是 LM Eval Harness 的 bug,而是需要開發(fā) DROP 基準評估的新版本!

因此,我們決定暫時從 Open LLM 排行榜中刪除 DROP,直到新版本出現(xiàn)為止。

從本次調(diào)查中我們學(xué)到的一點是,通過社區(qū)協(xié)作對基準測試進行檢閱,能發(fā)現(xiàn)以前遺漏的錯誤,這一點很有價值。開源、社區(qū)和開放式研發(fā)的力量再次閃耀,有了這些,我們甚至可以透明地調(diào)查一個已經(jīng)存在數(shù)年的基準上的問題并找到根因。

我們希望有興趣的社區(qū)成員與發(fā)明 DROP 評估的學(xué)者聯(lián)手,以解決其在評分及文本規(guī)范化上的問題。我們希望能再次使用它,因為數(shù)據(jù)集本身非常有趣而且很酷。如國你對如何評估 DROP 有任何見解,請不要猶豫,告訴我們。

感謝眾多社區(qū)成員指出 DROP 分數(shù)的問題,也非常感謝 EleutherAI Harness 和 Zeno 團隊在此問題上的大力協(xié)助。


英文原文: https://hf.co/blog/leaderboard-drop-dive

原文作者: Clémentine Fourrier,Alex Cabrera,Stella Biderman,Nathan Habib,Thomas Wolf

譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向為 transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。文章來源地址http://www.zghlxwxcb.cn/news/detail-792040.html

到了這里,關(guān)于開放 LLM 排行榜: 深入研究 DROP的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 全球熱門 AI 排行榜出爐!

    全球熱門 AI 排行榜出爐!

    以下文章來源于無敵信息差?,作者無敵 剛剛過去的 2023 年,可以說是 AI 元年。 隨著技術(shù)的飛速發(fā)展,AI 行業(yè)在這一年再次迎來了爆炸式的增長。 近日,Writerbuddy 研究了? 3000 多個 AI ?的數(shù)據(jù),出具了一份行業(yè)報告:該報告細致地盤點了 全球 50 大熱門 AI 工具。 讓無敵來帶

    2024年02月22日
    瀏覽(22)
  • unity微信小游戲——排行榜

    unity微信小游戲——排行榜

    設(shè)置時記住排行榜唯一標識 此處建議使用官方案例的UI進行修改 minigame-unity-webgl-transform: Unity WebGL 微信小游戲適配方案 (gitee.com) DemoRanking這個項目就是 1.新建Canvas 此處要選擇Overlay 否則排行榜會無法拖動 此處RankingBox默認狀態(tài)為SetActive(false) bg:排行榜背景 也可以把背景讓在

    2024年02月02日
    瀏覽(23)
  • 排序7-2 奧運排行榜 PTA 數(shù)據(jù)結(jié)構(gòu)

    7-2 奧運排行榜 分數(shù) 25 全屏瀏覽題目 切換布局 作者?陳越 單位?浙江大學(xué) 每年奧運會各大媒體都會公布一個排行榜,但是細心的讀者發(fā)現(xiàn),不同國家的排行榜略有不同。比如中國金牌總數(shù)列第一的時候,中國媒體就公布“金牌榜”;而美國的獎牌總數(shù)第一,于是美國媒體就

    2024年02月02日
    瀏覽(27)
  • 【面試題】微博、百度等大廠的排行榜如何實現(xiàn)?

    【面試題】微博、百度等大廠的排行榜如何實現(xiàn)?

    現(xiàn)如今每個互聯(lián)網(wǎng)平臺都會提供一個排行版的功能,供人們預(yù)覽最新最有熱度的一些消息,比如百度: 再比如微博: 我們要知道,這些互聯(lián)網(wǎng)平臺每天產(chǎn)生的數(shù)據(jù)是非常大,如果我們使用MySQL的話,db實現(xiàn)小時、天、周、月的排行榜,難度及其大,而且表結(jié)構(gòu)的設(shè)計也非常難

    2024年04月10日
    瀏覽(26)
  • Redis 實現(xiàn)用戶積分和積分排行榜微服務(wù)優(yōu)化

    Redis 實現(xiàn)用戶積分和積分排行榜微服務(wù)優(yōu)化

    在之前的博客中我通過 MySQL數(shù)據(jù)庫實現(xiàn)了積分和積分排行榜功能,在數(shù)據(jù)量大和并發(fā)量高的情況下會有以下缺點: SQL編寫復(fù)雜; 數(shù)據(jù)量大,執(zhí)行統(tǒng)計SQL慢; 高并發(fā)下會拖累其他業(yè)務(wù)表的操作,導(dǎo)致系統(tǒng)變慢; 使用 Sorted Sets 保存用戶的積分總數(shù),因為 Sorted Sets 有 score 屬性,

    2024年02月03日
    瀏覽(20)
  • SRM的主要功能是什么?國內(nèi)SRM主流排行榜

    SRM的主要功能是什么?國內(nèi)SRM主流排行榜

    SRM的主要功能是什么?國內(nèi)SRM主流排行榜 現(xiàn)在國內(nèi)很多中大型企業(yè)都在用SRM來優(yōu)化企業(yè)采購業(yè)務(wù),作為SRM行業(yè)從業(yè)者,我今天和大家聊聊主流SRM的功能,以及國內(nèi)做SRM比較好的服務(wù)商,給大家參考。 SRM的主流功能,主要包括以下6點: 1、優(yōu)化供應(yīng)商的管理 供應(yīng)商管理是企業(yè)

    2024年02月04日
    瀏覽(24)
  • 【python】爬取酷狗音樂Top500排行榜【附源碼】

    【python】爬取酷狗音樂Top500排行榜【附源碼】

    英杰社區(qū) https://bbs.csdn.net/topics/617804998 ??? 這篇博客將介紹如何使用Python編寫一個爬蟲程序,從斗魚直播網(wǎng)站上獲取圖片信息并保存到本地。我們將使用 request s 模塊發(fā)送HTTP請求和接收響應(yīng),以及 os 模塊處理文件和目錄操作。 ??????? 如果出現(xiàn)模塊報錯 ??????? 進入控

    2024年02月05日
    瀏覽(29)
  • 微服務(wù)SpringBoot 整合Redis 實現(xiàn)點贊、點贊排行榜

    微服務(wù)SpringBoot 整合Redis 實現(xiàn)點贊、點贊排行榜

    本博文參考 黑馬 程序員B站 Redis課程系列 在點評項目中,有這樣的需求,如何實現(xiàn)筆記的 點贊、以及點贊的排行榜 功能? 使用Redis 的 Set集合、ZSet集合實現(xiàn)點贊功能 Redis 如此強大! 如何發(fā)布探店筆記呢,該部分需求為如下: 要求可上傳圖片,可輸入標題、內(nèi)容即可 發(fā)布按

    2024年01月21日
    瀏覽(22)
  • AI寫作軟件哪個好?國內(nèi)AI寫作軟件排行榜前十名

    AI寫作軟件哪個好?國內(nèi)AI寫作軟件排行榜前十名

    近年來,AI寫作軟件的出現(xiàn)為寫作領(lǐng)域提供更多的便利和資源。這些軟件利用機器學(xué)習(xí)和自然語言處理等技術(shù),能夠自動生成文章、寫作建議和編輯指導(dǎo),為寫作者提供了極大的便利。然而,市場上的AI寫作軟件琳瑯滿目,究竟哪些軟件是最好的呢?下面將為大家介紹國內(nèi)AI寫

    2024年01月23日
    瀏覽(19)
  • 貴金屬實時行情看盤軟件排行榜(top 10)

    貴金屬實時行情看盤軟件排行榜(top 10)

    貴金屬實時行情看盤軟件哪個好,還是得看MT4軟件,MT4是俄羅斯軟件公司MetaQuotes生產(chǎn)的一款以外匯和貴金屬交易為主的軟件,其功能十分全面,目前全球有超過100家貴金屬公司和30個國家的銀行選擇MT4軟件作為網(wǎng)絡(luò)交易平臺。MT4綜合行情圖表、技術(shù)分析、下單交易四大功能于

    2024年02月03日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包