国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

這篇具有很好參考價(jià)值的文章主要介紹了(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文地址

https://openreview.net/pdf?id=_VjQlMeSB_J

摘要

????????我們探索如何生成一個(gè)思維鏈——一系列中間推理步驟——如何顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過(guò)一種稱為思維鏈提示的簡(jiǎn)單方法自然地出現(xiàn)在足夠大的語(yǔ)言模型中,其中提供了一些思維鏈演示作為提示中的示例。
????????對(duì)三種大型語(yǔ)言模型的實(shí)驗(yàn)表明,思維鏈提示提高了一系列算術(shù)、常識(shí)和符號(hào)推理任務(wù)的性能。 實(shí)證收益可能是驚人的。 例如,僅使用八個(gè)思維鏈范例來(lái)提示 PaLM 540B 在數(shù)學(xué)單詞問(wèn)題的 GSM8K 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確性,甚至超過(guò)了帶有驗(yàn)證器的微調(diào) GPT-3。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
圖一:思維鏈提示使大型語(yǔ)言模型能夠處理復(fù)雜的算術(shù)、常識(shí)和符號(hào)推理任務(wù)。 突出顯示了思維鏈推理過(guò)程。

?1 簡(jiǎn)介

????????語(yǔ)言模型最近徹底改變了 NLP 領(lǐng)域。 擴(kuò)大語(yǔ)言模型的規(guī)模已被證明可以帶來(lái)一系列好處,例如提高性能和樣本效率。 然而,單靠擴(kuò)大模型規(guī)模并不足以在算術(shù)、常識(shí)和符號(hào)推理等具有挑戰(zhàn)性的任務(wù)上實(shí)現(xiàn)高性能。

????????這項(xiàng)工作探索了如何釋放大型語(yǔ)言模型的推理能力 通過(guò)一種由兩個(gè)想法驅(qū)動(dòng)的簡(jiǎn)單方法。 首先,算術(shù)推理技術(shù)可以受益于生成導(dǎo)致最終答案的自然語(yǔ)言基本原理。 除了使用形式語(yǔ)言的神經(jīng)符號(hào)方法之外,先前的工作已經(jīng)使模型能夠通過(guò)從頭開(kāi)始訓(xùn)練或微調(diào)預(yù)訓(xùn)練模型來(lái)生成自然語(yǔ)言中間步驟 而不是自然語(yǔ)言。 其次,大型語(yǔ)言模型通過(guò)提示提供了上下文中的小樣本學(xué)習(xí)的令人興奮的前景。 也就是說(shuō),不是為每個(gè)新任務(wù)微調(diào)一個(gè)單獨(dú)的語(yǔ)言模型檢查點(diǎn),而是可以簡(jiǎn)單地用一些演示任務(wù)的輸入輸出范例來(lái)“提示”模型。 值得注意的是,這在一系列簡(jiǎn)單的問(wèn)答任務(wù)中取得了成功。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
圖 2:PaLM 540B 使用思維鏈提示在 GSM8K 數(shù)學(xué)單詞問(wèn)題基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最新的性能。 Finetuned GPT-3 和之前最好的來(lái)自 Cobbe 等人。 (2021)。

?????????然而,上述兩種想法都有關(guān)鍵的局限性。 對(duì)于基本原理增強(qiáng)訓(xùn)練和微調(diào)方法,創(chuàng)建大量高質(zhì)量基本原理的成本很高,這比普通機(jī)器學(xué)習(xí)中使用的簡(jiǎn)單輸入-輸出對(duì)復(fù)雜得多。 對(duì)于 Brown 等人使用的傳統(tǒng)小樣本提示方法。 (2020),它在需要推理能力的任務(wù)上表現(xiàn)不佳,并且通常不會(huì)隨著語(yǔ)言模型規(guī)模的增加而大幅改善 (Rae et al., 2021)。 在本文中,我們以一種避免其局限性的方式結(jié)合了這兩種想法的優(yōu)勢(shì)。 具體來(lái)說(shuō),我們探索了語(yǔ)言模型執(zhí)行推理任務(wù)的小樣本提示的能力,給定一個(gè)由三元組組成的提示:?輸入、思維鏈、輸出?。 思維鏈?zhǔn)菍?dǎo)致最終輸出的一系列中間自然語(yǔ)言推理步驟,我們將這種方法稱為思維鏈提示。 圖 1 顯示了一個(gè)示例提示。
????????我們對(duì)算術(shù)、常識(shí)和符號(hào)推理基準(zhǔn)進(jìn)行了實(shí)證評(píng)估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時(shí)甚至達(dá)到驚人的程度。 圖 2 說(shuō)明了這樣一個(gè)結(jié)果——在 GSM8K 數(shù)學(xué)單詞問(wèn)題基準(zhǔn)測(cè)試中(Cobbe 等人,2021 年),使用 PaLM 540B 的思維鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并達(dá)到了新的最先進(jìn)水平 表現(xiàn)。 僅提示方法很重要,因?yàn)樗恍枰笮陀?xùn)練數(shù)據(jù)集,而且單個(gè)模型檢查點(diǎn)可以執(zhí)行許多任務(wù)而不失一般性。 這項(xiàng)工作強(qiáng)調(diào)了大型語(yǔ)言模型是如何通過(guò)一些關(guān)于任務(wù)的自然語(yǔ)言數(shù)據(jù)的例子來(lái)學(xué)習(xí)的(參見(jiàn)通過(guò)大型訓(xùn)練數(shù)據(jù)集自動(dòng)學(xué)習(xí)輸入和輸出的模式)。

2 連鎖思維提示

? ? ? ? 在解決復(fù)雜的推理任務(wù)(例如多步數(shù)學(xué)單詞問(wèn)題)時(shí),請(qǐng)考慮自己的思維過(guò)程。 通常將問(wèn)題分解為中間步驟并在給出最終答案之前解決每個(gè)步驟:“在簡(jiǎn)給她媽媽 2 朵花后,她有 10 朵花。 . . 然后在她把 3 給她爸爸之后,她會(huì)得到 7 。 . . 所以答案是 7?!?本文的目標(biāo)是賦予語(yǔ)言模型生成類似思維鏈的能力——一系列連貫的中間推理步驟,這些步驟會(huì)導(dǎo)致問(wèn)題的最終答案。如果在范例中為小樣本提示提供了思維鏈推理的演示,我們將證明足夠大的語(yǔ)言模型可以生成思維鏈。
????????圖 1 顯示了一個(gè)模型的示例,該模型生成了一條思路來(lái)解決數(shù)學(xué)單詞問(wèn)題,否則它會(huì)變得不正確。 在這種情況下,思維鏈類似于一個(gè)解決方案,可以解釋為一個(gè)解決方案,但我們?nèi)匀贿x擇將其稱為思維鏈,以更好地捕捉它模仿逐步思考過(guò)程以得出答案的想法(和 此外,解決方案/解釋通常在最終答案之后出現(xiàn)(Narang 等人,2020 年;Wiegreffe 等人,2022 年;Lampinen 等人,2022 年等)。
????????作為一種促進(jìn)語(yǔ)言模型推理的方法,思維鏈提示具有幾個(gè)吸引人的特性。

  1. 首先,思維鏈原則上允許模型將多步問(wèn)題分解為中間步驟,這意味著可以將額外的計(jì)算分配給需要更多推理步驟的問(wèn)題。
  2. 其次,思維鏈為模型的行為提供了一個(gè)可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑錯(cuò)誤位置的機(jī)會(huì)(盡管完全表征了支持模型的計(jì)算) 答案仍然是一個(gè)懸而未決的問(wèn)題)。
  3. 第三,鏈?zhǔn)剿季S推理可用于數(shù)學(xué)單詞問(wèn)題、常識(shí)推理和符號(hào)操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過(guò)語(yǔ)言解決的任何任務(wù)。
  4. 最后,只要將思維序列鏈的例子包含到少樣本提示的范例中,就可以很容易地在足夠大的現(xiàn)成語(yǔ)言模型中引出思維鏈推理。

????????在實(shí)證實(shí)驗(yàn)中,我們將觀察思維鏈提示在算術(shù)推理(第 3 節(jié))、常識(shí)推理(第 4 節(jié))和符號(hào)推理(第 5 節(jié))中的效用。

3 算術(shù)推理

????????我們首先考慮圖 1 中形式的數(shù)學(xué)單詞問(wèn)題,這些問(wèn)題衡量語(yǔ)言模型的算術(shù)推理能力。 盡管對(duì)人類來(lái)說(shuō)很簡(jiǎn)單,但算術(shù)推理是語(yǔ)言模型經(jīng)常遇到困難的任務(wù)(Hendrycks 等人,2021 年;Patel 等人,2021 年等)。 引人注目的是,當(dāng)與 540B 參數(shù)語(yǔ)言模型一起使用時(shí),思維鏈提示在多項(xiàng)任務(wù)上的表現(xiàn)與特定于任務(wù)的微調(diào)模型相當(dāng),甚至在具有挑戰(zhàn)性的 GSM8K 基準(zhǔn)測(cè)試中達(dá)到了最新的技術(shù)水平(Cobbe 等人,2021)。

3.1 實(shí)驗(yàn)裝置

? ? ? ? 我們?cè)诙鄠€(gè)基準(zhǔn)測(cè)試中探索了各種語(yǔ)言模型的思維鏈提示。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
圖 3:算術(shù)、常識(shí)和符號(hào)推理基準(zhǔn)的?輸入、思維鏈、輸出?三元組示例。 思想鏈被突出顯示。 附錄 G 中的完整提示。


????????基準(zhǔn)。 我們考慮以下五個(gè)數(shù)學(xué)單詞問(wèn)題基準(zhǔn):(1)GSM8K 數(shù)學(xué)單詞問(wèn)題基準(zhǔn)(Cobbe 等人,2021),(2)具有不同結(jié)構(gòu)的數(shù)學(xué)單詞問(wèn)題的 SVAMP 數(shù)據(jù)集(Patel 等人,2021) ,(3)各種數(shù)學(xué)單詞問(wèn)題的 ASDiv 數(shù)據(jù)集(Miao 等人,2020),(4)代數(shù)單詞問(wèn)題的 AQuA 數(shù)據(jù)集,以及(5)MAWPS 基準(zhǔn)(Koncel-Kedziorski 等人,2016)。 示例問(wèn)題在附錄表 12 中給出。
????????標(biāo)準(zhǔn)提示。 對(duì)于基線,我們考慮標(biāo)準(zhǔn)的小樣本提示,由 Brown 等人推廣。 (2020),其中語(yǔ)言模型在輸出測(cè)試時(shí)間示例的預(yù)測(cè)之前給出了輸入-輸出對(duì)的上下文示例。 范例被格式化為問(wèn)題和答案。 模型直接給出了答案,如圖1(左)所示。
????????連鎖思維提示。 我們提出的方法是用相關(guān)答案的思維鏈來(lái)增強(qiáng)小樣本提示中的每個(gè)范例,如圖 1(右)所示。 由于大多數(shù)數(shù)據(jù)集只有一個(gè)評(píng)估拆分,我們手動(dòng)組成了一組八個(gè)帶有思想鏈的小樣例用于提示——圖 1(右)顯示了一個(gè)思想鏈范例,完整的范例集在 附錄表 20。(這些特定范例沒(méi)有經(jīng)過(guò)提示工程;穩(wěn)健性在第 3.4 節(jié)和附錄 A.2 中進(jìn)行了研究。)調(diào)查這種形式的思維鏈提示是否可以成功地引發(fā)一系列數(shù)學(xué)單詞的成功推理 問(wèn)題,我們對(duì)除 AQuA 以外的所有基準(zhǔn)測(cè)試都使用了這組八個(gè)思維鏈范例,AQuA 是多項(xiàng)選擇而不是自由響應(yīng)。 對(duì)于 AQuA,我們使用了訓(xùn)練集中的四個(gè)樣本和解決方案,如附錄表 21 中所示。
????????語(yǔ)言模型。 我們?cè)u(píng)估了五種大型語(yǔ)言模型。 第一個(gè)是 GPT-3 (Brown et al., 2020),為此我們使用 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002,它們大概對(duì)應(yīng)于 InstructGPT 模型 350M、1.3B、6.7B、175B參數(shù)模型(Ouyang et al., 2022)。其次是LaMDA(Thoppilan et al., 2022),有422M、2B、8B、68B、137B參數(shù)模型。 三是PaLM,有8B、62B、540B參數(shù)型號(hào)。 第四個(gè)是 UL2 20B(Tay 等人,2022),第五個(gè)是 Codex(Chen 等人,2021,OpenAI API 中的代碼-davinci-002)。 我們通過(guò)貪婪解碼從模型中采樣(盡管后續(xù)工作表明可以通過(guò)在許多采樣代中采用多數(shù)最終答案來(lái)改進(jìn)思維鏈提示(Wang 等人,2022a))。 對(duì)于 LaMDA,我們報(bào)告了五個(gè)隨機(jī)種子的平均結(jié)果,其中每個(gè)種子都有不同的隨機(jī)打亂順序的樣本。 由于 LaMDA 實(shí)驗(yàn)沒(méi)有顯示不同種子之間的大差異,為了節(jié)省計(jì)算,我們報(bào)告了所有其他模型的單個(gè)示例訂單的結(jié)果。

3.2 結(jié)果

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
圖 4:思維鏈提示使大型語(yǔ)言模型能夠解決具有挑戰(zhàn)性的數(shù)學(xué)問(wèn)題。 值得注意的是,鏈?zhǔn)剿季S推理是增加模型規(guī)模的一種新興能力。先前的最佳數(shù)字來(lái)自 Cobbe 等人。 (2021) 對(duì)于 GSM8K,Jie 等人。 (2022) 用于 SVAMP,以及 Lan 等人。 (2021) 用于 MAWPS。

?
圖 4 總結(jié)了思維鏈提示的最強(qiáng)結(jié)果,附錄中的表 2 顯示了每個(gè)模型集合、模型大小和基準(zhǔn)的所有實(shí)驗(yàn)輸出。 有三個(gè)關(guān)鍵要點(diǎn)。

? ? ? ? 第一,圖 4 表明,思維鏈提示是模型規(guī)模的一種新興能力(Wei 等人,2022b)。 也就是說(shuō),思想鏈提示不會(huì)對(duì)小型模型的性能產(chǎn)生積極影響,并且只有在與 ~100B 參數(shù)的模型一起使用時(shí)才會(huì)產(chǎn)生性能提升。 我們定性地發(fā)現(xiàn),較小規(guī)模的模型產(chǎn)生了流暢但不合邏輯的思維鏈,導(dǎo)致性能低于標(biāo)準(zhǔn)提示。?

? ? ? ? 第二,思維鏈提示對(duì)于更復(fù)雜的問(wèn)題有更大的性能提升。 例如,對(duì)于 GSM8K(基線性能最低的數(shù)據(jù)集),最大的 GPT 和 PaLM 模型的性能翻了一番以上。 另一方面,對(duì)于 SingleOp,MAWPS 中最簡(jiǎn)單的子集,只需要一個(gè)步驟即可解決,性能改進(jìn)要么是負(fù)面的,要么非常?。▍⒁?jiàn)附錄表 3)。
????????第三,通過(guò) GPT-3 175B 和 PaLM 540B 進(jìn)行的思想鏈提示優(yōu)于現(xiàn)有技術(shù)水平,后者通常會(huì)微調(diào)標(biāo)記訓(xùn)練數(shù)據(jù)集上的任務(wù)特定模型。 圖 4 顯示了 PaLM 540B 如何使用思想鏈提示在 GSM8K、SVAMP 和 MAWPS 上實(shí)現(xiàn)最新技術(shù)水平(但請(qǐng)注意,標(biāo)準(zhǔn)提示已經(jīng)超過(guò)了 SVAMP 的先前最佳水平)。 在另外兩個(gè)數(shù)據(jù)集 AQuA 和 ASDiv 上,帶有思想鏈提示的 PaLM 達(dá)到了現(xiàn)有技術(shù)水平的 2% 以內(nèi)(附錄表 2)。

????????為了更好地理解為什么要使用思想鏈為了促進(jìn)工作,我們手動(dòng)檢查了 LaMDA 137B 為 GSM8K 生成的模型生成的思維鏈。 在模型返回正確最終答案的 50 個(gè)隨機(jī)示例中,所有生成的思維鏈在邏輯和數(shù)學(xué)上也是正確的,除了兩個(gè)巧合地得出了正確的答案(請(qǐng)參閱附錄 D.1 和表 8,了解正確的模型生成的思維鏈?zhǔn)纠N覀冞€隨機(jī)檢查了模型給出錯(cuò)誤答案的 50 個(gè)隨機(jī)樣本。 這一分析的總結(jié)是,46% 的思維鏈幾乎是正確的,除了小錯(cuò)誤(計(jì)算器錯(cuò)誤、符號(hào)映射錯(cuò)誤或缺少一個(gè)推理步驟),另外 54% 的思維鏈有重大錯(cuò)誤語(yǔ)義理解或連貫性錯(cuò)誤(參見(jiàn)附錄 D.2)。 為了深入了解為什么縮放可以提高思維鏈推理能力,我們對(duì) PaLM 62B 產(chǎn)生的錯(cuò)誤進(jìn)行了類似的分析,以及這些錯(cuò)誤是否通過(guò)縮放到 PaLM 540B 得到修復(fù)。 總結(jié)是將 PaLM 擴(kuò)展到 540B 修復(fù)了 62B 模型中的大部分單步缺失和語(yǔ)義理解錯(cuò)誤(參見(jiàn)附錄 A.1)。

3.3 消融研究

?。。待續(xù)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-470842.html

到了這里,關(guān)于(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    思維鏈,是一系列中間推理步驟,可以顯著提高大語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。 思維鏈:一種簡(jiǎn)單的提示方法,通過(guò)一系列的中間推理步驟,可以大大提高大語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。 下圖為使用標(biāo)準(zhǔn)提示詞和使用思維鏈提示詞的輸出的區(qū)別: 與傳統(tǒng)Prompt的區(qū)別:

    2024年04月23日
    瀏覽(29)
  • 論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要對(duì)2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進(jìn)行介紹。 大型語(yǔ)言模型(LLM)通過(guò)利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語(yǔ)言模態(tài)上。

    2024年03月14日
    瀏覽(78)
  • 談?wù)凬LP中 大語(yǔ)言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    談?wù)凬LP中 大語(yǔ)言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    傳送門:https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md 在過(guò)去幾年的探索中,業(yè)界發(fā)現(xiàn)了一個(gè)現(xiàn)象,在增大模型參數(shù)量和訓(xùn)練數(shù)據(jù)的同時(shí),在多數(shù)任務(wù)上,模型的表現(xiàn)會(huì)越來(lái)越好。因而,現(xiàn)有的大模型LLM,最大參數(shù)量已經(jīng)超過(guò)了千億。 然而,增大模型參

    2024年02月12日
    瀏覽(20)
  • From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting

    本文是LLM系列的文章,針對(duì)《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》的翻譯。 選擇要包含在摘要中的“正確”信息量是一項(xiàng)艱巨的任務(wù)。一個(gè)好的總結(jié)應(yīng)該是詳細(xì)的、以實(shí)體為中心的,而不是過(guò)于密集和難以遵循。為了更好地理解這種權(quán)衡,我們尋求越來(lái)

    2024年02月07日
    瀏覽(26)
  • 論文閱讀:Meta-Prompting

    論文閱讀:Meta-Prompting

    元提示:任務(wù)-不可知論框架 強(qiáng)化 語(yǔ)言模型 “不可知論”,通常用來(lái)描述可以應(yīng)用于多種不同任務(wù)的模型,指模型并非為解決特定任務(wù)而設(shè)計(jì) github.com 摘要: 元提示引導(dǎo) LM 將復(fù)雜的任務(wù)分解為更小、更易于管理的子任務(wù),子任務(wù)由同一 LM 的不同“專家”實(shí)例處理,每個(gè)實(shí)例

    2024年04月12日
    瀏覽(19)
  • [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文地址] [代碼] [CVPR 23] Abstract 我們考慮了檢測(cè)圖像中低層次結(jié)構(gòu)的通用問(wèn)題,其中包括分割被操縱的部分,識(shí)別失焦像素,分離陰影區(qū)域,以及檢測(cè)隱藏的物體。每個(gè)問(wèn)題通常都有一個(gè)特定領(lǐng)域的解決方案,我們表明,一個(gè)統(tǒng)一的方法在所有這些問(wèn)題上都表現(xiàn)良好。我們從

    2024年02月15日
    瀏覽(20)
  • On Evaluation of Embodied Navigation Agents 論文閱讀

    On Evaluation of Embodied Navigation Agents 論文閱讀

    題目 :On Evaluation of Embodied Navigation Agents 作者 :Peter Anderson,Angel Chang 來(lái)源 :arXiv 時(shí)間 :2018 過(guò)去兩年,導(dǎo)航方面的創(chuàng)造性工作激增。這種創(chuàng)造性的輸出產(chǎn)生了大量有時(shí)不兼容的任務(wù)定義和評(píng)估協(xié)議。為了協(xié)調(diào)該領(lǐng)域正在進(jìn)行和未來(lái)的研究,我們召集了一個(gè)工作組來(lái)研究導(dǎo)航

    2024年02月14日
    瀏覽(22)
  • 論文閱讀 A Survey of Large Language Models 3

    論文閱讀 A Survey of Large Language Models 3

    為了檢驗(yàn)LLM的有效性和優(yōu)越性,大量的任務(wù)和基準(zhǔn)被用來(lái)進(jìn)行實(shí)證評(píng)估和分析。我們首先介紹了LLM語(yǔ)言生成和理解的三種基本評(píng)估任務(wù),然后介紹了LLM具有更復(fù)雜設(shè)置或目標(biāo)的幾個(gè)高級(jí)任務(wù),最后討論了現(xiàn)有的基準(zhǔn)和實(shí)證分析。 在這一部分中,我們主要關(guān)注LLM的三種評(píng)估任務(wù)

    2024年02月13日
    瀏覽(24)
  • On the Spectral Bias of Neural Networks論文閱讀

    On the Spectral Bias of Neural Networks論文閱讀

    眾所周知,過(guò)度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種表達(dá)能力極強(qiáng)的函數(shù),它甚至可以以100%的訓(xùn)練精度記憶隨機(jī)數(shù)據(jù)。這就提出了一個(gè)問(wèn)題,為什么他們不能輕易地對(duì)真實(shí)數(shù)據(jù)進(jìn)行擬合呢。為了回答這個(gè)問(wèn)題,研究人員使用傅里葉分析來(lái)研究深層網(wǎng)絡(luò)。他們證明了具有有限權(quán)值

    2024年02月22日
    瀏覽(25)
  • 【論文閱讀】An Overview of Reachability Indexes on Graphs

    【論文閱讀】An Overview of Reachability Indexes on Graphs

    Chao Zhang, Angela Bonifati, and M. Tamer ?zsu. 2023. An Overview of Reachability Indexes on Graphs. In Companion of the 2023 International Conference on Management of Data (SIGMOD \\\'23). Association for Computing Machinery, New York, NY, USA, 61–68. https://doi.org/10.1145/3555041.3589408 圖一直是建模實(shí)體和它們之間的關(guān)系的自然選擇。最

    2024年02月03日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包