国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

這篇具有很好參考價值的文章主要介紹了(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文地址

https://openreview.net/pdf?id=_VjQlMeSB_J

摘要

????????我們探索如何生成一個思維鏈——一系列中間推理步驟——如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過一種稱為思維鏈提示的簡單方法自然地出現(xiàn)在足夠大的語言模型中,其中提供了一些思維鏈演示作為提示中的示例。
????????對三種大型語言模型的實驗表明,思維鏈提示提高了一系列算術(shù)、常識和符號推理任務(wù)的性能。 實證收益可能是驚人的。 例如,僅使用八個思維鏈范例來提示 PaLM 540B 在數(shù)學(xué)單詞問題的 GSM8K 基準(zhǔn)測試中實現(xiàn)了最先進的準(zhǔn)確性,甚至超過了帶有驗證器的微調(diào) GPT-3。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
圖一:思維鏈提示使大型語言模型能夠處理復(fù)雜的算術(shù)、常識和符號推理任務(wù)。 突出顯示了思維鏈推理過程。

?1 簡介

????????語言模型最近徹底改變了 NLP 領(lǐng)域。 擴大語言模型的規(guī)模已被證明可以帶來一系列好處,例如提高性能和樣本效率。 然而,單靠擴大模型規(guī)模并不足以在算術(shù)、常識和符號推理等具有挑戰(zhàn)性的任務(wù)上實現(xiàn)高性能。

????????這項工作探索了如何釋放大型語言模型的推理能力 通過一種由兩個想法驅(qū)動的簡單方法。 首先,算術(shù)推理技術(shù)可以受益于生成導(dǎo)致最終答案的自然語言基本原理。 除了使用形式語言的神經(jīng)符號方法之外,先前的工作已經(jīng)使模型能夠通過從頭開始訓(xùn)練或微調(diào)預(yù)訓(xùn)練模型來生成自然語言中間步驟 而不是自然語言。 其次,大型語言模型通過提示提供了上下文中的小樣本學(xué)習(xí)的令人興奮的前景。 也就是說,不是為每個新任務(wù)微調(diào)一個單獨的語言模型檢查點,而是可以簡單地用一些演示任務(wù)的輸入輸出范例來“提示”模型。 值得注意的是,這在一系列簡單的問答任務(wù)中取得了成功。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
圖 2:PaLM 540B 使用思維鏈提示在 GSM8K 數(shù)學(xué)單詞問題基準(zhǔn)測試中實現(xiàn)了最新的性能。 Finetuned GPT-3 和之前最好的來自 Cobbe 等人。 (2021)。

?????????然而,上述兩種想法都有關(guān)鍵的局限性。 對于基本原理增強訓(xùn)練和微調(diào)方法,創(chuàng)建大量高質(zhì)量基本原理的成本很高,這比普通機器學(xué)習(xí)中使用的簡單輸入-輸出對復(fù)雜得多。 對于 Brown 等人使用的傳統(tǒng)小樣本提示方法。 (2020),它在需要推理能力的任務(wù)上表現(xiàn)不佳,并且通常不會隨著語言模型規(guī)模的增加而大幅改善 (Rae et al., 2021)。 在本文中,我們以一種避免其局限性的方式結(jié)合了這兩種想法的優(yōu)勢。 具體來說,我們探索了語言模型執(zhí)行推理任務(wù)的小樣本提示的能力,給定一個由三元組組成的提示:?輸入、思維鏈、輸出?。 思維鏈?zhǔn)菍?dǎo)致最終輸出的一系列中間自然語言推理步驟,我們將這種方法稱為思維鏈提示。 圖 1 顯示了一個示例提示。
????????我們對算術(shù)、常識和符號推理基準(zhǔn)進行了實證評估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時甚至達到驚人的程度。 圖 2 說明了這樣一個結(jié)果——在 GSM8K 數(shù)學(xué)單詞問題基準(zhǔn)測試中(Cobbe 等人,2021 年),使用 PaLM 540B 的思維鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并達到了新的最先進水平 表現(xiàn)。 僅提示方法很重要,因為它不需要大型訓(xùn)練數(shù)據(jù)集,而且單個模型檢查點可以執(zhí)行許多任務(wù)而不失一般性。 這項工作強調(diào)了大型語言模型是如何通過一些關(guān)于任務(wù)的自然語言數(shù)據(jù)的例子來學(xué)習(xí)的(參見通過大型訓(xùn)練數(shù)據(jù)集自動學(xué)習(xí)輸入和輸出的模式)。

2 連鎖思維提示

? ? ? ? 在解決復(fù)雜的推理任務(wù)(例如多步數(shù)學(xué)單詞問題)時,請考慮自己的思維過程。 通常將問題分解為中間步驟并在給出最終答案之前解決每個步驟:“在簡給她媽媽 2 朵花后,她有 10 朵花。 . . 然后在她把 3 給她爸爸之后,她會得到 7 。 . . 所以答案是 7?!?本文的目標(biāo)是賦予語言模型生成類似思維鏈的能力——一系列連貫的中間推理步驟,這些步驟會導(dǎo)致問題的最終答案。如果在范例中為小樣本提示提供了思維鏈推理的演示,我們將證明足夠大的語言模型可以生成思維鏈。
????????圖 1 顯示了一個模型的示例,該模型生成了一條思路來解決數(shù)學(xué)單詞問題,否則它會變得不正確。 在這種情況下,思維鏈類似于一個解決方案,可以解釋為一個解決方案,但我們?nèi)匀贿x擇將其稱為思維鏈,以更好地捕捉它模仿逐步思考過程以得出答案的想法(和 此外,解決方案/解釋通常在最終答案之后出現(xiàn)(Narang 等人,2020 年;Wiegreffe 等人,2022 年;Lampinen 等人,2022 年等)。
????????作為一種促進語言模型推理的方法,思維鏈提示具有幾個吸引人的特性。

  1. 首先,思維鏈原則上允許模型將多步問題分解為中間步驟,這意味著可以將額外的計算分配給需要更多推理步驟的問題。
  2. 其次,思維鏈為模型的行為提供了一個可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑錯誤位置的機會(盡管完全表征了支持模型的計算) 答案仍然是一個懸而未決的問題)。
  3. 第三,鏈?zhǔn)剿季S推理可用于數(shù)學(xué)單詞問題、常識推理和符號操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過語言解決的任何任務(wù)。
  4. 最后,只要將思維序列鏈的例子包含到少樣本提示的范例中,就可以很容易地在足夠大的現(xiàn)成語言模型中引出思維鏈推理。

????????在實證實驗中,我們將觀察思維鏈提示在算術(shù)推理(第 3 節(jié))、常識推理(第 4 節(jié))和符號推理(第 5 節(jié))中的效用。

3 算術(shù)推理

????????我們首先考慮圖 1 中形式的數(shù)學(xué)單詞問題,這些問題衡量語言模型的算術(shù)推理能力。 盡管對人類來說很簡單,但算術(shù)推理是語言模型經(jīng)常遇到困難的任務(wù)(Hendrycks 等人,2021 年;Patel 等人,2021 年等)。 引人注目的是,當(dāng)與 540B 參數(shù)語言模型一起使用時,思維鏈提示在多項任務(wù)上的表現(xiàn)與特定于任務(wù)的微調(diào)模型相當(dāng),甚至在具有挑戰(zhàn)性的 GSM8K 基準(zhǔn)測試中達到了最新的技術(shù)水平(Cobbe 等人,2021)。

3.1 實驗裝置

? ? ? ? 我們在多個基準(zhǔn)測試中探索了各種語言模型的思維鏈提示。

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
圖 3:算術(shù)、常識和符號推理基準(zhǔn)的?輸入、思維鏈、輸出?三元組示例。 思想鏈被突出顯示。 附錄 G 中的完整提示。


????????基準(zhǔn)。 我們考慮以下五個數(shù)學(xué)單詞問題基準(zhǔn):(1)GSM8K 數(shù)學(xué)單詞問題基準(zhǔn)(Cobbe 等人,2021),(2)具有不同結(jié)構(gòu)的數(shù)學(xué)單詞問題的 SVAMP 數(shù)據(jù)集(Patel 等人,2021) ,(3)各種數(shù)學(xué)單詞問題的 ASDiv 數(shù)據(jù)集(Miao 等人,2020),(4)代數(shù)單詞問題的 AQuA 數(shù)據(jù)集,以及(5)MAWPS 基準(zhǔn)(Koncel-Kedziorski 等人,2016)。 示例問題在附錄表 12 中給出。
????????標(biāo)準(zhǔn)提示。 對于基線,我們考慮標(biāo)準(zhǔn)的小樣本提示,由 Brown 等人推廣。 (2020),其中語言模型在輸出測試時間示例的預(yù)測之前給出了輸入-輸出對的上下文示例。 范例被格式化為問題和答案。 模型直接給出了答案,如圖1(左)所示。
????????連鎖思維提示。 我們提出的方法是用相關(guān)答案的思維鏈來增強小樣本提示中的每個范例,如圖 1(右)所示。 由于大多數(shù)數(shù)據(jù)集只有一個評估拆分,我們手動組成了一組八個帶有思想鏈的小樣例用于提示——圖 1(右)顯示了一個思想鏈范例,完整的范例集在 附錄表 20。(這些特定范例沒有經(jīng)過提示工程;穩(wěn)健性在第 3.4 節(jié)和附錄 A.2 中進行了研究。)調(diào)查這種形式的思維鏈提示是否可以成功地引發(fā)一系列數(shù)學(xué)單詞的成功推理 問題,我們對除 AQuA 以外的所有基準(zhǔn)測試都使用了這組八個思維鏈范例,AQuA 是多項選擇而不是自由響應(yīng)。 對于 AQuA,我們使用了訓(xùn)練集中的四個樣本和解決方案,如附錄表 21 中所示。
????????語言模型。 我們評估了五種大型語言模型。 第一個是 GPT-3 (Brown et al., 2020),為此我們使用 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002,它們大概對應(yīng)于 InstructGPT 模型 350M、1.3B、6.7B、175B參數(shù)模型(Ouyang et al., 2022)。其次是LaMDA(Thoppilan et al., 2022),有422M、2B、8B、68B、137B參數(shù)模型。 三是PaLM,有8B、62B、540B參數(shù)型號。 第四個是 UL2 20B(Tay 等人,2022),第五個是 Codex(Chen 等人,2021,OpenAI API 中的代碼-davinci-002)。 我們通過貪婪解碼從模型中采樣(盡管后續(xù)工作表明可以通過在許多采樣代中采用多數(shù)最終答案來改進思維鏈提示(Wang 等人,2022a))。 對于 LaMDA,我們報告了五個隨機種子的平均結(jié)果,其中每個種子都有不同的隨機打亂順序的樣本。 由于 LaMDA 實驗沒有顯示不同種子之間的大差異,為了節(jié)省計算,我們報告了所有其他模型的單個示例訂單的結(jié)果。

3.2 結(jié)果

(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
圖 4:思維鏈提示使大型語言模型能夠解決具有挑戰(zhàn)性的數(shù)學(xué)問題。 值得注意的是,鏈?zhǔn)剿季S推理是增加模型規(guī)模的一種新興能力。先前的最佳數(shù)字來自 Cobbe 等人。 (2021) 對于 GSM8K,Jie 等人。 (2022) 用于 SVAMP,以及 Lan 等人。 (2021) 用于 MAWPS。

?
圖 4 總結(jié)了思維鏈提示的最強結(jié)果,附錄中的表 2 顯示了每個模型集合、模型大小和基準(zhǔn)的所有實驗輸出。 有三個關(guān)鍵要點。

? ? ? ? 第一,圖 4 表明,思維鏈提示是模型規(guī)模的一種新興能力(Wei 等人,2022b)。 也就是說,思想鏈提示不會對小型模型的性能產(chǎn)生積極影響,并且只有在與 ~100B 參數(shù)的模型一起使用時才會產(chǎn)生性能提升。 我們定性地發(fā)現(xiàn),較小規(guī)模的模型產(chǎn)生了流暢但不合邏輯的思維鏈,導(dǎo)致性能低于標(biāo)準(zhǔn)提示。?

? ? ? ? 第二,思維鏈提示對于更復(fù)雜的問題有更大的性能提升。 例如,對于 GSM8K(基線性能最低的數(shù)據(jù)集),最大的 GPT 和 PaLM 模型的性能翻了一番以上。 另一方面,對于 SingleOp,MAWPS 中最簡單的子集,只需要一個步驟即可解決,性能改進要么是負面的,要么非常?。▍⒁姼戒洷?3)。
????????第三,通過 GPT-3 175B 和 PaLM 540B 進行的思想鏈提示優(yōu)于現(xiàn)有技術(shù)水平,后者通常會微調(diào)標(biāo)記訓(xùn)練數(shù)據(jù)集上的任務(wù)特定模型。 圖 4 顯示了 PaLM 540B 如何使用思想鏈提示在 GSM8K、SVAMP 和 MAWPS 上實現(xiàn)最新技術(shù)水平(但請注意,標(biāo)準(zhǔn)提示已經(jīng)超過了 SVAMP 的先前最佳水平)。 在另外兩個數(shù)據(jù)集 AQuA 和 ASDiv 上,帶有思想鏈提示的 PaLM 達到了現(xiàn)有技術(shù)水平的 2% 以內(nèi)(附錄表 2)。

????????為了更好地理解為什么要使用思想鏈為了促進工作,我們手動檢查了 LaMDA 137B 為 GSM8K 生成的模型生成的思維鏈。 在模型返回正確最終答案的 50 個隨機示例中,所有生成的思維鏈在邏輯和數(shù)學(xué)上也是正確的,除了兩個巧合地得出了正確的答案(請參閱附錄 D.1 和表 8,了解正確的模型生成的思維鏈?zhǔn)纠?。我們還隨機檢查了模型給出錯誤答案的 50 個隨機樣本。 這一分析的總結(jié)是,46% 的思維鏈幾乎是正確的,除了小錯誤(計算器錯誤、符號映射錯誤或缺少一個推理步驟),另外 54% 的思維鏈有重大錯誤語義理解或連貫性錯誤(參見附錄 D.2)。 為了深入了解為什么縮放可以提高思維鏈推理能力,我們對 PaLM 62B 產(chǎn)生的錯誤進行了類似的分析,以及這些錯誤是否通過縮放到 PaLM 540B 得到修復(fù)。 總結(jié)是將 PaLM 擴展到 540B 修復(fù)了 62B 模型中的大部分單步缺失和語義理解錯誤(參見附錄 A.1)。

3.3 消融研究

?。。待續(xù)文章來源地址http://www.zghlxwxcb.cn/news/detail-474486.html

到了這里,關(guān)于(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】

    思維鏈,是一系列中間推理步驟,可以顯著提高大語言模型執(zhí)行復(fù)雜推理的能力。 思維鏈:一種簡單的提示方法,通過一系列的中間推理步驟,可以大大提高大語言模型執(zhí)行復(fù)雜推理的能力。 下圖為使用標(biāo)準(zhǔn)提示詞和使用思維鏈提示詞的輸出的區(qū)別: 與傳統(tǒng)Prompt的區(qū)別:

    2024年04月23日
    瀏覽(29)
  • 論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models

    本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進行介紹。 大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而,現(xiàn)有的CoT研究主要集中在語言模態(tài)上。

    2024年03月14日
    瀏覽(79)
  • 談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    傳送門:https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md 在過去幾年的探索中,業(yè)界發(fā)現(xiàn)了一個現(xiàn)象,在增大模型參數(shù)量和訓(xùn)練數(shù)據(jù)的同時,在多數(shù)任務(wù)上,模型的表現(xiàn)會越來越好。因而,現(xiàn)有的大模型LLM,最大參數(shù)量已經(jīng)超過了千億。 然而,增大模型參

    2024年02月12日
    瀏覽(22)
  • From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting

    本文是LLM系列的文章,針對《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》的翻譯。 選擇要包含在摘要中的“正確”信息量是一項艱巨的任務(wù)。一個好的總結(jié)應(yīng)該是詳細的、以實體為中心的,而不是過于密集和難以遵循。為了更好地理解這種權(quán)衡,我們尋求越來

    2024年02月07日
    瀏覽(26)
  • 論文閱讀:Meta-Prompting

    論文閱讀:Meta-Prompting

    元提示:任務(wù)-不可知論框架 強化 語言模型 “不可知論”,通常用來描述可以應(yīng)用于多種不同任務(wù)的模型,指模型并非為解決特定任務(wù)而設(shè)計 github.com 摘要: 元提示引導(dǎo) LM 將復(fù)雜的任務(wù)分解為更小、更易于管理的子任務(wù),子任務(wù)由同一 LM 的不同“專家”實例處理,每個實例

    2024年04月12日
    瀏覽(20)
  • [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文地址] [代碼] [CVPR 23] Abstract 我們考慮了檢測圖像中低層次結(jié)構(gòu)的通用問題,其中包括分割被操縱的部分,識別失焦像素,分離陰影區(qū)域,以及檢測隱藏的物體。每個問題通常都有一個特定領(lǐng)域的解決方案,我們表明,一個統(tǒng)一的方法在所有這些問題上都表現(xiàn)良好。我們從

    2024年02月15日
    瀏覽(21)
  • On Evaluation of Embodied Navigation Agents 論文閱讀

    On Evaluation of Embodied Navigation Agents 論文閱讀

    題目 :On Evaluation of Embodied Navigation Agents 作者 :Peter Anderson,Angel Chang 來源 :arXiv 時間 :2018 過去兩年,導(dǎo)航方面的創(chuàng)造性工作激增。這種創(chuàng)造性的輸出產(chǎn)生了大量有時不兼容的任務(wù)定義和評估協(xié)議。為了協(xié)調(diào)該領(lǐng)域正在進行和未來的研究,我們召集了一個工作組來研究導(dǎo)航

    2024年02月14日
    瀏覽(22)
  • 論文閱讀 A Survey of Large Language Models 3

    論文閱讀 A Survey of Large Language Models 3

    為了檢驗LLM的有效性和優(yōu)越性,大量的任務(wù)和基準(zhǔn)被用來進行實證評估和分析。我們首先介紹了LLM語言生成和理解的三種基本評估任務(wù),然后介紹了LLM具有更復(fù)雜設(shè)置或目標(biāo)的幾個高級任務(wù),最后討論了現(xiàn)有的基準(zhǔn)和實證分析。 在這一部分中,我們主要關(guān)注LLM的三種評估任務(wù)

    2024年02月13日
    瀏覽(24)
  • 【論文閱讀】An Overview of Reachability Indexes on Graphs

    【論文閱讀】An Overview of Reachability Indexes on Graphs

    Chao Zhang, Angela Bonifati, and M. Tamer ?zsu. 2023. An Overview of Reachability Indexes on Graphs. In Companion of the 2023 International Conference on Management of Data (SIGMOD \\\'23). Association for Computing Machinery, New York, NY, USA, 61–68. https://doi.org/10.1145/3555041.3589408 圖一直是建模實體和它們之間的關(guān)系的自然選擇。最

    2024年02月03日
    瀏覽(19)
  • On the Spectral Bias of Neural Networks論文閱讀

    On the Spectral Bias of Neural Networks論文閱讀

    眾所周知,過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種表達能力極強的函數(shù),它甚至可以以100%的訓(xùn)練精度記憶隨機數(shù)據(jù)。這就提出了一個問題,為什么他們不能輕易地對真實數(shù)據(jù)進行擬合呢。為了回答這個問題,研究人員使用傅里葉分析來研究深層網(wǎng)絡(luò)。他們證明了具有有限權(quán)值

    2024年02月22日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包