論文地址
https://openreview.net/pdf?id=_VjQlMeSB_J
摘要
????????我們探索如何生成一個思維鏈——一系列中間推理步驟——如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過一種稱為思維鏈提示的簡單方法自然地出現(xiàn)在足夠大的語言模型中,其中提供了一些思維鏈演示作為提示中的示例。
????????對三種大型語言模型的實驗表明,思維鏈提示提高了一系列算術(shù)、常識和符號推理任務(wù)的性能。 實證收益可能是驚人的。 例如,僅使用八個思維鏈范例來提示 PaLM 540B 在數(shù)學(xué)單詞問題的 GSM8K 基準(zhǔn)測試中實現(xiàn)了最先進的準(zhǔn)確性,甚至超過了帶有驗證器的微調(diào) GPT-3。

?1 簡介
????????語言模型最近徹底改變了 NLP 領(lǐng)域。 擴大語言模型的規(guī)模已被證明可以帶來一系列好處,例如提高性能和樣本效率。 然而,單靠擴大模型規(guī)模并不足以在算術(shù)、常識和符號推理等具有挑戰(zhàn)性的任務(wù)上實現(xiàn)高性能。
????????這項工作探索了如何釋放大型語言模型的推理能力 通過一種由兩個想法驅(qū)動的簡單方法。 首先,算術(shù)推理技術(shù)可以受益于生成導(dǎo)致最終答案的自然語言基本原理。 除了使用形式語言的神經(jīng)符號方法之外,先前的工作已經(jīng)使模型能夠通過從頭開始訓(xùn)練或微調(diào)預(yù)訓(xùn)練模型來生成自然語言中間步驟 而不是自然語言。 其次,大型語言模型通過提示提供了上下文中的小樣本學(xué)習(xí)的令人興奮的前景。 也就是說,不是為每個新任務(wù)微調(diào)一個單獨的語言模型檢查點,而是可以簡單地用一些演示任務(wù)的輸入輸出范例來“提示”模型。 值得注意的是,這在一系列簡單的問答任務(wù)中取得了成功。

?????????然而,上述兩種想法都有關(guān)鍵的局限性。 對于基本原理增強訓(xùn)練和微調(diào)方法,創(chuàng)建大量高質(zhì)量基本原理的成本很高,這比普通機器學(xué)習(xí)中使用的簡單輸入-輸出對復(fù)雜得多。 對于 Brown 等人使用的傳統(tǒng)小樣本提示方法。 (2020),它在需要推理能力的任務(wù)上表現(xiàn)不佳,并且通常不會隨著語言模型規(guī)模的增加而大幅改善 (Rae et al., 2021)。 在本文中,我們以一種避免其局限性的方式結(jié)合了這兩種想法的優(yōu)勢。 具體來說,我們探索了語言模型執(zhí)行推理任務(wù)的小樣本提示的能力,給定一個由三元組組成的提示:?輸入、思維鏈、輸出?。 思維鏈?zhǔn)菍?dǎo)致最終輸出的一系列中間自然語言推理步驟,我們將這種方法稱為思維鏈提示。 圖 1 顯示了一個示例提示。
????????我們對算術(shù)、常識和符號推理基準(zhǔn)進行了實證評估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時甚至達到驚人的程度。 圖 2 說明了這樣一個結(jié)果——在 GSM8K 數(shù)學(xué)單詞問題基準(zhǔn)測試中(Cobbe 等人,2021 年),使用 PaLM 540B 的思維鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并達到了新的最先進水平 表現(xiàn)。 僅提示方法很重要,因為它不需要大型訓(xùn)練數(shù)據(jù)集,而且單個模型檢查點可以執(zhí)行許多任務(wù)而不失一般性。 這項工作強調(diào)了大型語言模型是如何通過一些關(guān)于任務(wù)的自然語言數(shù)據(jù)的例子來學(xué)習(xí)的(參見通過大型訓(xùn)練數(shù)據(jù)集自動學(xué)習(xí)輸入和輸出的模式)。
2 連鎖思維提示
? ? ? ? 在解決復(fù)雜的推理任務(wù)(例如多步數(shù)學(xué)單詞問題)時,請考慮自己的思維過程。 通常將問題分解為中間步驟并在給出最終答案之前解決每個步驟:“在簡給她媽媽 2 朵花后,她有 10 朵花。 . . 然后在她把 3 給她爸爸之后,她會得到 7 。 . . 所以答案是 7?!?本文的目標(biāo)是賦予語言模型生成類似思維鏈的能力——一系列連貫的中間推理步驟,這些步驟會導(dǎo)致問題的最終答案。如果在范例中為小樣本提示提供了思維鏈推理的演示,我們將證明足夠大的語言模型可以生成思維鏈。
????????圖 1 顯示了一個模型的示例,該模型生成了一條思路來解決數(shù)學(xué)單詞問題,否則它會變得不正確。 在這種情況下,思維鏈類似于一個解決方案,可以解釋為一個解決方案,但我們?nèi)匀贿x擇將其稱為思維鏈,以更好地捕捉它模仿逐步思考過程以得出答案的想法(和 此外,解決方案/解釋通常在最終答案之后出現(xiàn)(Narang 等人,2020 年;Wiegreffe 等人,2022 年;Lampinen 等人,2022 年等)。
????????作為一種促進語言模型推理的方法,思維鏈提示具有幾個吸引人的特性。
- 首先,思維鏈原則上允許模型將多步問題分解為中間步驟,這意味著可以將額外的計算分配給需要更多推理步驟的問題。
- 其次,思維鏈為模型的行為提供了一個可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑錯誤位置的機會(盡管完全表征了支持模型的計算) 答案仍然是一個懸而未決的問題)。
- 第三,鏈?zhǔn)剿季S推理可用于數(shù)學(xué)單詞問題、常識推理和符號操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過語言解決的任何任務(wù)。
- 最后,只要將思維序列鏈的例子包含到少樣本提示的范例中,就可以很容易地在足夠大的現(xiàn)成語言模型中引出思維鏈推理。
????????在實證實驗中,我們將觀察思維鏈提示在算術(shù)推理(第 3 節(jié))、常識推理(第 4 節(jié))和符號推理(第 5 節(jié))中的效用。
3 算術(shù)推理
????????我們首先考慮圖 1 中形式的數(shù)學(xué)單詞問題,這些問題衡量語言模型的算術(shù)推理能力。 盡管對人類來說很簡單,但算術(shù)推理是語言模型經(jīng)常遇到困難的任務(wù)(Hendrycks 等人,2021 年;Patel 等人,2021 年等)。 引人注目的是,當(dāng)與 540B 參數(shù)語言模型一起使用時,思維鏈提示在多項任務(wù)上的表現(xiàn)與特定于任務(wù)的微調(diào)模型相當(dāng),甚至在具有挑戰(zhàn)性的 GSM8K 基準(zhǔn)測試中達到了最新的技術(shù)水平(Cobbe 等人,2021)。
3.1 實驗裝置
? ? ? ? 我們在多個基準(zhǔn)測試中探索了各種語言模型的思維鏈提示。

????????基準(zhǔn)。 我們考慮以下五個數(shù)學(xué)單詞問題基準(zhǔn):(1)GSM8K 數(shù)學(xué)單詞問題基準(zhǔn)(Cobbe 等人,2021),(2)具有不同結(jié)構(gòu)的數(shù)學(xué)單詞問題的 SVAMP 數(shù)據(jù)集(Patel 等人,2021) ,(3)各種數(shù)學(xué)單詞問題的 ASDiv 數(shù)據(jù)集(Miao 等人,2020),(4)代數(shù)單詞問題的 AQuA 數(shù)據(jù)集,以及(5)MAWPS 基準(zhǔn)(Koncel-Kedziorski 等人,2016)。 示例問題在附錄表 12 中給出。
????????標(biāo)準(zhǔn)提示。 對于基線,我們考慮標(biāo)準(zhǔn)的小樣本提示,由 Brown 等人推廣。 (2020),其中語言模型在輸出測試時間示例的預(yù)測之前給出了輸入-輸出對的上下文示例。 范例被格式化為問題和答案。 模型直接給出了答案,如圖1(左)所示。
????????連鎖思維提示。 我們提出的方法是用相關(guān)答案的思維鏈來增強小樣本提示中的每個范例,如圖 1(右)所示。 由于大多數(shù)數(shù)據(jù)集只有一個評估拆分,我們手動組成了一組八個帶有思想鏈的小樣例用于提示——圖 1(右)顯示了一個思想鏈范例,完整的范例集在 附錄表 20。(這些特定范例沒有經(jīng)過提示工程;穩(wěn)健性在第 3.4 節(jié)和附錄 A.2 中進行了研究。)調(diào)查這種形式的思維鏈提示是否可以成功地引發(fā)一系列數(shù)學(xué)單詞的成功推理 問題,我們對除 AQuA 以外的所有基準(zhǔn)測試都使用了這組八個思維鏈范例,AQuA 是多項選擇而不是自由響應(yīng)。 對于 AQuA,我們使用了訓(xùn)練集中的四個樣本和解決方案,如附錄表 21 中所示。
????????語言模型。 我們評估了五種大型語言模型。 第一個是 GPT-3 (Brown et al., 2020),為此我們使用 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002,它們大概對應(yīng)于 InstructGPT 模型 350M、1.3B、6.7B、175B參數(shù)模型(Ouyang et al., 2022)。其次是LaMDA(Thoppilan et al., 2022),有422M、2B、8B、68B、137B參數(shù)模型。 三是PaLM,有8B、62B、540B參數(shù)型號。 第四個是 UL2 20B(Tay 等人,2022),第五個是 Codex(Chen 等人,2021,OpenAI API 中的代碼-davinci-002)。 我們通過貪婪解碼從模型中采樣(盡管后續(xù)工作表明可以通過在許多采樣代中采用多數(shù)最終答案來改進思維鏈提示(Wang 等人,2022a))。 對于 LaMDA,我們報告了五個隨機種子的平均結(jié)果,其中每個種子都有不同的隨機打亂順序的樣本。 由于 LaMDA 實驗沒有顯示不同種子之間的大差異,為了節(jié)省計算,我們報告了所有其他模型的單個示例訂單的結(jié)果。
3.2 結(jié)果

?
圖 4 總結(jié)了思維鏈提示的最強結(jié)果,附錄中的表 2 顯示了每個模型集合、模型大小和基準(zhǔn)的所有實驗輸出。 有三個關(guān)鍵要點。
? ? ? ? 第一,圖 4 表明,思維鏈提示是模型規(guī)模的一種新興能力(Wei 等人,2022b)。 也就是說,思想鏈提示不會對小型模型的性能產(chǎn)生積極影響,并且只有在與 ~100B 參數(shù)的模型一起使用時才會產(chǎn)生性能提升。 我們定性地發(fā)現(xiàn),較小規(guī)模的模型產(chǎn)生了流暢但不合邏輯的思維鏈,導(dǎo)致性能低于標(biāo)準(zhǔn)提示。?
? ? ? ? 第二,思維鏈提示對于更復(fù)雜的問題有更大的性能提升。 例如,對于 GSM8K(基線性能最低的數(shù)據(jù)集),最大的 GPT 和 PaLM 模型的性能翻了一番以上。 另一方面,對于 SingleOp,MAWPS 中最簡單的子集,只需要一個步驟即可解決,性能改進要么是負面的,要么非常?。▍⒁姼戒洷?3)。
????????第三,通過 GPT-3 175B 和 PaLM 540B 進行的思想鏈提示優(yōu)于現(xiàn)有技術(shù)水平,后者通常會微調(diào)標(biāo)記訓(xùn)練數(shù)據(jù)集上的任務(wù)特定模型。 圖 4 顯示了 PaLM 540B 如何使用思想鏈提示在 GSM8K、SVAMP 和 MAWPS 上實現(xiàn)最新技術(shù)水平(但請注意,標(biāo)準(zhǔn)提示已經(jīng)超過了 SVAMP 的先前最佳水平)。 在另外兩個數(shù)據(jù)集 AQuA 和 ASDiv 上,帶有思想鏈提示的 PaLM 達到了現(xiàn)有技術(shù)水平的 2% 以內(nèi)(附錄表 2)。
????????為了更好地理解為什么要使用思想鏈為了促進工作,我們手動檢查了 LaMDA 137B 為 GSM8K 生成的模型生成的思維鏈。 在模型返回正確最終答案的 50 個隨機示例中,所有生成的思維鏈在邏輯和數(shù)學(xué)上也是正確的,除了兩個巧合地得出了正確的答案(請參閱附錄 D.1 和表 8,了解正確的模型生成的思維鏈?zhǔn)纠?。我們還隨機檢查了模型給出錯誤答案的 50 個隨機樣本。 這一分析的總結(jié)是,46% 的思維鏈幾乎是正確的,除了小錯誤(計算器錯誤、符號映射錯誤或缺少一個推理步驟),另外 54% 的思維鏈有重大錯誤語義理解或連貫性錯誤(參見附錄 D.2)。 為了深入了解為什么縮放可以提高思維鏈推理能力,我們對 PaLM 62B 產(chǎn)生的錯誤進行了類似的分析,以及這些錯誤是否通過縮放到 PaLM 540B 得到修復(fù)。 總結(jié)是將 PaLM 擴展到 540B 修復(fù)了 62B 模型中的大部分單步缺失和語義理解錯誤(參見附錄 A.1)。
3.3 消融研究文章來源:http://www.zghlxwxcb.cn/news/detail-474486.html
?。。待續(xù)文章來源地址http://www.zghlxwxcb.cn/news/detail-474486.html
到了這里,關(guān)于(論文閱讀)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!