論文地址
https://openreview.net/pdf?id=_VjQlMeSB_J
摘要
????????我們探索如何生成一個(gè)思維鏈——一系列中間推理步驟——如何顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。 特別是,我們展示了這種推理能力如何通過(guò)一種稱為思維鏈提示的簡(jiǎn)單方法自然地出現(xiàn)在足夠大的語(yǔ)言模型中,其中提供了一些思維鏈演示作為提示中的示例。
????????對(duì)三種大型語(yǔ)言模型的實(shí)驗(yàn)表明,思維鏈提示提高了一系列算術(shù)、常識(shí)和符號(hào)推理任務(wù)的性能。 實(shí)證收益可能是驚人的。 例如,僅使用八個(gè)思維鏈范例來(lái)提示 PaLM 540B 在數(shù)學(xué)單詞問(wèn)題的 GSM8K 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確性,甚至超過(guò)了帶有驗(yàn)證器的微調(diào) GPT-3。

?1 簡(jiǎn)介
????????語(yǔ)言模型最近徹底改變了 NLP 領(lǐng)域。 擴(kuò)大語(yǔ)言模型的規(guī)模已被證明可以帶來(lái)一系列好處,例如提高性能和樣本效率。 然而,單靠擴(kuò)大模型規(guī)模并不足以在算術(shù)、常識(shí)和符號(hào)推理等具有挑戰(zhàn)性的任務(wù)上實(shí)現(xiàn)高性能。
????????這項(xiàng)工作探索了如何釋放大型語(yǔ)言模型的推理能力 通過(guò)一種由兩個(gè)想法驅(qū)動(dòng)的簡(jiǎn)單方法。 首先,算術(shù)推理技術(shù)可以受益于生成導(dǎo)致最終答案的自然語(yǔ)言基本原理。 除了使用形式語(yǔ)言的神經(jīng)符號(hào)方法之外,先前的工作已經(jīng)使模型能夠通過(guò)從頭開(kāi)始訓(xùn)練或微調(diào)預(yù)訓(xùn)練模型來(lái)生成自然語(yǔ)言中間步驟 而不是自然語(yǔ)言。 其次,大型語(yǔ)言模型通過(guò)提示提供了上下文中的小樣本學(xué)習(xí)的令人興奮的前景。 也就是說(shuō),不是為每個(gè)新任務(wù)微調(diào)一個(gè)單獨(dú)的語(yǔ)言模型檢查點(diǎn),而是可以簡(jiǎn)單地用一些演示任務(wù)的輸入輸出范例來(lái)“提示”模型。 值得注意的是,這在一系列簡(jiǎn)單的問(wèn)答任務(wù)中取得了成功。

?????????然而,上述兩種想法都有關(guān)鍵的局限性。 對(duì)于基本原理增強(qiáng)訓(xùn)練和微調(diào)方法,創(chuàng)建大量高質(zhì)量基本原理的成本很高,這比普通機(jī)器學(xué)習(xí)中使用的簡(jiǎn)單輸入-輸出對(duì)復(fù)雜得多。 對(duì)于 Brown 等人使用的傳統(tǒng)小樣本提示方法。 (2020),它在需要推理能力的任務(wù)上表現(xiàn)不佳,并且通常不會(huì)隨著語(yǔ)言模型規(guī)模的增加而大幅改善 (Rae et al., 2021)。 在本文中,我們以一種避免其局限性的方式結(jié)合了這兩種想法的優(yōu)勢(shì)。 具體來(lái)說(shuō),我們探索了語(yǔ)言模型執(zhí)行推理任務(wù)的小樣本提示的能力,給定一個(gè)由三元組組成的提示:?輸入、思維鏈、輸出?。 思維鏈?zhǔn)菍?dǎo)致最終輸出的一系列中間自然語(yǔ)言推理步驟,我們將這種方法稱為思維鏈提示。 圖 1 顯示了一個(gè)示例提示。
????????我們對(duì)算術(shù)、常識(shí)和符號(hào)推理基準(zhǔn)進(jìn)行了實(shí)證評(píng)估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時(shí)甚至達(dá)到驚人的程度。 圖 2 說(shuō)明了這樣一個(gè)結(jié)果——在 GSM8K 數(shù)學(xué)單詞問(wèn)題基準(zhǔn)測(cè)試中(Cobbe 等人,2021 年),使用 PaLM 540B 的思維鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并達(dá)到了新的最先進(jìn)水平 表現(xiàn)。 僅提示方法很重要,因?yàn)樗恍枰笮陀?xùn)練數(shù)據(jù)集,而且單個(gè)模型檢查點(diǎn)可以執(zhí)行許多任務(wù)而不失一般性。 這項(xiàng)工作強(qiáng)調(diào)了大型語(yǔ)言模型是如何通過(guò)一些關(guān)于任務(wù)的自然語(yǔ)言數(shù)據(jù)的例子來(lái)學(xué)習(xí)的(參見(jiàn)通過(guò)大型訓(xùn)練數(shù)據(jù)集自動(dòng)學(xué)習(xí)輸入和輸出的模式)。
2 連鎖思維提示
? ? ? ? 在解決復(fù)雜的推理任務(wù)(例如多步數(shù)學(xué)單詞問(wèn)題)時(shí),請(qǐng)考慮自己的思維過(guò)程。 通常將問(wèn)題分解為中間步驟并在給出最終答案之前解決每個(gè)步驟:“在簡(jiǎn)給她媽媽 2 朵花后,她有 10 朵花。 . . 然后在她把 3 給她爸爸之后,她會(huì)得到 7 。 . . 所以答案是 7?!?本文的目標(biāo)是賦予語(yǔ)言模型生成類似思維鏈的能力——一系列連貫的中間推理步驟,這些步驟會(huì)導(dǎo)致問(wèn)題的最終答案。如果在范例中為小樣本提示提供了思維鏈推理的演示,我們將證明足夠大的語(yǔ)言模型可以生成思維鏈。
????????圖 1 顯示了一個(gè)模型的示例,該模型生成了一條思路來(lái)解決數(shù)學(xué)單詞問(wèn)題,否則它會(huì)變得不正確。 在這種情況下,思維鏈類似于一個(gè)解決方案,可以解釋為一個(gè)解決方案,但我們?nèi)匀贿x擇將其稱為思維鏈,以更好地捕捉它模仿逐步思考過(guò)程以得出答案的想法(和 此外,解決方案/解釋通常在最終答案之后出現(xiàn)(Narang 等人,2020 年;Wiegreffe 等人,2022 年;Lampinen 等人,2022 年等)。
????????作為一種促進(jìn)語(yǔ)言模型推理的方法,思維鏈提示具有幾個(gè)吸引人的特性。
- 首先,思維鏈原則上允許模型將多步問(wèn)題分解為中間步驟,這意味著可以將額外的計(jì)算分配給需要更多推理步驟的問(wèn)題。
- 其次,思維鏈為模型的行為提供了一個(gè)可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑錯(cuò)誤位置的機(jī)會(huì)(盡管完全表征了支持模型的計(jì)算) 答案仍然是一個(gè)懸而未決的問(wèn)題)。
- 第三,鏈?zhǔn)剿季S推理可用于數(shù)學(xué)單詞問(wèn)題、常識(shí)推理和符號(hào)操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過(guò)語(yǔ)言解決的任何任務(wù)。
- 最后,只要將思維序列鏈的例子包含到少樣本提示的范例中,就可以很容易地在足夠大的現(xiàn)成語(yǔ)言模型中引出思維鏈推理。
????????在實(shí)證實(shí)驗(yàn)中,我們將觀察思維鏈提示在算術(shù)推理(第 3 節(jié))、常識(shí)推理(第 4 節(jié))和符號(hào)推理(第 5 節(jié))中的效用。
3 算術(shù)推理
????????我們首先考慮圖 1 中形式的數(shù)學(xué)單詞問(wèn)題,這些問(wèn)題衡量語(yǔ)言模型的算術(shù)推理能力。 盡管對(duì)人類來(lái)說(shuō)很簡(jiǎn)單,但算術(shù)推理是語(yǔ)言模型經(jīng)常遇到困難的任務(wù)(Hendrycks 等人,2021 年;Patel 等人,2021 年等)。 引人注目的是,當(dāng)與 540B 參數(shù)語(yǔ)言模型一起使用時(shí),思維鏈提示在多項(xiàng)任務(wù)上的表現(xiàn)與特定于任務(wù)的微調(diào)模型相當(dāng),甚至在具有挑戰(zhàn)性的 GSM8K 基準(zhǔn)測(cè)試中達(dá)到了最新的技術(shù)水平(Cobbe 等人,2021)。
3.1 實(shí)驗(yàn)裝置
? ? ? ? 我們?cè)诙鄠€(gè)基準(zhǔn)測(cè)試中探索了各種語(yǔ)言模型的思維鏈提示。

????????基準(zhǔn)。 我們考慮以下五個(gè)數(shù)學(xué)單詞問(wèn)題基準(zhǔn):(1)GSM8K 數(shù)學(xué)單詞問(wèn)題基準(zhǔn)(Cobbe 等人,2021),(2)具有不同結(jié)構(gòu)的數(shù)學(xué)單詞問(wèn)題的 SVAMP 數(shù)據(jù)集(Patel 等人,2021) ,(3)各種數(shù)學(xué)單詞問(wèn)題的 ASDiv 數(shù)據(jù)集(Miao 等人,2020),(4)代數(shù)單詞問(wèn)題的 AQuA 數(shù)據(jù)集,以及(5)MAWPS 基準(zhǔn)(Koncel-Kedziorski 等人,2016)。 示例問(wèn)題在附錄表 12 中給出。
????????標(biāo)準(zhǔn)提示。 對(duì)于基線,我們考慮標(biāo)準(zhǔn)的小樣本提示,由 Brown 等人推廣。 (2020),其中語(yǔ)言模型在輸出測(cè)試時(shí)間示例的預(yù)測(cè)之前給出了輸入-輸出對(duì)的上下文示例。 范例被格式化為問(wèn)題和答案。 模型直接給出了答案,如圖1(左)所示。
????????連鎖思維提示。 我們提出的方法是用相關(guān)答案的思維鏈來(lái)增強(qiáng)小樣本提示中的每個(gè)范例,如圖 1(右)所示。 由于大多數(shù)數(shù)據(jù)集只有一個(gè)評(píng)估拆分,我們手動(dòng)組成了一組八個(gè)帶有思想鏈的小樣例用于提示——圖 1(右)顯示了一個(gè)思想鏈范例,完整的范例集在 附錄表 20。(這些特定范例沒(méi)有經(jīng)過(guò)提示工程;穩(wěn)健性在第 3.4 節(jié)和附錄 A.2 中進(jìn)行了研究。)調(diào)查這種形式的思維鏈提示是否可以成功地引發(fā)一系列數(shù)學(xué)單詞的成功推理 問(wèn)題,我們對(duì)除 AQuA 以外的所有基準(zhǔn)測(cè)試都使用了這組八個(gè)思維鏈范例,AQuA 是多項(xiàng)選擇而不是自由響應(yīng)。 對(duì)于 AQuA,我們使用了訓(xùn)練集中的四個(gè)樣本和解決方案,如附錄表 21 中所示。
????????語(yǔ)言模型。 我們?cè)u(píng)估了五種大型語(yǔ)言模型。 第一個(gè)是 GPT-3 (Brown et al., 2020),為此我們使用 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002,它們大概對(duì)應(yīng)于 InstructGPT 模型 350M、1.3B、6.7B、175B參數(shù)模型(Ouyang et al., 2022)。其次是LaMDA(Thoppilan et al., 2022),有422M、2B、8B、68B、137B參數(shù)模型。 三是PaLM,有8B、62B、540B參數(shù)型號(hào)。 第四個(gè)是 UL2 20B(Tay 等人,2022),第五個(gè)是 Codex(Chen 等人,2021,OpenAI API 中的代碼-davinci-002)。 我們通過(guò)貪婪解碼從模型中采樣(盡管后續(xù)工作表明可以通過(guò)在許多采樣代中采用多數(shù)最終答案來(lái)改進(jìn)思維鏈提示(Wang 等人,2022a))。 對(duì)于 LaMDA,我們報(bào)告了五個(gè)隨機(jī)種子的平均結(jié)果,其中每個(gè)種子都有不同的隨機(jī)打亂順序的樣本。 由于 LaMDA 實(shí)驗(yàn)沒(méi)有顯示不同種子之間的大差異,為了節(jié)省計(jì)算,我們報(bào)告了所有其他模型的單個(gè)示例訂單的結(jié)果。
3.2 結(jié)果

?
圖 4 總結(jié)了思維鏈提示的最強(qiáng)結(jié)果,附錄中的表 2 顯示了每個(gè)模型集合、模型大小和基準(zhǔn)的所有實(shí)驗(yàn)輸出。 有三個(gè)關(guān)鍵要點(diǎn)。
? ? ? ? 第一,圖 4 表明,思維鏈提示是模型規(guī)模的一種新興能力(Wei 等人,2022b)。 也就是說(shuō),思想鏈提示不會(huì)對(duì)小型模型的性能產(chǎn)生積極影響,并且只有在與 ~100B 參數(shù)的模型一起使用時(shí)才會(huì)產(chǎn)生性能提升。 我們定性地發(fā)現(xiàn),較小規(guī)模的模型產(chǎn)生了流暢但不合邏輯的思維鏈,導(dǎo)致性能低于標(biāo)準(zhǔn)提示。?
? ? ? ? 第二,思維鏈提示對(duì)于更復(fù)雜的問(wèn)題有更大的性能提升。 例如,對(duì)于 GSM8K(基線性能最低的數(shù)據(jù)集),最大的 GPT 和 PaLM 模型的性能翻了一番以上。 另一方面,對(duì)于 SingleOp,MAWPS 中最簡(jiǎn)單的子集,只需要一個(gè)步驟即可解決,性能改進(jìn)要么是負(fù)面的,要么非常?。▍⒁?jiàn)附錄表 3)。
????????第三,通過(guò) GPT-3 175B 和 PaLM 540B 進(jìn)行的思想鏈提示優(yōu)于現(xiàn)有技術(shù)水平,后者通常會(huì)微調(diào)標(biāo)記訓(xùn)練數(shù)據(jù)集上的任務(wù)特定模型。 圖 4 顯示了 PaLM 540B 如何使用思想鏈提示在 GSM8K、SVAMP 和 MAWPS 上實(shí)現(xiàn)最新技術(shù)水平(但請(qǐng)注意,標(biāo)準(zhǔn)提示已經(jīng)超過(guò)了 SVAMP 的先前最佳水平)。 在另外兩個(gè)數(shù)據(jù)集 AQuA 和 ASDiv 上,帶有思想鏈提示的 PaLM 達(dá)到了現(xiàn)有技術(shù)水平的 2% 以內(nèi)(附錄表 2)。
????????為了更好地理解為什么要使用思想鏈為了促進(jìn)工作,我們手動(dòng)檢查了 LaMDA 137B 為 GSM8K 生成的模型生成的思維鏈。 在模型返回正確最終答案的 50 個(gè)隨機(jī)示例中,所有生成的思維鏈在邏輯和數(shù)學(xué)上也是正確的,除了兩個(gè)巧合地得出了正確的答案(請(qǐng)參閱附錄 D.1 和表 8,了解正確的模型生成的思維鏈?zhǔn)纠N覀冞€隨機(jī)檢查了模型給出錯(cuò)誤答案的 50 個(gè)隨機(jī)樣本。 這一分析的總結(jié)是,46% 的思維鏈幾乎是正確的,除了小錯(cuò)誤(計(jì)算器錯(cuò)誤、符號(hào)映射錯(cuò)誤或缺少一個(gè)推理步驟),另外 54% 的思維鏈有重大錯(cuò)誤語(yǔ)義理解或連貫性錯(cuò)誤(參見(jiàn)附錄 D.2)。 為了深入了解為什么縮放可以提高思維鏈推理能力,我們對(duì) PaLM 62B 產(chǎn)生的錯(cuò)誤進(jìn)行了類似的分析,以及這些錯(cuò)誤是否通過(guò)縮放到 PaLM 540B 得到修復(fù)。 總結(jié)是將 PaLM 擴(kuò)展到 540B 修復(fù)了 62B 模型中的大部分單步缺失和語(yǔ)義理解錯(cuò)誤(參見(jiàn)附錄 A.1)。
3.3 消融研究文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-470842.html
?。。待續(xù)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-470842.html
到了這里,關(guān)于(論文閱讀)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!