Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
提示+推理+大模型:CoT 思維鏈提示
來源 Google Brain
論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
一、摘要
本文探討了生成思想鏈一系列中間推理步驟如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。特別是,我們展示了這種推理能力是如何通過一種稱為思維鏈提示的簡單方法在足夠大的語言模型中自然出現(xiàn)的,其中提供了一些思維鏈演示作為提示的示例。
在三個大型語言模型上的實驗表明,思維鏈提示可以提高一系列算術(shù)、常識和符號推理任務(wù)的性能。經(jīng)驗上的收益可能是驚人的。例如,提示一個只有八個思維鏈樣本的PaLM 540B在GSM8K數(shù)學(xué)單詞問題基準(zhǔn)上實現(xiàn)了最先進的準(zhǔn)確性,甚至超過了帶有驗證器的微調(diào)GPT-3。
二、介紹
在本文中,我們結(jié)合了提示學(xué)習(xí),常識推理這兩種想法的優(yōu)勢,避免了它們的局限性。具體來說,我們探索了語言模型在給定由三元組組成的提示(〈輸入,思想鏈,輸出〉)的情況下,對推理任務(wù)執(zhí)行少量提示的能力。思維鏈?zhǔn)且幌盗兄虚g的自然語言推理步驟,這些步驟會導(dǎo)致最終的輸出,我們將這種方法稱為思維鏈提示。
如圖1所示。我們對算術(shù)、常識和符號推理基準(zhǔn)進行了實證評估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時甚至達到了驚人的程度。
圖2顯示了GSM8K數(shù)學(xué)單詞問題基準(zhǔn)測試的一個結(jié)果,PaLM 540B的思想鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并實現(xiàn)了新的最先進性能。僅提示的方法很重要,因為它不需要大型訓(xùn)練數(shù)據(jù)集,而且單個模型檢查點可以執(zhí)行許多任務(wù)而不會失去通用性。這項工作強調(diào)了大型語言模型如何通過幾個帶有任務(wù)自然語言數(shù)據(jù)的例子進行學(xué)習(xí)。
Target
本文的目標(biāo)是賦予語言模型生成類似思想鏈的能力——一系列連貫的中間推理得出問題最終答案的步驟。
Contribution
- 首先,原則上,思想鏈允許模型將多步驟問題分解為中間步驟,這意味著可以將額外的計算分配給需要更多推理步驟的問題。
- 其次,思想鏈為了解模型的行為提供了一個可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑哪里出錯的機會(盡管完全表征支持答案的模型計算仍然是一個懸而未決的問題)。
- 第三,思維鏈推理可以用于數(shù)學(xué)單詞問題、常識推理和符號操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過語言解決的任何任務(wù)。
- 最后,在足夠大的現(xiàn)成語言模型中,只需將思維鏈序列的例子包括在少鏡頭提示的例子中,就可以很容易地引發(fā)思維鏈推理。
三、實驗
本文為了驗證思維鏈進行提示的方法可以給大模型的推理能力,產(chǎn)生很大的提升,分別在算數(shù)推理,常識推理,符號推理上進行實驗。
3.1 算數(shù)推理
? 當(dāng)與540B參數(shù)語言模型一起使用時,思想鏈提示在多個任務(wù)上與特定于任務(wù)的微調(diào)模型的性能相當(dāng),甚至在具有挑戰(zhàn)性的GSM8K Benchmark 測試上達到了最新水平。
3.2 常識推理
? 盡管思維鏈特別適用于數(shù)學(xué)單詞問題,但思維鏈基于語言的性質(zhì)實際上使其適用于一類廣泛的常識性推理問題,這些問題涉及在一般背景知識的假設(shè)下對物理和人類互動進行推理。常識推理是與世界互動的關(guān)鍵,目前的自然語言理解系統(tǒng)仍無法進行常識推理。
3.3 符號推理
? 我們的最終實驗評估考慮了符號推理,這對人類來說很簡單,但對語言模型來說可能很困難。我們發(fā)現(xiàn),思維鏈提示不僅使語言模型能夠執(zhí)行在標(biāo)準(zhǔn)提示設(shè)置中具有挑戰(zhàn)性的符號推理任務(wù),而且有助于推理時間輸入的長度泛化,比少數(shù)鏡頭示例中看到的更長。
-
最后一個字母串聯(lián)。
此任務(wù)要求模型將名稱中單詞的最后一個字母連接起來(例如,“Amy Brown”→ “yn”)。這是首字母串聯(lián)的一個更具挑戰(zhàn)性的版本,語言模型已經(jīng)可以在沒有思想鏈的情況下執(zhí)行。3我們通過從人口普查數(shù)據(jù)中隨機串聯(lián)前一千個名字中的名字來生成全名。
-
硬幣翻轉(zhuǎn)。
這項任務(wù)要求模型回答在人們翻轉(zhuǎn)或不翻轉(zhuǎn)硬幣后,硬幣是否仍然朝上(例如,“硬幣是朝上的。菲比翻轉(zhuǎn)硬幣。奧斯瓦爾多沒有翻轉(zhuǎn)硬幣。硬幣仍然朝上嗎?”→ “否”)。
四、討論
4.1 實驗總結(jié)
我們已經(jīng)探索了思維鏈提示作為一種在大型語言模型中引發(fā)多步驟推理行為的簡單機制。
我們首先看到,思維鏈提示在算術(shù)推理方面大大提高了性能,產(chǎn)生了比消融更強的改進,并且對不同的注釋器、示例和語言模型都很魯棒。關(guān)于常識推理的實驗強調(diào)了思維鏈推理的語言性質(zhì)是如何使其普遍適用的。最后,我們表明,對于符號推理,思想鏈提示有助于OOD泛化到更長的序列長度。文章來源:http://www.zghlxwxcb.cn/news/detail-777651.html
4.2 局限性
- 我們首先證明,盡管思維鏈模仿了人類推理者的思維過程,但這并不能回答神經(jīng)網(wǎng)絡(luò)是否真的在“推理”,這是一個懸而未決的問題。
- 盡管在少快照設(shè)置中,用思維鏈?zhǔn)謩訑U充示例的成本最小,但這種注釋成本可能無法進行微調(diào)(盡管這可能通過合成數(shù)據(jù)生成或零樣本泛化來克服)。
- 無法保證正確的推理路徑,這可能導(dǎo)致正確和不正確的答案;改進語言模型的事實生成是未來工作的一個開放方向。
- 僅在大模型范圍內(nèi)出現(xiàn)的思維鏈推理使得在現(xiàn)實世界的應(yīng)用中服務(wù)成本高昂;進一步的研究可以探索如何在較小的模型中誘導(dǎo)推理。
五、總結(jié)
? 我們已經(jīng)探索了思維鏈提示作為一種簡單且廣泛適用的方法來增強語言模型中的推理。通過對算術(shù)、符號和常識推理的實驗,我們發(fā)現(xiàn)思維鏈推理是模型尺度的一種新興性質(zhì),它允許足夠大的語言模型執(zhí)行具有平坦尺度曲線的推理任務(wù)。拓寬語言模型可以執(zhí)行的推理任務(wù)的范圍,有望激勵人們進一步研究基于語言的推理方法。文章來源地址http://www.zghlxwxcb.cn/news/detail-777651.html
到了這里,關(guān)于論文筆記 CoT:提示+推理+大模型=思維鏈提示的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!