思維鏈(Chain of Thought,CoT)
**CoT 提示過(guò)程是一種大模型提示方法,它鼓勵(lì)大語(yǔ)言模型解釋其推理過(guò)程。**思維鏈的主要思想是通過(guò)向大語(yǔ)言模型展示一些少量的 exapmles,在樣例中解釋推理過(guò)程,大語(yǔ)言模型在回答提示時(shí)也會(huì)顯示推理過(guò)程。這種推理的解釋往往會(huì)引導(dǎo)出更準(zhǔn)確的結(jié)果。
1.零樣本思維鏈(Zero Shot Chain of Thought,Zero-shot-CoT)
零樣本思維鏈(Zero Shot Chain of Thought,Zero-shot-CoT)提示過(guò)程是對(duì) CoT prompting 的后續(xù)研究,引入了一種非常簡(jiǎn)單的零樣本提示。他們發(fā)現(xiàn),通過(guò)在問(wèn)題的結(jié)尾附加“Let’s think step by step”這幾個(gè)詞,大語(yǔ)言模型能夠生成一個(gè)回答問(wèn)題的思維鏈。從這個(gè)思維鏈中,他們能夠提取更準(zhǔn)確的答案。
從技術(shù)上講,完整的零樣本思維鏈(Zero-shot-CoT)過(guò)程涉及兩個(gè)單獨(dú)的提示/補(bǔ)全結(jié)果。在下圖中,左側(cè)生成一個(gè)思維鏈,而右側(cè)接收來(lái)自第一個(gè)提示(包括第一個(gè)提示本身)的輸出,并從思維鏈中提取答案。這個(gè)第二個(gè)提示是一個(gè)自我增強(qiáng)的提示。
2.多數(shù)投票提高CoT性能——自洽性(Self-consistency)
Self-Consistency Improves Chain of Thought Reasoning in Language Models.
這篇文章幾乎用的和 CoT 完全一樣的數(shù)據(jù)集和設(shè)置,主要改進(jìn)是對(duì)答案進(jìn)行了多數(shù)投票(majority vote),并且發(fā)現(xiàn)其可以顯著地提高思維鏈方法的性能。
文章提出的方法叫自洽性(Self-consistency),是對(duì) CoT 的一個(gè)補(bǔ)充,它不僅僅生成一個(gè)思路鏈,而是生成多個(gè)思路鏈,然后取多數(shù)答案作為最終答案。
3.LtM (Least to Most prompting)提示
最少到最多提示過(guò)程 (Least to Most prompting, LtM) 將思維鏈提示過(guò)程 (CoT prompting) 進(jìn)一步發(fā)展,首先將問(wèn)題分解為子問(wèn)題,然后逐個(gè)解決。它是受到針對(duì)兒童的現(xiàn)實(shí)教育策略的啟發(fā)而發(fā)展出的一種技術(shù)。
與思維鏈提示過(guò)程類似,需要解決的問(wèn)題被分解成一組建立在彼此之上的子問(wèn)題。在第二步中,這些子問(wèn)題被逐個(gè)解決。與思維鏈不同的是,先前子問(wèn)題的解決方案被輸入到提示中,以嘗試解決下一個(gè)問(wèn)題。
context + 子問(wèn)題 + 子問(wèn)題解題過(guò)程 + 子問(wèn)題答案 + 最終問(wèn)題,然后讓模型去生成解題過(guò)程和正確答案,那么這一步也是用 CoT 來(lái)做的。
4.Flan-PaLM/T5:CoT + Finetuning
Scaling Instruction-Finetuned Language Models
總結(jié)一下,這篇工作提出了 Flan 的微調(diào)框架,核心有四點(diǎn):
- 統(tǒng)一的輸入輸出格式(4種類型)
- 引入 CoT (chain-of-thought)
- 大幅提高任務(wù)數(shù)量
- 大幅提高模型體積
實(shí)現(xiàn)了用一個(gè)模型來(lái)解決超過(guò) 1800 種幾乎全部的 NLP 任務(wù),通過(guò)較低的成本,極大發(fā)掘了現(xiàn)有語(yǔ)言模型的泛化性能,讓大家看到了通用模型的希望。
5.提升小模型的推理能力:Fine-tune-CoT
Fine-tune-CoT 的核心思想是采用 Zero-Shot-CoT 生成我們的問(wèn)答數(shù)據(jù),然后使用溫度 T 采樣(也可以用 Top-k 采樣),以此生成盡可能多的數(shù)據(jù),然后再進(jìn)行 Fine-tune。
其實(shí)就是使用不同的溫度參數(shù) T 采樣,用 ChatGPT 這樣的大模型生成 CoT 數(shù)據(jù),然后再用小模型進(jìn)行 Fine-tune。
CoT的局限性
首先,思維鏈必須在模型規(guī)模足夠大時(shí)才能涌現(xiàn)。
在 Jason Wei 等的研究中,PaLM 在擴(kuò)展到 540B 參數(shù)時(shí),與思維鏈提示結(jié)合,才表現(xiàn)出了先進(jìn)的性能。一些小規(guī)模模型,思維鏈并沒(méi)有太大的影響,能力提升也不會(huì)很大。
谷歌大腦的研究人員認(rèn)為,策略問(wèn)題需要大量的世界知識(shí),而小型模型沒(méi)有足夠的參數(shù)來(lái)記憶這些世界知識(shí),所以也不太可能產(chǎn)生正確的推理步驟。
但問(wèn)題是,能落地到產(chǎn)業(yè)的模型,規(guī)模必然不會(huì)太大,思維鏈拆解了更多的步驟、用到更多的計(jì)算資源,相當(dāng)于更加耗費(fèi)腦力,很多研究機(jī)構(gòu)和企業(yè)是負(fù)擔(dān)不起 175B 參數(shù)以上的大模型。
所以思維鏈必須要探索,如何在較小的模型中進(jìn)行推理,降低實(shí)際應(yīng)用的成本。
其次,思維鏈的應(yīng)用領(lǐng)域是有限的。
目前,思維鏈只是在一些有限的領(lǐng)域,比如數(shù)學(xué)問(wèn)題,五個(gè)常識(shí)推理基準(zhǔn)(CommonsenseQA,StrategyQA,Date Understanding 和 Sports Understanding 以及 SayCan)上顯現(xiàn)出作用,其他類型的任務(wù),像是機(jī)器翻譯,性能提升效果還有待評(píng)估。
而且,相關(guān)研究用到的模型(GPT-3 API)或數(shù)據(jù)集,都是半公開(kāi)或不公開(kāi)的,這就使其難以被復(fù)現(xiàn)和驗(yàn)證。嚴(yán)謹(jǐn)來(lái)看,思維鏈的效果還需要被進(jìn)一步探索,才能下定論。
此外,即使有思維鏈提示,大語(yǔ)言模型依然不能解決小學(xué)水平的數(shù)學(xué)問(wèn)題。
沒(méi)有思維鏈,數(shù)學(xué)推理是指定不行。但有了思維鏈,大語(yǔ)言模型也可能出現(xiàn)錯(cuò)誤推理,尤其是非常簡(jiǎn)單的計(jì)算錯(cuò)誤。Jason Wei 等的論文中,曾展示過(guò)在 GSM8K 的一個(gè)子集中,大語(yǔ)言模型出現(xiàn)了 8% 的計(jì)算錯(cuò)誤,比如6 * 13 = 68(正確答案是78)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-838339.html
這說(shuō)明,即使有了思維鏈,大語(yǔ)言模型還是沒(méi)有真正理解數(shù)學(xué)邏輯,不知道加減乘除的真實(shí)意義,只是通過(guò)更精細(xì)的疊加來(lái)“照葫蘆畫(huà)瓢”,所以,對(duì)于有精確要求的任務(wù),還要進(jìn)一步探索新的技術(shù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-838339.html
到了這里,關(guān)于大模型思維鏈(CoT prompting)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!