国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT)

2年前作者：Neleuska分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Chain-of-Thought(CoT)

傳送門(mén)：https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md

1.介紹

在過(guò)去幾年的探索中，業(yè)界發(fā)現(xiàn)了一個(gè)現(xiàn)象，在增大模型參數(shù)量和訓(xùn)練數(shù)據(jù)的同時(shí)，在多數(shù)任務(wù)上，模型的表現(xiàn)會(huì)越來(lái)越好。因而，現(xiàn)有的大模型LLM，最大參數(shù)量已經(jīng)超過(guò)了千億。

然而，增大模型參數(shù)規(guī)模，對(duì)于一些具有挑戰(zhàn)的任務(wù)（例如算術(shù)、常識(shí)推理和符號(hào)推理）的效果，并沒(méi)有太大提升。對(duì)于算術(shù)類推理任務(wù)，我們期望模型生成自然語(yǔ)言邏輯依據(jù)來(lái)指導(dǎo)并生成最終答案，但是獲得邏輯依據(jù)是比較復(fù)雜昂貴的（標(biāo)注成本層面）。

自從發(fā)現(xiàn)了大模型ICL（In-Context Learning）的能力后，這個(gè)問(wèn)題有個(gè)新的解決思路：對(duì)某個(gè)Task，能否為大模型提供一些上下文in-context example作為Prompt，以此來(lái)提升模型的推理能力？實(shí)驗(yàn)表名，在復(fù)雜推理任務(wù)上加入ICL帶來(lái)的增益不明顯。因此，變衍生出了CoT的技術(shù)。

Chain-of-Thought(CoT)是一種改進(jìn)的Prompt技術(shù)，目的在于提升大模型LLMs在復(fù)雜推理任務(wù)上的表現(xiàn)，如算術(shù)推理（arithmetic reasoning）、常識(shí)推理（commonsense reasoning）、符號(hào)推理（symbolic reasoning）。

2.思路

ICL的思路是在新測(cè)試樣本中加入示例（demonstration）來(lái)重構(gòu)prompt。

與ICL（In-Context Learning）有所不同，CoT對(duì)每個(gè)demonstration，會(huì)使用中間推理過(guò)程（intermediate reasoning steps）來(lái)重新構(gòu)造demonstration，使模型在對(duì)新樣本預(yù)測(cè)時(shí)，先生成中間推理的思維鏈，再生成結(jié)果，目的是提升LLM在新樣本中的表現(xiàn)。

談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

3.CoT方法

一般來(lái)說(shuō)CoT會(huì)分為兩種：基于人工示例標(biāo)注的Few-shot CoT和無(wú)人工示例標(biāo)注的Zero-shot CoT。下面將逐一介紹。

3.1 Few-shot CoT

假設(shè)基于ICL的測(cè)試樣本輸入表示為 $< in p u t, d e m o n s t r a t i o n s >$ ，那么加入Few-shot CoT的測(cè)試樣本輸入，可表示為 $< in p u t, C o T >$ 。

3.1.1 CoT Prompt設(shè)計(jì)

我們知道了加入CoT的示例后，能提升LLM的表現(xiàn)。那么我們應(yīng)該如何構(gòu)造或使用CoT？

投票式CoT

《Self-Consistency Improves Chain of Thought Reasoning in Language Models》

論文基于一個(gè)思想：一個(gè)復(fù)雜的推理任務(wù)，其可以有多種推理路徑（即解題思路），最終都能夠得到正確的答案。故Self-Consistency在解碼過(guò)程中，拋棄了greedy decoding的策略，而是使用采樣的方式，選擇生成不同的推理路徑，每個(gè)路徑對(duì)應(yīng)一個(gè)最終答案。

具體做法為：

對(duì)于單一的測(cè)試數(shù)據(jù)，通過(guò)多次的解碼采樣，會(huì)生成多條推理路徑和答案。
基于投票的策略，選擇最一致的答案。

實(shí)驗(yàn)表明，對(duì)于同一問(wèn)題生成更多的推理鏈以供投票往往能取得更好的效果。當(dāng)推理鏈數(shù)量足夠多時(shí)，這種方法效果能夠勝過(guò)使用greedy decoding的CoT方法。

《On the advance of making language models better reasoners》

論文在Self-Consistency的基礎(chǔ)上，進(jìn)一步做了優(yōu)化。

1.Diverse Prompts
- 對(duì)于每個(gè)測(cè)試問(wèn)題，構(gòu)造了 $M_1$ 種不同的prompt(即由不同demonstration構(gòu)造的prompt)
- 對(duì)于每種不同的prompt，讓LLM生成 $M_2$ 條推理路徑。
- 則對(duì)于同一個(gè)測(cè)試問(wèn)題，共生成了 $M_1*M_2$ 條結(jié)果
2.Verifier
- 訓(xùn)練了一個(gè)Verifier，用于判斷當(dāng)前推理路徑得出的答案正確與否。
- 關(guān)于樣本構(gòu)建，使用LLM生成的推理路徑和答案，與grandtruth進(jìn)行對(duì)比，一致的即視為正樣本，否則負(fù)樣本。
3.Vote
- 訓(xùn)練好Verifier后，對(duì)與一個(gè)測(cè)試問(wèn)題與LLM生成的多條推理路徑，Verifier進(jìn)行二元判別
- 結(jié)合判別結(jié)果和投票結(jié)果，得出模型的最終預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果顯示，本論文的方法相對(duì)基于Greedy Decode和Self-Consistency能得到更優(yōu)的效果。

使用復(fù)雜的CoT

《Complexity-based prompting for multi-step reasoning》

面對(duì)這么多可選的CoT，簡(jiǎn)單的CoT示例和復(fù)雜的CoT示例，對(duì)新的樣本推理結(jié)果會(huì)不會(huì)產(chǎn)生影響？答案是Yes。

論文探討了一個(gè)問(wèn)題，在包含簡(jiǎn)單推理路徑的demonstrations和復(fù)雜推理路徑的demonstrations下，哪個(gè)效果會(huì)表現(xiàn)較好？（這里的簡(jiǎn)單和復(fù)雜是指推理鏈/推理步驟的長(zhǎng)度）

本論文繼承了Self-Consistency的思想，具體方法：

1.對(duì)于同一個(gè)測(cè)試問(wèn)題，使用功能LLM（GPT-3）生成 $N$ 條不同的推理鏈+答案；
2.對(duì)于生成的推理鏈+答案，按照推理鏈的長(zhǎng)度進(jìn)行倒序排序；
3.保留TopK條推理鏈+答案，并使用投票的方式，選取最終預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果表明，本論文的方法效果優(yōu)于以下方法： (1)人工構(gòu)建Cot、(2)random Cot、(2)Complex CoT（數(shù)據(jù)集中最長(zhǎng)的多個(gè)思維鏈作為demonstrations）。
談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

自動(dòng)構(gòu)建CoT

《Automatic chain of thought prompting in large language models》

上面提到的方法是基于人工構(gòu)造CoT，那我們能否讓模型自己來(lái)生成CoT？本論文就提供了這樣一種自動(dòng)生成CoT的思路。

本論文提到的Manual-CoT，可以等同于Few-shot CoT來(lái)理解。
談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

由于Zero-Shot-CoT方法存在不穩(wěn)定性，而Manual-CoT方法需要大量人工成本投入。作者提出了一種基于Auto-CoT的方法，自動(dòng)構(gòu)建包含問(wèn)題和推理鏈的說(shuō)明樣例(demonstrations)。

整個(gè)過(guò)程分了兩個(gè)階段：

1.question cluster: 目的是將數(shù)據(jù)集中的question劃分到不同簇中。

使用Sentence-Bert計(jì)算每個(gè)question的向量表示；
使用k-means方法將question記性簇劃分；
最后對(duì)每個(gè)簇中的question，根據(jù)距離中心點(diǎn)距離，升序排序。

2.demostration sampling: 目的是從每個(gè)簇中選取一個(gè)代表性的question，基于LLMs，使用Zero-Shot-CoT生成推理鏈。

對(duì)于每一個(gè)簇 $i$ 里的每一個(gè)問(wèn)題 $q^{(i)}_j$ ，使用Zero-Shot-CoT的方法，將 $[Q:q^{(i)}_j,A:[P]]$ （其中 $[P]$ 表示"Let’s think step by step"）輸入到LLMs，LLMs生成該問(wèn)題的推理鏈 $r^{(i)}_j$ 和答案 $a^{(i)}_j$ ；
若問(wèn)題 $q^{(i)}_j$ 不超過(guò)60個(gè)tokens，且推理鏈 $r^{(i)}_j$ 不超過(guò)5個(gè)推理步驟，則將問(wèn)題+推理鏈+答案，加入到demostrations列表中: $[Q:q^{(i)}_j,A:r^{(i)}_j。a^{(i)}_j]$ ；
遍歷完所有簇，將得到k個(gè)demostrations，將其拼接上測(cè)試question，構(gòu)造成新的Prompt，輸入LLMs便可得到生成結(jié)果。

值得一提的是，Auto-CoT在多個(gè)開(kāi)源推理任務(wù)的數(shù)據(jù)集上，效果與Manual-CoT相當(dāng)，甚至某些任務(wù)表現(xiàn)得更好。
談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

CoT中示例順序的影響

《Chain of thought prompting elicits reasoning in large language models》

盡管CoT是ICL的一種特殊形式，但是與ICL有所不同的是，CoT中demonstrations的排序?qū)ζ湓谛聹y(cè)試樣本中的生成結(jié)果影響較小，論文對(duì)demonstrations進(jìn)行重排序，在多數(shù)推理任務(wù)上僅導(dǎo)致小于2%的性能變化。（demonstrations順序?qū)CL影響較大）

3.1.2 CoT的增強(qiáng)策略

3.2 Zero-shot CoT

與Few-shot CoT不同，Zero-shot CoT并不需要人為構(gòu)造demonstrations，只需要在prompt中加入一個(gè)特定的指令，即可驅(qū)動(dòng)LLMs以思維鏈的方式生成結(jié)果。

當(dāng)然這種不需要人工構(gòu)造demonstrations的方式，效果相對(duì)Few-shot CoT會(huì)表現(xiàn)稍微差一點(diǎn)點(diǎn)。但是相對(duì)Zero-shot和Few-shot的方法而言，Zero-shot CoT在復(fù)雜任務(wù)推理上卻能帶來(lái)巨大的效果提升。

談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

《Large language models are zero-shot reasoners》

論文首先提出了Zero-shot CoT的方法，整個(gè)流程包含兩部分：

1.Reasoning Extraction
- 使用一個(gè)特定的"reasoning" prompt，是語(yǔ)言模型LLM生成原始問(wèn)題的思維鏈，如"Let’s think step by step."（讓我們一步步來(lái)思考）
2.Answer Extraction
- 基于第一步的結(jié)果，添加一個(gè)"answer" prompt，要求LLM生成正確的結(jié)果。
- 這一個(gè)步驟中，LLM的輸入格式為：quesiton + “reasoning” prompt + result(CoT) + “answer” prompt，輸出為：result(answer)

值得一提的是，論文同時(shí)發(fā)現(xiàn)了，當(dāng)模型LLM變得越來(lái)越大，對(duì)于使用Zero-shot的結(jié)果帶來(lái)的增益不大，但是對(duì)使用Zero-shot CoT的結(jié)果帶來(lái)的增益較大。

談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

《Scaling Instruction-Finetuned Language Models》

既然在上一篇論文中，已經(jīng)發(fā)現(xiàn)了LLM存在Zero-shot CoT的能力，那如果事先對(duì)LLM進(jìn)行基于CoT的instruction tuning，那模型使用Zero-shot CoT方式在對(duì)unseen樣本進(jìn)行預(yù)測(cè)時(shí)，效果會(huì)不會(huì)更好？本論文給出了肯定的答案。

論文探索了以下可能影響LLM在unseen task上表現(xiàn)的因素：

1.任務(wù)數(shù)量
2.模型大小
3.指令微調(diào)（instruction tuning）

論文微調(diào)數(shù)據(jù)集包含了1836種指令任務(wù)，473個(gè)數(shù)據(jù)集和146種任務(wù)類型構(gòu)成，數(shù)據(jù)集中包含了9個(gè)人工標(biāo)注的CoT數(shù)據(jù)集。同時(shí)保留一個(gè)沒(méi)出現(xiàn)過(guò)的held-out數(shù)據(jù)集作為模型評(píng)估數(shù)據(jù)集。
談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT),自然語(yǔ)言處理,語(yǔ)言模型,人工智能

使用的模型是PaLM，而經(jīng)過(guò)instruction tuning的模型，稱為FlanPaLM（Finetuned Language PaLM）。

得到了以下結(jié)論：

1.增加微調(diào)任務(wù)數(shù)量，可以提高LLM表現(xiàn)。但任務(wù)數(shù)量超過(guò)一定值后，不管模型尺寸是否增大，受益都不大。推測(cè)原因有：
- (1) 額外的任務(wù)多樣化不足，沒(méi)有為L(zhǎng)LM提供新的知識(shí)；
- (2) 多任務(wù)指令微調(diào)只是更好地激發(fā)了模型從預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)到知識(shí)的表達(dá)能力，而微調(diào)任務(wù)超過(guò)一定值后，對(duì)表達(dá)能力沒(méi)有太大幫助。
2.微調(diào)和未微調(diào)的PaLM，從8B增大到540B，在unseen任務(wù)上效果越來(lái)越好；
3.微調(diào)數(shù)據(jù)與CoT數(shù)據(jù)的關(guān)系
- (1) 微調(diào)數(shù)據(jù)中刪除CoT數(shù)據(jù)，會(huì)降低PaLM的推理能力
- (2) 微調(diào)數(shù)據(jù)包含CoT數(shù)據(jù)，會(huì)全面提高所有評(píng)測(cè)任務(wù)的表現(xiàn)

5.總結(jié)

對(duì)于大模型LLM涌現(xiàn)的CoT能力，業(yè)界目前的共識(shí)是：當(dāng)模型參數(shù)超過(guò)100B后，在復(fù)雜推理任務(wù)中使用CoT是能帶來(lái)增益的；而當(dāng)模型小于這個(gè)尺寸，CoT并不會(huì)帶來(lái)效果增益。

還記得在Pretrain+Fine-tuning時(shí)代下，對(duì)于復(fù)雜數(shù)學(xué)推理任務(wù)，如MultiArith、GSM8K下，效果還是不太理想，而短短幾年時(shí)間，LLM+CoT的模式已經(jīng)大大提升了該領(lǐng)域的解決能力。隨著LLM的繼續(xù)發(fā)展，未來(lái)必定會(huì)發(fā)現(xiàn)更多LLM隱藏的能力和使用方法，讓我們拭目以待。

6.Reference

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Large language models are zero-shot reasoners

Scaling Instruction-Finetuned Language Models

Self-Consistency Improves Chain of Thought Reasoning in Language Models

On the advance of making language models better reasoners

Chain of thought prompting elicits reasoning in large language models文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-531574.html

Complexity-based prompting for multi-step reasoning

Chain of thought prompting elicits reasoning in large language models

到了這里，關(guān)于談?wù)凬LP中大語(yǔ)言模型LLM的思維鏈 Chain-of-Thought(CoT)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

（論文閱讀）Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
論文地址 https://openreview.net/pdf?id=_VjQlMeSB_J ????????我們探索如何生成一個(gè)思維鏈——一系列中間推理步驟——如何顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。特別是，我們展示了這種推理能力如何通過(guò)一種稱為思維鏈提示的簡(jiǎn)單方法自然地出現(xiàn)在足夠大的語(yǔ)言模型中，
2024年02月07日
瀏覽(24)
（論文閱讀）Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
論文地址 https://openreview.net/pdf?id=_VjQlMeSB_J ????????我們探索如何生成一個(gè)思維鏈——一系列中間推理步驟——如何顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。特別是，我們展示了這種推理能力如何通過(guò)一種稱為思維鏈提示的簡(jiǎn)單方法自然地出現(xiàn)在足夠大的語(yǔ)言模型中，
2024年02月08日
瀏覽(38)
《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》全文翻譯
題目：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》作者：Jason Wei and et al. 會(huì)議： NeurlPS 2022 內(nèi)容概述：論文探索如何生成一個(gè)思想鏈（一系列中間推理步驟）來(lái)顯著提高大型語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。我們探索生成一條思維鏈（一系列中間推理步驟）如何顯
2024年02月09日
瀏覽(17)
文獻(xiàn)閱讀：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
文獻(xiàn)閱讀：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章簡(jiǎn)介 2. 具體方法 3. 實(shí)驗(yàn)結(jié)果 1. 數(shù)學(xué)推理 1. 實(shí)驗(yàn)設(shè)計(jì) 2. 實(shí)驗(yàn)結(jié)果 3. 消解實(shí)驗(yàn) 4. 魯棒性考察 2. 常識(shí)推理 1. 實(shí)驗(yàn)設(shè)計(jì) 2. 實(shí)驗(yàn)結(jié)果 3. 符號(hào)推理 1. 實(shí)驗(yàn)設(shè)計(jì) 2. 實(shí)驗(yàn)結(jié)果 4. 結(jié)論思考文獻(xiàn)鏈接：https://arxiv.or
2024年02月10日
瀏覽(42)
【NLP】如何管理大型語(yǔ)言模型 (LLM)
LLM 編排是管理和控制大型語(yǔ)言模型 (LLM)的過(guò)程，以優(yōu)化其性能和有效性。這包括以下任務(wù)：提示LLM：生成有效的提示，為L(zhǎng)LMs提供適當(dāng)?shù)谋尘昂托畔⒁援a(chǎn)生所需的輸出。鏈接LLM： ?結(jié)合多個(gè)LLM的輸出以獲得更復(fù)雜或更細(xì)致的結(jié)果。管理LLM資源： ?有效分配和管理LLM資源以滿
2024年02月05日
瀏覽(22)
【AI人工智能】NLP（自然語(yǔ)言處理）和 LLM（大語(yǔ)言模型）詳細(xì)對(duì)比
2024年02月12日
瀏覽(40)
【AI實(shí)戰(zhàn)】大語(yǔ)言模型（LLM）有多強(qiáng)？還需要做傳統(tǒng)NLP任務(wù)嗎（分詞、詞性標(biāo)注、NER、情感分類、知識(shí)圖譜、多倫對(duì)話管理等）
大語(yǔ)言模型（LLM）是指使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型，可以生成自然語(yǔ)言文本或理解語(yǔ)言文本的含義。大語(yǔ)言模型可以處理多種自然語(yǔ)言任務(wù)，如文本分類、問(wèn)答、對(duì)話等，是通向人工智能的一條重要途徑。來(lái)自百度百科發(fā)展歷史 2020年9月，OpenAI授權(quán)微軟使用GPT-3模
2024年02月10日
瀏覽(16)
想要成為 NLP 領(lǐng)域的大牛？從 ChatGPT 的 5 大自然語(yǔ)言模型開(kāi)始了解吧（LM、Transformer、GPT、RLHF、LLM）——小白也能看得懂
??如果想在自然語(yǔ)言處理（Natural Language Processing，NLP）領(lǐng)域內(nèi)脫穎而出，那么你一定不能錯(cuò)過(guò) ChatGPT 的 5 大自然語(yǔ)言模型：LM、Transformer、GPT、RLHF 和 LLM。這些模型是 NLP 領(lǐng)域中最為重要的基礎(chǔ)，涵蓋了語(yǔ)言模型、預(yù)訓(xùn)練模型、生成模型等關(guān)鍵知識(shí)點(diǎn)。即使你是一個(gè) NLP 小白
2024年02月09日
瀏覽(16)
【AI人工智能】NLP（自然語(yǔ)言處理）和 LLM（大語(yǔ)言模型）詳細(xì)對(duì)比：本文將詳細(xì)比較這兩種技術(shù)的特點(diǎn)、優(yōu)缺點(diǎn)、應(yīng)用等方面，以便更好地了解它們的區(qū)別和聯(lián)系
2024年02月02日
瀏覽(49)
【NLP】國(guó)外新動(dòng)態(tài)--LLM模型
? ? ? ? NLP走勢(shì)如何？這是關(guān)于在實(shí)踐中使用大型語(yǔ)言模型（LLM）的系列文章中的一篇文章。在這里，我將介紹LLM，并介紹使用它們的3個(gè)級(jí)別。未來(lái)的文章將探討LLM的實(shí)際方面，例如如何使用OpenAI的公共API，Hugging Face Transformers Python庫(kù)，如何微調(diào)LLM，以及如何從頭開(kāi)始構(gòu)建
2024年02月16日
瀏覽(13)