国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記 CoT:提示+推理+大模型=思維鏈提示

這篇具有很好參考價值的文章主要介紹了論文筆記 CoT:提示+推理+大模型=思維鏈提示。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models


提示+推理+大模型:CoT 思維鏈提示

來源 Google Brain

論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

一、摘要

本文探討了生成思想鏈一系列中間推理步驟如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。特別是,我們展示了這種推理能力是如何通過一種稱為思維鏈提示的簡單方法在足夠大的語言模型中自然出現(xiàn)的,其中提供了一些思維鏈演示作為提示的示例。

在三個大型語言模型上的實驗表明,思維鏈提示可以提高一系列算術(shù)、常識和符號推理任務(wù)的性能。經(jīng)驗上的收益可能是驚人的。例如,提示一個只有八個思維鏈樣本的PaLM 540B在GSM8K數(shù)學(xué)單詞問題基準(zhǔn)上實現(xiàn)了最先進的準(zhǔn)確性,甚至超過了帶有驗證器的微調(diào)GPT-3。

二、介紹

在本文中,我們結(jié)合了提示學(xué)習(xí),常識推理這兩種想法的優(yōu)勢,避免了它們的局限性。具體來說,我們探索了語言模型在給定由三元組組成的提示(〈輸入,思想鏈,輸出〉)的情況下,對推理任務(wù)執(zhí)行少量提示的能力。思維鏈?zhǔn)且幌盗兄虚g的自然語言推理步驟,這些步驟會導(dǎo)致最終的輸出,我們將這種方法稱為思維鏈提示。

cot論文,論文筆記,論文閱讀,人工智能,深度學(xué)習(xí),語言模型

如圖1所示。我們對算術(shù)、常識和符號推理基準(zhǔn)進行了實證評估,表明思維鏈提示優(yōu)于標(biāo)準(zhǔn)提示,有時甚至達到了驚人的程度。

cot論文,論文筆記,論文閱讀,人工智能,深度學(xué)習(xí),語言模型

圖2顯示了GSM8K數(shù)學(xué)單詞問題基準(zhǔn)測試的一個結(jié)果,PaLM 540B的思想鏈提示大大優(yōu)于標(biāo)準(zhǔn)提示,并實現(xiàn)了新的最先進性能。僅提示的方法很重要,因為它不需要大型訓(xùn)練數(shù)據(jù)集,而且單個模型檢查點可以執(zhí)行許多任務(wù)而不會失去通用性。這項工作強調(diào)了大型語言模型如何通過幾個帶有任務(wù)自然語言數(shù)據(jù)的例子進行學(xué)習(xí)。

Target

本文的目標(biāo)是賦予語言模型生成類似思想鏈的能力——一系列連貫的中間推理得出問題最終答案的步驟。

Contribution
  1. 首先,原則上,思想鏈允許模型將多步驟問題分解為中間步驟,這意味著可以將額外的計算分配給需要更多推理步驟的問題。
  2. 其次,思想鏈為了解模型的行為提供了一個可解釋的窗口,表明它可能是如何得出特定答案的,并提供了調(diào)試推理路徑哪里出錯的機會(盡管完全表征支持答案的模型計算仍然是一個懸而未決的問題)。
  3. 第三,思維鏈推理可以用于數(shù)學(xué)單詞問題、常識推理和符號操作等任務(wù),并且可能(至少在原則上)適用于人類可以通過語言解決的任何任務(wù)。
  4. 最后,在足夠大的現(xiàn)成語言模型中,只需將思維鏈序列的例子包括在少鏡頭提示的例子中,就可以很容易地引發(fā)思維鏈推理。

三、實驗

本文為了驗證思維鏈進行提示的方法可以給大模型的推理能力,產(chǎn)生很大的提升,分別在算數(shù)推理,常識推理,符號推理上進行實驗。

3.1 算數(shù)推理

? 當(dāng)與540B參數(shù)語言模型一起使用時,思想鏈提示在多個任務(wù)上與特定于任務(wù)的微調(diào)模型的性能相當(dāng),甚至在具有挑戰(zhàn)性的GSM8K Benchmark 測試上達到了最新水平。

cot論文,論文筆記,論文閱讀,人工智能,深度學(xué)習(xí),語言模型

3.2 常識推理

? 盡管思維鏈特別適用于數(shù)學(xué)單詞問題,但思維鏈基于語言的性質(zhì)實際上使其適用于一類廣泛的常識性推理問題,這些問題涉及在一般背景知識的假設(shè)下對物理和人類互動進行推理。常識推理是與世界互動的關(guān)鍵,目前的自然語言理解系統(tǒng)仍無法進行常識推理。

cot論文,論文筆記,論文閱讀,人工智能,深度學(xué)習(xí),語言模型

3.3 符號推理

? 我們的最終實驗評估考慮了符號推理,這對人類來說很簡單,但對語言模型來說可能很困難。我們發(fā)現(xiàn),思維鏈提示不僅使語言模型能夠執(zhí)行在標(biāo)準(zhǔn)提示設(shè)置中具有挑戰(zhàn)性的符號推理任務(wù),而且有助于推理時間輸入的長度泛化,比少數(shù)鏡頭示例中看到的更長。

  • 最后一個字母串聯(lián)。

    此任務(wù)要求模型將名稱中單詞的最后一個字母連接起來(例如,“Amy Brown”→ “yn”)。這是首字母串聯(lián)的一個更具挑戰(zhàn)性的版本,語言模型已經(jīng)可以在沒有思想鏈的情況下執(zhí)行。3我們通過從人口普查數(shù)據(jù)中隨機串聯(lián)前一千個名字中的名字來生成全名。

  • 硬幣翻轉(zhuǎn)。

    這項任務(wù)要求模型回答在人們翻轉(zhuǎn)或不翻轉(zhuǎn)硬幣后,硬幣是否仍然朝上(例如,“硬幣是朝上的。菲比翻轉(zhuǎn)硬幣。奧斯瓦爾多沒有翻轉(zhuǎn)硬幣。硬幣仍然朝上嗎?”→ “否”)。

    cot論文,論文筆記,論文閱讀,人工智能,深度學(xué)習(xí),語言模型

四、討論

4.1 實驗總結(jié)

我們已經(jīng)探索了思維鏈提示作為一種在大型語言模型中引發(fā)多步驟推理行為的簡單機制。

我們首先看到,思維鏈提示在算術(shù)推理方面大大提高了性能,產(chǎn)生了比消融更強的改進,并且對不同的注釋器、示例和語言模型都很魯棒。關(guān)于常識推理的實驗強調(diào)了思維鏈推理的語言性質(zhì)是如何使其普遍適用的。最后,我們表明,對于符號推理,思想鏈提示有助于OOD泛化到更長的序列長度。

4.2 局限性
  1. 我們首先證明,盡管思維鏈模仿了人類推理者的思維過程,但這并不能回答神經(jīng)網(wǎng)絡(luò)是否真的在“推理”,這是一個懸而未決的問題。
  2. 盡管在少快照設(shè)置中,用思維鏈?zhǔn)謩訑U充示例的成本最小,但這種注釋成本可能無法進行微調(diào)(盡管這可能通過合成數(shù)據(jù)生成或零樣本泛化來克服)。
  3. 無法保證正確的推理路徑,這可能導(dǎo)致正確和不正確的答案;改進語言模型的事實生成是未來工作的一個開放方向。
  4. 僅在大模型范圍內(nèi)出現(xiàn)的思維鏈推理使得在現(xiàn)實世界的應(yīng)用中服務(wù)成本高昂;進一步的研究可以探索如何在較小的模型中誘導(dǎo)推理。

五、總結(jié)

? 我們已經(jīng)探索了思維鏈提示作為一種簡單且廣泛適用的方法來增強語言模型中的推理。通過對算術(shù)、符號和常識推理的實驗,我們發(fā)現(xiàn)思維鏈推理是模型尺度的一種新興性質(zhì),它允許足夠大的語言模型執(zhí)行具有平坦尺度曲線的推理任務(wù)。拓寬語言模型可以執(zhí)行的推理任務(wù)的范圍,有望激勵人們進一步研究基于語言的推理方法。文章來源地址http://www.zghlxwxcb.cn/news/detail-777651.html

到了這里,關(guān)于論文筆記 CoT:提示+推理+大模型=思維鏈提示的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    談?wù)凬LP中 大語言模型LLM的 思維鏈 Chain-of-Thought(CoT)

    傳送門:https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/chain-of-thought-prompting.md 在過去幾年的探索中,業(yè)界發(fā)現(xiàn)了一個現(xiàn)象,在增大模型參數(shù)量和訓(xùn)練數(shù)據(jù)的同時,在多數(shù)任務(wù)上,模型的表現(xiàn)會越來越好。因而,現(xiàn)有的大模型LLM,最大參數(shù)量已經(jīng)超過了千億。 然而,增大模型參

    2024年02月12日
    瀏覽(22)
  • 解密Prompt系列10. 思維鏈COT原理探究

    解密Prompt系列10. 思維鏈COT原理探究

    前一章思維鏈基礎(chǔ)和進階玩法我們介紹了如何寫Chain-of-thought Prompt來激活生成逐步推理,并提高模型解決復(fù)雜問題的能力,這一章我們追本溯源,討論下COT的哪些元素是提升模型表現(xiàn)的核心? 要進行因果分析,需要把思維鏈中的不同元素拆解開來,然后通過控制變量實驗,來

    2024年02月11日
    瀏覽(22)
  • COT、COT-SC、TOT 大預(yù)言模型思考方式||底層邏輯:prompt設(shè)定

    COT、COT-SC、TOT 大預(yù)言模型思考方式||底層邏輯:prompt設(shè)定

    先講一下具體縮寫的意思? COT-chain of thoughts COT-SC (Self-consistency) Tree of thoughts:Deliberate problem solving with LLM ? ? 我理解其實不復(fù)雜 1. 最簡單的是:直接大白話問一次 (IO) 2. 進階一點是:思維鏈,讓一步步思考(CoT) 3. 再進一步是:思維鏈問多次,出結(jié)果后選舉——少數(shù)服從

    2024年02月15日
    瀏覽(23)
  • 《論文閱讀》常識推理的生成知識提示

    前言 你是否也對于理解論文存在困惑? 你是否也像我之前搜索論文解讀,得到只是中文翻譯的解讀后感到失望? 小白如何從零讀懂論文?和我一起來探索吧! 今天為大家?guī)淼氖恰禛enerated Knowledge Prompting for Commonsense Reasoning》

    2024年02月05日
    瀏覽(18)
  • 使用思維鏈(Chain-of-thoughts)提示在大型語言模型中引出推理

    使用思維鏈(Chain-of-thoughts)提示在大型語言模型中引出推理

    語言模型(LM)在NLP領(lǐng)域的發(fā)展速度非???,特別是在大型語言模型(LLM)方面:當(dāng)語言模型具有大量參數(shù)或權(quán)重/系數(shù)時,它們被稱為“大型”。這些“大型”語言模型擁有處理和理解大量自然語言數(shù)據(jù)的能力。 LLM被用于一系列自然語言任務(wù),如文本摘要、情感分析、主題分類、

    2024年02月05日
    瀏覽(20)
  • CoT及ReAct解密與實戰(zhàn)(二)

    第8章 CoT及ReAct解密與實戰(zhàn) 8.3 ReAct技術(shù)原理 我們先把ReAct研究得很透徹,然后再看計劃及執(zhí)行代理,首先看一下LangChain官方提供的示例,展示使用代理實現(xiàn)ReAct邏輯,這邊有initialize_agent代理,因為它自己有很多代理,然后,導(dǎo)入AgentType。

    2024年02月13日
    瀏覽(19)
  • COT為平臺各項功能,進行TOKEN化賦能

    在數(shù)字加密貨幣的世界里,一共存在兩種共識,這兩種共識也代表了兩種不同的投資心理。 第一種共識是理性共識,第二種是非理性共識。前者的共識幣價反映出投資者對于投資回報的理性分析和判斷,比如市場需求、商業(yè)模式、成本核算等,他們做出的投資決策往往都是可

    2024年02月13日
    瀏覽(13)
  • [論文筆記] 大模型gpu機器推理測速踩坑 (llama/gpt類)

    cpu沒報錯,換gpu就報錯。以下是一些踩坑: 坑1:要指定gpu,可以在import torch之前指定gpu。 報錯:?RuntimeError(\\\'Expected all tensors to be on the same device, but found at least two devices, cuda:6 and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)\\\') 坑2:model和input_ids都需要?.

    2024年02月03日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包