国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

解密Prompt系列10. 思維鏈COT原理探究

這篇具有很好參考價值的文章主要介紹了解密Prompt系列10. 思維鏈COT原理探究。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前一章思維鏈基礎(chǔ)和進階玩法我們介紹了如何寫Chain-of-thought Prompt來激活生成逐步推理,并提高模型解決復(fù)雜問題的能力,這一章我們追本溯源,討論下COT的哪些元素是提升模型表現(xiàn)的核心?

要進行因果分析,需要把思維鏈中的不同元素拆解開來,然后通過控制變量實驗,來研究不同元素對COT效果的影響。以下兩篇論文的核心差異就在于: COT的變量拆解,以及控制變量的實驗方式。

結(jié)合兩篇論文的實驗結(jié)論,可能導(dǎo)致思維鏈比常規(guī)推理擁有更高準(zhǔn)確率的因素有

  • 思維鏈的推理過程會重復(fù)問題中的核心實體,例如數(shù)字,人物,數(shù)字等
  • 思維鏈正確邏輯推理順序的引入

友情提示:以下論文的實驗依賴反事實因果推斷,這種因果分析方式本身可能存在有偏性進而得到一些錯誤結(jié)論,讀論文有風(fēng)險,迷信論文需謹(jǐn)慎哈哈~

TEXT AND PATTERNS: FOR EFFECTIVE CHAIN OF THOUGHT IT TAKES TWO TO TANGO

  • 測試模型:PaLM-62B,GPT3,CODEX

google這篇論文比較早,按個人閱讀舒適度來劃分個人更推薦第二篇論文喲~

COT元素

論文把影響元素拆分成了Text,Symbol和Pattern三個部分, 如下

解密Prompt系列10. 思維鏈COT原理探究

論文給出了symbol和pattern的定義,剩下的token全是Text

  • symbol:是數(shù)據(jù)集的核心主體,數(shù)學(xué)問題就是數(shù)字,SPORT數(shù)據(jù)集就是運動員和運動項目, DATE數(shù)據(jù)集就是時間,這里的symbol類似實體的概念
  • pattern: 可以是symbol的組合,連接符(公式)或者幫助模型理解任務(wù)的表述結(jié)構(gòu)。這里允許pattern和symbol重合,也就是整個公式是pattern,但公式中的數(shù)字同樣是symbol。但在非數(shù)學(xué)問題上我個人覺得pattern的定義有點迷幻...

實驗

論文針對以上3個元素分別進行了實驗,通過改變COT few-shot prompt中特定元素的取值,來分析該元素對COT效果的貢獻

觀點1.Symbol的形式和取值本身對COT影響不大

這里論文用了兩種控制變量的方式:symbol隨機采樣和特殊符號替換

  • 特殊符號替換(symb_abs)

abstract symbol就是用特殊符號來替換symbol,這里作者同時替換了question,prompt和answer里面的symbol如下

解密Prompt系列10. 思維鏈COT原理探究

  • 隨機替換(symb_ood)

OOD類似隨機替換,不過論文的替換方式有些迷幻。對于GSM8k數(shù)學(xué)問題,作者用一一對應(yīng)的數(shù)學(xué)數(shù)字替換了文字?jǐn)?shù)字;對于體育常識問題的替換比較常規(guī)作者用隨機的人名和賽事進行替換;對于時間常識問題作者用未來時間替換了當(dāng)前時間?? 注意這里的替換作者保證了推理邏輯的一致性,包括同一數(shù)字用同一symbol替換,替換實體也符合推理邏輯,以及對問題中的答案也進行了替換。所以這里純純只能論證symbol本身的取值和類型(例如數(shù)字1和一)是否對COT有影響

abstract symbol就是用特殊符號來替換symbol,這里作者同時替換了question,prompt和answer里面的symbol如下

解密Prompt系列10. 思維鏈COT原理探究

這種替換方式下的實驗結(jié)果如下,除了體育問題中的隨機實體替換,其余symbol的替換對COT的效果影響都非常有限。這讓我想到了一篇關(guān)于NER模型的泛化性主要來自模型學(xué)會了不同類型的實體會出現(xiàn)在哪些上下文中,而不僅是對實體本身的形式進行了記憶。他們的實驗方式和作者替換symbol的操作其實很類似,這種替換并不大幅影響下文對上文的Attention。

解密Prompt系列10. 思維鏈COT原理探究

觀點2. pattern是COT生效的必要不充分條件

對于Pattern作者更換了實驗方式,控制變量采用了只保留pattern,和只剔除pattern這兩種實驗類型。

以數(shù)學(xué)問題為例,只保留pattern就是推理過程只保留數(shù)學(xué)公式,只剔除pattern就是整個推理過程只把公式剔除。其余問題類型,考慮在前面的pattern定義階段個人就感覺有些迷幻,... 所以我們直接跳到實驗結(jié)論吧

  • 只有pattern的COT效果很差,和直接推理差不多,說明只有patten肯定是不夠的,這和上一篇博客提到COT小王子嘗試過的只有數(shù)學(xué)公式的COT效果不好的結(jié)論是一致的。
  • 剔除pattern的COT效果受到影響,因此pattern對COT有顯著影響,但很顯然還有別的因素

解密Prompt系列10. 思維鏈COT原理探究

觀點3. 推理出現(xiàn)問題中的關(guān)鍵實體且和問題保持格式一致很重要

最后針對Text部分,作者采用了實體替換和語法替換

  • 實體替換(text_diff_entities):把推理中的實體隨機替換成和問題中不一樣的實體,包括數(shù)學(xué)問題中的數(shù)字,常識問題中的時間,地點和任務(wù)。個人感覺這應(yīng)該是symbol的實驗??

解密Prompt系列10. 思維鏈COT原理探究

- 語法替換(text_yoda_thought): 把常規(guī)的英文表達改成了Yoda的說法風(fēng)格。Yoda是按照名詞-形容詞-動詞順序來說話的。例如常規(guī)是This is my home,Yoda會說My home this is。只對thought進行語法替換,question保持正常的英文表達。

解密Prompt系列10. 思維鏈COT原理探究

效果上,隨機實體替換對所有任務(wù)的COT效果影響非常大, 所以在推理階段使用Question中的核心實體很重要。其次推理和question在語法上的不一致會影響COT在部分任務(wù)上的表現(xiàn)。

解密Prompt系列10. 思維鏈COT原理探究

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

  • 測試模型:text-davinci-002, text-davinci-003

整體上第二篇論文的思路更簡單清晰,在拆解元素的同時還定義了關(guān)系。

COT元素

論文首先定義了思維鏈中的兩種核心元素

  • Bridge Object: 模型解決問題所需的核心和必須元素。例如數(shù)學(xué)問題中的數(shù)字和公式,QA問題中的實體,有點類似把論文1中pattern和symbol和在了一起,感覺定義更清晰了
  • Language Template:除去Bridge Object剩余的部分基本都是Language Template

解密Prompt系列10. 思維鏈COT原理探究

其次定義了思維鏈的兩種核心關(guān)系

  • 一致性(Coherence): 推理步驟之間的邏輯順序, 先說什么后說什么
  • 相關(guān)性(Relevance): Question中核心元素是否在推理中出現(xiàn)

實驗

論文的消融實驗通過人工修改few-shot COT中的few-shot樣本,來驗證思維鏈中不同元素的貢獻,這里我們以一個數(shù)學(xué)問題問題為例,看下實驗的兩個階段

觀點1. 完全正確的COT并非必要

第一步作者證明了完全正確的In-Context樣本并不是必須的,用的什么方法嘞?

如下圖所示,作者手工把正確的In-Context COT樣本改寫成錯誤的,改寫方式是在保留部分推理順序,和部分bridge object的前提下,隨機的把推理改成錯誤的推理邏輯。作者發(fā)現(xiàn)魔改后錯誤的few-shot的樣本,對比正確的few-shot-cot保留了80%+的水平,只有小幅的下降。

解密Prompt系列10. 思維鏈COT原理探究

觀點2.推理順序和核心元素的出現(xiàn)更重要

既然完全正確的COT樣本并非必須,那究竟思維鏈的哪些元素對效果的影響最大呢?針對以上兩種元素和兩種關(guān)系,作者用了數(shù)據(jù)增強的方式來對few-shot樣本進行修改,得到破壞某一種元素/關(guān)系后的few-shot樣本

  • 破壞相關(guān)性: 這里使用了Random Substitution; 針對Bridge Obejct,就是固定文字模板,把數(shù)學(xué)問題中出現(xiàn)的數(shù)字在COT里面(32/42/35)隨機替換成其他數(shù)字,這里為了保持上下文一致性相同的數(shù)字會用相同的隨機數(shù)字來替換; 針對template,就固定Bridge Object,從樣本中隨機采樣其他的COT推理模板來進行替換。
  • 破壞一致性: 這里使用了Random Shuffle;針對Bridge Object,就是把COT中不同位置的Bridge Obejct隨機打亂順序;針對Template,就固定Bridge Object,把文字模板的句子隨機改變位置。

整體效果如下圖

解密Prompt系列10. 思維鏈COT原理探究

論文正文用的是text-davinci-002,附錄里也補充了text-davinci-003的效果,看起來003的結(jié)果單調(diào)性更好,二者結(jié)論是基本一致的,因此這里我們只看下003的消融實驗效果,可以得到以下幾個核心結(jié)論

  • 對比COT推理的正確性,相關(guān)性和一致性更加重要,尤其是相關(guān)性。也就是在推理過程中復(fù)述question中的關(guān)鍵信息可以有效提高模型推理準(zhǔn)確率。個人猜測是核心元素的復(fù)述可以幫助模型更好理解指令識別指令中的關(guān)鍵信息,并提高該信息對應(yīng)的知識召回【這一點我們在下游難度較高的多項選擇SFT中也做過驗證,我們在多項選擇的推理模板的最后加入了題干的復(fù)述,效果會有一定提升,進一步把選項的結(jié)果完形填空放到題干中,效果會有更進一步的提升】
  • Language Template的一致性貢獻度較高。也就是正確的邏輯推理順序有助于模型推理效果的提升。這一點更好理解主要和decoder需要依賴上文的解碼方式相關(guān)?!具€是多項選擇的指令微調(diào),我們對比了把選項答案放在推理的最前面和放在復(fù)述題干之前的效果,都顯著差于先推理分析,復(fù)述題干并填入選項答案,最后給出選項答案這個推理順序】

解密Prompt系列10. 思維鏈COT原理探究

想看更全的大模型相關(guān)論文梳理·微調(diào)及預(yù)訓(xùn)練數(shù)據(jù)和框架·AIGC應(yīng)用,移步Github >>?DecryptPropmt文章來源地址http://www.zghlxwxcb.cn/news/detail-513014.html

到了這里,關(guān)于解密Prompt系列10. 思維鏈COT原理探究的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 論文筆記 CoT:提示+推理+大模型=思維鏈提示

    論文筆記 CoT:提示+推理+大模型=思維鏈提示

    提示+推理+大模型:CoT 思維鏈提示 來源 Google Brain 論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 一、摘要 本文探討了生成思想鏈一系列中間推理步驟如何顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力。特別是,我們展示了這種推理能力是如何通過一種稱為思維鏈

    2024年02月03日
    瀏覽(41)
  • COT、COT-SC、TOT 大預(yù)言模型思考方式||底層邏輯:prompt設(shè)定

    COT、COT-SC、TOT 大預(yù)言模型思考方式||底層邏輯:prompt設(shè)定

    先講一下具體縮寫的意思? COT-chain of thoughts COT-SC (Self-consistency) Tree of thoughts:Deliberate problem solving with LLM ? ? 我理解其實不復(fù)雜 1. 最簡單的是:直接大白話問一次 (IO) 2. 進階一點是:思維鏈,讓一步步思考(CoT) 3. 再進一步是:思維鏈問多次,出結(jié)果后選舉——少數(shù)服從

    2024年02月15日
    瀏覽(23)
  • AIGC系列文章目錄 第一章 AIGC 與AI對話,如何寫好prompt?

    AIGC系列文章目錄 第一章 AIGC 與AI對話,如何寫好prompt?

    生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0時代進入2.0時代的重要標(biāo)志。 AIGC對于人類社會、人工智能的意義是里程碑式的。 短期來看 AIGC改變了基礎(chǔ)的生產(chǎn)力工具, 中期來看 會改變社會的生產(chǎn)關(guān)系, 長期來看 促使整個社會生產(chǎn)力發(fā)生質(zhì)的突破,在

    2024年02月06日
    瀏覽(25)
  • CoT及ReAct解密與實戰(zhàn)(二)

    第8章 CoT及ReAct解密與實戰(zhàn) 8.3 ReAct技術(shù)原理 我們先把ReAct研究得很透徹,然后再看計劃及執(zhí)行代理,首先看一下LangChain官方提供的示例,展示使用代理實現(xiàn)ReAct邏輯,這邊有initialize_agent代理,因為它自己有很多代理,然后,導(dǎo)入AgentType。

    2024年02月13日
    瀏覽(19)
  • 解密prompt系列27. LLM對齊經(jīng)驗之如何降低通用能力損失

    解密prompt系列27. LLM對齊經(jīng)驗之如何降低通用能力損失

    前面我們已經(jīng)聊過眾多指令微調(diào)的方案,這一章我們重點討論下如何注入某一類任務(wù)或能力的同時,盡可能不損失模型原有的通用指令理解能力。因為在下游或垂直領(lǐng)域應(yīng)用中,我們設(shè)計的推理任務(wù)風(fēng)格或形式,往往很難通過prompt來穩(wěn)定實現(xiàn)。這種情況下就會依賴微調(diào)來注入

    2024年04月13日
    瀏覽(27)
  • 解密prompt系列25. RLHF改良方案之樣本標(biāo)注:RLAIF & SALMON

    解密prompt系列25. RLHF改良方案之樣本標(biāo)注:RLAIF & SALMON

    上一章我們主要嘮了RLHF訓(xùn)練相關(guān)的方案,這一章我們主要針對RLHF的樣本構(gòu)建階段,引入機器標(biāo)注來降低人工標(biāo)注的成本。主要介紹兩個方案:RLAIF,和IBM的SALMON。 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback RLAIF給出的方案是完全使用大模型來進行偏好樣本的標(biāo)注

    2024年03月25日
    瀏覽(22)
  • 解密Prompt系列18. LLM Agent之只有智能體的世界

    解密Prompt系列18. LLM Agent之只有智能體的世界

    重新回來聊Agent,前四章的LLM Agent,不論是和數(shù)據(jù)庫和模型還是和搜索引擎交互,更多還是大模型和人之間的交互。這一章我們來嘮嘮只有大模型智能體的世界!分別介紹斯坦福小鎮(zhèn)和Chatdev兩篇論文。它們的共同特點是使用多個大模型智能體協(xié)同完成任務(wù)。 多智能相比單一智

    2024年02月08日
    瀏覽(19)
  • 解密Prompt系列13. LLM Agent-指令微調(diào)方案: Toolformer & Gorilla

    解密Prompt系列13. LLM Agent-指令微調(diào)方案: Toolformer & Gorilla

    上一章我們介紹了基于Prompt范式的工具調(diào)用方案,這一章介紹基于模型微調(diào),支持任意多工具組合調(diào)用,復(fù)雜調(diào)用的方案。多工具調(diào)用核心需要解決3個問題,在哪個位置進行工具調(diào)用(where), 從眾多工具中選擇哪一個(Which), 工具的輸入是什么(What)。Where + Which + What,我稱之為

    2024年02月12日
    瀏覽(15)
  • 解密prompt系列5. APE+SELF=自動化指令集構(gòu)建代碼實現(xiàn)

    解密prompt系列5. APE+SELF=自動化指令集構(gòu)建代碼實現(xiàn)

    上一章我們介紹了不同的指令微調(diào)方案, 這一章我們介紹如何降低指令數(shù)據(jù)集的人工標(biāo)注成本!這樣每個人都可以構(gòu)建自己的專屬指令集, 哈哈當(dāng)然我也在造數(shù)據(jù)集進行時~ 介紹兩種方案SELF Instruct和Automatic Prompt Engineer,前者是基于多樣的種子指令,利用大模型的上下文和指令

    2023年04月10日
    瀏覽(25)
  • 解密Prompt系列6. lora指令微調(diào)扣細(xì)節(jié)-請冷靜,1個小時真不夠~

    解密Prompt系列6. lora指令微調(diào)扣細(xì)節(jié)-請冷靜,1個小時真不夠~

    上一章介紹了如何基于APE+SELF自動化構(gòu)建指令微調(diào)樣本。這一章咱就把微調(diào)跑起來,主要介紹以Lora為首的低參數(shù)微調(diào)原理,環(huán)境配置,微調(diào)代碼,以及大模型訓(xùn)練中顯存和耗時優(yōu)化的相關(guān)技術(shù)細(xì)節(jié) 標(biāo)題這樣寫是因為上周突然收到了一周內(nèi)上線一版chatbo的命令,原因無它領(lǐng)導(dǎo)們

    2024年02月01日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包