国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement

2年前作者：ShadyPi分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement

文章鏈接

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,自然語(yǔ)言處理
核心思想是通過(guò)instruction讓LLM來(lái)優(yōu)化問(wèn)題本身，從而達(dá)到更好的效果，且這種針對(duì)問(wèn)題的優(yōu)化可以跟其他的prompt技術(shù)，如CoT或者Least-to-Most相結(jié)合。

作者提出了一些重述問(wèn)題的準(zhǔn)則：
（1）簡(jiǎn)短：?jiǎn)栴}不要太長(zhǎng)，確保容易理解
（2）清晰：?jiǎn)栴}表述清晰，能量化的部分就量化
（3）聚焦：想問(wèn)的問(wèn)題應(yīng)該突出
（4）清除無(wú)關(guān)信息

作者說(shuō)因?yàn)椴缓脴?gòu)建數(shù)據(jù)庫(kù)，所以訓(xùn)練一個(gè)模型來(lái)搞這件事很麻煩，他們轉(zhuǎn)而尋求不用訓(xùn)練的辦法。

在zero-shot的setting下，方法很簡(jiǎn)單，通過(guò)給LLM instruction讓LLM按照之前說(shuō)的準(zhǔn)則修改問(wèn)題表述。而在few-shot的setting下，作者會(huì)展示一些樣例給LLM，讓LLM參照樣例去移除無(wú)關(guān)信息、重排條件、整合相關(guān)條件等，如下
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,自然語(yǔ)言處理
注意到右側(cè)還有個(gè)An，按照作者的說(shuō)法這是問(wèn)題的答案，然而這個(gè)答案似乎不太對(duì)，顯然左邊的數(shù)學(xué)題答案應(yīng)該是1220+510=290，不知道作者是粗心大意了還是LLM真的做錯(cuò)了??總而言之，這個(gè)過(guò)程表達(dá)的意思是改進(jìn)和做題交替進(jìn)行，如果連續(xù)兩次得到的答案相同，說(shuō)明答案收斂，以此作為輸出，作者稱其為progressive problem-refining。

上述重寫問(wèn)題的效果則如下圖所示，
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,自然語(yǔ)言處理
可以看到在davinci-003的情況下表現(xiàn)均有所提升，且基本上progressive>few-shot>zero-shot，說(shuō)明refinement是有效果的。以及下面是在不同LLM上的效果。

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,自然語(yǔ)言處理
之后，作者還展示了該方法和其他prompt方法結(jié)合，比如CoT和Least-to-Most，均有提升。

最后，作者針對(duì)progressive中的兩個(gè)變量：迭代次數(shù)和最終答案選取做了消融實(shí)驗(yàn)。結(jié)果表明迭代次數(shù)越多，性能提升越大。同時(shí)在迭代次數(shù)少的時(shí)候采信最后一次迭代的答案正確率高，而次數(shù)多了以后投票的正確率高。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-709669.html

到了這里，關(guān)于Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思維鏈】
思維鏈，是一系列中間推理步驟，可以顯著提高大語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。思維鏈：一種簡(jiǎn)單的提示方法，通過(guò)一系列的中間推理步驟，可以大大提高大語(yǔ)言模型執(zhí)行復(fù)雜推理的能力。下圖為使用標(biāo)準(zhǔn)提示詞和使用思維鏈提示詞的輸出的區(qū)別：與傳統(tǒng)Prompt的區(qū)別：
2024年04月23日
瀏覽(30)
Fine-tuning Large Enterprise Language Models via Ontological Reasoning
本文是LLM系列文章，針對(duì)《Fine-tuning Large Enterprise Language Models via Ontological Reasoning》的翻譯。大型語(yǔ)言模型（LLM）利用特定任務(wù)的訓(xùn)練數(shù)據(jù)，將微調(diào)作為一種適應(yīng)不同目標(biāo)的技術(shù)。任務(wù)特異性應(yīng)該與領(lǐng)域定向齊頭并進(jìn)，即LLM的專業(yè)化，以準(zhǔn)確地處理給定感興趣領(lǐng)域的任務(wù)。然
2024年02月09日
瀏覽(48)
Bring Your Data！Self- supervised Evolution of Large Language Models
這篇論文提出了一種自監(jiān)督的評(píng)估方式來(lái)衡量大型語(yǔ)言模型的能力和局限性。常規(guī)的基于數(shù)據(jù)集的評(píng)估方式存在一些缺點(diǎn): 需要不斷新建數(shù)據(jù)集。存在數(shù)據(jù)集和模型訓(xùn)練數(shù)據(jù)交叉的問(wèn)題,影響評(píng)估結(jié)果。難以評(píng)估模型在實(shí)際部署中的表現(xiàn)。為了彌補(bǔ)這些缺點(diǎn),論文提出了自監(jiān)督
2024年02月16日
瀏覽(22)
論文閱讀之Multimodal Chain-of-Thought Reasoning in Language Models
本文主要對(duì)2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內(nèi)容進(jìn)行介紹。大型語(yǔ)言模型（LLM）通過(guò)利用思想鏈（CoT）提示生成中間推理鏈作為推斷答案的基本原理，在復(fù)雜推理方面表現(xiàn)出了令人印象深刻的性能。然而，現(xiàn)有的CoT研究主要集中在語(yǔ)言模態(tài)上。
2024年03月14日
瀏覽(79)
EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS
本文是LLM系列文章，針對(duì)《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻譯。在本文中，我們建立了一個(gè)名為HalluQA (Chinese Hallucination question - answers)的基準(zhǔn)來(lái)測(cè)量中文大型語(yǔ)言模型中的幻覺現(xiàn)象。HalluQA包含450個(gè)精心設(shè)計(jì)的對(duì)抗性問(wèn)題，跨越多個(gè)領(lǐng)域，并考慮到中國(guó)的歷
2024年02月07日
瀏覽(25)
Secrets of RLHF in Large Language Models Part I: PPO
本文是LLM系列文章，針對(duì)《Secrets of RLHF in Large Language Models Part I: PPO》的翻譯。大型語(yǔ)言模型（LLM）為通用人工智能的發(fā)展制定了藍(lán)圖。它的主要目標(biāo)是作為一個(gè)以人為本（樂于助人、誠(chéng)實(shí)無(wú)害）的助手。與人類保持一致具有至關(guān)重要的意義，人類反饋強(qiáng)化學(xué)習(xí)（RLHF）成為支
2024年02月07日
瀏覽(25)
Making Large Language Models Perform Better in Knowledge Graph Completion論文閱讀
原文鏈接： Making Large Language Models Perform Better in Knowledge Graph Completion 基于大語(yǔ)言模型（LLM）的知識(shí)圖補(bǔ)全（KGC）旨在利用 LLM 預(yù)測(cè)知識(shí)圖譜中缺失的三元組，并豐富知識(shí)圖譜，使其成為更好的網(wǎng)絡(luò)基礎(chǔ)設(shè)施，這可以使許多基于網(wǎng)絡(luò)的自動(dòng)化服務(wù)受益。然而，基于LLM的KGC研究有
2024年01月23日
瀏覽(40)
[論文閱讀筆記] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models
TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models arXiv2023 復(fù)旦大學(xué) Benchmark、Continual Learing、LLMs 已經(jīng)對(duì)齊過(guò)的大模型 (Aligned LLMs )能力很強(qiáng)，但持續(xù)學(xué)習(xí)能力缺乏關(guān)注；目前CL的benchmark對(duì)于頂尖的LLMs來(lái)說(shuō)過(guò)于簡(jiǎn)單，并且在指令微調(diào)存在model的potential exposure。(這里的
2024年01月18日
瀏覽(32)
論文解讀：Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
核心要點(diǎn) 針對(duì)大模型幻覺問(wèn)題進(jìn)行綜述，從detection、explanation和mitigation三個(gè)方面進(jìn)行介紹；對(duì)幻覺現(xiàn)象和評(píng)估基準(zhǔn)進(jìn)行歸納，分析現(xiàn)有的緩解幻覺的方法，討論未來(lái)潛在的研究發(fā)展相關(guān)文獻(xiàn)整理：https://github.com/HillZhang1999/llm-hallucination-survey 一、什么是大模型的幻覺大模型
2024年02月02日
瀏覽(24)
【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges
將LLMs應(yīng)用于醫(yī)學(xué)，以協(xié)助醫(yī)生和病人護(hù)理，成為人工智能和臨床醫(yī)學(xué)領(lǐng)域的一個(gè)有前景的研究方向。為此，本綜述提供了醫(yī)學(xué)中LLMs當(dāng)前進(jìn)展、應(yīng)用和面臨挑戰(zhàn)的全面概述。具體來(lái)說(shuō)，旨在回答以下問(wèn)題： 1）什么是LLMs，如何構(gòu)建醫(yī)學(xué)LLMs？ 2）醫(yī)學(xué)LLMs的下游表現(xiàn)如何？ 3）
2024年02月03日
瀏覽(36)