Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement
文章鏈接
核心思想是通過(guò)instruction讓LLM來(lái)優(yōu)化問(wèn)題本身,從而達(dá)到更好的效果,且這種針對(duì)問(wèn)題的優(yōu)化可以跟其他的prompt技術(shù),如CoT或者Least-to-Most相結(jié)合。
作者提出了一些重述問(wèn)題的準(zhǔn)則:
(1)簡(jiǎn)短:?jiǎn)栴}不要太長(zhǎng),確保容易理解
(2)清晰:?jiǎn)栴}表述清晰,能量化的部分就量化
(3)聚焦:想問(wèn)的問(wèn)題應(yīng)該突出
(4)清除無(wú)關(guān)信息
作者說(shuō)因?yàn)椴缓脴?gòu)建數(shù)據(jù)庫(kù),所以訓(xùn)練一個(gè)模型來(lái)搞這件事很麻煩,他們轉(zhuǎn)而尋求不用訓(xùn)練的辦法。
在zero-shot的setting下,方法很簡(jiǎn)單,通過(guò)給LLM instruction讓LLM按照之前說(shuō)的準(zhǔn)則修改問(wèn)題表述。而在few-shot的setting下,作者會(huì)展示一些樣例給LLM,讓LLM參照樣例去移除無(wú)關(guān)信息、重排條件、整合相關(guān)條件等,如下
注意到右側(cè)還有個(gè)An,按照作者的說(shuō)法這是問(wèn)題的答案,然而這個(gè)答案似乎不太對(duì),顯然左邊的數(shù)學(xué)題答案應(yīng)該是1220+510=290,不知道作者是粗心大意了還是LLM真的做錯(cuò)了??總而言之,這個(gè)過(guò)程表達(dá)的意思是改進(jìn)和做題交替進(jìn)行,如果連續(xù)兩次得到的答案相同,說(shuō)明答案收斂,以此作為輸出,作者稱其為progressive problem-refining。
上述重寫問(wèn)題的效果則如下圖所示,
可以看到在davinci-003的情況下表現(xiàn)均有所提升,且基本上progressive>few-shot>zero-shot,說(shuō)明refinement是有效果的。以及下面是在不同LLM上的效果。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-709669.html
之后,作者還展示了該方法和其他prompt方法結(jié)合,比如CoT和Least-to-Most,均有提升。
最后,作者針對(duì)progressive中的兩個(gè)變量:迭代次數(shù)和最終答案選取做了消融實(shí)驗(yàn)。結(jié)果表明迭代次數(shù)越多,性能提升越大。同時(shí)在迭代次數(shù)少的時(shí)候采信最后一次迭代的答案正確率高,而次數(shù)多了以后投票的正確率高。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-709669.html
到了這里,關(guān)于Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!