Exploring Lottery Prompts for Pre-trained Language Models
文章鏈接
清深的工作,比較有意思的一篇。作者先給出假設(shè),對(duì)于分類問(wèn)題,在有限的語(yǔ)料空間內(nèi)總能找到一個(gè)prompt讓這個(gè)問(wèn)題分類正確,作者稱之為lottery prompt。為此,作者組織了一個(gè)prompt集合,每個(gè)prompt的組成都很簡(jiǎn)單,名詞+動(dòng)詞+介詞/形容詞/副詞+<MASK>,語(yǔ)料都是從常用英語(yǔ)詞庫(kù)中選出的,整個(gè)prompt集合一共包含76725個(gè)prompt。
之后,作者在RoBERTa-large和GPT-2上進(jìn)行了測(cè)試,每個(gè)數(shù)據(jù)集1000個(gè)樣例,對(duì)于每個(gè)樣例,只要76725個(gè)prompt里有一個(gè)prompt能讓模型預(yù)測(cè)正確,那么就算這個(gè)樣例回答正確,結(jié)果表明幾乎每個(gè)輸入都有一個(gè)prompt可以作對(duì)這個(gè)分類。說(shuō)明至少對(duì)于這些分類問(wèn)題,lottery prompt是存在的。
之后作者分析了搜索到一個(gè)正確的prompt所需要的次數(shù),這里的搜索按照作者的說(shuō)法其實(shí)就是在7w個(gè)prompt里面枚舉的。發(fā)現(xiàn)任務(wù)越困難,需要的搜索次數(shù)就越多,同時(shí)在同一個(gè)任務(wù)中,需要的搜索次數(shù)多的也是困難的輸入。
而模型的能力也對(duì)搜索次數(shù)有影響,越大的模型需要的搜索次數(shù)越少。同時(shí)沒(méi)有訓(xùn)練過(guò)的模型很難找到有效的prompt,經(jīng)過(guò)一定的訓(xùn)練后成功找到的概率則顯著上升,搜索次數(shù)顯著下降。這說(shuō)明lottery prompt存在確實(shí)不是考運(yùn)氣,而是基于模型確實(shí)掌握了語(yǔ)言知識(shí)。
除了多個(gè)prompt對(duì)一個(gè)input,那自然也有一個(gè)prompt對(duì)多個(gè)input,作者統(tǒng)計(jì)了prompt在整個(gè)數(shù)據(jù)集上的表現(xiàn),除了有66個(gè)類的最難的Few-NERD,其他數(shù)據(jù)集都能找到一個(gè)表現(xiàn)不錯(cuò)的prompt。
分析這些優(yōu)秀的prompt作者也發(fā)現(xiàn)他們有一些相似的特征,這里就不詳述了。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-671062.html
基于此,作者提出了一種集成prompt方法,在少量的訓(xùn)練集上選出優(yōu)秀的prompt以后,根據(jù)他們的表現(xiàn)賦予不同的權(quán)重,表現(xiàn)越好的prompt權(quán)重越高,之后將這些prompt的分類預(yù)測(cè)加權(quán)在一起,得到最后的分類。他們的整個(gè)集合只有10個(gè)prompt,訓(xùn)練集大小為16shot和32shot,效果驚人的不錯(cuò)。
這個(gè)方法可以說(shuō)是很簡(jiǎn)潔,得到的prompt結(jié)構(gòu)都很簡(jiǎn)單,集成方式同樣簡(jiǎn)單,整個(gè)方法甚至都沒(méi)有參數(shù),但是打敗了像RLPrompt這樣參數(shù)量巨大的prompt方式。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-671062.html
到了這里,關(guān)于[ACL2023] Exploring Lottery Prompts for Pre-trained Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!