大型“指令調(diào)優(yōu)”語言模型在新任務(wù)上展現(xiàn)了Zero-shot的卓越能力,但嚴(yán)重依賴于人類編寫的指令數(shù)據(jù),而這些數(shù)據(jù)在數(shù)量、多樣性和創(chuàng)造性方面都是有限的。
斯坦??蒲腥藛T引入了self-instruction框架,提高指令遵循能力來自我迭代進化,與InstructGPT的性能相當(dāng),相比原始GPT3提升33%!將大模型與指令對齊再也不用人工標(biāo)注(annotation-free),最后還發(fā)布了他們合成的自生成指令數(shù)據(jù)集,來促進對指令調(diào)優(yōu)的研究。
自我指示self-instruct
self-instruct是一種任務(wù)不可知(task-agnostic)的方法,通過自己生成指令數(shù)據(jù)(指令、輸入和輸出樣本)并使用它進行引導(dǎo)來提高語言模型的指令遵循能力。
自動指示執(zhí)行的流程:
首先準(zhǔn)備好一個小的任務(wù)種子集(每個任務(wù)的一條指令和一個輸入-輸出實例)作為任務(wù)池開始,從任務(wù)池中抽取隨機任務(wù)用于提示語言模型LM(例如GPT3)生成新的指令和實例,再過濾低質(zhì)量或類似的生成,合格的就添加回任務(wù)池。
羊駝Alpaca模型
指令遵循語言模型叫Alpaca羊駝,是在近期Meta開源的LLaMA 7B模型上進行微調(diào)的。語料使用的是text-davinci-003生成的52K指令。stanford_alpaca在GitHub開源,地址見文末。
整體流程圖:
訓(xùn)練過程中,使用了完全分片數(shù)據(jù)并行(Fully Sharded Data Parallel) 和混合精度(mixed precision) 等訓(xùn)練等技術(shù),硬件方面:在8個80GB A100上對7B LLaMA模型進行微調(diào)3個小時,成本竟然不到100美元!但效果驚人,與InstructGPT_001的性能相當(dāng)。
數(shù)據(jù)集合評估方法
52k數(shù)據(jù)集分布:
模型評估
采用四級評級系統(tǒng),用于分類模型輸出的質(zhì)量,定義如下:
A: 回答是有效和令人滿意的
B:響應(yīng)是可以接受的,但有一些小錯誤或缺陷可以改進
C:響應(yīng)是相關(guān)的,并響應(yīng)指令,但它在內(nèi)容中有重大錯誤。
D:響應(yīng)不相關(guān)或無效,包括重復(fù)輸入,完全不相關(guān)的輸出等。
首發(fā)原文鏈接:文章來源:http://www.zghlxwxcb.cn/news/detail-487947.html
自驅(qū)力超強的羊駝?斯坦福Alpaca媲美text-davinci-003,成本不到600美元!文章來源地址http://www.zghlxwxcb.cn/news/detail-487947.html
到了這里,關(guān)于自驅(qū)力超強的羊駝?斯坦福微調(diào)LLaMa的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!