大語言模型(LLM)是當(dāng)前自然語言處理領(lǐng)域最核心的技術(shù),以?GPT-4?為代表的大語言模型展現(xiàn)出了類人的學(xué)習(xí)能力。其中,情境學(xué)習(xí)(In-context?Learning)是大語言模型最神秘的能力之一。如下圖所示,在這種情境學(xué)習(xí)的范式下,大模型無需更新任何參數(shù),僅依賴幾個示例樣本(demonstrations)就可以學(xué)習(xí)新任務(wù),執(zhí)行新樣本的預(yù)測。
得益于這種范式的存在,使得大模型可以僅通過修改指令(prompt)和示例?(demonstrations)就在某個具體任務(wù)上達(dá)到不錯的效果,然而當(dāng)前的情境學(xué)習(xí)僅通過輸入一次示例的方式來進(jìn)行任務(wù)的歸納與推理,存在很大的局限。首先,這種單輪的策略與人類類比學(xué)習(xí)的決策過程并不一致。
在認(rèn)知學(xué)中,人類通常通過迭代式的思維過程(例如,分析示例、反思示例和形成抽象概念)執(zhí)行類比學(xué)習(xí)??梢钥紤]讓大模型通過“思考更長時間”或者“多次思考”,來提升情境學(xué)習(xí)的能力。其次,一些相關(guān)工作指出,情境學(xué)習(xí)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的梯度下降有潛在的聯(lián)系,一次大模型前向的過程完成了一次隱式的梯度下降,可以看作執(zhí)行了一次訓(xùn)練。這進(jìn)一步表明,可以通過多次(迭代)前向訓(xùn)練演示來提高情境學(xué)習(xí)的效果,讓大模型和人類一樣,擁有深度思考的過程。
阿里首創(chuàng)前向訓(xùn)練框架
為此,阿里研究團(tuán)隊在《Iterative?Forward?Tuning?Boosts?In-context?Learning?in?Language?Models》論文中率先提出了一個新的大模型情境學(xué)習(xí)框架——Deep-Thinking。
論文:https://arxiv.org/abs/2305.13016
代碼:?DAMO-ConvAI/deep-thinking at main · AlibabaResearch/DAMO-ConvAI · GitHub
Demo:?ModelScope 魔搭社區(qū)
Deep-Thinking與傳統(tǒng)情境學(xué)習(xí)不同,它分為兩個階段。第一個階段為思考階段,僅將示例作為大模型的輸入,然后通過多次迭代來讓大模型進(jìn)行前向“訓(xùn)練/思考”,模擬人類不斷地觀察與學(xué)習(xí)示例樣本。為了做到前向訓(xùn)練,研究團(tuán)隊借助?self-attention?中的?Key,?Value?矩陣作為一種“元梯度”。
具體來說,需要執(zhí)行多個步驟優(yōu)化過程。在某一次具體的優(yōu)化過程中,研究團(tuán)隊改造?self-attention?的前向機(jī)制,對??Key,?Value?矩陣執(zhí)行了更新?(update)?與?合并?(concat)?操作。更新操作通過當(dāng)前步驟的元梯度與歷史累積到的元梯度進(jìn)行積累,產(chǎn)生新的元梯度。而合并操作將元梯度進(jìn)行合并,讓網(wǎng)絡(luò)更深層地表示受到元梯度的增益。需要強(qiáng)調(diào)的是,這個過程不依賴反向傳播,所以能夠大大地降低大模型的訓(xùn)練的成本。第二個階段為推理階段,輸入待預(yù)測的樣本與訓(xùn)練階段產(chǎn)生的最終元梯度,最終執(zhí)行預(yù)測。
Deep-Thinking?擁有兩個優(yōu)勢,一方面通過第一階段的思考可以有效提升下游任務(wù)的效果,另一方面,在第二階段預(yù)測時僅需要輸入預(yù)測的樣本與第一階段學(xué)習(xí)的產(chǎn)物(K,V矩陣),無需輸入大量的自然語言示例,可以有效節(jié)約顯存并提升推理速度。
效果
為了評估?Deep-Thinking?相比傳統(tǒng)情景學(xué)習(xí)的優(yōu)勢,該團(tuán)隊評測四種?LLM?的不同尺寸,共?20?個模型在?10?個數(shù)據(jù)集上的效果,發(fā)現(xiàn)都有較好的提升,在某些情況下甚至能得到幾十個點(diǎn)的相對提升。
除了定量的評估外,該團(tuán)隊還執(zhí)行了一些有趣的分析,Deep-thinking?的優(yōu)化過程和傳統(tǒng)的梯度下降優(yōu)化展現(xiàn)出了一系列有趣的現(xiàn)象:首先,Deep-thinking?也存在類似過擬合的現(xiàn)象,如果迭代過程過多,將會導(dǎo)致效果下降,可以通過引入小規(guī)模的驗(yàn)證集來選擇合適的迭代次數(shù),這與傳統(tǒng)優(yōu)化中的?Epoch?概念類似;其次,Deep-thinking?的梯度范式也呈現(xiàn)出了與梯度下降相同的趨勢,比如更淺的層收斂更快,對學(xué)習(xí)率敏感等。
展望
傳統(tǒng)的模型優(yōu)化依賴于反向傳播算法,但這種方法需要大量的計算資源和龐大的數(shù)據(jù)集,使得大模型的訓(xùn)練與微調(diào)成本非常高昂,成為大模型落地的阻礙之一。文章來源:http://www.zghlxwxcb.cn/news/detail-507199.html
而阿里研究團(tuán)隊提出的Deep-thinking是一種迭代式的前向訓(xùn)練框架,摒棄了反向傳播的依賴,這將允許用戶和企業(yè)在具體的任務(wù)上低成本的優(yōu)化大模型效果。企業(yè)往往需要保護(hù)用戶數(shù)據(jù)的安全性,但同時也需要讓模型具備針對特定任務(wù)的學(xué)習(xí)能力。利用Deep-thinking,企業(yè)可以在不共享大量數(shù)據(jù)的前提下,根據(jù)自身需求快速訓(xùn)練和優(yōu)化專屬模型。這對于提高模型的個性化適應(yīng)性和隱私保護(hù)具有重要意義,這項(xiàng)技術(shù)有潛力成為大模型落地的最佳實(shí)踐。文章來源地址http://www.zghlxwxcb.cn/news/detail-507199.html
到了這里,關(guān)于阿里首提前向訓(xùn)練框架:讓大模型深度思考,可快速定制專屬模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!