目的:大模型預訓練+微調(diào)范式,微調(diào)成本高。adapter只只微調(diào)新增的小部分參數(shù)【但adapter增加了模型層數(shù),引入了額外的推理延遲?!?/code>
-
Adapters最初來源于CV領(lǐng)域的《Learning multiple visual domains with residual adapters》一文,其核心思想是在神經(jīng)網(wǎng)絡(luò)模塊基礎(chǔ)上添加一些殘差模塊,并只優(yōu)化這些殘差模塊,由于殘差模塊的參數(shù)更少,因此微調(diào)成本更低。
-
Houlsby等人將這一思想應(yīng)用到了自然語言處理領(lǐng)域。他們提出在Transformer的注意力層和前饋神經(jīng)網(wǎng)絡(luò)(FFN)層之后添加全連接網(wǎng)絡(luò)。微調(diào)時,只對新增的 Adapter 結(jié)構(gòu)和 Layer Norm 層進行微調(diào),從而保證了訓練的高效性。 每當出現(xiàn)新的下游任務(wù),通過添加Adapter模塊來產(chǎn)生一個易于擴展的下游模型,從而避免全量微調(diào)與災(zāi)難性遺忘的問題。
Adapters Tuning效率很高,通過微調(diào)不到4%的模型參數(shù),可以實現(xiàn)與 fine-tuning相當?shù)男阅堋?mark hidden color="red">文章來源:http://www.zghlxwxcb.cn/news/detail-622285.html
左圖:在每個Transformer layer中兩次添加adapter——在多頭注意力后的投影之后和在兩個前饋層之后。
右圖:adapter是一個bottleneck結(jié)構(gòu),包括兩個前饋子層(Feedforward)和跳連接( skip-connection)。文章來源地址http://www.zghlxwxcb.cn/news/detail-622285.html
- Feedforward down-project:將原始輸入維度d(
到了這里,關(guān)于LLM微調(diào) | Adapter: Parameter-Efficient Transfer Learning for NLP的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!