1. 基本信息
題目 | 論文作者與單位 | 來(lái)源 | 年份 |
---|---|---|---|
LoRA: Low-Rank Adaptation of Large Language Models | microsoft | International Conference on Learning Representations | 2021 |
524 Citations
論文鏈接:https://arxiv.org/pdf/2106.09685.pdf
論文代碼:https://github.com/microsoft/LoRA
2. 要點(diǎn)
研究主題 | 問(wèn)題背景 | 核心方法流程 | 亮點(diǎn) | 數(shù)據(jù)集 | 結(jié)論 | 論文類(lèi)型 | 關(guān)鍵字 |
---|---|---|---|---|---|---|---|
微調(diào)大模型 | 對(duì)比較大的模型進(jìn)行全部參數(shù)的微調(diào)顯得不太可行,例如GPT-3 175B,每介任務(wù)都部署一個(gè)單獨(dú)的GPT-3,這個(gè)顯得十分的昂貴。 | 提出Low-Rank Adaptation,LoRA. | 凍結(jié)了預(yù)先訓(xùn)練的模型權(quán)值,并將可訓(xùn)練的秩分解矩陣注入變壓器架構(gòu)的每一層,大大減少了下游任務(wù)的可訓(xùn)練參數(shù)的數(shù)量。 | 效果與全參微調(diào)相當(dāng)或比全參要好,并且沒(méi)有推理延遲。 | LoRa |
目的主要是不想微調(diào)模型的所有參數(shù),去滿(mǎn)足下游任務(wù),因?yàn)檫@個(gè)成本太大的,特別是大模型例如175B的GPT-3;同時(shí),這個(gè)方法也有人提出了相關(guān)的方法,可是這些方法存在問(wèn)題,通過(guò)擴(kuò)展模型的深度或減少模型的可用序列長(zhǎng)度來(lái)實(shí)現(xiàn)存在推理延遲。最重要的是質(zhì)量不太行呀。
啟發(fā)于:學(xué)習(xí)到的過(guò)度參數(shù)化模型實(shí)際上存在于一個(gè)較低的intrinsic dimension(內(nèi)在維度)上。即是訓(xùn)練下游任務(wù)不需要這么多參數(shù),采用降秩的方法來(lái)保留最內(nèi)在的參數(shù)。
Measuring the Intrinsic Dimension of Objective Landscapes, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. arXiv:2012.13255 [cs], December 2020.
優(yōu)點(diǎn):
只共享一個(gè)大模型,對(duì)于不同的任務(wù),只訓(xùn)練不同的A,B.
訓(xùn)練更有效,訓(xùn)練參數(shù)少;
在推理方面,線(xiàn)性合并,沒(méi)有推理延遲;
LoRA與許多先前的方法正交,可以與其中許多方法結(jié)合,比如前綴調(diào)優(yōu)。
3. 模型(核心內(nèi)容)
3.1 形式表達(dá)
3.2 模型結(jié)構(gòu)
W0 + ?W = W0 + *BA, 其中 *B:d*r, A:r*k, r << min(d, k).
在訓(xùn)練的時(shí)候W0的凍結(jié)的。
Transformer中,自關(guān)注力有4個(gè)矩陣,MLP模塊有2個(gè)矩陣;
這里實(shí)驗(yàn)只關(guān)心自關(guān)注力相關(guān)的權(quán)重矩陣。
4. 實(shí)驗(yàn)與分析
對(duì)比實(shí)驗(yàn)
Fine-Tuning (FT):傳統(tǒng)的微調(diào)。FT變體,只訓(xùn)練最后兩層(FTTop2);
Bias-only or BitFit: 只訓(xùn)練bias vectors;
**Prefifix-embedding tuning (PreEmbed):**在輸入標(biāo)記中插入特殊的標(biāo)記;
Prefix-layer tuning (PreLayer):是對(duì)前綴嵌入調(diào)優(yōu)的擴(kuò)展;
Adapter tuning:在自注意模塊(和MLP模塊)和后續(xù)的剩余連接之間插入適配器層;
Adapter_H:Houlsby et al. (2019) ;
Adapter_L:Lin et al. (2020)
Adapter_P: Pfeiffer et al. (2021),
**Adapter_***D: *AdapterDrop (R¨uckl′e et al., 2020)
所有模型,限制相關(guān)的參數(shù)大小規(guī)模Θ:
結(jié)果:
訓(xùn)練參數(shù)量與性能對(duì)比實(shí)驗(yàn):
對(duì)于GPT-3隨著樣本的增加的效果:
5. 代碼
https://github.com/microsoft/LoRA
6. 總結(jié)
從效果來(lái)看,不論預(yù)訓(xùn)練模型的大小,LoRA采用更少的參數(shù),可以達(dá)到全參模型的更好的效果。
7. 知識(shí)整理(知識(shí)點(diǎn),要讀的文獻(xiàn),摘取原文)
通過(guò)更少的參數(shù)去適應(yīng)下游任務(wù),主要是兩個(gè)方向(adapter, soft Prompt):
adding adapter layers,optimizing some forms of the input layer activations
The major downside of fine-tuning is that the new model contains as many parameters as in the original model.
微調(diào)的主要缺點(diǎn)是,新模型包含的參數(shù)與原始模型一樣多。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-740494.html
8. 參考文獻(xiàn)
made by happyprince文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-740494.html
到了這里,關(guān)于[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!