本文也是屬于LLM系列的文章,針對(duì)《TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING》的翻譯。
摘要
在下游任務(wù)上微調(diào)大型預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)成為NLP中事實(shí)上的學(xué)習(xí)范式。然而,傳統(tǒng)的方法對(duì)預(yù)訓(xùn)練模型的所有參數(shù)進(jìn)行微調(diào),隨著模型大小和任務(wù)數(shù)量的增長(zhǎng),這變得令人望而卻步。最近的工作提出了各種參數(shù)有效的遷移學(xué)習(xí)方法,這些方法只微調(diào)少量(額外)參數(shù)以獲得強(qiáng)大的性能。雖然有效,但人們對(duì)成功的關(guān)鍵因素以及各種方法之間的聯(lián)系知之甚少。在本文中,我們分解了最先進(jìn)的參數(shù)有效遷移學(xué)習(xí)方法的設(shè)計(jì),并提出了一個(gè)統(tǒng)一的框架,在它們之間建立聯(lián)系。具體來(lái)說(shuō),我們將它們重新定義為對(duì)預(yù)訓(xùn)練模型中特定隱藏狀態(tài)的修改,并定義一組不同方法變化的設(shè)計(jì)維度,例如計(jì)算修改的函數(shù)和應(yīng)用修改的位置。通過(guò)對(duì)機(jī)器翻譯、文本摘要、語(yǔ)言理解和文本分類基準(zhǔn)的全面實(shí)證研究,我們利用統(tǒng)一的觀點(diǎn)來(lái)確定以前方法中的重要設(shè)計(jì)選擇。此外,我們的統(tǒng)一框架能夠在不同的方法之間傳遞設(shè)計(jì)元素,因此,我們能夠?qū)嵗碌膮?shù)有效的微調(diào)方法,這些方法比以前的方法調(diào)整更少的參數(shù),同時(shí)更有效,實(shí)現(xiàn)了與微調(diào)所有四個(gè)任務(wù)的所有參數(shù)相當(dāng)?shù)慕Y(jié)果。
1 引言
從預(yù)先訓(xùn)練的語(yǔ)言模型(PLM)中進(jìn)行遷移學(xué)習(xí)現(xiàn)在是自然語(yǔ)言處理中的主流范式,在許多任務(wù)上都有很強(qiáng)的表現(xiàn)。使通用PLM適應(yīng)下游任務(wù)的最常見(jiàn)方法是微調(diào)所有模型參數(shù)(完全微調(diào))。然而,這導(dǎo)致每個(gè)任務(wù)都有一個(gè)單獨(dú)的微調(diào)模型參數(shù)副本,當(dāng)為執(zhí)行大量任務(wù)的模型提供服務(wù)時(shí),這是非常昂貴的。隨著PLM規(guī)模的不斷擴(kuò)大,這一問(wèn)題尤為突出,目前PLM的規(guī)模從數(shù)億到數(shù)千億,甚至數(shù)萬(wàn)億的參數(shù)。
為了緩解這個(gè)問(wèn)題,已經(jīng)提出了一些輕量級(jí)的替代方案,只更新少量額外的參數(shù),同時(shí)保持大多數(shù)預(yù)訓(xùn)練的參數(shù)凍結(jié)。例如,適配器調(diào)整將稱為適配器的小型神經(jīng)模塊插入到預(yù)訓(xùn)練網(wǎng)絡(luò)的每一層,并且在微調(diào)時(shí)僅訓(xùn)練適配器。受通過(guò)文本提示控制PLM的提示方法的成功啟發(fā)、前綴調(diào)整和提示調(diào)整為輸入或隱藏層準(zhǔn)備了額外的
l
l
l個(gè)可調(diào)前綴標(biāo)記,并且僅在對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí)訓(xùn)練這些軟提示。最近,Hu等人學(xué)習(xí)低秩矩陣來(lái)近似參數(shù)更新。我們?cè)趫D1中說(shuō)明了這些方法。據(jù)報(bào)道,這些方法通常通過(guò)更新不到1%的原始模型參數(shù),在不同的任務(wù)集上表現(xiàn)出與完全微調(diào)相當(dāng)?shù)男阅堋3藚?shù)節(jié)省之外,參數(shù)有效調(diào)整還可以在沒(méi)有災(zāi)難性遺忘的情況下快速適應(yīng)新任務(wù),并且在分布外評(píng)估中往往表現(xiàn)出優(yōu)越的魯棒性。
然而,我們認(rèn)為,對(duì)這些參數(shù)有效調(diào)整方法取得成功的重要因素知之甚少,它們之間的聯(lián)系仍不清楚。在本文中,我們旨在回答三個(gè)問(wèn)題:(1)這些方法是如何連接的?(2) 這些方法是否共享對(duì)其有效性至關(guān)重要的設(shè)計(jì)元素?它們是什么?(3) 每種方法的有效成分能否遷移到其他方法中,以產(chǎn)生更有效的變體?
為了回答這些問(wèn)題,我們首先推導(dǎo)了一種前綴調(diào)整的替代形式,揭示了前綴調(diào)整與適配器的密切聯(lián)系(§3.1)。在此基礎(chǔ)上,我們?cè)O(shè)計(jì)了一個(gè)統(tǒng)一的框架,將上述方法框定為修改凍結(jié)PLM的隱藏表示的不同方法(§3.2)。我們的統(tǒng)一框架沿著一組共享的設(shè)計(jì)維度分解了以前的方法,例如用于執(zhí)行修改的功能、實(shí)施該修改的位置以及如何整合該修改。該框架允許我們跨方法轉(zhuǎn)移設(shè)計(jì)選擇,以提出新的變體,如具有多個(gè)頭的適配器(§3.3)。在實(shí)驗(yàn)中,我們首先表明,現(xiàn)有的參數(shù)有效調(diào)整方法在更高資源和具有挑戰(zhàn)性的任務(wù)上仍然落后于完全微調(diào)(§4.2),如圖2所示。然后,我們利用統(tǒng)一的框架來(lái)識(shí)別關(guān)鍵的設(shè)計(jì)選擇,并實(shí)證驗(yàn)證所提出的變體(§4.3-4.6)。我們?cè)谒膫€(gè)NLP基準(zhǔn)上進(jìn)行的實(shí)驗(yàn),包括文本摘要、機(jī)器翻譯(MT)、文本分類和一般語(yǔ)言理解,表明所提出的變體比現(xiàn)有方法使用更少的參數(shù),同時(shí)更有效,匹配所有四項(xiàng)任務(wù)的完全微調(diào)結(jié)果。
2 前言
2.1 Transformer結(jié)構(gòu)綜述
Transformer模型現(xiàn)在是大多數(shù)最先進(jìn)的PLM背后的主力架構(gòu)。在本節(jié)中,為了完整性,我們回顧了該模型的方程。Transformer模型由L個(gè)堆疊塊組成,其中每個(gè)塊(圖1)包含兩種類型的子層:多頭自注意和全連接前饋網(wǎng)絡(luò)(FFN)。傳統(tǒng)的注意函數(shù)映射查詢
Q
∈
R
n
×
d
k
Q\in\mathbb{R}^{n\times d_k}
Q∈Rn×dk?和鍵值對(duì)
K
∈
R
m
×
d
k
,
V
∈
R
m
×
d
v
:
K\in\mathbb{R}^{m\times d_k},V\in\mathbb{R}^{m\times d_v}:
K∈Rm×dk?,V∈Rm×dv?:
A
t
t
n
(
Q
,
K
,
V
)
=
softmax
(
Q
K
T
d
k
)
V
,
\begin{gather}Attn(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V, \end{gather}
Attn(Q,K,V)=softmax(dk??QKT?)V,??
其中n和m分別是查詢和鍵值對(duì)的數(shù)量。多頭注意力在
N
h
N_h
Nh?個(gè)頭上并行執(zhí)行注意力函數(shù),其中每個(gè)頭分別由
W
q
(
i
)
,
W
k
(
i
)
,
W
v
(
i
)
W_q^{(i)},W^{(i)}_k,W^{(i)}_v
Wq(i)?,Wk(i)?,Wv(i)?參數(shù)化,以將輸入投影到查詢、鍵和值。給定我們想要在其上執(zhí)行注意力的m個(gè)向量序列
C
∈
R
m
×
d
C\in\mathbb{R}^{m\times d}
C∈Rm×d和查詢向量
x
∈
R
d
x\in\mathbb{R}^d
x∈Rd,多頭注意力(MHA)計(jì)算每個(gè)頭上的輸出并將它們連接起來(lái):
MHA
(
C
,
x
)
=
Concat
(
h
e
a
d
1
,
?
?
,
h
e
a
d
h
)
W
o
,
h
e
a
d
i
=
A
t
t
n
(
x
W
q
(
i
)
,
C
W
k
(
i
)
,
C
W
v
(
i
)
)
,
\begin{gather} \text{MHA}(C,x)=\text{Concat}(head_1,\cdots,head_h)W_o,head_i=Attn(xW_q^{(i)},CW^{(i)}_k,CW^{(i)}_v), \end{gather}
MHA(C,x)=Concat(head1?,?,headh?)Wo?,headi?=Attn(xWq(i)?,CWk(i)?,CWv(i)?),??
其中,
W
o
∈
R
d
×
d
W_o\in\mathbb{R}^{d\times d}
Wo?∈Rd×d。d是模型維度,并且在MHA中,
d
h
d_h
dh?通常被設(shè)置為
d
/
N
h
d/N_h
d/Nh?以保存參數(shù),這指示每個(gè)注意力頭在較低維度空間上操作。另一個(gè)重要的子層是全連接前饋網(wǎng)絡(luò)(FFN),它由兩個(gè)線性變換組成,ReLU激活函數(shù)介于兩者之間:
FFN
(
x
)
=
Relu
(
x
W
1
+
b
1
)
W
2
+
b
2
,
\begin{gather} \text{FFN}(x)=\text{Relu}(xW_1+b_1)W_2+b_2, \end{gather}
FFN(x)=Relu(xW1?+b1?)W2?+b2?,??
其中
W
1
∈
R
d
×
d
m
,
W
2
∈
R
d
m
×
d
W_1\in\mathbb{R}^{d\times d_m},W_2\in\mathbb{R}^{d_m\times d}
W1?∈Rd×dm?,W2?∈Rdm?×d。Transformer通常使用大
d
m
d_m
dm?,例如
d
m
=
4
d
d_m=4d
dm?=4d。最后,使用殘差連接,然后進(jìn)行層正則化。
2.2 之前的參數(shù)高效調(diào)優(yōu)方法綜述
下面和圖1中,我們介紹了幾種最先進(jìn)的參數(shù)有效調(diào)整方法。除非另有說(shuō)明,否則它們只在PLM凍結(jié)時(shí)調(diào)整添加的參數(shù)。
適配器:適配器方法在Transformer層之間插入小型模塊(適配器)。適配器層通常使用
W
d
o
w
n
∈
R
d
×
r
W_{down}\in\mathbb{R}^{d\times r}
Wdown?∈Rd×r的向下投影將輸入
h
h
h投影到由瓶頸維數(shù)r指定的低維空間,然后跟著非線性激活函數(shù)
f
(
?
)
f(\cdot)
f(?),以及
W
u
p
∈
R
r
×
d
W_{up}\in\mathbb{R}^{r\times d}
Wup?∈Rr×d的向上投影。這些適配器被一個(gè)殘差連接包圍,從而形成最終的形式:
h
←
h
+
f
(
h
W
d
o
w
n
)
W
u
p
.
\begin{gather}h\leftarrow h+f(hW_{down})W_{up}. \end{gather}
h←h+f(hWdown?)Wup?.??
Houlsby等人將兩個(gè)適配器依次放置在Transformer的一層內(nèi),一個(gè)放置在多頭注意力之后,一個(gè)放在FFN子層之后。Pfeiffer等人提出了一種更有效的適配器變體,僅在FFN“add & layer norm”子層之后插入。
前綴調(diào)整:受文本提示方法成功的啟發(fā),前綴調(diào)整將
l
l
l個(gè)可調(diào)前綴向量預(yù)先添加到每一層多頭注意力的鍵和值中。具體地,兩組前綴向量
P
k
,
P
v
∈
R
l
×
d
P_k,P_v\in\mathbb{R}^{l\times d}
Pk?,Pv?∈Rl×d與原始鍵K和值V拼接。然后,對(duì)新的帶前綴的鍵和值進(jìn)行多頭關(guān)注。公式2中
head
i
\text{head}_i
headi?的計(jì)算變?yōu)椋?br>
head
i
=
Attn
(
x
W
q
(
i
)
,
concat
(
P
k
(
i
)
,
C
W
k
(
i
)
)
,
concat
(
P
v
(
i
)
,
C
W
v
(
i
)
)
)
,
\begin{gather}\text{head}_i=\text{Attn}(xW^{(i)}_q,\text{concat}(P^{(i)}_k,CW^{(i)}_k),\text{concat}(P^{(i)}_v,CW^{(i)}_v)), \end{gather}
headi?=Attn(xWq(i)?,concat(Pk(i)?,CWk(i)?),concat(Pv(i)?,CWv(i)?)),??
P
k
P_k
Pk?和
P
v
P_v
Pv?分別劃分為
N
h
N_h
Nh?個(gè)頭向量,
P
k
(
i
)
,
P
v
(
i
)
∈
R
l
×
d
/
N
h
P^{(i)}_k,P^{(i)}_v\in\mathbb{R}^{l\times d/N_h}
Pk(i)?,Pv(i)?∈Rl×d/Nh?表示第i個(gè)頭向量。提示調(diào)整通過(guò)僅對(duì)第一層中的輸入單詞嵌入進(jìn)行預(yù)處理來(lái)簡(jiǎn)化前綴調(diào)整;類似的工作還包括P-調(diào)整。
LoRA:LoRA將可訓(xùn)練的低秩矩陣注入到Transformer層中,以近似權(quán)重更新。對(duì)于預(yù)訓(xùn)練的權(quán)重矩陣
W
∈
R
d
×
k
W\in\mathbb{R}^{d\times k}
W∈Rd×k,LoRA用低秩分解
W
+
Δ
W
=
W
+
W
d
o
w
n
W
u
p
W+\Delta W=W+W_{down}W_{up}
W+ΔW=W+Wdown?Wup?表示其更新,其中
W
d
o
w
n
∈
R
d
×
r
,
W
u
p
∈
R
r
×
k
W_{down}\in\mathbb{R}^{d\times r},W_{up}\in\mathbb{R}^{r\times k}
Wdown?∈Rd×r,Wup?∈Rr×k是可調(diào)參數(shù)。LoRA將此更新應(yīng)用于多頭注意力子層中的查詢和值投影矩陣
(
W
q
,
W
v
)
(W_q,W_v)
(Wq?,Wv?),如圖1所示。對(duì)于多頭注意力中線性投影的特定輸入
x
x
x,LoRA將投影輸出
h
h
h修改為:
h
←
h
+
s
?
x
W
d
o
w
n
W
u
p
,
\begin{gather}h\leftarrow h+s\cdot xW_{down}W_{up}, \end{gather}
h←h+s?xWdown?Wup?,??
其中
s
≥
1
s\geq 1
s≥1是一個(gè)可調(diào)節(jié)的標(biāo)量超參數(shù)。
其他:其他參數(shù)有效的調(diào)整方法包括BitFit,它只對(duì)預(yù)訓(xùn)練模型中的偏差向量進(jìn)行微調(diào),以及diff修剪,它學(xué)習(xí)稀疏參數(shù)更新向量。
3 彌合差距-統(tǒng)一的視角
我們首先推導(dǎo)出一種等價(jià)形式的前綴調(diào)優(yōu),以建立其與適配器的連接。然后,我們提出了一個(gè)用于參數(shù)有效調(diào)整的統(tǒng)一框架,其中包括幾個(gè)最先進(jìn)的方法作為實(shí)例。
3.1 仔細(xì)觀察Prefix Tuning
等式5描述了前綴調(diào)整的機(jī)制,該機(jī)制通過(guò)將
l
l
l個(gè)可學(xué)習(xí)向量預(yù)先添加到原始注意力鍵和值來(lái)改變注意力模塊。在這里,我們導(dǎo)出了等式5的等效形式,并提供了前綴調(diào)整的替代視圖:
head
=
Attn
(
x
W
q
,
concat
(
P
k
,
C
W
k
)
,
concat
(
P
v
,
C
W
v
)
)
=
softmax
(
x
W
q
concat
(
P
k
,
C
W
k
)
?
)
[
P
v
C
W
v
]
=
(
1
?
λ
(
x
)
)
softmax
(
x
W
q
W
k
?
C
?
)
C
W
v
+
λ
(
x
)
softmax
(
x
W
q
W
k
?
)
P
v
=
(
1
?
λ
(
x
)
)
Attn
(
x
W
q
,
C
W
k
,
C
W
v
)
?
standard?attention
+
λ
(
x
)
Atn
(
x
W
q
,
P
k
,
P
v
)
?
independent?of?C
,
\begin{gather}\text{head}=\text{Attn}(xW_q,\text{concat}(P_k,CW_k),\text{concat}(P_v,CW_v)) \notag \\ =\text{softmax}(xW_q \text{concat}(P_k,CW_k)^\top)\begin{bmatrix} P_v \\ CW_v \end{bmatrix} \notag \\ =(1-\lambda(x))\text{softmax}(xW_qW_k^\top C^\top)CW_v+\lambda(x)\text{softmax}(xW_qW_k^\top)P_v \notag \\ =(1-\lambda(x))\underbrace{\text{Attn}(xW_q,CW_k,CW_v)}_{\text{standard attention}}+\lambda(x)\underbrace{\text{Atn}(xW_q,P_k,P_v)}_{\text{independent of C}}, \end{gather}
head=Attn(xWq?,concat(Pk?,CWk?),concat(Pv?,CWv?))=softmax(xWq?concat(Pk?,CWk?)?)[Pv?CWv??]=(1?λ(x))softmax(xWq?Wk??C?)CWv?+λ(x)softmax(xWq?Wk??)Pv?=(1?λ(x))standard?attention
Attn(xWq?,CWk?,CWv?)??+λ(x)independent?of?C
Atn(xWq?,Pk?,Pv?)??,??
其中
λ
(
x
)
\lambda(x)
λ(x)是表示前綴上歸一化注意力權(quán)重之和的標(biāo)量:
λ
(
x
)
=
∑
i
exp
?
(
x
W
q
P
k
?
)
i
∑
i
exp
?
(
x
W
q
P
k
?
)
i
+
∑
j
exp
?
(
x
W
q
W
k
?
C
?
)
j
.
\begin{gather}\lambda(x)=\frac{\sum_i\exp(xW_qP_k^\top)_i}{\sum_i\exp(xW_qP_k^\top)_i+\sum_j\exp(xW_qW_k^\top C^\top)_j}. \end{gather}
λ(x)=∑i?exp(xWq?Pk??)i?+∑j?exp(xWq?Wk??C?)j?∑i?exp(xWq?Pk??)i??.??
注意,等式7中的第一項(xiàng)
Attn
(
x
W
q
,
C
W
k
,
C
W
v
)
\text{Attn}(xW_q,CW_k,CW_v)
Attn(xWq?,CWk?,CWv?)是沒(méi)有前綴的原始注意力,而第二項(xiàng)是獨(dú)立于C的按位置的修改。等式7給出了前綴調(diào)整的替代視圖,其基本上通過(guò)線性插值對(duì)原始頭部注意力輸出
h
h
h應(yīng)用按位置的改變:
h
←
(
1
?
λ
(
x
)
)
h
+
λ
(
x
)
Δ
h
,
Δ
h
:
=
softmax
(
x
W
q
P
k
?
)
P
v
.
\begin{gather}h\leftarrow(1-\lambda(x))h+\lambda(x)\Delta h,\Delta h:=\text{softmax}(xW_qP_k^\top)P_v. \end{gather}
h←(1?λ(x))h+λ(x)Δh,Δh:=softmax(xWq?Pk??)Pv?.??
與適配器的連接:我們定義了
W
1
=
W
q
P
k
?
,
W
2
=
P
v
,
f
=
softmax
W_1=W_qP_k^\top,W_2=P_v,f=\text{softmax}
W1?=Wq?Pk??,W2?=Pv?,f=softmax,然后重寫(xiě)了等式9:
h
←
(
1
?
λ
(
x
)
)
h
+
λ
(
x
)
f
(
x
W
1
)
W
2
,
\begin{gather}h\leftarrow(1-\lambda(x))h+\lambda(x)f(xW_1)W_2, \end{gather}
h←(1?λ(x))h+λ(x)f(xW1?)W2?,??
它達(dá)到了與等式4中的適配器函數(shù)非常相似的形式,除了前綴調(diào)優(yōu)正在執(zhí)行加權(quán)加法,而適配器函數(shù)是未加權(quán)的。圖3b從這個(gè)視圖展示了前綴調(diào)優(yōu)的計(jì)算圖,它允許將前綴調(diào)優(yōu)抽象為像適配器一樣的插件模塊。此外,我們注意到,當(dāng)
l
l
l很小時(shí),
W
1
∈
R
d
h
×
l
W_1\in\mathbb{R}^{d_h\times l}
W1?∈Rdh?×l和
W
2
∈
R
l
×
d
h
W_2\in\mathbb{R}^{l\times d_h}
W2?∈Rl×dh?是低秩矩陣,因此它們的函數(shù)類似于適配器中的
W
d
o
w
n
W_{down}
Wdown?和
W
u
p
W_{up}
Wup?矩陣。這種觀點(diǎn)還表明,前綴向量的數(shù)量
l
l
l與適配器中的瓶頸維度
r
r
r起著類似的作用:它們都表示計(jì)算修改向量
Δ
h
\Delta h
Δh的秩限制。因此,我們也將
l
l
l稱為瓶頸維度。直觀地說(shuō),秩限制意味著
Δ
h
\Delta h
Δh是任何
x
x
x的相同
l
l
l(或
≤
l
\leq l
≤l)基向量的線性組合。
與適配器的區(qū)別:除了增加門(mén)變量
λ
\lambda
λ之外,我們還強(qiáng)調(diào)前綴調(diào)整和適配器之間的三個(gè)區(qū)別。(1) 如圖3所示,前綴調(diào)整使用PLM層的輸入
x
x
x來(lái)計(jì)算
Δ
h
\Delta h
Δh,而適配器使用PLM層輸出
h
h
h。因此,前綴調(diào)整可以被認(rèn)為是PLM層的“并行”計(jì)算,而典型的適配器是“順序”計(jì)算。(2) 適配器在插入位置方面比前綴調(diào)整更靈活:適配器通常修改注意力或FFN輸出,而前綴調(diào)整僅修改每個(gè)頭部的注意力輸出。根據(jù)經(jīng)驗(yàn),這產(chǎn)生了很大的差異,正如我們將在§4.4中所示。(3) 等式10適用于每個(gè)注意力頭部,而適配器總是單頭的,這使得前綴調(diào)整更具表現(xiàn)力:頭部注意力的維度為
d
/
N
h
d/N_h
d/Nh?——基本上,如果
l
≥
d
/
N
h
l\geq d/N_h
l≥d/Nh?,我們對(duì)每個(gè)注意力頭部都有全秩更新,但如果
r
≥
d
r\geq d
r≥d,我們只對(duì)適配器的整個(gè)注意力輸出進(jìn)行全秩更新。值得注意的是,當(dāng)
l
=
r
l=r
l=r時(shí),前綴調(diào)整不會(huì)添加比適配器更多的參數(shù)。我們?cè)凇?.4中實(shí)證驗(yàn)證了這種多頭影響。
3.2 統(tǒng)一框架
受前綴調(diào)整和適配器之間聯(lián)系的啟發(fā),我們提出了一個(gè)通用框架,旨在統(tǒng)一幾種最先進(jìn)的參數(shù)高效調(diào)優(yōu)方法。具體來(lái)說(shuō),我們將它們投射為學(xué)習(xí)修改向量
Δ
h
\Delta h
Δh,該向量應(yīng)用于各種隱藏表示。形式上,我們將要直接修改的隱藏表示表示為
h
h
h,并將計(jì)算
h
h
h的PLM子模塊的直接輸入表示為
x
x
x(例如,
h
h
h和
x
x
x可以分別是注意力輸出和輸入)。為了描述這個(gè)修改過(guò)程,我們定義了一組設(shè)計(jì)維度,可以通過(guò)沿著這些維度改變值來(lái)實(shí)例化不同的方法。我們?cè)敿?xì)介紹了以下設(shè)計(jì)維度,并在表1中說(shuō)明了適配器、前綴調(diào)優(yōu)和LoRA是如何實(shí)現(xiàn)的:
函數(shù)形式是計(jì)算
Δ
h
\Delta h
Δh的特定函數(shù)。我們?cè)诘仁?、6和10中分別詳細(xì)介紹了適配器、前綴調(diào)整和LoRA的功能形式。所有這些方法的功能形式與
proj_down
→
nonlinear
→
proj_up
\text{proj\_down}\rightarrow\text{nonlinear}\rightarrow\text{proj\_up}
proj_down→nonlinear→proj_up架構(gòu),而“非線性”退化為L(zhǎng)oRA中的單位函數(shù)。
修改的表示法指示直接修改哪個(gè)隱藏的表示法。
插入形式是將添加的模塊插入網(wǎng)絡(luò)的方式。如前一節(jié)所述,如圖3所示,傳統(tǒng)上,適配器以順序的方式插入在一個(gè)位置,其中輸入和輸出都是
h
h
h。前綴調(diào)整和LoRA——盡管最初沒(méi)有以這種方式描述——結(jié)果相當(dāng)于并行插入,其中
x
x
x是輸入。
合成函數(shù)是修改后的向量
Δ
h
\Delta h
Δh如何與原始隱藏表示
h
h
h合成,以形成新的隱藏表示。例如,適配器執(zhí)行簡(jiǎn)單的加法合成,前綴調(diào)整使用門(mén)加法合成,如等式所示10,LoRA通過(guò)常數(shù)因子縮放
Δ
h
\Delta h
Δh,并將其添加到原始隱藏表示中,如等式6所示。
我們注意到,表1中沒(méi)有列出的許多其他方法也適用于該框架。例如,提示調(diào)整以類似于前綴調(diào)整的方式修改第一層中的頭部注意力,并且各種適配器變體可以以類似于適配器的方式表示。至關(guān)重要的是,統(tǒng)一框架使我們能夠沿著這些設(shè)計(jì)維度研究參數(shù)有效的調(diào)整方法,確定關(guān)鍵的設(shè)計(jì)選擇,并潛在地跨方法傳遞設(shè)計(jì)元素,如下節(jié)所示。
3.3 遷移的設(shè)計(jì)元素
在這里,以及在圖3中,我們只描述了一些新穎的方法,這些方法可以通過(guò)我們上面的統(tǒng)一視圖通過(guò)在方法之間傳遞設(shè)計(jì)元素來(lái)派生:(1)Parallel Adapter是通過(guò)將前綴調(diào)優(yōu)的并行插入傳遞到適配器中的變體。有趣的是,盡管我們由于并行適配器與前綴調(diào)整的相似性而激勵(lì)它,但并行工作獨(dú)立提出了這種變體并對(duì)其進(jìn)行了實(shí)證研究;(2) 多頭并行適配器是使適配器更類似于前綴調(diào)優(yōu)的又一步:我們應(yīng)用并行適配器將頭部注意力輸出修改為前綴調(diào)優(yōu)。通過(guò)這種方式,變體通過(guò)利用我們?cè)凇?.1中討論的多頭投影來(lái)提高免費(fèi)容量。(3) Scaled Parallel Adapter是將LoRA的組成和插入形式轉(zhuǎn)移到適配器中的變體,如圖3e所示。
到目前為止,我們的討論和公式提出了幾個(gè)問(wèn)題:改變上述設(shè)計(jì)元素的方法是否表現(xiàn)出不同的特性?哪些設(shè)計(jì)維度特別重要?上述新方法是否產(chǎn)生更好的性能?我們接下來(lái)回答這些問(wèn)題。
4 實(shí)驗(yàn)
4.1 一般設(shè)置
數(shù)據(jù)集:我們研究了四個(gè)下游任務(wù):(1)XSum是一個(gè)英語(yǔ)摘要數(shù)據(jù)集,其中模型預(yù)測(cè)給定新聞文章的摘要;(2) 使用WMT 2016 en-ro數(shù)據(jù)集進(jìn)行英語(yǔ)到羅馬尼亞語(yǔ)翻譯;(3) MNLI是一個(gè)英語(yǔ)自然語(yǔ)言推理數(shù)據(jù)集,模型預(yù)測(cè)一個(gè)句子是否包含、矛盾或與另一個(gè)句子無(wú)關(guān)。(4) SST2是一個(gè)英語(yǔ)情感分類基準(zhǔn),模型預(yù)測(cè)句子的情感是積極的還是消極的。
設(shè)置:我們使用BARTLARGE和它的多語(yǔ)言版本mBARTLARGO分別作為XSum和en-ro翻譯的基礎(chǔ)預(yù)訓(xùn)練模型,我們使用RoBERTaBASE用于MNLI和SST2。如果需要,我們會(huì)在{1,30,200,512,1024}范圍內(nèi)改變瓶頸維度。我們主要研究適配器、前綴調(diào)整(前綴)和LoRA,它們?cè)谖覀兊膶?shí)驗(yàn)中大大優(yōu)于bitfit和提示調(diào)整。在分析部分(§4.3-4.5)中,我們?cè)谧⒁饬踊騀FN層插入適配器,以便于分析,但在最終比較中包括在兩個(gè)位置插入的結(jié)果(§4.6)。我們根據(jù)各自的公共代碼重新實(shí)現(xiàn)這些方法。我們使用huggingface transformers庫(kù)來(lái)實(shí)現(xiàn)。完整的設(shè)置細(xì)節(jié)見(jiàn)附錄A。
評(píng)估:我們報(bào)告了XSum測(cè)試集上的ROUGE 1/2/L分?jǐn)?shù)(R-1/2/L),en-ro測(cè)試集上BLEU分?jǐn)?shù),以及MNLI和SST2開(kāi)發(fā)集的準(zhǔn)確性。對(duì)于MNLI和SST2,我們?nèi)∥宕坞S機(jī)運(yùn)行的中值。我們還報(bào)告了相對(duì)于完全微調(diào)(#params)中的微調(diào)參數(shù)的數(shù)量。
可調(diào)整參數(shù)的數(shù)量:BART和mBART具有編碼器-解碼器結(jié)構(gòu),具有三種類型的注意力:編碼器自注意力、解碼器自注意力和解碼器交叉注意力。RoBERTa只有編碼器的自注意力。對(duì)于每個(gè)注意力子層,每個(gè)方法使用的參數(shù)數(shù)量為:(1)前綴調(diào)優(yōu)將
l
l
l個(gè)向量前置到鍵和值,并使用
2
×
l
×
d
2\times l\times d
2×l×d個(gè)參數(shù);(2) 適配器具有
W
d
o
w
n
W_{down}
Wdown?和
W
u
p
W_{up}
Wup?,因此使用
2
×
r
×
d
2\times r\times d
2×r×d參數(shù);(3) LoRA使用一對(duì)
W
d
o
w
n
W_{down}
Wdown?和
W
u
p
W_{up}
Wup?進(jìn)行查詢和值投影,因此使用
4
×
r
×
d
4\times r\times d
4×r×d參數(shù)。對(duì)于ffn處的適配器修改,它使用
2
×
r
×
d
2\times r\times d
2×r×d參數(shù),這與注意的適配器相同。因此,對(duì)于
r
r
r或
l
l
l的特定值,前綴調(diào)優(yōu)使用與適配器相同數(shù)量的參數(shù),而LoRA使用更多的參數(shù)。更多詳細(xì)信息見(jiàn)附錄B。
4.2 當(dāng)前方法的結(jié)果
我們首先概述了現(xiàn)有方法在這四項(xiàng)任務(wù)上的結(jié)果。如圖4和表2所示,雖然現(xiàn)有方法可以通過(guò)調(diào)整不到1%的參數(shù)在MNLI和SST2上實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能,但如果我們?cè)赬Sum和en-ro中添加5%的參數(shù),仍然存在很大的差距。盡管我們將相對(duì)參數(shù)大小增加到>10%,但差距仍然很大。Raffel等人在高資源MT任務(wù)方面觀察到了更大的差距。這表明,許多聲稱結(jié)果與僅使用編碼器模型的GLUE基準(zhǔn)上的完全微調(diào)結(jié)果相當(dāng)?shù)姆椒?,或在相?duì)簡(jiǎn)單的生成基準(zhǔn)上,如使用編碼器-解碼器模型的E2E可能無(wú)法很好地推廣到其他標(biāo)準(zhǔn)基準(zhǔn)。影響因素可能很復(fù)雜,包括訓(xùn)練樣本的數(shù)量、任務(wù)復(fù)雜性或模型架構(gòu)。因此,我們主張未來(lái)對(duì)這一領(lǐng)域進(jìn)行研究,以報(bào)告更多樣化基準(zhǔn)的結(jié)果,從而更全面地了解其績(jī)效狀況。下面,我們的分析將主要集中在XSum和en-ro數(shù)據(jù)集上,以更好地區(qū)分不同的設(shè)計(jì)選擇。我們注意到,這兩個(gè)基準(zhǔn)是使用編碼器-解碼器模型(BART)執(zhí)行的相對(duì)較高的資源,而我們將在§4.6中討論僅使用編碼器模型(RoBERTa)的MNLI和SST2的結(jié)果。
4.3 哪種插入形式-順序的還是并行的?
我們首先研究了插入形式的設(shè)計(jì)維度,在注意力(att)和FFN修改上,將所提出的并行適配器(PA)變體與傳統(tǒng)的順序適配器(SA)進(jìn)行了比較。我們還將前綴調(diào)優(yōu)作為參考點(diǎn)。如表3所示,使用并行插入的前綴調(diào)優(yōu)優(yōu)于注意力順序適配器。此外,并行適配器在所有情況下都能夠擊敗順序適配器,其中PA(ffn)在XSum上分別比SA(ffn)高1.7個(gè)R-2點(diǎn),在en-ro上高0.8個(gè)BLEU點(diǎn)。鑒于并行適配器的結(jié)果優(yōu)于順序適配器,我們將在下面的小節(jié)中重點(diǎn)介紹并行適配器結(jié)果。
4.4 哪種修改的表征-attention或者FFN?
設(shè)置:我們現(xiàn)在研究修改不同表示的效果。我們主要比較注意力和FFN修飾。為了便于分析,我們將修改注意力子層中任何隱藏表示的方法(如頭部輸出、查詢等)歸類為修改注意力模塊。我們比較了注意力、FFN和前綴調(diào)優(yōu)方面的并行適配器。我們還將FFN修改轉(zhuǎn)移到LoRA,以具有LoRA(FFN)變體,用于完全比較。具體地,我們使用LoRA來(lái)近似FFN權(quán)重
W
1
∈
R
d
×
d
m
W_1\in\mathbb{R}^{d\times d_m}
W1?∈Rd×dm?和
W
2
∈
R
d
m
×
d
W_2\in\mathbb{R}^{d_m\times d}
W2?∈Rdm?×d的參數(shù)更新。在這種情況下,
W
1
W_1
W1?的LoRA中的
W
u
p
W_{up}
Wup?(類似于
W
2
W_2
W2?的
W
d
o
w
n
W_{down}
Wdown?)的尺寸為
r
×
d
m
r\times d_m
r×dm?,其中
d
m
=
4
d
d_m=4d
dm?=4d,如§2.1所述。因此,在以后的實(shí)驗(yàn)中,我們通常使用比其他方法更小的
r
r
r來(lái)匹配它們的總體參數(shù)大小。
結(jié)果:如圖5所示,任何具有FFN修飾的方法在所有情況下都優(yōu)于所有具有注意力修飾的方法(紅色標(biāo)記通常高于所有藍(lán)色標(biāo)記,唯一的例外是具有2.4%參數(shù)的FFN-PA),通常參數(shù)較少。其次,在FFN中應(yīng)用的相同方法總是比其注意力對(duì)等方法有所改進(jìn)。例如,LoRA(ffn)在XSum上將LoRA(attn)提高了1R-2個(gè)點(diǎn)。我們還強(qiáng)調(diào),當(dāng)我們進(jìn)一步增加容量時(shí),前綴調(diào)整并沒(méi)有持續(xù)改進(jìn),這也在Li&Liang中觀察到。這些結(jié)果表明,無(wú)論功能形式或組成功能是什么,F(xiàn)FN修飾都可以比注意力更有效地利用添加的參數(shù)。我們假設(shè)這是因?yàn)镕FN學(xué)習(xí)特定于任務(wù)的文本模式,而注意力學(xué)習(xí)不需要大容量適應(yīng)新任務(wù)的成對(duì)位置交互。
當(dāng)我們使用0.1%的參數(shù)時(shí),情況會(huì)有所不同嗎?在§3.1中,我們認(rèn)為前綴調(diào)優(yōu)比適配器(attn)更具表現(xiàn)力,然而,這并沒(méi)有反映在圖5中。我們推測(cè)這是因?yàn)橹挥挟?dāng)參數(shù)預(yù)算很小時(shí),多頭注意力才是優(yōu)越的。為了驗(yàn)證這一假設(shè),我們將前綴調(diào)整與并行適配器進(jìn)行比較,當(dāng)它們添加0.1%的預(yù)訓(xùn)練參數(shù)時(shí)。為了消除合成函數(shù)的影響,我們還將前綴調(diào)整中去除門(mén)控的結(jié)果報(bào)告為
h
+
Δ
h
h+\Delta h
h+Δh。我們包括了§3.3中所述的多頭并聯(lián)適配器變體(MH-PA)的結(jié)果。如表4所示,當(dāng)使用0.1%的參數(shù)時(shí),多頭方法——前綴調(diào)整和MH-PA(attn)——比所有其他方法至少高1.6個(gè)BLEU點(diǎn)。令人驚訝的是,將
l
l
l從200減少到30只會(huì)導(dǎo)致前綴調(diào)整的0.4 BLEU損失,而PA(attn)損失1.9分。前綴調(diào)整中的門(mén)控合成功能略微有助于結(jié)果0.3分。我們強(qiáng)調(diào),MH并行適配器將單頭版本改進(jìn)了1.6點(diǎn),這再次驗(yàn)證了多頭形式的有效性。
結(jié)合圖5和表4中的結(jié)果,我們得出結(jié)論,當(dāng)參數(shù)預(yù)算非常小時(shí),修改頭部注意力顯示出最佳結(jié)果,而FFN可以在更大的容量下更好地利用修改。這表明,為FFN修改分配更大的參數(shù)預(yù)算可能是有效的,而不是像Houlsby等人那樣平等對(duì)待注意力和FFN。
4.5 哪種合成函數(shù)?
我們?cè)凇?.2中介紹了三個(gè)組合函數(shù):簡(jiǎn)單加法(適配器)、門(mén)控加法(前綴調(diào)整)和縮放加法(LoRA)。由于在函數(shù)形式不使用softmax的方法中加入精確門(mén)控加法是不自然的,我們通過(guò)消融LoRA并與所提出的縮放并行適配器(縮放PA)進(jìn)行比較來(lái)檢查其他兩種方法,我們將修改后的表示約束為FFN,因?yàn)樗ǔ8行?,如?.4所示。
表5報(bào)告了XSum的結(jié)果。我們?yōu)檫m配器設(shè)置
r
r
r為512,為L(zhǎng)oRA設(shè)置
r
r
r為102,以便它們的調(diào)整參數(shù)大小相同。我們根據(jù)開(kāi)發(fā)集上的R-2分?jǐn)?shù)來(lái)選擇
s
s
s。我們觀察到,LoRA(s=4)的性能優(yōu)于并行適配器。但是,如果我們通過(guò)設(shè)置s=1來(lái)去除縮放,則優(yōu)勢(shì)將消失。通過(guò)將LoRA的合成函數(shù)插入到并行適配器中,得到的Scaled PA比普通并行適配器提高了0.56個(gè)ROUGE-2點(diǎn)。我們還用一個(gè)學(xué)習(xí)的標(biāo)量進(jìn)行了實(shí)驗(yàn),它并沒(méi)有給出更好的結(jié)果。因此,我們得出結(jié)論,縮放成分函數(shù)比普通加法函數(shù)更好,同時(shí)易于應(yīng)用。
4.6 通過(guò)傳遞有利的設(shè)計(jì)元素實(shí)現(xiàn)有效集成
我們?cè)谇皫坠?jié)中首先強(qiáng)調(diào)了三個(gè)發(fā)現(xiàn):(1)縮放并行適配器是修改FFN的最佳變體;(2) FFN可以更好地利用更大容量的修改;和(3)修改頭部注意,如前綴調(diào)整,只需0.1%的參數(shù)就可以獲得強(qiáng)大的性能。受他們的啟發(fā),我們混合并匹配了這些發(fā)現(xiàn)背后的有利設(shè)計(jì):特別是,我們?cè)谧⒁饬ψ訉邮褂镁哂行∑款i維度(
l
l
l=30)的前綴調(diào)整,并分配更多的參數(shù)預(yù)算來(lái)使用縮放的并行適配器修改FFN表示(r=512)。由于前綴調(diào)優(yōu)在我們的統(tǒng)一框架中可以被視為適配器的一種形式,因此我們將這種變體命名為Mix-And-Match適配器(MAM-adapter)。在表6中,我們將MAM適配器與各種參數(shù)有效的調(diào)整方法進(jìn)行了比較。為了完整性,我們還在表6中展示了其他組合版本的結(jié)果:在注意力層和FFN層使用并行適配器,并將前綴調(diào)整(attn)與LoRA(FFN)相結(jié)合——這兩個(gè)組合版本都可以在各自的原型基礎(chǔ)上進(jìn)行改進(jìn)。然而,MAM Adapter在這兩項(xiàng)任務(wù)上都實(shí)現(xiàn)了最佳性能,并且僅更新6.7%的預(yù)訓(xùn)練參數(shù)就能夠與我們的完全微調(diào)結(jié)果相匹配。在表2中,我們還展示了MAM-Adapter在MNLI和SST2上的結(jié)果,其中MAM-Adapter通過(guò)僅添加0.5%的預(yù)訓(xùn)練參數(shù)實(shí)現(xiàn)了與完全微調(diào)相當(dāng)?shù)慕Y(jié)果。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-514627.html
5 討論
我們?yōu)閹追N性能參數(shù)調(diào)整方法提供了一個(gè)統(tǒng)一的框架,這使我們能夠通過(guò)跨方法遷移技術(shù)來(lái)實(shí)例化一個(gè)更有效的模型,該模型與完全微調(diào)方法的性能相匹配。我們希望我們的工作能夠?yàn)槲磥?lái)參數(shù)有效調(diào)整的研究提供見(jiàn)解和指導(dǎo)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-514627.html
到了這里,關(guān)于TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!