国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<span id="kckhn"></span>

<noscript id="kckhn"></noscript>

<i id="kckhn"><pre id="kckhn"><span id="kckhn"></span></pre></i>

<p id="kckhn"><ins id="kckhn"><strike id="kckhn"></strike></ins></p>

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING

2年前作者：UnknownBody分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本文也是屬于LLM系列的文章，針對(duì)《TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING》的翻譯。

摘要

在下游任務(wù)上微調(diào)大型預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)成為NLP中事實(shí)上的學(xué)習(xí)范式。然而，傳統(tǒng)的方法對(duì)預(yù)訓(xùn)練模型的所有參數(shù)進(jìn)行微調(diào)，隨著模型大小和任務(wù)數(shù)量的增長(zhǎng)，這變得令人望而卻步。最近的工作提出了各種參數(shù)有效的遷移學(xué)習(xí)方法，這些方法只微調(diào)少量（額外）參數(shù)以獲得強(qiáng)大的性能。雖然有效，但人們對(duì)成功的關(guān)鍵因素以及各種方法之間的聯(lián)系知之甚少。在本文中，我們分解了最先進(jìn)的參數(shù)有效遷移學(xué)習(xí)方法的設(shè)計(jì)，并提出了一個(gè)統(tǒng)一的框架，在它們之間建立聯(lián)系。具體來(lái)說(shuō)，我們將它們重新定義為對(duì)預(yù)訓(xùn)練模型中特定隱藏狀態(tài)的修改，并定義一組不同方法變化的設(shè)計(jì)維度，例如計(jì)算修改的函數(shù)和應(yīng)用修改的位置。通過(guò)對(duì)機(jī)器翻譯、文本摘要、語(yǔ)言理解和文本分類基準(zhǔn)的全面實(shí)證研究，我們利用統(tǒng)一的觀點(diǎn)來(lái)確定以前方法中的重要設(shè)計(jì)選擇。此外，我們的統(tǒng)一框架能夠在不同的方法之間傳遞設(shè)計(jì)元素，因此，我們能夠?qū)嵗碌膮?shù)有效的微調(diào)方法，這些方法比以前的方法調(diào)整更少的參數(shù)，同時(shí)更有效，實(shí)現(xiàn)了與微調(diào)所有四個(gè)任務(wù)的所有參數(shù)相當(dāng)?shù)慕Y(jié)果。

1 引言

從預(yù)先訓(xùn)練的語(yǔ)言模型（PLM）中進(jìn)行遷移學(xué)習(xí)現(xiàn)在是自然語(yǔ)言處理中的主流范式，在許多任務(wù)上都有很強(qiáng)的表現(xiàn)。使通用PLM適應(yīng)下游任務(wù)的最常見(jiàn)方法是微調(diào)所有模型參數(shù)（完全微調(diào)）。然而，這導(dǎo)致每個(gè)任務(wù)都有一個(gè)單獨(dú)的微調(diào)模型參數(shù)副本，當(dāng)為執(zhí)行大量任務(wù)的模型提供服務(wù)時(shí)，這是非常昂貴的。隨著PLM規(guī)模的不斷擴(kuò)大，這一問(wèn)題尤為突出，目前PLM的規(guī)模從數(shù)億到數(shù)千億，甚至數(shù)萬(wàn)億的參數(shù)。
為了緩解這個(gè)問(wèn)題，已經(jīng)提出了一些輕量級(jí)的替代方案，只更新少量額外的參數(shù)，同時(shí)保持大多數(shù)預(yù)訓(xùn)練的參數(shù)凍結(jié)。例如，適配器調(diào)整將稱為適配器的小型神經(jīng)模塊插入到預(yù)訓(xùn)練網(wǎng)絡(luò)的每一層，并且在微調(diào)時(shí)僅訓(xùn)練適配器。受通過(guò)文本提示控制PLM的提示方法的成功啟發(fā)、前綴調(diào)整和提示調(diào)整為輸入或隱藏層準(zhǔn)備了額外的 $l$ 個(gè)可調(diào)前綴標(biāo)記，并且僅在對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí)訓(xùn)練這些軟提示。最近，Hu等人學(xué)習(xí)低秩矩陣來(lái)近似參數(shù)更新。我們?cè)趫D1中說(shuō)明了這些方法。據(jù)報(bào)道，這些方法通常通過(guò)更新不到1%的原始模型參數(shù)，在不同的任務(wù)集上表現(xiàn)出與完全微調(diào)相當(dāng)?shù)男阅堋３藚?shù)節(jié)省之外，參數(shù)有效調(diào)整還可以在沒(méi)有災(zāi)難性遺忘的情況下快速適應(yīng)新任務(wù)，并且在分布外評(píng)估中往往表現(xiàn)出優(yōu)越的魯棒性。
TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
然而，我們認(rèn)為，對(duì)這些參數(shù)有效調(diào)整方法取得成功的重要因素知之甚少，它們之間的聯(lián)系仍不清楚。在本文中，我們旨在回答三個(gè)問(wèn)題：（1）這些方法是如何連接的？（2）這些方法是否共享對(duì)其有效性至關(guān)重要的設(shè)計(jì)元素？它們是什么？（3）每種方法的有效成分能否遷移到其他方法中，以產(chǎn)生更有效的變體？
為了回答這些問(wèn)題，我們首先推導(dǎo)了一種前綴調(diào)整的替代形式，揭示了前綴調(diào)整與適配器的密切聯(lián)系（§3.1）。在此基礎(chǔ)上，我們?cè)O(shè)計(jì)了一個(gè)統(tǒng)一的框架，將上述方法框定為修改凍結(jié)PLM的隱藏表示的不同方法（§3.2）。我們的統(tǒng)一框架沿著一組共享的設(shè)計(jì)維度分解了以前的方法，例如用于執(zhí)行修改的功能、實(shí)施該修改的位置以及如何整合該修改。該框架允許我們跨方法轉(zhuǎn)移設(shè)計(jì)選擇，以提出新的變體，如具有多個(gè)頭的適配器（§3.3）。在實(shí)驗(yàn)中，我們首先表明，現(xiàn)有的參數(shù)有效調(diào)整方法在更高資源和具有挑戰(zhàn)性的任務(wù)上仍然落后于完全微調(diào)（§4.2），如圖2所示。然后，我們利用統(tǒng)一的框架來(lái)識(shí)別關(guān)鍵的設(shè)計(jì)選擇，并實(shí)證驗(yàn)證所提出的變體（§4.3-4.6）。我們?cè)谒膫€(gè)NLP基準(zhǔn)上進(jìn)行的實(shí)驗(yàn)，包括文本摘要、機(jī)器翻譯（MT）、文本分類和一般語(yǔ)言理解，表明所提出的變體比現(xiàn)有方法使用更少的參數(shù)，同時(shí)更有效，匹配所有四項(xiàng)任務(wù)的完全微調(diào)結(jié)果。

2 前言

2.1 Transformer結(jié)構(gòu)綜述

Transformer模型現(xiàn)在是大多數(shù)最先進(jìn)的PLM背后的主力架構(gòu)。在本節(jié)中，為了完整性，我們回顧了該模型的方程。Transformer模型由L個(gè)堆疊塊組成，其中每個(gè)塊（圖1）包含兩種類型的子層：多頭自注意和全連接前饋網(wǎng)絡(luò)（FFN）。傳統(tǒng)的注意函數(shù)映射查詢 $Q\in\mathbb{R}^{n\times d_k}$ 和鍵值對(duì) $K\in\mathbb{R}^{m\times d_k},V\in\mathbb{R}^{m\times d_v}:$
$\begin{gather}Attn(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V, \end{gather}$
其中n和m分別是查詢和鍵值對(duì)的數(shù)量。多頭注意力在 $N_h$ 個(gè)頭上并行執(zhí)行注意力函數(shù)，其中每個(gè)頭分別由 $W_q^{(i)},W^{(i)}_k,W^{(i)}_v$ 參數(shù)化，以將輸入投影到查詢、鍵和值。給定我們想要在其上執(zhí)行注意力的m個(gè)向量序列 $C\in\mathbb{R}^{m\times d}$ 和查詢向量 $x\in\mathbb{R}^d$ ，多頭注意力（MHA）計(jì)算每個(gè)頭上的輸出并將它們連接起來(lái)：
$\begin{gather} \text{MHA}(C,x)=\text{Concat}(head_1,\cdots,head_h)W_o,head_i=Attn(xW_q^{(i)},CW^{(i)}_k,CW^{(i)}_v), \end{gather}$
其中， $W_o\in\mathbb{R}^{d\times d}$ 。d是模型維度，并且在MHA中， $d_h$ 通常被設(shè)置為 $d/N_h$ 以保存參數(shù)，這指示每個(gè)注意力頭在較低維度空間上操作。另一個(gè)重要的子層是全連接前饋網(wǎng)絡(luò)（FFN），它由兩個(gè)線性變換組成，ReLU激活函數(shù)介于兩者之間：
$\begin{gather} \text{FFN}(x)=\text{Relu}(xW_1+b_1)W_2+b_2, \end{gather}$
其中 $W_1\in\mathbb{R}^{d\times d_m},W_2\in\mathbb{R}^{d_m\times d}$ 。Transformer通常使用大 $d_m$ ，例如。最后，使用殘差連接，然后進(jìn)行層正則化。

2.2 之前的參數(shù)高效調(diào)優(yōu)方法綜述

下面和圖1中，我們介紹了幾種最先進(jìn)的參數(shù)有效調(diào)整方法。除非另有說(shuō)明，否則它們只在PLM凍結(jié)時(shí)調(diào)整添加的參數(shù)。
適配器：適配器方法在Transformer層之間插入小型模塊（適配器）。適配器層通常使用 $W_{down}\in\mathbb{R}^{d\times r}$ 的向下投影將輸入 $h$ 投影到由瓶頸維數(shù)r指定的低維空間，然后跟著非線性激活函數(shù) $f(\cdot)$ ，以及 $W_{up}\in\mathbb{R}^{r\times d}$ 的向上投影。這些適配器被一個(gè)殘差連接包圍，從而形成最終的形式：
$\begin{gather}h\leftarrow h+f(hW_{down})W_{up}. \end{gather}$
Houlsby等人將兩個(gè)適配器依次放置在Transformer的一層內(nèi)，一個(gè)放置在多頭注意力之后，一個(gè)放在FFN子層之后。Pfeiffer等人提出了一種更有效的適配器變體，僅在FFN“add & layer norm”子層之后插入。
前綴調(diào)整：受文本提示方法成功的啟發(fā)，前綴調(diào)整將 $l$ 個(gè)可調(diào)前綴向量預(yù)先添加到每一層多頭注意力的鍵和值中。具體地，兩組前綴向量 $P_k,P_v\in\mathbb{R}^{l\times d}$ 與原始鍵K和值V拼接。然后，對(duì)新的帶前綴的鍵和值進(jìn)行多頭關(guān)注。公式2中 $\text{head}_i$ 的計(jì)算變?yōu)椋?br> $\begin{gather}\text{head}_i=\text{Attn}(xW^{(i)}_q,\text{concat}(P^{(i)}_k,CW^{(i)}_k),\text{concat}(P^{(i)}_v,CW^{(i)}_v)), \end{gather}$
$P_k$ 和 $P_v$ 分別劃分為 $N_h$ 個(gè)頭向量， $P^{(i)}_k,P^{(i)}_v\in\mathbb{R}^{l\times d/N_h}$ 表示第i個(gè)頭向量。提示調(diào)整通過(guò)僅對(duì)第一層中的輸入單詞嵌入進(jìn)行預(yù)處理來(lái)簡(jiǎn)化前綴調(diào)整；類似的工作還包括P-調(diào)整。
LoRA：LoRA將可訓(xùn)練的低秩矩陣注入到Transformer層中，以近似權(quán)重更新。對(duì)于預(yù)訓(xùn)練的權(quán)重矩陣 $W\in\mathbb{R}^{d\times k}$ ，LoRA用低秩分解 $W+\Delta W=W+W_{down}W_{up}$ 表示其更新，其中 $W_{down}\in\mathbb{R}^{d\times r},W_{up}\in\mathbb{R}^{r\times k}$ 是可調(diào)參數(shù)。LoRA將此更新應(yīng)用于多頭注意力子層中的查詢和值投影矩陣 $W_q,W_v)$ ，如圖1所示。對(duì)于多頭注意力中線性投影的特定輸入 $x$ ，LoRA將投影輸出 $h$ 修改為：
$\begin{gather}h\leftarrow h+s\cdot xW_{down}W_{up}, \end{gather}$
其中 $s\geq 1$ 是一個(gè)可調(diào)節(jié)的標(biāo)量超參數(shù)。
其他：其他參數(shù)有效的調(diào)整方法包括BitFit，它只對(duì)預(yù)訓(xùn)練模型中的偏差向量進(jìn)行微調(diào)，以及diff修剪，它學(xué)習(xí)稀疏參數(shù)更新向量。

3 彌合差距-統(tǒng)一的視角

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
我們首先推導(dǎo)出一種等價(jià)形式的前綴調(diào)優(yōu)，以建立其與適配器的連接。然后，我們提出了一個(gè)用于參數(shù)有效調(diào)整的統(tǒng)一框架，其中包括幾個(gè)最先進(jìn)的方法作為實(shí)例。

3.1 仔細(xì)觀察Prefix Tuning

等式5描述了前綴調(diào)整的機(jī)制，該機(jī)制通過(guò)將 $l$ 個(gè)可學(xué)習(xí)向量預(yù)先添加到原始注意力鍵和值來(lái)改變注意力模塊。在這里，我們導(dǎo)出了等式5的等效形式，并提供了前綴調(diào)整的替代視圖：
$\begin{gather}\text{head}=\text{Attn}(xW_q,\text{concat}(P_k,CW_k),\text{concat}(P_v,CW_v)) \notag \\ =\text{softmax}(xW_q \text{concat}(P_k,CW_k)^\top)\begin{bmatrix} P_v \\ CW_v \end{bmatrix} \notag \\ =(1-\lambda(x))\text{softmax}(xW_qW_k^\top C^\top)CW_v+\lambda(x)\text{softmax}(xW_qW_k^\top)P_v \notag \\ =(1-\lambda(x))\underbrace{\text{Attn}(xW_q,CW_k,CW_v)}_{\text{standard attention}}+\lambda(x)\underbrace{\text{Atn}(xW_q,P_k,P_v)}_{\text{independent of C}}, \end{gather}$
其中 $\lambda(x)$ 是表示前綴上歸一化注意力權(quán)重之和的標(biāo)量：
$\begin{gather}\lambda(x)=\frac{\sum_i\exp(xW_qP_k^\top)_i}{\sum_i\exp(xW_qP_k^\top)_i+\sum_j\exp(xW_qW_k^\top C^\top)_j}. \end{gather}$
注意，等式7中的第一項(xiàng) $\text{Attn}(xW_q,CW_k,CW_v)$ 是沒(méi)有前綴的原始注意力，而第二項(xiàng)是獨(dú)立于C的按位置的修改。等式7給出了前綴調(diào)整的替代視圖，其基本上通過(guò)線性插值對(duì)原始頭部注意力輸出 $h$ 應(yīng)用按位置的改變：
$\begin{gather}h\leftarrow(1-\lambda(x))h+\lambda(x)\Delta h,\Delta h:=\text{softmax}(xW_qP_k^\top)P_v. \end{gather}$
與適配器的連接：我們定義了 $W_1=W_qP_k^\top,W_2=P_v,f=\text{softmax}$ ，然后重寫(xiě)了等式9：
$\begin{gather}h\leftarrow(1-\lambda(x))h+\lambda(x)f(xW_1)W_2, \end{gather}$
它達(dá)到了與等式4中的適配器函數(shù)非常相似的形式，除了前綴調(diào)優(yōu)正在執(zhí)行加權(quán)加法，而適配器函數(shù)是未加權(quán)的。圖3b從這個(gè)視圖展示了前綴調(diào)優(yōu)的計(jì)算圖，它允許將前綴調(diào)優(yōu)抽象為像適配器一樣的插件模塊。此外，我們注意到，當(dāng) $l$ 很小時(shí)， $W_1\in\mathbb{R}^{d_h\times l}$ 和 $W_2\in\mathbb{R}^{l\times d_h}$ 是低秩矩陣，因此它們的函數(shù)類似于適配器中的 $W_{down}$ 和 $W_{up}$ 矩陣。這種觀點(diǎn)還表明，前綴向量的數(shù)量 $l$ 與適配器中的瓶頸維度 $r$ 起著類似的作用：它們都表示計(jì)算修改向量 $\Delta h$ 的秩限制。因此，我們也將 $l$ 稱為瓶頸維度。直觀地說(shuō)，秩限制意味著 $\Delta h$ 是任何 $x$ 的相同 $l$ （或 $\leq l$ ）基向量的線性組合。
與適配器的區(qū)別：除了增加門(mén)變量 $\lambda$ 之外，我們還強(qiáng)調(diào)前綴調(diào)整和適配器之間的三個(gè)區(qū)別。（1）如圖3所示，前綴調(diào)整使用PLM層的輸入 $x$ 來(lái)計(jì)算 $\Delta h$ ，而適配器使用PLM層輸出 $h$ 。因此，前綴調(diào)整可以被認(rèn)為是PLM層的“并行”計(jì)算，而典型的適配器是“順序”計(jì)算。（2）適配器在插入位置方面比前綴調(diào)整更靈活：適配器通常修改注意力或FFN輸出，而前綴調(diào)整僅修改每個(gè)頭部的注意力輸出。根據(jù)經(jīng)驗(yàn)，這產(chǎn)生了很大的差異，正如我們將在§4.4中所示。（3）等式10適用于每個(gè)注意力頭部，而適配器總是單頭的，這使得前綴調(diào)整更具表現(xiàn)力：頭部注意力的維度為 $d/N_h$ ——基本上，如果 $l\geq d/N_h$ ，我們對(duì)每個(gè)注意力頭部都有全秩更新，但如果 $r\geq d$ ，我們只對(duì)適配器的整個(gè)注意力輸出進(jìn)行全秩更新。值得注意的是，當(dāng) $l = r$ 時(shí)，前綴調(diào)整不會(huì)添加比適配器更多的參數(shù)。我們?cè)凇?.4中實(shí)證驗(yàn)證了這種多頭影響。

3.2 統(tǒng)一框架

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
受前綴調(diào)整和適配器之間聯(lián)系的啟發(fā)，我們提出了一個(gè)通用框架，旨在統(tǒng)一幾種最先進(jìn)的參數(shù)高效調(diào)優(yōu)方法。具體來(lái)說(shuō)，我們將它們投射為學(xué)習(xí)修改向量 $\Delta h$ ，該向量應(yīng)用于各種隱藏表示。形式上，我們將要直接修改的隱藏表示表示為 $h$ ，并將計(jì)算 $h$ 的PLM子模塊的直接輸入表示為 $x$ （例如， $h$ 和 $x$ 可以分別是注意力輸出和輸入）。為了描述這個(gè)修改過(guò)程，我們定義了一組設(shè)計(jì)維度，可以通過(guò)沿著這些維度改變值來(lái)實(shí)例化不同的方法。我們?cè)敿?xì)介紹了以下設(shè)計(jì)維度，并在表1中說(shuō)明了適配器、前綴調(diào)優(yōu)和LoRA是如何實(shí)現(xiàn)的：
函數(shù)形式是計(jì)算 $\Delta h$ 的特定函數(shù)。我們?cè)诘仁?、6和10中分別詳細(xì)介紹了適配器、前綴調(diào)整和LoRA的功能形式。所有這些方法的功能形式與 $proj_down → nonlinear → proj_up \text{proj\_down}\rightarrow\text{nonlinear}\rightarrow\text{proj\_up}$ 架構(gòu)，而“非線性”退化為L(zhǎng)oRA中的單位函數(shù)。
修改的表示法指示直接修改哪個(gè)隱藏的表示法。
插入形式是將添加的模塊插入網(wǎng)絡(luò)的方式。如前一節(jié)所述，如圖3所示，傳統(tǒng)上，適配器以順序的方式插入在一個(gè)位置，其中輸入和輸出都是 $h$ 。前綴調(diào)整和LoRA——盡管最初沒(méi)有以這種方式描述——結(jié)果相當(dāng)于并行插入，其中 $x$ 是輸入。
合成函數(shù)是修改后的向量 $\Delta h$ 如何與原始隱藏表示 $h$ 合成，以形成新的隱藏表示。例如，適配器執(zhí)行簡(jiǎn)單的加法合成，前綴調(diào)整使用門(mén)加法合成，如等式所示10，LoRA通過(guò)常數(shù)因子縮放 $\Delta h$ ，并將其添加到原始隱藏表示中，如等式6所示。
我們注意到，表1中沒(méi)有列出的許多其他方法也適用于該框架。例如，提示調(diào)整以類似于前綴調(diào)整的方式修改第一層中的頭部注意力，并且各種適配器變體可以以類似于適配器的方式表示。至關(guān)重要的是，統(tǒng)一框架使我們能夠沿著這些設(shè)計(jì)維度研究參數(shù)有效的調(diào)整方法，確定關(guān)鍵的設(shè)計(jì)選擇，并潛在地跨方法傳遞設(shè)計(jì)元素，如下節(jié)所示。

3.3 遷移的設(shè)計(jì)元素

在這里，以及在圖3中，我們只描述了一些新穎的方法，這些方法可以通過(guò)我們上面的統(tǒng)一視圖通過(guò)在方法之間傳遞設(shè)計(jì)元素來(lái)派生：（1）Parallel Adapter是通過(guò)將前綴調(diào)優(yōu)的并行插入傳遞到適配器中的變體。有趣的是，盡管我們由于并行適配器與前綴調(diào)整的相似性而激勵(lì)它，但并行工作獨(dú)立提出了這種變體并對(duì)其進(jìn)行了實(shí)證研究；（2）多頭并行適配器是使適配器更類似于前綴調(diào)優(yōu)的又一步：我們應(yīng)用并行適配器將頭部注意力輸出修改為前綴調(diào)優(yōu)。通過(guò)這種方式，變體通過(guò)利用我們?cè)凇?.1中討論的多頭投影來(lái)提高免費(fèi)容量。（3） Scaled Parallel Adapter是將LoRA的組成和插入形式轉(zhuǎn)移到適配器中的變體，如圖3e所示。
到目前為止，我們的討論和公式提出了幾個(gè)問(wèn)題：改變上述設(shè)計(jì)元素的方法是否表現(xiàn)出不同的特性？哪些設(shè)計(jì)維度特別重要？上述新方法是否產(chǎn)生更好的性能？我們接下來(lái)回答這些問(wèn)題。

4 實(shí)驗(yàn)

4.1 一般設(shè)置

數(shù)據(jù)集：我們研究了四個(gè)下游任務(wù)：（1）XSum是一個(gè)英語(yǔ)摘要數(shù)據(jù)集，其中模型預(yù)測(cè)給定新聞文章的摘要；（2）使用WMT 2016 en-ro數(shù)據(jù)集進(jìn)行英語(yǔ)到羅馬尼亞語(yǔ)翻譯；（3） MNLI是一個(gè)英語(yǔ)自然語(yǔ)言推理數(shù)據(jù)集，模型預(yù)測(cè)一個(gè)句子是否包含、矛盾或與另一個(gè)句子無(wú)關(guān)。（4） SST2是一個(gè)英語(yǔ)情感分類基準(zhǔn)，模型預(yù)測(cè)句子的情感是積極的還是消極的。
設(shè)置：我們使用BARTLARGE和它的多語(yǔ)言版本mBARTLARGO分別作為XSum和en-ro翻譯的基礎(chǔ)預(yù)訓(xùn)練模型，我們使用RoBERTaBASE用于MNLI和SST2。如果需要，我們會(huì)在｛1，30，200，512，1024｝范圍內(nèi)改變瓶頸維度。我們主要研究適配器、前綴調(diào)整（前綴）和LoRA，它們?cè)谖覀兊膶?shí)驗(yàn)中大大優(yōu)于bitfit和提示調(diào)整。在分析部分（§4.3-4.5）中，我們?cè)谧⒁饬踊騀FN層插入適配器，以便于分析，但在最終比較中包括在兩個(gè)位置插入的結(jié)果（§4.6）。我們根據(jù)各自的公共代碼重新實(shí)現(xiàn)這些方法。我們使用huggingface transformers庫(kù)來(lái)實(shí)現(xiàn)。完整的設(shè)置細(xì)節(jié)見(jiàn)附錄A。
評(píng)估：我們報(bào)告了XSum測(cè)試集上的ROUGE 1/2/L分?jǐn)?shù)（R-1/2/L），en-ro測(cè)試集上BLEU分?jǐn)?shù)，以及MNLI和SST2開(kāi)發(fā)集的準(zhǔn)確性。對(duì)于MNLI和SST2，我們?nèi)∥宕坞S機(jī)運(yùn)行的中值。我們還報(bào)告了相對(duì)于完全微調(diào)（#params）中的微調(diào)參數(shù)的數(shù)量。
可調(diào)整參數(shù)的數(shù)量：BART和mBART具有編碼器-解碼器結(jié)構(gòu)，具有三種類型的注意力：編碼器自注意力、解碼器自注意力和解碼器交叉注意力。RoBERTa只有編碼器的自注意力。對(duì)于每個(gè)注意力子層，每個(gè)方法使用的參數(shù)數(shù)量為：（1）前綴調(diào)優(yōu)將 $l$ 個(gè)向量前置到鍵和值，并使用 $2\times l\times d$ 個(gè)參數(shù)；（2）適配器具有 $W_{down}$ 和 $W_{up}$ ，因此使用 $2\times r\times d$ 參數(shù)；（3） LoRA使用一對(duì) $W_{down}$ 和 $W_{up}$ 進(jìn)行查詢和值投影，因此使用 $4\times r\times d$ 參數(shù)。對(duì)于ffn處的適配器修改，它使用 $2\times r\times d$ 參數(shù)，這與注意的適配器相同。因此，對(duì)于 $r$ 或 $l$ 的特定值，前綴調(diào)優(yōu)使用與適配器相同數(shù)量的參數(shù)，而LoRA使用更多的參數(shù)。更多詳細(xì)信息見(jiàn)附錄B。

4.2 當(dāng)前方法的結(jié)果

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
我們首先概述了現(xiàn)有方法在這四項(xiàng)任務(wù)上的結(jié)果。如圖4和表2所示，雖然現(xiàn)有方法可以通過(guò)調(diào)整不到1%的參數(shù)在MNLI和SST2上實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能，但如果我們?cè)赬Sum和en-ro中添加5%的參數(shù)，仍然存在很大的差距。盡管我們將相對(duì)參數(shù)大小增加到>10%，但差距仍然很大。Raffel等人在高資源MT任務(wù)方面觀察到了更大的差距。這表明，許多聲稱結(jié)果與僅使用編碼器模型的GLUE基準(zhǔn)上的完全微調(diào)結(jié)果相當(dāng)?shù)姆椒?，或在相?duì)簡(jiǎn)單的生成基準(zhǔn)上，如使用編碼器-解碼器模型的E2E可能無(wú)法很好地推廣到其他標(biāo)準(zhǔn)基準(zhǔn)。影響因素可能很復(fù)雜，包括訓(xùn)練樣本的數(shù)量、任務(wù)復(fù)雜性或模型架構(gòu)。因此，我們主張未來(lái)對(duì)這一領(lǐng)域進(jìn)行研究，以報(bào)告更多樣化基準(zhǔn)的結(jié)果，從而更全面地了解其績(jī)效狀況。下面，我們的分析將主要集中在XSum和en-ro數(shù)據(jù)集上，以更好地區(qū)分不同的設(shè)計(jì)選擇。我們注意到，這兩個(gè)基準(zhǔn)是使用編碼器-解碼器模型（BART）執(zhí)行的相對(duì)較高的資源，而我們將在§4.6中討論僅使用編碼器模型（RoBERTa）的MNLI和SST2的結(jié)果。

4.3 哪種插入形式-順序的還是并行的？

我們首先研究了插入形式的設(shè)計(jì)維度，在注意力（att）和FFN修改上，將所提出的并行適配器（PA）變體與傳統(tǒng)的順序適配器（SA）進(jìn)行了比較。我們還將前綴調(diào)優(yōu)作為參考點(diǎn)。如表3所示，使用并行插入的前綴調(diào)優(yōu)優(yōu)于注意力順序適配器。此外，并行適配器在所有情況下都能夠擊敗順序適配器，其中PA（ffn）在XSum上分別比SA（ffn）高1.7個(gè)R-2點(diǎn)，在en-ro上高0.8個(gè)BLEU點(diǎn)。鑒于并行適配器的結(jié)果優(yōu)于順序適配器，我們將在下面的小節(jié)中重點(diǎn)介紹并行適配器結(jié)果。

4.4 哪種修改的表征-attention或者FFN？

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
設(shè)置：我們現(xiàn)在研究修改不同表示的效果。我們主要比較注意力和FFN修飾。為了便于分析，我們將修改注意力子層中任何隱藏表示的方法（如頭部輸出、查詢等）歸類為修改注意力模塊。我們比較了注意力、FFN和前綴調(diào)優(yōu)方面的并行適配器。我們還將FFN修改轉(zhuǎn)移到LoRA，以具有LoRA（FFN）變體，用于完全比較。具體地，我們使用LoRA來(lái)近似FFN權(quán)重 $W_1\in\mathbb{R}^{d\times d_m}$ 和 $W_2\in\mathbb{R}^{d_m\times d}$ 的參數(shù)更新。在這種情況下， $W_1$ 的LoRA中的 $W_{up}$ （類似于 $W_2$ 的 $W_{down}$ ）的尺寸為 $r\times d_m$ ，其中 $d_m=4d$ ，如§2.1所述。因此，在以后的實(shí)驗(yàn)中，我們通常使用比其他方法更小的 $r$ 來(lái)匹配它們的總體參數(shù)大小。
結(jié)果：如圖5所示，任何具有FFN修飾的方法在所有情況下都優(yōu)于所有具有注意力修飾的方法（紅色標(biāo)記通常高于所有藍(lán)色標(biāo)記，唯一的例外是具有2.4%參數(shù)的FFN-PA），通常參數(shù)較少。其次，在FFN中應(yīng)用的相同方法總是比其注意力對(duì)等方法有所改進(jìn)。例如，LoRA（ffn）在XSum上將LoRA（attn）提高了1R-2個(gè)點(diǎn)。我們還強(qiáng)調(diào)，當(dāng)我們進(jìn)一步增加容量時(shí)，前綴調(diào)整并沒(méi)有持續(xù)改進(jìn)，這也在Li&Liang中觀察到。這些結(jié)果表明，無(wú)論功能形式或組成功能是什么，F(xiàn)FN修飾都可以比注意力更有效地利用添加的參數(shù)。我們假設(shè)這是因?yàn)镕FN學(xué)習(xí)特定于任務(wù)的文本模式，而注意力學(xué)習(xí)不需要大容量適應(yīng)新任務(wù)的成對(duì)位置交互。
當(dāng)我們使用0.1%的參數(shù)時(shí)，情況會(huì)有所不同嗎？在§3.1中，我們認(rèn)為前綴調(diào)優(yōu)比適配器（attn）更具表現(xiàn)力，然而，這并沒(méi)有反映在圖5中。我們推測(cè)這是因?yàn)橹挥挟?dāng)參數(shù)預(yù)算很小時(shí)，多頭注意力才是優(yōu)越的。為了驗(yàn)證這一假設(shè)，我們將前綴調(diào)整與并行適配器進(jìn)行比較，當(dāng)它們添加0.1%的預(yù)訓(xùn)練參數(shù)時(shí)。為了消除合成函數(shù)的影響，我們還將前綴調(diào)整中去除門(mén)控的結(jié)果報(bào)告為 $h+\Delta h$ 。我們包括了§3.3中所述的多頭并聯(lián)適配器變體（MH-PA）的結(jié)果。如表4所示，當(dāng)使用0.1%的參數(shù)時(shí)，多頭方法——前綴調(diào)整和MH-PA（attn）——比所有其他方法至少高1.6個(gè)BLEU點(diǎn)。令人驚訝的是，將 $l$ 從200減少到30只會(huì)導(dǎo)致前綴調(diào)整的0.4 BLEU損失，而PA（attn）損失1.9分。前綴調(diào)整中的門(mén)控合成功能略微有助于結(jié)果0.3分。我們強(qiáng)調(diào)，MH并行適配器將單頭版本改進(jìn)了1.6點(diǎn)，這再次驗(yàn)證了多頭形式的有效性。
結(jié)合圖5和表4中的結(jié)果，我們得出結(jié)論，當(dāng)參數(shù)預(yù)算非常小時(shí)，修改頭部注意力顯示出最佳結(jié)果，而FFN可以在更大的容量下更好地利用修改。這表明，為FFN修改分配更大的參數(shù)預(yù)算可能是有效的，而不是像Houlsby等人那樣平等對(duì)待注意力和FFN。

4.5 哪種合成函數(shù)？

我們?cè)凇?.2中介紹了三個(gè)組合函數(shù)：簡(jiǎn)單加法（適配器）、門(mén)控加法（前綴調(diào)整）和縮放加法（LoRA）。由于在函數(shù)形式不使用softmax的方法中加入精確門(mén)控加法是不自然的，我們通過(guò)消融LoRA并與所提出的縮放并行適配器（縮放PA）進(jìn)行比較來(lái)檢查其他兩種方法，我們將修改后的表示約束為FFN，因?yàn)樗ǔ８行?，如?.4所示。
TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
表5報(bào)告了XSum的結(jié)果。我們?yōu)檫m配器設(shè)置 $r$ 為512，為L(zhǎng)oRA設(shè)置 $r$ 為102，以便它們的調(diào)整參數(shù)大小相同。我們根據(jù)開(kāi)發(fā)集上的R-2分?jǐn)?shù)來(lái)選擇 $s$ 。我們觀察到，LoRA（s=4）的性能優(yōu)于并行適配器。但是，如果我們通過(guò)設(shè)置s＝1來(lái)去除縮放，則優(yōu)勢(shì)將消失。通過(guò)將LoRA的合成函數(shù)插入到并行適配器中，得到的Scaled PA比普通并行適配器提高了0.56個(gè)ROUGE-2點(diǎn)。我們還用一個(gè)學(xué)習(xí)的標(biāo)量進(jìn)行了實(shí)驗(yàn)，它并沒(méi)有給出更好的結(jié)果。因此，我們得出結(jié)論，縮放成分函數(shù)比普通加法函數(shù)更好，同時(shí)易于應(yīng)用。

4.6 通過(guò)傳遞有利的設(shè)計(jì)元素實(shí)現(xiàn)有效集成

TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
我們?cè)谇皫坠?jié)中首先強(qiáng)調(diào)了三個(gè)發(fā)現(xiàn)：（1）縮放并行適配器是修改FFN的最佳變體；（2） FFN可以更好地利用更大容量的修改；和（3）修改頭部注意，如前綴調(diào)整，只需0.1%的參數(shù)就可以獲得強(qiáng)大的性能。受他們的啟發(fā)，我們混合并匹配了這些發(fā)現(xiàn)背后的有利設(shè)計(jì)：特別是，我們?cè)谧⒁饬ψ訉邮褂镁哂行∑款i維度（ $l$ =30）的前綴調(diào)整，并分配更多的參數(shù)預(yù)算來(lái)使用縮放的并行適配器修改FFN表示（r=512）。由于前綴調(diào)優(yōu)在我們的統(tǒng)一框架中可以被視為適配器的一種形式，因此我們將這種變體命名為Mix-And-Match適配器（MAM-adapter）。在表6中，我們將MAM適配器與各種參數(shù)有效的調(diào)整方法進(jìn)行了比較。為了完整性，我們還在表6中展示了其他組合版本的結(jié)果：在注意力層和FFN層使用并行適配器，并將前綴調(diào)整（attn）與LoRA（FFN）相結(jié)合——這兩個(gè)組合版本都可以在各自的原型基礎(chǔ)上進(jìn)行改進(jìn)。然而，MAM Adapter在這兩項(xiàng)任務(wù)上都實(shí)現(xiàn)了最佳性能，并且僅更新6.7%的預(yù)訓(xùn)練參數(shù)就能夠與我們的完全微調(diào)結(jié)果相匹配。在表2中，我們還展示了MAM-Adapter在MNLI和SST2上的結(jié)果，其中MAM-Adapter通過(guò)僅添加0.5%的預(yù)訓(xùn)練參數(shù)實(shí)現(xiàn)了與完全微調(diào)相當(dāng)?shù)慕Y(jié)果。

5 討論

我們?yōu)閹追N性能參數(shù)調(diào)整方法提供了一個(gè)統(tǒng)一的框架，這使我們能夠通過(guò)跨方法遷移技術(shù)來(lái)實(shí)例化一個(gè)更有效的模型，該模型與完全微調(diào)方法的性能相匹配。我們希望我們的工作能夠?yàn)槲磥?lái)參數(shù)有效調(diào)整的研究提供見(jiàn)解和指導(dǎo)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-514627.html

到了這里，關(guān)于TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

“大數(shù)據(jù)處理”的現(xiàn)狀 Scaling up and out: Towards an efficient processing of big Data
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) Hadoop 是 Apache 基金會(huì)于 2007 年推出的開(kāi)源分布式計(jì)算框架。它是一個(gè)通用計(jì)算平臺(tái)，可用于存儲(chǔ)、處理和分析大量的數(shù)據(jù)集。它是一個(gè)分布式文件系統(tǒng)（HDFS），一個(gè)資源管理器（YARN），和一些常用的組件如 MapReduce、Hive 和 Pig。在數(shù)據(jù)量達(dá)到海
2024年02月08日
瀏覽(23)
showToast_fail parameter error_ parameter.title should be String instead of undefined
在 uniapp 項(xiàng)目中遇到如下報(bào)錯(cuò)：分析： showToast 的參數(shù) title 應(yīng)該是個(gè)字符串，但未找到值解決：先找到頁(yè)面中的 showToast , 知道參數(shù) title 拿到的是后端返回的數(shù)據(jù)（如下）再去查看后端返回的數(shù)據(jù)，發(fā)現(xiàn)沒(méi)有 msg 字段，而是 message，將其修改即可
2024年02月12日
瀏覽(35)
requestPayment:fail parameter error: parameter.non…r.signType should be String instead of Undefined
uniapp微信支付報(bào)錯(cuò) errMsg: \\\"requestPayment:fail parameter error: parameter.non…r.signType should be String instead of Undefined;\\\" requestPayment：失敗參數(shù)錯(cuò)誤：參數(shù)。非…r.signType應(yīng)為字符串，而不是未定義解決方案： 1.看后端返回的值在控制臺(tái)打印出來(lái)：后端給的是字符串? ?這個(gè)不是我們想要的
2023年04月08日
瀏覽(10)
論文閱讀：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)
CVPR2024滿分文章，英偉達(dá)團(tuán)隊(duì)工作。文章地址：https://arxiv.org/pdf/2312.08344.pdf 代碼地址：https://github.com/NVlabs/FoundationPose 提出FoundationPose，能用于6D位姿估計(jì)與跟蹤，無(wú)論模型是否可用都支持。只需要CAD模型或少量參考圖像就能進(jìn)行zero-shot測(cè)試，泛化能力依靠大規(guī)模訓(xùn)練， LLM 和
2024年04月29日
瀏覽(17)
好文推薦 A transformer-based representation-learning model with unified processing of multimodal input
論文地址：https://www.nature.com/articles/s41551-023-01045-x 代碼地址：https://github.com/RL4M/IRENE 基于Transformer的表示學(xué)習(xí)模型，作為臨床診斷輔助工具，以統(tǒng)一的方式處理多模態(tài)輸入。將圖像與文字轉(zhuǎn)化為visual tokens和text tokens，通過(guò)一個(gè)雙向的跨模態(tài)注意力機(jī)制塊共同學(xué)習(xí)不同信息間的
2024年02月07日
瀏覽(23)
YaRN: Efficient Context Window Extension of Large Language Models
本文是LLM系列文章，針對(duì)《YaRN: Efficient Context Window Extension of Large Language Models》的翻譯。旋轉(zhuǎn)位置嵌入（RoPE）已被證明可以在基于Transformer的語(yǔ)言模型中有效地編碼位置信息。然而，這些模型無(wú)法推廣到它們所訓(xùn)練的序列長(zhǎng)度。我們提出了YaRN（另一種RoPE擴(kuò)展方法），這是一
2024年02月09日
瀏覽(22)
《Communication-Efficient Learning of Deep Networks from Decentralized Data》
這篇文章算是聯(lián)邦學(xué)習(xí)的開(kāi)山之作吧，提出了FedAvg的算法，文中對(duì)比了不同客戶端本地訓(xùn)練次數(shù)，客戶端訓(xùn)練數(shù)據(jù)集劃分的影響。現(xiàn)代移動(dòng)設(shè)備可以獲取大量適合學(xué)習(xí)模型的數(shù)據(jù)，然而，這些豐富的數(shù)據(jù)通常是隱私敏感的、數(shù)量很大的，這可能導(dǎo)致無(wú)法記錄到數(shù)據(jù)中心并使用
2024年02月16日
瀏覽(27)
論文閱讀《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》
論文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Efficient_and_Explicit_Modelling_of_Image_Hierarchies_for_Image_Restoration_CVPR_2023_paper.pdf 源碼地址：https://github.com/ofsoundof/GRL-Image-Restoration ??圖像復(fù)原任務(wù)旨在從低分辨率的圖像（模糊，子采樣，噪聲污染，JPEG壓縮）中恢復(fù)高質(zhì)量的圖
2024年02月03日
瀏覽(25)
【論文研讀】-An Efficient Framework for Optimistic Concurrent Execution of Smart Contracts
區(qū)塊鏈平臺(tái)中的一個(gè)個(gè)交易都是由智能合約編寫(xiě)的，每一個(gè)交易想要成功上鏈，首先需要經(jīng)過(guò)礦工（想要進(jìn)行上鏈的節(jié)點(diǎn)，也就是新區(qū)塊）進(jìn)行挖礦，然后將挖好的區(qū)塊交給驗(yàn)證者（區(qū)塊鏈中已經(jīng)挖礦成功的節(jié)點(diǎn)進(jìn)行驗(yàn)證）進(jìn)行驗(yàn)證，驗(yàn)證成功就會(huì)將區(qū)塊上鏈；驗(yàn)證失敗，則
2024年01月21日
瀏覽(30)
vue3+ts 使用parseInt報(bào)錯(cuò)Argument of type ‘number‘ is not assignable to parameter of type ‘string‘.
2024年02月16日
瀏覽(28)

<p id="sf4b4"></p>

<nobr id="sf4b4"><form id="sf4b4"></form></nobr><var id="sf4b4"><pre id="sf4b4"><s id="sf4b4"></s></pre></var>

<thead id="sf4b4"><strong id="sf4b4"></strong></thead>

<var id="sf4b4"><pre id="sf4b4"><s id="sf4b4"></s></pre></var>