【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

這篇具有很好參考價(jià)值的文章主要介紹了【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文標(biāo)題：Prefix-Tuning: Optimizing Continuous Prompts for Generation

論文作者：Xiang Lisa Li, Percy Liang

論文原文：https://arxiv.org/abs/2101.00190

論文出處：ACL 2021

論文被引：1588（2023/10/14）

論文代碼：https://github.com/XiangLi1999/PrefixTuning

Summary

傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)范式的問(wèn)題：下游任務(wù)微調(diào)時(shí)，需要更新和存儲(chǔ)模型全量參數(shù)，成本過(guò)高。

以往的解決方案：輕量級(jí)微調(diào)（lightweight fine-tuning），即凍結(jié)大部分預(yù)訓(xùn)練參數(shù)，并用小型可訓(xùn)練模塊來(lái)增強(qiáng)模型。例如，

適配器調(diào)優(yōu)（Adapter-Tuning）：在預(yù)訓(xùn)練語(yǔ)言模型層之間插入額外的特定任務(wù)層。其在自然語(yǔ)言理解和生成基準(zhǔn)測(cè)試中表現(xiàn)良好，只需增加約 2-4% 的特定任務(wù)參數(shù)，就能達(dá)到與微調(diào)相媲美的性能。
GPT-3的上下文學(xué)習(xí)/語(yǔ)境學(xué)習(xí)（In-Context Learning，ICL）或提示（Prompt）：用戶(hù)在任務(wù)輸入中預(yù)置一個(gè)自然語(yǔ)言任務(wù)指令（例如，用于總結(jié)的 TL;DR）和幾個(gè)示例，然后通過(guò) LM 生成輸出。

生成數(shù)據(jù)表文本描述的任務(wù)：如圖 1 所示，其中任務(wù)輸入是線(xiàn)性表格（如 "name: Starbucks | type: coffee shop"），輸出是文本描述（如 "Starbucks serves coffee."）。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

Figure 1: Fine-tuning (top) updates all Transformer parameters (the red Transformer box) and requires storing a full model copy for each task. We propose prefix-tuning (bottom), which freezes the Transformer parameters and only optimizes the prefix (the red prefix blocks). Consequently, we only need to store the prefix for each task, making prefix-tuning modular and space-efficient. Note that each vertical block denote transformer activations at one time step.

本文的貢獻(xiàn)：前綴調(diào)優(yōu)（Prefix-Tuning），這是自然語(yǔ)言生成（NLG）任務(wù)中微調(diào)方法的一種輕量級(jí)替代方法，其靈感來(lái)源于提示（prompting）。前綴調(diào)優(yōu)將一系列連續(xù)的任務(wù)特定向量預(yù)置到輸入中，我們稱(chēng)之為前綴（Prefix），如圖 1（底部）中紅色塊所示。對(duì)于后續(xù)的標(biāo)記（tokens），Transformer可以像處理 “虛擬標(biāo)記” 序列一樣處理前綴。

但與提示（prompting）不同的是，前綴完全由與真實(shí)標(biāo)記不對(duì)應(yīng)的自由參數(shù)組成。圖 1（上圖）中的微調(diào)更新了所有 Transformer 參數(shù)，因此需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)調(diào)優(yōu)的模型副本，而前綴調(diào)優(yōu)則只對(duì)前綴進(jìn)行優(yōu)化。因此，我們只需存儲(chǔ)一份大型 Transformer 和針對(duì)特定任務(wù)學(xué)習(xí)的前綴，從而為每項(xiàng)額外任務(wù)帶來(lái)極小的開(kāi)銷(xiāo)（例如，從表格到文本的轉(zhuǎn)換只需 250K 個(gè)參數(shù)）。
與微調(diào)不同，前綴調(diào)優(yōu)是模塊化的：訓(xùn)練一個(gè)上游前綴，該前綴引導(dǎo)下游 LM，而下游 LM 保持不變。
前綴調(diào)優(yōu)會(huì)保持 LM 不變，并使用前綴和預(yù)訓(xùn)練的注意力塊來(lái)影響后續(xù)激活；而適配器調(diào)優(yōu)則會(huì)在 LM 層之間插入可訓(xùn)練模塊，直接將殘差向量添加到激活中。

Abstract

微調(diào)（Fine-tuning）是利用大型預(yù)訓(xùn)練語(yǔ)言模型執(zhí)行下游任務(wù)的實(shí)際方法。然而，它需要修改所有語(yǔ)言模型參數(shù)，因此必須為每個(gè)任務(wù)存儲(chǔ)完整的副本。在本文中，我們提出了前綴調(diào)優(yōu)（prefix-tuning）技術(shù)，這是自然語(yǔ)言生成任務(wù)中微調(diào)技術(shù)的輕量級(jí)替代方案，它可以?xún)鼋Y(jié)語(yǔ)言模型參數(shù)，但會(huì)優(yōu)化一個(gè)小的連續(xù)任務(wù)特定向量（稱(chēng)為前綴）。前綴調(diào)優(yōu)從提示（prompt）中汲取靈感，允許后續(xù)標(biāo)記（tokens）像 “虛擬標(biāo)記（virtual tokens）” 一樣關(guān)注該前綴。我們將前綴調(diào)優(yōu)應(yīng)用于 GPT-2 的表格到文本生成和 BART 的摘要生成。我們發(fā)現(xiàn)，只需學(xué)習(xí) 0.1% 的參數(shù)，前綴調(diào)優(yōu)法就能在全數(shù)據(jù)環(huán)境下獲得相當(dāng)?shù)男阅?，在低?shù)據(jù)環(huán)境下的性能優(yōu)于微調(diào)法，并且能更好地推斷出訓(xùn)練期間未見(jiàn)過(guò)主題的示例（examples with topics）。

Introduction

微調(diào)是使用大型預(yù)訓(xùn)練語(yǔ)言模型（LMs）(Radford et al., 2019; Devlin et al., 2019) 執(zhí)行下游任務(wù)（如總結(jié)（summarization））的普遍模式，但這需要更新和存儲(chǔ) LM 的所有參數(shù)。因此，要構(gòu)建和部署依賴(lài)于大型預(yù)訓(xùn)練 LM 的 NLP 系統(tǒng)，目前需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)修改的 LM 參數(shù)副本。考慮到當(dāng)前 LM 的龐大規(guī)模，這樣做的成本可能過(guò)高；例如，GPT-2 有 7.74 億個(gè)參數(shù)，GPT-3 有 1750 億個(gè)參數(shù)。

解決這一問(wèn)題的自然方法是輕量級(jí)微調(diào)（lightweight fine-tuning），即凍結(jié)大部分預(yù)訓(xùn)練參數(shù)，并用小型可訓(xùn)練模塊來(lái)增強(qiáng)模型。例如，adapter-tuning (Rebuffi et al., 2017; Houlsby et al., 2019) 在預(yù)訓(xùn)練語(yǔ)言模型層之間插入額外的特定任務(wù)層。adapter-tuning 在自然語(yǔ)言理解和生成基準(zhǔn)測(cè)試中表現(xiàn)良好，只需增加約 2-4% 的特定任務(wù)參數(shù)，就能達(dá)到與微調(diào)相媲美的性能 (Houlsby et al., 2019; Lin et al., 2020)。

在極端情況下，GPT-3 可以在沒(méi)有任何特定任務(wù)調(diào)整的情況下部署。取而代之的是，用戶(hù)在任務(wù)輸入中預(yù)置一個(gè)自然語(yǔ)言任務(wù)指令（例如，用于總結(jié)的 TL;DR）和幾個(gè)示例，然后通過(guò) LM 生成輸出。這種方法被稱(chēng)為上下文學(xué)習(xí)（In-Context Learning，ICL）或提示（Prompt）。

在本文中，我們提出了**前綴調(diào)優(yōu)（Prefix-Tuning）**方法，這是自然語(yǔ)言生成（NLG）任務(wù)中微調(diào)方法的一種輕量級(jí)替代方法，其靈感來(lái)源于提示（prompting）?？紤]生成數(shù)據(jù)表文本描述的任務(wù)，如圖 1 所示，其中任務(wù)輸入是線(xiàn)性表格（如 "name: Starbucks | type: coffee shop"），輸出是文本描述（如 "Starbucks serves coffee."）。前綴調(diào)優(yōu)將一系列連續(xù)的任務(wù)特定向量預(yù)置到輸入中，我們稱(chēng)之為前綴（Prefix），如圖 1（底部）中紅色塊所示。對(duì)于后續(xù)的標(biāo)記（tokens），Transformer可以像處理 “虛擬標(biāo)記” 序列一樣處理前綴，但與提示（prompting）不同的是，前綴完全由與真實(shí)標(biāo)記不對(duì)應(yīng)的自由參數(shù)組成。圖 1（上圖）中的微調(diào)更新了所有 Transformer 參數(shù)，因此需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)調(diào)優(yōu)的模型副本，而前綴調(diào)優(yōu)則只對(duì)前綴進(jìn)行優(yōu)化。因此，我們只需存儲(chǔ)一份大型 Transformer 和針對(duì)特定任務(wù)學(xué)習(xí)的前綴，從而為每項(xiàng)額外任務(wù)帶來(lái)極小的開(kāi)銷(xiāo)（例如，從表格到文本的轉(zhuǎn)換只需 250K 個(gè)參數(shù)）。

與微調(diào)不同，前綴調(diào)優(yōu)是模塊化的：我們訓(xùn)練一個(gè)上游前綴，該前綴引導(dǎo)下游 LM，而下游 LM 保持不變。因此，一個(gè) LM 可以同時(shí)支持多項(xiàng)任務(wù)。在個(gè)性化背景下，任務(wù)對(duì)應(yīng)不同的用戶(hù)，我們可以為每個(gè)用戶(hù)設(shè)置一個(gè)單獨(dú)的前綴，只對(duì)該用戶(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練，從而避免數(shù)據(jù)交叉污染。此外，基于前綴的架構(gòu)使我們甚至可以在一個(gè)批次中處理來(lái)自多個(gè)用戶(hù)/任務(wù)的示例，這是其他輕量級(jí)微調(diào)方法無(wú)法做到的。

我們對(duì)使用 GPT-2 生成表到文本和使用 BART 進(jìn)行抽象摘要的前綴調(diào)優(yōu)進(jìn)行了評(píng)估。在存儲(chǔ)方面，前綴調(diào)優(yōu)比微調(diào)少存儲(chǔ) 1000 倍的參數(shù)。就在完整數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)的性能而言，前綴調(diào)優(yōu)和微調(diào)優(yōu)在表格到文本生成方面不相上下（§6.1），而前綴調(diào)優(yōu)在摘要生成方面則略有下降（§6.2）。在低數(shù)據(jù)設(shè)置下，前綴調(diào)優(yōu)在這兩項(xiàng)任務(wù)中的表現(xiàn)平均優(yōu)于微調(diào)（§6.3）。前綴調(diào)優(yōu)還能更好地推斷未見(jiàn)主題的表格（用于表格到文本）和文章（用于摘要）（§6.4）。

2 Related Work

Fine-tuning for natural language generation.

目前最先進(jìn)的自然語(yǔ)言生成系統(tǒng)都是基于預(yù)訓(xùn)練 LM 的微調(diào)。

對(duì)于表格到文本的生成（table-to-text generation），Kale 對(duì)序列到序列模型 (T5; Raffel et al., 2020) 進(jìn)行了微調(diào)。
對(duì)于提取和抽象總結(jié)（extractive and abstractive summarization），研究人員分別對(duì)屏蔽語(yǔ)言模型 (e.g., BERT; Devlin et al., 2019) 和編碼-解碼器模型 (e.g., BART; Lewis et al., 2020) 進(jìn)行了微調(diào) (Zhong et al., 2020; Liu and Lapata, 2019; Raffel et al., 2020)。
對(duì)于其他有條件的 NLG 任務(wù)，如機(jī)器翻譯和對(duì)話(huà)生成，微調(diào)也是普遍采用的范式 (Zhang et al., 2020c; Stickland et al., 2020; Zhu et al., 2020; Liu et al., 2020)。

在本文中，我們將重點(diǎn)討論使用 GPT-2 的表到文本和使用 BART 的摘要，但前綴調(diào)優(yōu)也可應(yīng)用于其他生成任務(wù)和預(yù)訓(xùn)練模型。

Lightweight fine-tuning.

輕量級(jí)微調(diào)凍結(jié)了大部分預(yù)訓(xùn)練參數(shù)，并用小型可訓(xùn)練模塊修改了預(yù)訓(xùn)練模型。關(guān)鍵的挑戰(zhàn)在于如何確定高性能的模塊架構(gòu)以及需要調(diào)整的預(yù)訓(xùn)練參數(shù)子集。

一種研究思路是刪除參數(shù)：通過(guò)對(duì)模型參數(shù)進(jìn)行**二進(jìn)制掩碼（binary mask）**訓(xùn)練，消除部分模型權(quán)重 (Zhao et al., 2020; Radiya-Dixit and Wang, 2020)。
另一個(gè)研究方向是插入?yún)?shù)。例如，Zhang 等人（2020a）訓(xùn)練了一個(gè) “side” 網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過(guò)求和與預(yù)訓(xùn)練模型融合；
adapter-tuning 則在預(yù)訓(xùn)練 LM 的每一層之間插入特定任務(wù)層（適配器）（Houlsby 等人，2019；Lin 等人，2020；Rebuffi 等人，2017；Pfeiffer 等人，2020）。

與 adapter-tuning 調(diào)整了約 3.6% 的 LM 參數(shù)的方法相比，我們的方法在保持可比性能的同時(shí)，僅調(diào)整了 0.1% 的特定任務(wù)參數(shù)，進(jìn)一步減少了 30 倍。

Prompting.

提示是指在任務(wù)輸入中預(yù)設(shè)指令和一些示例，并根據(jù) LM 生成輸出。GPT-3 使用人工設(shè)計(jì)的提示來(lái)適應(yīng)不同任務(wù)的生成，這種框架被稱(chēng)為上下文中/語(yǔ)境學(xué)習(xí)（in-context learning）。然而，由于 Transformers 只能以一定長(zhǎng)度的上下文為條件（如 GPT3 的 2048 個(gè)標(biāo)記），因此上下文內(nèi)學(xué)習(xí)無(wú)法充分利用比上下文窗口更長(zhǎng)的訓(xùn)練集。

Sun 和 Lai（2020 年）還通過(guò)關(guān)鍵詞提示來(lái)控制生成句子的情感或主題。
在自然語(yǔ)言理解任務(wù)中，先前的研究已經(jīng)對(duì) BERT 和 RoBERTa 等模型的提示工程進(jìn)行了探索（Liu 等人，2019 年；Jiang 等人，2020 年；Schick 和 Sch ?utze，2020 年）。例如，AutoPrompt（Shin 等人，2020 年）會(huì)搜索一連串離散的觸發(fā)詞（trigger words），并將其與每條輸入信息串聯(lián)（concatenate）起來(lái)，從而從被遮蔽的 LM 中獲取情感或事實(shí)知識(shí)。
與 AutoPrompt 不同，我們的方法優(yōu)化的是連續(xù)前綴，因?yàn)檫B續(xù)前綴更具表現(xiàn)力（第 7.2 節(jié)）；此外，我們專(zhuān)注于語(yǔ)言生成任務(wù)。

連續(xù)向量已被用于引導(dǎo)語(yǔ)言模型；例如，Subramani 等人（2020 年）的研究表明，預(yù)訓(xùn)練的 LSTM 語(yǔ)言模型可以通過(guò)優(yōu)化每個(gè)句子的連續(xù)向量來(lái)重構(gòu)任意句子，從而使向量成為特定于輸入的。相比之下，前綴調(diào)優(yōu)優(yōu)化的是適用于該任務(wù)所有實(shí)例的特定任務(wù)前綴。因此，與應(yīng)用僅限于句子重構(gòu)的前述工作不同，前綴調(diào)優(yōu)可應(yīng)用于 NLG 任務(wù)。

Controllable generation.

可控生成的目的是引導(dǎo)預(yù)訓(xùn)練的語(yǔ)言模型與句子級(jí)別的屬性（如積極情緒或體育話(huà)題）相匹配。這種控制可以在訓(xùn)練時(shí)進(jìn)行：

Keskar 等人（2019）對(duì)語(yǔ)言模型（CTRL）進(jìn)行了預(yù)訓(xùn)練，使其符合關(guān)鍵詞或 URL 等元數(shù)據(jù)的條件。
此外，還可以在解碼時(shí)通過(guò)加權(quán)解碼（GeDi，Krause 等人，2020 年）或迭代更新過(guò)去的激活（PPLM，Dathathri 等人，2020 年）進(jìn)行控制。

然而，目前還沒(méi)有直接的方法來(lái)應(yīng)用這些可控生成技術(shù)，對(duì)生成的內(nèi)容實(shí)施細(xì)粒度控制，而這正是表格到文本和摘要等任務(wù)所要求的。

3 Problem Statement

考慮一個(gè)條件生成任務(wù)，其中輸入是上下文 $x$ ，輸出 $y$ 是一個(gè)標(biāo)記序列。我們重點(diǎn)討論圖 2（右）所示的兩項(xiàng)任務(wù)：在從表格到文本的過(guò)程中， $x$ 對(duì)應(yīng)的是線(xiàn)性化的數(shù)據(jù)表格， $y$ 是文本描述；在生成摘要任務(wù)中， $x$ 是一篇文章， $y$ 是簡(jiǎn)短摘要。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

3.1 Autoregressive LM

假設(shè)我們有一個(gè)基于 Transformer 架構(gòu) (e.g., GPT-2; Radford et al., 2019) 的自回歸語(yǔ)言模型 $p_φ(y | x)$ ，參數(shù)為 $φ$ 。如圖 2（上圖）所示，設(shè) $z = [x; y]$ 為 $x$ 和 $y$ 的連接（concatenation）；設(shè) $X_{idx}$ 表示與 $x$ 相對(duì)應(yīng)的索引序列， $Y_{idx}$ 表示與 $y$ 相對(duì)應(yīng)的索引序列。

第 $i$ 個(gè)時(shí)間步的激活為 $h_i ∈ \mathbb{R}^d$ ，其中 $h_i = [h^{(1)}_i ;...; h^{(n)}_i ]$ 是該時(shí)間步驟所有激活層的連接， $h^{(j)}_i$ 是第 $i$ 個(gè)時(shí)間步驟第 $j$ 個(gè) Transformer 層的激活。（ $h^{(n)}_i$ 由鍵值對(duì)組成。在 GPT-2 中，每個(gè)鍵和值的維度都是 1024。）

自回歸 Transformer 模型將 hi 計(jì)算為 zi 的函數(shù)及其左側(cè)上下文中的過(guò)去激活，如下所示：
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

其中，hi 的最后一層用于計(jì)算下一個(gè)標(biāo)記的分布：pφ(zi+1 | h≤i) = softmax(Wφ h(n)i ) ，而 Wφ 是一個(gè)預(yù)訓(xùn)練矩陣，用于將 h(n)i 映射到詞匯表的 logits 上。

3.2 Encoder-Decoder Architecture

我們也可以使用編碼器-解碼器架構(gòu)（如 BART；2020）來(lái)模擬 pφ(y|x)，其中 x 由雙向編碼器編碼，解碼器自回歸地預(yù)測(cè) y（以編碼的 x 及其左側(cè)的上下文為條件）。

所有 i∈Xidx 的 hi 由雙向Transformer編碼器計(jì)算；
所有 i∈Yidx 的 hi 由自回歸解碼器使用相同的公式 (1) 計(jì)算。

3.3 Method: Fine-tuning

在微調(diào)框架中，我們使用預(yù)訓(xùn)練參數(shù) φ 進(jìn)行初始化。在這里，pφ 是一個(gè)可訓(xùn)練的語(yǔ)言模型分布，我們根據(jù)以下對(duì)數(shù)似然目標(biāo)進(jìn)行梯度更新：
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

4 Prefix-Tuning

我們提出了前綴調(diào)優(yōu)法，作為條件生成任務(wù)微調(diào)的替代方法。在第 4.2 節(jié)正式定義我們的方法之前，我們首先在第 4.1 節(jié)中提供直覺(jué)。

4.1 Intuition

根據(jù)提示的直覺(jué)，我們認(rèn)為適當(dāng)?shù)纳舷挛模╟ontext）可以在不改變 LM 參數(shù)的情況下引導(dǎo) LM。例如，如果我們希望 LM 生成一個(gè)單詞（如 Obama），我們可以將其常見(jiàn)搭配作為上下文（如 Barack）的前綴，這樣 LM 就會(huì)為所需單詞分配更高的概率。將這一直覺(jué)延伸到生成單個(gè)單詞或句子之外，我們希望找到一種上下文，引導(dǎo) LM 解決 NLG 任務(wù)。直觀(guān)地說(shuō)，上下文可以通過(guò)指導(dǎo)從 x 中提取什么來(lái)影響 x 的編碼；也可以通過(guò)指導(dǎo)下一個(gè)標(biāo)記的分布來(lái)影響 y 的生成。然而，這樣的上下文是否存在并不明顯。

自然語(yǔ)言任務(wù)指令（如 “summarize the following table in one sentence”）可能會(huì)指導(dǎo)專(zhuān)家注釋者（expert annotator）解決任務(wù)，但對(duì)于大多數(shù)預(yù)訓(xùn)練的 LM 而言卻不可行。（在我們的初步實(shí)驗(yàn)中，GPT-2 和 BART 在這種情況下失敗了；唯一的例外是 GPT-3。）
對(duì)離散指令進(jìn)行數(shù)據(jù)驅(qū)動(dòng)優(yōu)化可能會(huì)有所幫助，但離散優(yōu)化在計(jì)算上具有挑戰(zhàn)性。

我們可以將指令（instruction）優(yōu)化為連續(xù)的單詞嵌入，而不是對(duì)離散標(biāo)記（discrete tokens）進(jìn)行優(yōu)化，其效果將向上傳播到所有Transformer激活層，并向右傳播到后續(xù)標(biāo)記。嚴(yán)格來(lái)說(shuō)，這比需要匹配實(shí)詞嵌入的離散提示更具表現(xiàn)力。同時(shí)，這比介入所有激活層（第 7.2 節(jié)）的表現(xiàn)力要差，后者避免了長(zhǎng)程依賴(lài)性，并包含更多可調(diào)參數(shù)。因此，前綴調(diào)優(yōu)優(yōu)化了前綴的所有層。

4.2 Method

如圖 2 所示，前綴調(diào)優(yōu)為自回歸 LM 預(yù)置前綴，得到 z = [PREFIX；x；y]，或?yàn)榫幋a器和編碼器預(yù)置前綴，得到 z = [PREFIX；x；PREFIX′；y]。這里，Pidx 表示前綴索引序列，我們用 |Pidx| 表示前綴的長(zhǎng)度。

我們遵循公式（1）中的遞推關(guān)系，只是前綴是自由參數(shù)。前綴調(diào)優(yōu)初始化了一個(gè)維度為 |Pidx| × dim(hi) 的可訓(xùn)練矩陣 Pθ（參數(shù)為 θ），用于存儲(chǔ)前綴參數(shù)。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

訓(xùn)練目標(biāo)與公式 (2) 相同，但可訓(xùn)練的參數(shù)集有所變化：語(yǔ)言模型參數(shù) φ 固定不變，前綴參數(shù) θ 是唯一可訓(xùn)練的參數(shù)。

這里， $h_i$ （對(duì)于所有 i）是可訓(xùn)練 Pθ 的函數(shù)。當(dāng) $\in P_{idx}$ 時(shí)，這一點(diǎn)很明顯，因?yàn)?hi 是直接從 Pθ 復(fù)制而來(lái)的。當(dāng) $\notin P_{idx}$ 時(shí)， $h_i$ 仍然取決于 Pθ，因?yàn)榍熬Y激活總是在左側(cè)上下文中，因此會(huì)影響其右側(cè)的任何激活。

4.3 Parametrization of Pθ

根據(jù)經(jīng)驗(yàn)，直接更新 Pθ 參數(shù)會(huì)導(dǎo)致優(yōu)化效果不穩(wěn)定，性能也會(huì)略有下降（我們?cè)诔醪綄?shí)驗(yàn)中發(fā)現(xiàn)，直接優(yōu)化前綴對(duì)學(xué)習(xí)率和初始化非常敏感。）。因此，我們將矩陣 $P_θ[i，:] = MLP_θ(P'_θ[i，:])$ 重新參數(shù)化為一個(gè)由大型前饋神經(jīng)網(wǎng)絡(luò)（MLPθ）組成的較小矩陣（ $P^′_θ$ ）。需要注意的是， $P_θ$ 和 $P^′_θ$ 的行維度（即前綴長(zhǎng)度）相同，但列維度不同（Pθ 的維度為 |Pidx| × dim(hi)，而 Pθ 的維度為 |Pidx| × k，我們選擇 k = 512 用于表格到文本任務(wù)，k = 800 用于生成摘要任務(wù)。MLPθ 從維度 k 映射到 dim(hi)）。訓(xùn)練完成后，這些重新參數(shù)化的參數(shù)可以丟棄，只需保存前綴（Pθ）。

5 Experimental Setup

5.1 Datasets and Metrics

我們?cè)谌齻€(gè)標(biāo)準(zhǔn)神經(jīng)生成數(shù)據(jù)集上對(duì)表格到文本任務(wù)進(jìn)行了評(píng)估： E2E（Novikova 等人，2017 年）、WebNLG（Gardent 等人，2017 年）和 DART（Radev 等人，2020 年）。這些數(shù)據(jù)集按照復(fù)雜程度和規(guī)模的遞增順序排列。E2E 只有一個(gè)域（即餐廳評(píng)論）；WebNLG 有 14 個(gè)域，而 DART 是開(kāi)放域，使用維基百科的開(kāi)放域表。

E2E 數(shù)據(jù)集包含 8 個(gè)不同字段的約 50K 個(gè)示例；它包含一個(gè)源表的多個(gè)測(cè)試引用，平均輸出長(zhǎng)度為 22.9。我們使用了官方評(píng)估腳本，該腳本報(bào)告了 BLEU（Papineni 等人，2002 年）、NIST（Belz 和 Reiter，2006 年）、METEOR（Lavie 和 Agarwal，2007 年）、ROUGE-L（Lin，2004 年）和 CIDEr（Vedantam 等人，2015 年）。

WebNLG 數(shù)據(jù)集（Gardent 等人，2017 年）包含 22K 個(gè)示例，輸入 x 是（主體、屬性、客體）三元組的序列。平均輸出長(zhǎng)度為 22.5。在訓(xùn)練和驗(yàn)證拆分中，輸入描述的實(shí)體來(lái)自 9 個(gè)不同的 DBpedia 類(lèi)別（如紀(jì)念碑）。測(cè)試部分由兩部分組成：前半部分包含訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò)的 DB 類(lèi)別，后半部分包含 5 個(gè)未出現(xiàn)過(guò)的類(lèi)別。這些未見(jiàn)類(lèi)別用于評(píng)估外推法。我們使用的是官方評(píng)估腳本，該腳本會(huì)報(bào)告 BLEU、METEOR 和 TER（Snover 等人，2006 年）。

DART （Radev 等人，2020 年）是一個(gè)開(kāi)放領(lǐng)域的從表格到文本的數(shù)據(jù)集，其輸入格式（實(shí)體-關(guān)系-實(shí)體三元組）與 WebNLG 相似。平均輸出長(zhǎng)度為 21.6。它由來(lái)自 WikiSQL、WikiTableQuestions、E2E 和 WebNLG 的 82K 個(gè)示例組成，并應(yīng)用了一些手動(dòng)或自動(dòng)轉(zhuǎn)換。我們使用官方評(píng)估腳本并報(bào)告了 BLEU、METEOR、TER、MoverScore（Zhao 等人，2019 年）、BERTScore（Zhang 等人，2020b）和 BLEURT（Sellam 等人，2020 年）。

在總結(jié)任務(wù)中，我們使用了 XSUM（Narayan 等人，2018 年）數(shù)據(jù)集，這是一個(gè)新聞文章的抽象總結(jié)數(shù)據(jù)集。該數(shù)據(jù)集有 225K 個(gè)例子。文章的平均長(zhǎng)度為 431 個(gè)單詞，摘要的平均長(zhǎng)度為 23.3 個(gè)單詞。我們報(bào)告了 ROUGE-1、ROUGE2 和 ROUGE-L。

5.2 Methods

對(duì)于表格到文本的生成，我們將前綴調(diào)優(yōu)與其他三種方法進(jìn)行了比較：微調(diào)（FINE-TUNE）、僅對(duì)頂部 2 層進(jìn)行微調(diào)（FT-TOP2）和適配器調(diào)優(yōu)（ADAPTER）5：在 E2E 數(shù)據(jù)集上，Shen 等人（2019）使用了無(wú)需預(yù)訓(xùn)練的實(shí)用信息模型。在 WebNLG 上，Kale（2020）對(duì) T5-large 進(jìn)行了微調(diào)。在 DART 上，還沒(méi)有發(fā)布在該數(shù)據(jù)集版本上訓(xùn)練過(guò)的官方模型。6 在總結(jié)方面，我們與微調(diào) BART（Lewis 等人，2020 年）進(jìn)行了比較。

5.3 Architectures and Hyperparameters

對(duì)于表格到文本的轉(zhuǎn)換，

我們使用 GPT-2MEDIUM 和 GPT2LARGE；
源表格經(jīng)過(guò)線(xiàn)性化處理（與自然語(yǔ)言話(huà)語(yǔ)相比，線(xiàn)性化表格式不自然，這對(duì)于預(yù)訓(xùn)練的 LM 來(lái)說(shuō)可能具有挑戰(zhàn)性。）。

對(duì)于摘要轉(zhuǎn)換，

我們使用 BARTLARGE（我們沒(méi)有包括 GPT-2 的摘要結(jié)果，因?yàn)樵谖覀兊某醪綄?shí)驗(yàn)中，微調(diào) GPT-2 在 XSUM 上的表現(xiàn)明顯低于微調(diào) BART），源文章被截?cái)酁?512 個(gè) BPE 標(biāo)記。

我們的實(shí)現(xiàn)基于 Hugging Face Transformer 模型。在訓(xùn)練時(shí)，我們使用 AdamW 優(yōu)化器（Loshchilov 和 Hutter，2019 年）和線(xiàn)性學(xué)習(xí)率調(diào)度器，正如 Hugging Face 默認(rèn)設(shè)置所建議的那樣。我們調(diào)整的超參數(shù)包括epoch次數(shù)、批量大小、學(xué)習(xí)率和前綴長(zhǎng)度。超參數(shù)詳情見(jiàn)附錄。默認(rèn)設(shè)置是訓(xùn)練 10 個(gè) epoch，使用 5 的批次大小、5x10-5 的學(xué)習(xí)率和 10 的前綴長(zhǎng)度。表到文本模型在 TITAN Xp 或 GeForce GTX TITAN X 機(jī)器上進(jìn)行訓(xùn)練。在 22K 個(gè)示例上訓(xùn)練前綴調(diào)優(yōu)每個(gè) epochs 需要 0.2 個(gè)小時(shí)，而微調(diào)大約需要 0.3 個(gè)小時(shí)。摘要模型在 Tesla V100 機(jī)器上進(jìn)行訓(xùn)練，在 XSUM 數(shù)據(jù)集上每個(gè)歷時(shí)耗時(shí) 1.25 小時(shí)。

在解碼時(shí)，對(duì)于三個(gè)表對(duì)文數(shù)據(jù)集，我們使用波束搜索，波束大小為 5。對(duì)于摘要，我們使用的波束大小為 6，長(zhǎng)度歸一化為 0.8。表到文本的解碼時(shí)間為每句 1.2 秒（不分批），摘要的解碼時(shí)間為每批 2.6 秒（分批大小為 10）。

6 Main Results

6.1 Table-to-text Generation

我們發(fā)現(xiàn)，只需添加 0.1% 的特定任務(wù)參數(shù)，前綴調(diào)優(yōu)就能有效地生成表格到文本，其性能優(yōu)于其他輕量級(jí)基線(xiàn)（ADAPTER 和 FT-TOP2），并且與微調(diào)性能相當(dāng)。這一趨勢(shì)在所有三個(gè)數(shù)據(jù)集上都是如此： E2E、WebNLG10 和 DART 都是如此。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

為了進(jìn)行公平比較，我們將前綴調(diào)優(yōu)和適配器調(diào)優(yōu)的參數(shù)數(shù)匹配為 0.1%。表 1 顯示，前綴調(diào)優(yōu)明顯優(yōu)于 ADAPTER（0.1%），平均每個(gè)數(shù)據(jù)集的 BLEU 提高了 4.1。即使與微調(diào)（100%）和適配器調(diào)優(yōu)（3.0%）相比，前綴調(diào)優(yōu)更新的參數(shù)明顯多于前綴調(diào)優(yōu)，但前綴調(diào)優(yōu)仍然取得了與這兩個(gè)系統(tǒng)相當(dāng)甚至更好的結(jié)果。這表明，前綴調(diào)優(yōu)比適配器調(diào)優(yōu)更具帕累托效率，在提高生成質(zhì)量的同時(shí)大大減少了參數(shù)。

此外，在 DART 上取得的良好性能表明，前綴調(diào)優(yōu)可以適用于具有不同領(lǐng)域和大量關(guān)系的表。我們將在第 6.4 節(jié)中深入探討外推性能（即對(duì)未見(jiàn)類(lèi)別或主題的泛化）。

總之，前綴調(diào)優(yōu)是一種有效且節(jié)省空間的方法，可使 GPT-2 適應(yīng)表格到文本的生成。學(xué)習(xí)到的前綴具有足夠的表現(xiàn)力，可以引導(dǎo) GPT-2 從非自然格式中正確提取內(nèi)容并生成文本描述。前綴調(diào)優(yōu)還能很好地從 GPT-2MEDIUM 擴(kuò)展到 GPT-2LARGE，這表明它有潛力擴(kuò)展到類(lèi)似架構(gòu)的更大模型，如 GPT-3。

6.2 Summarization

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning
如表 2 所示，在參數(shù)為 2% 的情況下，前綴調(diào)優(yōu)的性能略低于微調(diào)（在 ROUGE-L 中為 36.05 對(duì) 37.25）。在參數(shù)僅為 0.1% 的情況下，前綴調(diào)優(yōu)的性能低于完全微調(diào)（35.05 對(duì) 37.25）。XSUM 與三個(gè)表對(duì)文本數(shù)據(jù)集之間存在一些差異，這可能是前綴調(diào)優(yōu)在表對(duì)文本中具有相對(duì)優(yōu)勢(shì)的原因：

1）XSUM 包含的示例數(shù)平均是三個(gè)表對(duì)文本數(shù)據(jù)集的 4 倍；
2）輸入文章的長(zhǎng)度平均是表對(duì)文本數(shù)據(jù)集線(xiàn)性化表格輸入長(zhǎng)度的 17 倍；
3）摘要可能比表對(duì)文本更復(fù)雜，因?yàn)樗枰喿x理解和識(shí)別文章中的關(guān)鍵內(nèi)容。

6.3 Low-data Setting

根據(jù)表到文（§ 6.1）和摘要化（§ 6.2）的結(jié)果，我們發(fā)現(xiàn)當(dāng)訓(xùn)練示例數(shù)量較少時(shí)，預(yù)修正具有相對(duì)優(yōu)勢(shì)。為了構(gòu)建低數(shù)據(jù)設(shè)置，我們對(duì)全部數(shù)據(jù)集（表到文本的 E2E 和摘要化的 XSUM）進(jìn)行子采樣，以獲得大小為{50, 100, 200, 500}的小數(shù)據(jù)集。對(duì)于每種大小，我們抽取 5 個(gè)不同的數(shù)據(jù)集，并對(duì) 2 個(gè)訓(xùn)練隨機(jī)種子進(jìn)行平均。因此，我們對(duì) 10 個(gè)模型取平均值，以得到每個(gè)低數(shù)據(jù)設(shè)置的估計(jì)值。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

圖 3（右）顯示，在低數(shù)據(jù)量情況下，前綴調(diào)優(yōu)比微調(diào)平均高出 2.9 BLEU，而且所需的參數(shù)也要少得多，但隨著數(shù)據(jù)集規(guī)模的增加，差距也在縮小。

圖 3（左）顯示了前綴調(diào)優(yōu)和微調(diào)模型在不同數(shù)據(jù)量下生成的 8 個(gè)例子。雖然兩種方法在低數(shù)據(jù)量情況下都傾向于生成不足（缺少表格內(nèi)容），但前綴調(diào)優(yōu)往往比微調(diào)更忠實(shí)。例如，微調(diào)（100，200）12 會(huì)錯(cuò)誤地聲稱(chēng)客戶(hù)評(píng)分較低，而真實(shí)評(píng)分是平均值，而前綴調(diào)優(yōu)（100，200）生成的描述則忠實(shí)于表格。

6.4 Extrapolation

現(xiàn)在，我們將研究從表格到文本和摘要的外推性能。為了構(gòu)建外推環(huán)境，我們拆分了現(xiàn)有的數(shù)據(jù)集，使訓(xùn)練和測(cè)試涵蓋不同的主題。對(duì)于從表格到文本，WebNLG 數(shù)據(jù)集標(biāo)注的是表格主題。有 9 個(gè)類(lèi)別在訓(xùn)練和測(cè)試中都會(huì)出現(xiàn)，記為 SEEN；有 5 個(gè)類(lèi)別只在測(cè)試時(shí)出現(xiàn)，記為 UNSEEN。因此，我們通過(guò)對(duì) SEEN 類(lèi)別進(jìn)行訓(xùn)練和對(duì) UNSEEN 類(lèi)別進(jìn)行測(cè)試來(lái)評(píng)估外推法。為了進(jìn)行總結(jié)，我們構(gòu)建了兩種外推數(shù)據(jù)拆分13：在 “新聞-體育”（news-to-sports）中，我們對(duì)新聞文章進(jìn)行訓(xùn)練，對(duì)體育文章進(jìn)行測(cè)試。在 "新聞內(nèi)部 "中，我們對(duì){世界、英國(guó)、商業(yè)}新聞進(jìn)行訓(xùn)練，并對(duì)其余新聞?lì)悇e（如健康、技術(shù)）進(jìn)行測(cè)試。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

如表 3 和表 1（中）的 "U "列所示，在表到文本和摘要這兩個(gè)方面，前綴調(diào)優(yōu)在所有指標(biāo)下都比微調(diào)具有更好的外推性能。

我們還發(fā)現(xiàn)，如表 1 所示，適配器調(diào)優(yōu)實(shí)現(xiàn)了良好的外推性能，與前綴調(diào)優(yōu)不相上下。這一共同趨勢(shì)表明，保留 LM 參數(shù)確實(shí)會(huì)對(duì)外推（extrapolation）產(chǎn)生積極影響。然而，這種增益的原因是一個(gè)懸而未決的問(wèn)題，我們將在第 8 節(jié)中進(jìn)一步討論。

7 Intrinsic Evaluation

我們比較了前綴調(diào)優(yōu)的不同變體。§ 7.1 研究了前綴長(zhǎng)度的影響?！?7.2 只研究了嵌入層的調(diào)整，這更類(lèi)似于離散提示的調(diào)整。§7.3 比較了前綴化和后綴化，后綴化在 x 和 y 之間插入了可訓(xùn)練的激活?！?.4 研究了各種前綴初始化策略的影響。

7.1 Prefix Length

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

前綴越長(zhǎng)，意味著可訓(xùn)練的參數(shù)越多，因此表達(dá)能力越強(qiáng)。圖 4 顯示，隨著前綴長(zhǎng)度增加到一個(gè)閾值（總結(jié)為 200，表格到文本為 10），性能會(huì)有所提高，然后會(huì)出現(xiàn)輕微的性能下降。

根據(jù)經(jīng)驗(yàn)，較長(zhǎng)的前綴對(duì)推理速度的影響可以忽略不計(jì)，因?yàn)檎麄€(gè)前綴的注意力計(jì)算在 GPU 上是并行的。

7.2 Full vs Embedding-only

回顧第 4.1 節(jié)，我們討論了優(yōu)化 "虛擬標(biāo)記 "連續(xù)嵌入的方案。我們將這一想法實(shí)例化，并稱(chēng)之為純嵌入式消融。詞嵌入是自由參數(shù)，上層激活層由Transformer計(jì)算。表 4（上）顯示，性能顯著下降，這表明只調(diào)整嵌入層的表現(xiàn)力不夠。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

純嵌入式消融為離散提示（discrete prompt）優(yōu)化的性能設(shè)定了上限 (Shin et al., 2020)，因?yàn)殡x散提示限制嵌入層與實(shí)詞的嵌入完全匹配。因此，我們可以得出這樣一個(gè)表達(dá)能力遞增鏈：discrete prompting< embedding-only ablation < prefix-tuning。

7.3 Prefixing vs Infixing

我們還研究了可訓(xùn)練激活在序列中的位置對(duì)性能的影響。在前綴調(diào)優(yōu)中，我們將它們放在開(kāi)頭[PREFIX; x; y]。我們也可以將可訓(xùn)練激活放在 x 和 y 之間（即 [x; INFIX; y]），并將其稱(chēng)為后綴調(diào)優(yōu)（infix-tuning）。表 4（下）顯示，infix-tuning 略遜于 prefix-tuning。我們認(rèn)為這是因?yàn)榍熬Y調(diào)優(yōu)可以影響 x 和 y 的激活，而后綴調(diào)整只能影響 y 的激活。

7.4 Initialization

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

我們發(fā)現(xiàn)，前綴的初始化方式對(duì)低數(shù)據(jù)設(shè)置有很大影響。隨機(jī)初始化會(huì)導(dǎo)致低性能和高方差。如圖 5 所示，使用實(shí)詞激活來(lái)初始化前綴可以顯著提高生成效率。特別是使用 “summarization” 和 “table-to-text” 等與任務(wù)相關(guān)的詞進(jìn)行初始化時(shí)，性能略好于使用 “elephant” 和 “dividue” 等與任務(wù)無(wú)關(guān)的詞，但使用實(shí)詞的效果仍好于隨機(jī)初始化。

由于我們使用 LM 計(jì)算的實(shí)詞激活來(lái)初始化前綴，因此這種初始化策略與盡可能保留預(yù)訓(xùn)練的 LM 是一致的。

8 Discussion

8.1 Personalization

正如我們?cè)诘?1 節(jié)中所指出的，當(dāng)有大量任務(wù)需要獨(dú)立訓(xùn)練時(shí)，前綴調(diào)優(yōu)就顯得非常有利。用戶(hù)隱私就是一種實(shí)用的設(shè)置（Shokri 和 Shmatikov，2015；McMahan 等人，2016）。為了保護(hù)用戶(hù)隱私，需要將每個(gè)用戶(hù)的數(shù)據(jù)分開(kāi)，并為每個(gè)用戶(hù)獨(dú)立訓(xùn)練個(gè)性化模型。因此，每個(gè)用戶(hù)都可以被視為一個(gè)獨(dú)立的任務(wù)。如果用戶(hù)數(shù)量達(dá)到數(shù)百萬(wàn)，前綴調(diào)優(yōu)技術(shù)就能適應(yīng)這種情況，并保持模塊化，通過(guò)添加或刪除用戶(hù)的前綴，靈活地添加或刪除用戶(hù)，而不會(huì)造成交叉污染。

8.2 Batching Across Users

在相同的個(gè)性化設(shè)置下，即使不同用戶(hù)的查詢(xún)有不同的前綴支持，前綴調(diào)優(yōu)也能對(duì)其進(jìn)行批處理。當(dāng)多個(gè)用戶(hù)向云 GPU 設(shè)備查詢(xún)其輸入時(shí)，將這些用戶(hù)歸入同一批次會(huì)提高計(jì)算效率。前綴調(diào)優(yōu)可保持共享的 LM 不變；因此，批處理只需在用戶(hù)輸入前添加個(gè)性化前綴，其余所有計(jì)算均保持不變。相比之下，在適配器調(diào)優(yōu)中，我們無(wú)法對(duì)不同用戶(hù)進(jìn)行批處理，因?yàn)樵诠蚕淼腡ransformer層之間有個(gè)性化的適配器。

8.3 Inductive Bias of Prefix-tuning

回想一下，微調(diào)會(huì)更新所有預(yù)訓(xùn)練參數(shù)，而前綴調(diào)優(yōu)和適配器調(diào)優(yōu)則會(huì)保留這些參數(shù)。由于語(yǔ)言模型是在通用語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練的，因此保留 LM 參數(shù)可能有助于泛化到訓(xùn)練期間未見(jiàn)過(guò)的領(lǐng)域。與這一直覺(jué)相一致，我們發(fā)現(xiàn)前綴調(diào)優(yōu)和適配器調(diào)優(yōu)在外推法設(shè)置中都有顯著的性能提升（第 6.4 節(jié)）；然而，這種提升的原因是一個(gè)未決問(wèn)題。

雖然前綴調(diào)優(yōu)和適配器調(diào)優(yōu)都凍結(jié)了預(yù)訓(xùn)練參數(shù)，但它們調(diào)整了不同的參數(shù)集來(lái)影響Transformer的激活層?；仡櫼幌?，前綴調(diào)優(yōu)會(huì)保持 LM 不變，并使用前綴和預(yù)訓(xùn)練的注意力塊來(lái)影響后續(xù)激活；而適配器調(diào)優(yōu)則會(huì)在 LM 層之間插入可訓(xùn)練模塊，直接將殘差向量添加到激活中。此外，我們還發(fā)現(xiàn)，與適配器調(diào)優(yōu)相比，前綴調(diào)優(yōu)所需的參數(shù)要少得多，但性能卻不相上下。我們認(rèn)為，這種參數(shù)效率的提高是因?yàn)榍熬Y調(diào)優(yōu)盡可能保持了預(yù)訓(xùn)練 LM 的完整性，因此比適配器調(diào)優(yōu)更能利用 LM。

Aghajanyan 等人（2020 年）同時(shí)進(jìn)行的研究利用本征維度表明，存在一種低維度的重參數(shù)化，其微調(diào)效果不亞于完整參數(shù)空間。這就解釋了為什么只需更新少量參數(shù)，就能在下游任務(wù)中獲得很高的精度。我們的工作與這一發(fā)現(xiàn)相呼應(yīng)，表明只需更新很小的前綴，就能獲得良好的生成性能。

9 Conclusion

我們提出了前綴調(diào)優(yōu)法，它是微調(diào)法的一種輕量級(jí)替代方案，可為 NLG 任務(wù)預(yù)置可訓(xùn)練的連續(xù)前綴。我們發(fā)現(xiàn)，盡管學(xué)習(xí)的參數(shù)比微調(diào)少 1000 倍，前綴調(diào)優(yōu)仍能在全數(shù)據(jù)環(huán)境下保持與微調(diào)相當(dāng)?shù)男阅?，而且在低?shù)據(jù)和外推環(huán)境下都優(yōu)于微調(diào)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-724263.html

到了這里，關(guān)于【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

Summary

Abstract

Introduction

2 Related Work