国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

這篇具有很好參考價(jià)值的文章主要介紹了【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文標(biāo)題:Prefix-Tuning: Optimizing Continuous Prompts for Generation

論文作者:Xiang Lisa Li, Percy Liang

論文原文:https://arxiv.org/abs/2101.00190

論文出處:ACL 2021

論文被引:1588(2023/10/14)

論文代碼:https://github.com/XiangLi1999/PrefixTuning

Summary

傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)范式的問(wèn)題:下游任務(wù)微調(diào)時(shí),需要更新和存儲(chǔ)模型全量參數(shù),成本過(guò)高。

以往的解決方案:輕量級(jí)微調(diào)(lightweight fine-tuning),即凍結(jié)大部分預(yù)訓(xùn)練參數(shù),并用小型可訓(xùn)練模塊來(lái)增強(qiáng)模型。例如,

  • 適配器調(diào)優(yōu)(Adapter-Tuning)在預(yù)訓(xùn)練語(yǔ)言模型層之間插入額外的特定任務(wù)層。其在自然語(yǔ)言理解和生成基準(zhǔn)測(cè)試中表現(xiàn)良好,只需增加約 2-4% 的特定任務(wù)參數(shù),就能達(dá)到與微調(diào)相媲美的性能。
  • GPT-3的上下文學(xué)習(xí)/語(yǔ)境學(xué)習(xí)(In-Context Learning,ICL) 或提示(Prompt):用戶(hù)在任務(wù)輸入中預(yù)置一個(gè)自然語(yǔ)言任務(wù)指令(例如,用于總結(jié)的 TL;DR)和幾個(gè)示例,然后通過(guò) LM 生成輸出。

生成數(shù)據(jù)表文本描述的任務(wù):如圖 1 所示,其中任務(wù)輸入是線(xiàn)性表格(如 "name: Starbucks | type: coffee shop"),輸出是文本描述(如 "Starbucks serves coffee.")。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

Figure 1: Fine-tuning (top) updates all Transformer parameters (the red Transformer box) and requires storing a full model copy for each task. We propose prefix-tuning (bottom), which freezes the Transformer parameters and only optimizes the prefix (the red prefix blocks). Consequently, we only need to store the prefix for each task, making prefix-tuning modular and space-efficient. Note that each vertical block denote transformer activations at one time step.

本文的貢獻(xiàn):前綴調(diào)優(yōu)(Prefix-Tuning),這是自然語(yǔ)言生成(NLG)任務(wù)中微調(diào)方法的一種輕量級(jí)替代方法,其靈感來(lái)源于提示(prompting)。前綴調(diào)優(yōu)將一系列連續(xù)的任務(wù)特定向量預(yù)置到輸入中,我們稱(chēng)之為前綴(Prefix),如圖 1(底部)中紅色塊所示。對(duì)于后續(xù)的標(biāo)記(tokens),Transformer可以像處理 “虛擬標(biāo)記” 序列一樣處理前綴。

  • 但與提示(prompting)不同的是,前綴完全由與真實(shí)標(biāo)記不對(duì)應(yīng)的自由參數(shù)組成。圖 1(上圖)中的微調(diào)更新了所有 Transformer 參數(shù),因此需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)調(diào)優(yōu)的模型副本,而前綴調(diào)優(yōu)則只對(duì)前綴進(jìn)行優(yōu)化。因此,我們只需存儲(chǔ)一份大型 Transformer 和針對(duì)特定任務(wù)學(xué)習(xí)的前綴,從而為每項(xiàng)額外任務(wù)帶來(lái)極小的開(kāi)銷(xiāo)(例如,從表格到文本的轉(zhuǎn)換只需 250K 個(gè)參數(shù))。
  • 與微調(diào)不同,前綴調(diào)優(yōu)是模塊化的:訓(xùn)練一個(gè)上游前綴,該前綴引導(dǎo)下游 LM,而下游 LM 保持不變。
  • 前綴調(diào)優(yōu)會(huì)保持 LM 不變,并使用前綴和預(yù)訓(xùn)練的注意力塊來(lái)影響后續(xù)激活;而適配器調(diào)優(yōu)則會(huì)在 LM 層之間插入可訓(xùn)練模塊,直接將殘差向量添加到激活中。

Abstract

微調(diào)(Fine-tuning)是利用大型預(yù)訓(xùn)練語(yǔ)言模型執(zhí)行下游任務(wù)的實(shí)際方法。然而,它需要修改所有語(yǔ)言模型參數(shù),因此必須為每個(gè)任務(wù)存儲(chǔ)完整的副本。在本文中,我們提出了前綴調(diào)優(yōu)(prefix-tuning)技術(shù),這是自然語(yǔ)言生成任務(wù)中微調(diào)技術(shù)的輕量級(jí)替代方案,它可以?xún)鼋Y(jié)語(yǔ)言模型參數(shù),但會(huì)優(yōu)化一個(gè)小的連續(xù)任務(wù)特定向量(稱(chēng)為前綴)。前綴調(diào)優(yōu)從提示(prompt)中汲取靈感,允許后續(xù)標(biāo)記(tokens)像 “虛擬標(biāo)記(virtual tokens)” 一樣關(guān)注該前綴。我們將前綴調(diào)優(yōu)應(yīng)用于 GPT-2 的表格到文本生成和 BART 的摘要生成。我們發(fā)現(xiàn),只需學(xué)習(xí) 0.1% 的參數(shù),前綴調(diào)優(yōu)法就能在全數(shù)據(jù)環(huán)境下獲得相當(dāng)?shù)男阅?,在低?shù)據(jù)環(huán)境下的性能優(yōu)于微調(diào)法,并且能更好地推斷出訓(xùn)練期間未見(jiàn)過(guò)主題的示例(examples with topics)。

Introduction

微調(diào)是使用大型預(yù)訓(xùn)練語(yǔ)言模型(LMs)(Radford et al., 2019; Devlin et al., 2019) 執(zhí)行下游任務(wù)(如 總結(jié)(summarization))的普遍模式,但這需要更新和存儲(chǔ) LM 的所有參數(shù)。因此,要構(gòu)建和部署依賴(lài)于大型預(yù)訓(xùn)練 LM 的 NLP 系統(tǒng),目前需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)修改的 LM 參數(shù)副本。考慮到當(dāng)前 LM 的龐大規(guī)模,這樣做的成本可能過(guò)高;例如,GPT-2 有 7.74 億個(gè)參數(shù),GPT-3 有 1750 億個(gè)參數(shù)。

解決這一問(wèn)題的自然方法是輕量級(jí)微調(diào)(lightweight fine-tuning),即凍結(jié)大部分預(yù)訓(xùn)練參數(shù),并用小型可訓(xùn)練模塊來(lái)增強(qiáng)模型。例如,adapter-tuning (Rebuffi et al., 2017; Houlsby et al., 2019) 在預(yù)訓(xùn)練語(yǔ)言模型層之間插入額外的特定任務(wù)層。adapter-tuning 在自然語(yǔ)言理解和生成基準(zhǔn)測(cè)試中表現(xiàn)良好,只需增加約 2-4% 的特定任務(wù)參數(shù),就能達(dá)到與微調(diào)相媲美的性能 (Houlsby et al., 2019; Lin et al., 2020)。

在極端情況下,GPT-3 可以在沒(méi)有任何特定任務(wù)調(diào)整的情況下部署。取而代之的是,用戶(hù)在任務(wù)輸入中預(yù)置一個(gè)自然語(yǔ)言任務(wù)指令(例如,用于總結(jié)的 TL;DR)和幾個(gè)示例,然后通過(guò) LM 生成輸出。這種方法被稱(chēng)為上下文學(xué)習(xí)(In-Context Learning,ICL) 或提示(Prompt)。

在本文中,我們提出了**前綴調(diào)優(yōu)(Prefix-Tuning)**方法,這是自然語(yǔ)言生成(NLG)任務(wù)中微調(diào)方法的一種輕量級(jí)替代方法,其靈感來(lái)源于提示(prompting)??紤]生成數(shù)據(jù)表文本描述的任務(wù),如圖 1 所示,其中任務(wù)輸入是線(xiàn)性表格(如 "name: Starbucks | type: coffee shop"),輸出是文本描述(如 "Starbucks serves coffee.")。前綴調(diào)優(yōu)將一系列連續(xù)的任務(wù)特定向量預(yù)置到輸入中,我們稱(chēng)之為前綴(Prefix),如圖 1(底部)中紅色塊所示。對(duì)于后續(xù)的標(biāo)記(tokens),Transformer可以像處理 “虛擬標(biāo)記” 序列一樣處理前綴,但與提示(prompting)不同的是,前綴完全由與真實(shí)標(biāo)記不對(duì)應(yīng)的自由參數(shù)組成。圖 1(上圖)中的微調(diào)更新了所有 Transformer 參數(shù),因此需要為每個(gè)任務(wù)存儲(chǔ)一份經(jīng)過(guò)調(diào)優(yōu)的模型副本,而前綴調(diào)優(yōu)則只對(duì)前綴進(jìn)行優(yōu)化。因此,我們只需存儲(chǔ)一份大型 Transformer 和針對(duì)特定任務(wù)學(xué)習(xí)的前綴,從而為每項(xiàng)額外任務(wù)帶來(lái)極小的開(kāi)銷(xiāo)(例如,從表格到文本的轉(zhuǎn)換只需 250K 個(gè)參數(shù))。

與微調(diào)不同,前綴調(diào)優(yōu)是模塊化的:我們訓(xùn)練一個(gè)上游前綴,該前綴引導(dǎo)下游 LM,而下游 LM 保持不變。因此,一個(gè) LM 可以同時(shí)支持多項(xiàng)任務(wù)。在個(gè)性化背景下,任務(wù)對(duì)應(yīng)不同的用戶(hù),我們可以為每個(gè)用戶(hù)設(shè)置一個(gè)單獨(dú)的前綴,只對(duì)該用戶(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練,從而避免數(shù)據(jù)交叉污染。此外,基于前綴的架構(gòu)使我們甚至可以在一個(gè)批次中處理來(lái)自多個(gè)用戶(hù)/任務(wù)的示例,這是其他輕量級(jí)微調(diào)方法無(wú)法做到的。

我們對(duì)使用 GPT-2 生成表到文本和使用 BART 進(jìn)行抽象摘要的前綴調(diào)優(yōu)進(jìn)行了評(píng)估。在存儲(chǔ)方面,前綴調(diào)優(yōu)比微調(diào)少存儲(chǔ) 1000 倍的參數(shù)。就在完整數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)的性能而言,前綴調(diào)優(yōu)和微調(diào)優(yōu)在表格到文本生成方面不相上下(§6.1),而前綴調(diào)優(yōu)在摘要生成方面則略有下降(§6.2)。在低數(shù)據(jù)設(shè)置下,前綴調(diào)優(yōu)在這兩項(xiàng)任務(wù)中的表現(xiàn)平均優(yōu)于微調(diào)(§6.3)。前綴調(diào)優(yōu)還能更好地推斷未見(jiàn)主題的表格(用于表格到文本)和文章(用于摘要)(§6.4)。

2 Related Work

Fine-tuning for natural language generation.

目前最先進(jìn)的自然語(yǔ)言生成系統(tǒng)都是基于預(yù)訓(xùn)練 LM 的微調(diào)。

  • 對(duì)于表格到文本的生成(table-to-text generation),Kale 對(duì)序列到序列模型 (T5; Raffel et al., 2020) 進(jìn)行了微調(diào)。
  • 對(duì)于提取和抽象總結(jié)(extractive and abstractive summarization),研究人員分別對(duì)屏蔽語(yǔ)言模型 (e.g., BERT; Devlin et al., 2019) 和編碼-解碼器模型 (e.g., BART; Lewis et al., 2020) 進(jìn)行了微調(diào) (Zhong et al., 2020; Liu and Lapata, 2019; Raffel et al., 2020)。
  • 對(duì)于其他有條件的 NLG 任務(wù),如機(jī)器翻譯和對(duì)話(huà)生成,微調(diào)也是普遍采用的范式 (Zhang et al., 2020c; Stickland et al., 2020; Zhu et al., 2020; Liu et al., 2020)。

在本文中,我們將重點(diǎn)討論使用 GPT-2 的表到文本和使用 BART 的摘要,但前綴調(diào)優(yōu)也可應(yīng)用于其他生成任務(wù)和預(yù)訓(xùn)練模型。

Lightweight fine-tuning.

輕量級(jí)微調(diào)凍結(jié)了大部分預(yù)訓(xùn)練參數(shù),并用小型可訓(xùn)練模塊修改了預(yù)訓(xùn)練模型。關(guān)鍵的挑戰(zhàn)在于如何確定高性能的模塊架構(gòu)以及需要調(diào)整的預(yù)訓(xùn)練參數(shù)子集。

  • 一種研究思路是刪除參數(shù):通過(guò)對(duì)模型參數(shù)進(jìn)行**二進(jìn)制掩碼(binary mask)**訓(xùn)練,消除部分模型權(quán)重 (Zhao et al., 2020; Radiya-Dixit and Wang, 2020)。
  • 另一個(gè)研究方向是插入?yún)?shù)。例如,Zhang 等人(2020a)訓(xùn)練了一個(gè) “side” 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)求和與預(yù)訓(xùn)練模型融合;
  • adapter-tuning在預(yù)訓(xùn)練 LM 的每一層之間插入特定任務(wù)層(適配器)(Houlsby 等人,2019;Lin 等人,2020;Rebuffi 等人,2017;Pfeiffer 等人,2020)。

與 adapter-tuning 調(diào)整了約 3.6% 的 LM 參數(shù)的方法相比,我們的方法在保持可比性能的同時(shí),僅調(diào)整了 0.1% 的特定任務(wù)參數(shù),進(jìn)一步減少了 30 倍。

Prompting.

提示是指在任務(wù)輸入中預(yù)設(shè)指令和一些示例,并根據(jù) LM 生成輸出。GPT-3 使用人工設(shè)計(jì)的提示來(lái)適應(yīng)不同任務(wù)的生成,這種框架被稱(chēng)為上下文中/語(yǔ)境學(xué)習(xí)(in-context learning)。然而,由于 Transformers 只能以一定長(zhǎng)度的上下文為條件(如 GPT3 的 2048 個(gè)標(biāo)記),因此上下文內(nèi)學(xué)習(xí)無(wú)法充分利用比上下文窗口更長(zhǎng)的訓(xùn)練集。

  • Sun 和 Lai(2020 年)還通過(guò)關(guān)鍵詞提示來(lái)控制生成句子的情感或主題。

  • 在自然語(yǔ)言理解任務(wù)中,先前的研究已經(jīng)對(duì) BERT 和 RoBERTa 等模型的提示工程進(jìn)行了探索(Liu 等人,2019 年;Jiang 等人,2020 年;Schick 和 Sch ?utze,2020 年)。例如,AutoPrompt(Shin 等人,2020 年)會(huì)搜索一連串離散的觸發(fā)詞(trigger words),并將其與每條輸入信息串聯(lián)(concatenate)起來(lái),從而從被遮蔽的 LM 中獲取情感或事實(shí)知識(shí)。

  • 與 AutoPrompt 不同,我們的方法優(yōu)化的是連續(xù)前綴,因?yàn)檫B續(xù)前綴更具表現(xiàn)力(第 7.2 節(jié));此外,我們專(zhuān)注于語(yǔ)言生成任務(wù)。

連續(xù)向量已被用于引導(dǎo)語(yǔ)言模型;例如,Subramani 等人(2020 年)的研究表明,預(yù)訓(xùn)練的 LSTM 語(yǔ)言模型可以通過(guò)優(yōu)化每個(gè)句子的連續(xù)向量來(lái)重構(gòu)任意句子,從而使向量成為特定于輸入的。相比之下,前綴調(diào)優(yōu)優(yōu)化的是適用于該任務(wù)所有實(shí)例的特定任務(wù)前綴。因此,與應(yīng)用僅限于句子重構(gòu)的前述工作不同,前綴調(diào)優(yōu)可應(yīng)用于 NLG 任務(wù)。

Controllable generation.

可控生成的目的是引導(dǎo)預(yù)訓(xùn)練的語(yǔ)言模型與句子級(jí)別的屬性(如積極情緒或體育話(huà)題)相匹配。這種控制可以在訓(xùn)練時(shí)進(jìn)行:

  • Keskar 等人(2019)對(duì)語(yǔ)言模型(CTRL)進(jìn)行了預(yù)訓(xùn)練,使其符合關(guān)鍵詞或 URL 等元數(shù)據(jù)的條件。
  • 此外,還可以在解碼時(shí)通過(guò)加權(quán)解碼(GeDi,Krause 等人,2020 年)或迭代更新過(guò)去的激活(PPLM,Dathathri 等人,2020 年)進(jìn)行控制。

然而,目前還沒(méi)有直接的方法來(lái)應(yīng)用這些可控生成技術(shù),對(duì)生成的內(nèi)容實(shí)施細(xì)粒度控制,而這正是表格到文本和摘要等任務(wù)所要求的。

3 Problem Statement

考慮一個(gè)條件生成任務(wù),其中輸入是上下文 x x x,輸出 y y y 是一個(gè)標(biāo)記序列。我們重點(diǎn)討論圖 2(右)所示的兩項(xiàng)任務(wù): 在從表格到文本的過(guò)程中, x x x 對(duì)應(yīng)的是線(xiàn)性化的數(shù)據(jù)表格, y y y 是文本描述;在生成摘要任務(wù)中, x x x 是一篇文章, y y y 是簡(jiǎn)短摘要。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

3.1 Autoregressive LM

假設(shè)我們有一個(gè)基于 Transformer 架構(gòu) (e.g., GPT-2; Radford et al., 2019) 的自回歸語(yǔ)言模型 p φ ( y ∣ x ) p_φ(y | x) pφ?(yx),參數(shù)為 φ φ φ。如圖 2(上圖)所示,設(shè) z = [ x ; y ] z = [x; y] z=[x;y] x x x y y y 的連接(concatenation);設(shè) X i d x X_{idx} Xidx? 表示與 x x x 相對(duì)應(yīng)的索引序列, Y i d x Y_{idx} Yidx? 表示與 y y y 相對(duì)應(yīng)的索引序列。

i i i 個(gè)時(shí)間步的激活為 h i ∈ R d h_i ∈ \mathbb{R}^d hi?Rd,其中 h i = [ h i ( 1 ) ; . . . ; h i ( n ) ] h_i = [h^{(1)}_i ;...; h^{(n)}_i ] hi?=[hi(1)?;...;hi(n)?] 是該時(shí)間步驟所有激活層的連接, h i ( j ) h^{(j)}_i hi(j)? 是第 i i i 個(gè)時(shí)間步驟第 j j j 個(gè) Transformer 層的激活。( h i ( n ) h^{(n)}_i hi(n)? 由鍵值對(duì)組成。在 GPT-2 中,每個(gè)鍵和值的維度都是 1024。)

自回歸 Transformer 模型將 hi 計(jì)算為 zi 的函數(shù)及其左側(cè)上下文中的過(guò)去激活,如下所示:
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

其中,hi 的最后一層用于計(jì)算下一個(gè)標(biāo)記的分布:pφ(zi+1 | h≤i) = softmax(Wφ h(n)i ) ,而 Wφ 是一個(gè)預(yù)訓(xùn)練矩陣,用于將 h(n)i 映射到詞匯表的 logits 上。

3.2 Encoder-Decoder Architecture

我們也可以使用編碼器-解碼器架構(gòu)(如 BART;2020)來(lái)模擬 pφ(y|x),其中 x 由雙向編碼器編碼,解碼器自回歸地預(yù)測(cè) y(以編碼的 x 及其左側(cè)的上下文為條件)。

  • 所有 i∈Xidx 的 hi 由雙向Transformer編碼器計(jì)算;
  • 所有 i∈Yidx 的 hi 由自回歸解碼器使用相同的公式 (1) 計(jì)算。

3.3 Method: Fine-tuning

在微調(diào)框架中,我們使用預(yù)訓(xùn)練參數(shù) φ 進(jìn)行初始化。在這里,pφ 是一個(gè)可訓(xùn)練的語(yǔ)言模型分布,我們根據(jù)以下對(duì)數(shù)似然目標(biāo)進(jìn)行梯度更新:
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

4 Prefix-Tuning

我們提出了前綴調(diào)優(yōu)法,作為條件生成任務(wù)微調(diào)的替代方法。在第 4.2 節(jié)正式定義我們的方法之前,我們首先在第 4.1 節(jié)中提供直覺(jué)。

4.1 Intuition

根據(jù)提示的直覺(jué),我們認(rèn)為適當(dāng)?shù)纳舷挛模╟ontext)可以在不改變 LM 參數(shù)的情況下引導(dǎo) LM。例如,如果我們希望 LM 生成一個(gè)單詞(如 Obama),我們可以將其常見(jiàn)搭配作為上下文(如 Barack)的前綴,這樣 LM 就會(huì)為所需單詞分配更高的概率。將這一直覺(jué)延伸到生成單個(gè)單詞或句子之外,我們希望找到一種上下文,引導(dǎo) LM 解決 NLG 任務(wù)。直觀(guān)地說(shuō),上下文可以通過(guò)指導(dǎo)從 x 中提取什么來(lái)影響 x 的編碼;也可以通過(guò)指導(dǎo)下一個(gè)標(biāo)記的分布來(lái)影響 y 的生成。然而,這樣的上下文是否存在并不明顯。

  • 自然語(yǔ)言任務(wù)指令(如 “summarize the following table in one sentence”)可能會(huì)指導(dǎo)專(zhuān)家注釋者(expert annotator)解決任務(wù),但對(duì)于大多數(shù)預(yù)訓(xùn)練的 LM 而言卻不可行。(在我們的初步實(shí)驗(yàn)中,GPT-2 和 BART 在這種情況下失敗了;唯一的例外是 GPT-3。)
  • 對(duì)離散指令進(jìn)行數(shù)據(jù)驅(qū)動(dòng)優(yōu)化可能會(huì)有所幫助,但離散優(yōu)化在計(jì)算上具有挑戰(zhàn)性。

我們可以將指令(instruction)優(yōu)化為連續(xù)的單詞嵌入,而不是對(duì)離散標(biāo)記(discrete tokens)進(jìn)行優(yōu)化,其效果將向上傳播到所有Transformer激活層,并向右傳播到后續(xù)標(biāo)記。嚴(yán)格來(lái)說(shuō),這比需要匹配實(shí)詞嵌入的離散提示更具表現(xiàn)力。同時(shí),這比介入所有激活層(第 7.2 節(jié))的表現(xiàn)力要差,后者避免了長(zhǎng)程依賴(lài)性,并包含更多可調(diào)參數(shù)。因此,前綴調(diào)優(yōu)優(yōu)化了前綴的所有層。

4.2 Method

如圖 2 所示,前綴調(diào)優(yōu)為自回歸 LM 預(yù)置前綴,得到 z = [PREFIX;x;y],或?yàn)榫幋a器和編碼器預(yù)置前綴,得到 z = [PREFIX;x;PREFIX′;y]。這里,Pidx 表示前綴索引序列,我們用 |Pidx| 表示前綴的長(zhǎng)度。

我們遵循公式(1)中的遞推關(guān)系,只是前綴是自由參數(shù)。前綴調(diào)優(yōu)初始化了一個(gè)維度為 |Pidx| × dim(hi) 的可訓(xùn)練矩陣 Pθ(參數(shù)為 θ),用于存儲(chǔ)前綴參數(shù)。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

訓(xùn)練目標(biāo)與公式 (2) 相同,但可訓(xùn)練的參數(shù)集有所變化:語(yǔ)言模型參數(shù) φ 固定不變,前綴參數(shù) θ 是唯一可訓(xùn)練的參數(shù)。

這里, h i h_i hi?(對(duì)于所有 i)是可訓(xùn)練 Pθ 的函數(shù)。當(dāng) i ∈ P i d x i \in P_{idx} iPidx? 時(shí),這一點(diǎn)很明顯,因?yàn)?hi 是直接從 Pθ 復(fù)制而來(lái)的。當(dāng) i ? P i d x i \notin P_{idx} i/Pidx? 時(shí), h i h_i hi? 仍然取決于 Pθ,因?yàn)榍熬Y激活總是在左側(cè)上下文中,因此會(huì)影響其右側(cè)的任何激活。

4.3 Parametrization of Pθ

根據(jù)經(jīng)驗(yàn),直接更新 Pθ 參數(shù)會(huì)導(dǎo)致優(yōu)化效果不穩(wěn)定,性能也會(huì)略有下降(我們?cè)诔醪綄?shí)驗(yàn)中發(fā)現(xiàn),直接優(yōu)化前綴對(duì)學(xué)習(xí)率和初始化非常敏感。)。因此,我們將矩陣 P θ [ i , : ] = M L P θ ( P θ ′ [ i , : ] ) P_θ[i,:] = MLP_θ(P'_θ[i,:]) Pθ?[i:]=MLPθ?(Pθ?[i,:]) 重新參數(shù)化為一個(gè)由大型前饋神經(jīng)網(wǎng)絡(luò)(MLPθ)組成的較小矩陣( P θ ′ P^′_θ Pθ?。需要注意的是, P θ P_θ Pθ? P θ ′ P^′_θ Pθ? 的行維度(即前綴長(zhǎng)度)相同,但列維度不同(Pθ 的維度為 |Pidx| × dim(hi),而 Pθ 的維度為 |Pidx| × k,我們選擇 k = 512 用于表格到文本任務(wù),k = 800 用于生成摘要任務(wù)。MLPθ 從維度 k 映射到 dim(hi))。訓(xùn)練完成后,這些重新參數(shù)化的參數(shù)可以丟棄,只需保存前綴(Pθ)。

5 Experimental Setup

5.1 Datasets and Metrics

我們?cè)谌齻€(gè)標(biāo)準(zhǔn)神經(jīng)生成數(shù)據(jù)集上對(duì)表格到文本任務(wù)進(jìn)行了評(píng)估: E2E(Novikova 等人,2017 年)、WebNLG(Gardent 等人,2017 年)和 DART(Radev 等人,2020 年)。這些數(shù)據(jù)集按照復(fù)雜程度和規(guī)模的遞增順序排列。E2E 只有一個(gè)域(即餐廳評(píng)論);WebNLG 有 14 個(gè)域,而 DART 是開(kāi)放域,使用維基百科的開(kāi)放域表。

E2E 數(shù)據(jù)集包含 8 個(gè)不同字段的約 50K 個(gè)示例;它包含一個(gè)源表的多個(gè)測(cè)試引用,平均輸出長(zhǎng)度為 22.9。我們使用了官方評(píng)估腳本,該腳本報(bào)告了 BLEU(Papineni 等人,2002 年)、NIST(Belz 和 Reiter,2006 年)、METEOR(Lavie 和 Agarwal,2007 年)、ROUGE-L(Lin,2004 年)和 CIDEr(Vedantam 等人,2015 年)。

WebNLG 數(shù)據(jù)集(Gardent 等人,2017 年)包含 22K 個(gè)示例,輸入 x 是(主體、屬性、客體)三元組的序列。平均輸出長(zhǎng)度為 22.5。在訓(xùn)練和驗(yàn)證拆分中,輸入描述的實(shí)體來(lái)自 9 個(gè)不同的 DBpedia 類(lèi)別(如紀(jì)念碑)。測(cè)試部分由兩部分組成:前半部分包含訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò)的 DB 類(lèi)別,后半部分包含 5 個(gè)未出現(xiàn)過(guò)的類(lèi)別。這些未見(jiàn)類(lèi)別用于評(píng)估外推法。我們使用的是官方評(píng)估腳本,該腳本會(huì)報(bào)告 BLEU、METEOR 和 TER(Snover 等人,2006 年)。

DART (Radev 等人,2020 年)是一個(gè)開(kāi)放領(lǐng)域的從表格到文本的數(shù)據(jù)集,其輸入格式(實(shí)體-關(guān)系-實(shí)體三元組)與 WebNLG 相似。平均輸出長(zhǎng)度為 21.6。它由來(lái)自 WikiSQL、WikiTableQuestions、E2E 和 WebNLG 的 82K 個(gè)示例組成,并應(yīng)用了一些手動(dòng)或自動(dòng)轉(zhuǎn)換。我們使用官方評(píng)估腳本并報(bào)告了 BLEU、METEOR、TER、MoverScore(Zhao 等人,2019 年)、BERTScore(Zhang 等人,2020b)和 BLEURT(Sellam 等人,2020 年)。

在總結(jié)任務(wù)中,我們使用了 XSUM(Narayan 等人,2018 年)數(shù)據(jù)集,這是一個(gè)新聞文章的抽象總結(jié)數(shù)據(jù)集。該數(shù)據(jù)集有 225K 個(gè)例子。文章的平均長(zhǎng)度為 431 個(gè)單詞,摘要的平均長(zhǎng)度為 23.3 個(gè)單詞。我們報(bào)告了 ROUGE-1、ROUGE2 和 ROUGE-L。

5.2 Methods

對(duì)于表格到文本的生成,我們將前綴調(diào)優(yōu)與其他三種方法進(jìn)行了比較:微調(diào)(FINE-TUNE)、僅對(duì)頂部 2 層進(jìn)行微調(diào)(FT-TOP2)和適配器調(diào)優(yōu)(ADAPTER)5: 在 E2E 數(shù)據(jù)集上,Shen 等人(2019)使用了無(wú)需預(yù)訓(xùn)練的實(shí)用信息模型。在 WebNLG 上,Kale(2020)對(duì) T5-large 進(jìn)行了微調(diào)。在 DART 上,還沒(méi)有發(fā)布在該數(shù)據(jù)集版本上訓(xùn)練過(guò)的官方模型。6 在總結(jié)方面,我們與微調(diào) BART(Lewis 等人,2020 年)進(jìn)行了比較。

5.3 Architectures and Hyperparameters

對(duì)于表格到文本的轉(zhuǎn)換,

  • 我們使用 GPT-2MEDIUM 和 GPT2LARGE;
  • 源表格經(jīng)過(guò)線(xiàn)性化處理(與自然語(yǔ)言話(huà)語(yǔ)相比,線(xiàn)性化表格式不自然,這對(duì)于預(yù)訓(xùn)練的 LM 來(lái)說(shuō)可能具有挑戰(zhàn)性。)。

對(duì)于摘要轉(zhuǎn)換,

  • 我們使用 BARTLARGE(我們沒(méi)有包括 GPT-2 的摘要結(jié)果,因?yàn)樵谖覀兊某醪綄?shí)驗(yàn)中,微調(diào) GPT-2 在 XSUM 上的表現(xiàn)明顯低于微調(diào) BART),源文章被截?cái)酁?512 個(gè) BPE 標(biāo)記。

我們的實(shí)現(xiàn)基于 Hugging Face Transformer 模型。在訓(xùn)練時(shí),我們使用 AdamW 優(yōu)化器(Loshchilov 和 Hutter,2019 年)和線(xiàn)性學(xué)習(xí)率調(diào)度器,正如 Hugging Face 默認(rèn)設(shè)置所建議的那樣。我們調(diào)整的超參數(shù)包括epoch次數(shù)、批量大小、學(xué)習(xí)率和前綴長(zhǎng)度。超參數(shù)詳情見(jiàn)附錄。默認(rèn)設(shè)置是訓(xùn)練 10 個(gè) epoch,使用 5 的批次大小、5x10-5 的學(xué)習(xí)率和 10 的前綴長(zhǎng)度。表到文本模型在 TITAN Xp 或 GeForce GTX TITAN X 機(jī)器上進(jìn)行訓(xùn)練。在 22K 個(gè)示例上訓(xùn)練前綴調(diào)優(yōu)每個(gè) epochs 需要 0.2 個(gè)小時(shí),而微調(diào)大約需要 0.3 個(gè)小時(shí)。摘要模型在 Tesla V100 機(jī)器上進(jìn)行訓(xùn)練,在 XSUM 數(shù)據(jù)集上每個(gè)歷時(shí)耗時(shí) 1.25 小時(shí)。

在解碼時(shí),對(duì)于三個(gè)表對(duì)文數(shù)據(jù)集,我們使用波束搜索,波束大小為 5。對(duì)于摘要,我們使用的波束大小為 6,長(zhǎng)度歸一化為 0.8。表到文本的解碼時(shí)間為每句 1.2 秒(不分批),摘要的解碼時(shí)間為每批 2.6 秒(分批大小為 10)。

6 Main Results

6.1 Table-to-text Generation

我們發(fā)現(xiàn),只需添加 0.1% 的特定任務(wù)參數(shù),前綴調(diào)優(yōu)就能有效地生成表格到文本,其性能優(yōu)于其他輕量級(jí)基線(xiàn)(ADAPTER 和 FT-TOP2),并且與微調(diào)性能相當(dāng)。這一趨勢(shì)在所有三個(gè)數(shù)據(jù)集上都是如此: E2E、WebNLG10 和 DART 都是如此。
【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

為了進(jìn)行公平比較,我們將前綴調(diào)優(yōu)和適配器調(diào)優(yōu)的參數(shù)數(shù)匹配為 0.1%。表 1 顯示,前綴調(diào)優(yōu)明顯優(yōu)于 ADAPTER(0.1%),平均每個(gè)數(shù)據(jù)集的 BLEU 提高了 4.1。即使與微調(diào)(100%)和適配器調(diào)優(yōu)(3.0%)相比,前綴調(diào)優(yōu)更新的參數(shù)明顯多于前綴調(diào)優(yōu),但前綴調(diào)優(yōu)仍然取得了與這兩個(gè)系統(tǒng)相當(dāng)甚至更好的結(jié)果。這表明,前綴調(diào)優(yōu)比適配器調(diào)優(yōu)更具帕累托效率,在提高生成質(zhì)量的同時(shí)大大減少了參數(shù)。

此外,在 DART 上取得的良好性能表明,前綴調(diào)優(yōu)可以適用于具有不同領(lǐng)域和大量關(guān)系的表。我們將在第 6.4 節(jié)中深入探討外推性能(即對(duì)未見(jiàn)類(lèi)別或主題的泛化)。

總之,前綴調(diào)優(yōu)是一種有效且節(jié)省空間的方法,可使 GPT-2 適應(yīng)表格到文本的生成。學(xué)習(xí)到的前綴具有足夠的表現(xiàn)力,可以引導(dǎo) GPT-2 從非自然格式中正確提取內(nèi)容并生成文本描述。前綴調(diào)優(yōu)還能很好地從 GPT-2MEDIUM 擴(kuò)展到 GPT-2LARGE,這表明它有潛力擴(kuò)展到類(lèi)似架構(gòu)的更大模型,如 GPT-3。

6.2 Summarization

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning
如表 2 所示,在參數(shù)為 2% 的情況下,前綴調(diào)優(yōu)的性能略低于微調(diào)(在 ROUGE-L 中為 36.05 對(duì) 37.25)。在參數(shù)僅為 0.1% 的情況下,前綴調(diào)優(yōu)的性能低于完全微調(diào)(35.05 對(duì) 37.25)。XSUM 與三個(gè)表對(duì)文本數(shù)據(jù)集之間存在一些差異,這可能是前綴調(diào)優(yōu)在表對(duì)文本中具有相對(duì)優(yōu)勢(shì)的原因

  • 1)XSUM 包含的示例數(shù)平均是三個(gè)表對(duì)文本數(shù)據(jù)集的 4 倍;
  • 2)輸入文章的長(zhǎng)度平均是表對(duì)文本數(shù)據(jù)集線(xiàn)性化表格輸入長(zhǎng)度的 17 倍;
  • 3)摘要可能比表對(duì)文本更復(fù)雜,因?yàn)樗枰喿x理解和識(shí)別文章中的關(guān)鍵內(nèi)容。

6.3 Low-data Setting

根據(jù)表到文(§ 6.1)和摘要化(§ 6.2)的結(jié)果,我們發(fā)現(xiàn)當(dāng)訓(xùn)練示例數(shù)量較少時(shí),預(yù)修正具有相對(duì)優(yōu)勢(shì)。為了構(gòu)建低數(shù)據(jù)設(shè)置,我們對(duì)全部數(shù)據(jù)集(表到文本的 E2E 和摘要化的 XSUM)進(jìn)行子采樣,以獲得大小為{50, 100, 200, 500}的小數(shù)據(jù)集。對(duì)于每種大小,我們抽取 5 個(gè)不同的數(shù)據(jù)集,并對(duì) 2 個(gè)訓(xùn)練隨機(jī)種子進(jìn)行平均。因此,我們對(duì) 10 個(gè)模型取平均值,以得到每個(gè)低數(shù)據(jù)設(shè)置的估計(jì)值。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

圖 3(右)顯示,在低數(shù)據(jù)量情況下,前綴調(diào)優(yōu)比微調(diào)平均高出 2.9 BLEU,而且所需的參數(shù)也要少得多,但隨著數(shù)據(jù)集規(guī)模的增加,差距也在縮小。

圖 3(左)顯示了前綴調(diào)優(yōu)和微調(diào)模型在不同數(shù)據(jù)量下生成的 8 個(gè)例子。雖然兩種方法在低數(shù)據(jù)量情況下都傾向于生成不足(缺少表格內(nèi)容),但前綴調(diào)優(yōu)往往比微調(diào)更忠實(shí)。例如,微調(diào)(100,200)12 會(huì)錯(cuò)誤地聲稱(chēng)客戶(hù)評(píng)分較低,而真實(shí)評(píng)分是平均值,而前綴調(diào)優(yōu)(100,200)生成的描述則忠實(shí)于表格。

6.4 Extrapolation

現(xiàn)在,我們將研究從表格到文本和摘要的外推性能。為了構(gòu)建外推環(huán)境,我們拆分了現(xiàn)有的數(shù)據(jù)集,使訓(xùn)練和測(cè)試涵蓋不同的主題。對(duì)于從表格到文本,WebNLG 數(shù)據(jù)集標(biāo)注的是表格主題。有 9 個(gè)類(lèi)別在訓(xùn)練和測(cè)試中都會(huì)出現(xiàn),記為 SEEN;有 5 個(gè)類(lèi)別只在測(cè)試時(shí)出現(xiàn),記為 UNSEEN。因此,我們通過(guò)對(duì) SEEN 類(lèi)別進(jìn)行訓(xùn)練和對(duì) UNSEEN 類(lèi)別進(jìn)行測(cè)試來(lái)評(píng)估外推法。為了進(jìn)行總結(jié),我們構(gòu)建了兩種外推數(shù)據(jù)拆分13: 在 “新聞-體育”(news-to-sports)中,我們對(duì)新聞文章進(jìn)行訓(xùn)練,對(duì)體育文章進(jìn)行測(cè)試。在 "新聞內(nèi)部 "中,我們對(duì){世界、英國(guó)、商業(yè)}新聞進(jìn)行訓(xùn)練,并對(duì)其余新聞?lì)悇e(如健康、技術(shù))進(jìn)行測(cè)試。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

如表 3 和表 1(中)的 "U "列所示,在表到文本和摘要這兩個(gè)方面,前綴調(diào)優(yōu)在所有指標(biāo)下都比微調(diào)具有更好的外推性能。

我們還發(fā)現(xiàn),如表 1 所示,適配器調(diào)優(yōu)實(shí)現(xiàn)了良好的外推性能,與前綴調(diào)優(yōu)不相上下。這一共同趨勢(shì)表明,保留 LM 參數(shù)確實(shí)會(huì)對(duì)外推(extrapolation)產(chǎn)生積極影響。然而,這種增益的原因是一個(gè)懸而未決的問(wèn)題,我們將在第 8 節(jié)中進(jìn)一步討論。

7 Intrinsic Evaluation

我們比較了前綴調(diào)優(yōu)的不同變體。§ 7.1 研究了前綴長(zhǎng)度的影響?!?7.2 只研究了嵌入層的調(diào)整,這更類(lèi)似于離散提示的調(diào)整。§7.3 比較了前綴化和后綴化,后綴化在 x 和 y 之間插入了可訓(xùn)練的激活?!?.4 研究了各種前綴初始化策略的影響。

7.1 Prefix Length

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

前綴越長(zhǎng),意味著可訓(xùn)練的參數(shù)越多,因此表達(dá)能力越強(qiáng)。圖 4 顯示,隨著前綴長(zhǎng)度增加到一個(gè)閾值(總結(jié)為 200,表格到文本為 10),性能會(huì)有所提高,然后會(huì)出現(xiàn)輕微的性能下降。

根據(jù)經(jīng)驗(yàn),較長(zhǎng)的前綴對(duì)推理速度的影響可以忽略不計(jì),因?yàn)檎麄€(gè)前綴的注意力計(jì)算在 GPU 上是并行的。

7.2 Full vs Embedding-only

回顧第 4.1 節(jié),我們討論了優(yōu)化 "虛擬標(biāo)記 "連續(xù)嵌入的方案。我們將這一想法實(shí)例化,并稱(chēng)之為純嵌入式消融。詞嵌入是自由參數(shù),上層激活層由Transformer計(jì)算。表 4(上)顯示,性能顯著下降,這表明只調(diào)整嵌入層的表現(xiàn)力不夠。

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

純嵌入式消融為離散提示(discrete prompt)優(yōu)化的性能設(shè)定了上限 (Shin et al., 2020),因?yàn)殡x散提示限制嵌入層與實(shí)詞的嵌入完全匹配。因此,我們可以得出這樣一個(gè)表達(dá)能力遞增鏈:discrete prompting< embedding-only ablation < prefix-tuning。

7.3 Prefixing vs Infixing

我們還研究了可訓(xùn)練激活在序列中的位置對(duì)性能的影響。在前綴調(diào)優(yōu)中,我們將它們放在開(kāi)頭[PREFIX; x; y]。我們也可以將可訓(xùn)練激活放在 x 和 y 之間(即 [x; INFIX; y]),并將其稱(chēng)為后綴調(diào)優(yōu)(infix-tuning)。表 4(下)顯示,infix-tuning 略遜于 prefix-tuning。我們認(rèn)為這是因?yàn)榍熬Y調(diào)優(yōu)可以影響 x 和 y 的激活,而后綴調(diào)整只能影響 y 的激活

7.4 Initialization

【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation,AIGC/LLM,llm,微調(diào),prefix-tuning

我們發(fā)現(xiàn),前綴的初始化方式對(duì)低數(shù)據(jù)設(shè)置有很大影響。隨機(jī)初始化會(huì)導(dǎo)致低性能和高方差。如圖 5 所示,使用實(shí)詞激活來(lái)初始化前綴可以顯著提高生成效率。特別是使用 “summarization” 和 “table-to-text” 等與任務(wù)相關(guān)的詞進(jìn)行初始化時(shí),性能略好于使用 “elephant” 和 “dividue” 等與任務(wù)無(wú)關(guān)的詞,但使用實(shí)詞的效果仍好于隨機(jī)初始化。

由于我們使用 LM 計(jì)算的實(shí)詞激活來(lái)初始化前綴,因此這種初始化策略與盡可能保留預(yù)訓(xùn)練的 LM 是一致的。

8 Discussion

8.1 Personalization

正如我們?cè)诘?1 節(jié)中所指出的,當(dāng)有大量任務(wù)需要獨(dú)立訓(xùn)練時(shí),前綴調(diào)優(yōu)就顯得非常有利。用戶(hù)隱私就是一種實(shí)用的設(shè)置(Shokri 和 Shmatikov,2015;McMahan 等人,2016)。為了保護(hù)用戶(hù)隱私,需要將每個(gè)用戶(hù)的數(shù)據(jù)分開(kāi),并為每個(gè)用戶(hù)獨(dú)立訓(xùn)練個(gè)性化模型。因此,每個(gè)用戶(hù)都可以被視為一個(gè)獨(dú)立的任務(wù)。如果用戶(hù)數(shù)量達(dá)到數(shù)百萬(wàn),前綴調(diào)優(yōu)技術(shù)就能適應(yīng)這種情況,并保持模塊化,通過(guò)添加或刪除用戶(hù)的前綴,靈活地添加或刪除用戶(hù),而不會(huì)造成交叉污染。

8.2 Batching Across Users

在相同的個(gè)性化設(shè)置下,即使不同用戶(hù)的查詢(xún)有不同的前綴支持,前綴調(diào)優(yōu)也能對(duì)其進(jìn)行批處理。當(dāng)多個(gè)用戶(hù)向云 GPU 設(shè)備查詢(xún)其輸入時(shí),將這些用戶(hù)歸入同一批次會(huì)提高計(jì)算效率。前綴調(diào)優(yōu)可保持共享的 LM 不變;因此,批處理只需在用戶(hù)輸入前添加個(gè)性化前綴,其余所有計(jì)算均保持不變。相比之下,在適配器調(diào)優(yōu)中,我們無(wú)法對(duì)不同用戶(hù)進(jìn)行批處理,因?yàn)樵诠蚕淼腡ransformer層之間有個(gè)性化的適配器。

8.3 Inductive Bias of Prefix-tuning

回想一下,微調(diào)會(huì)更新所有預(yù)訓(xùn)練參數(shù),而前綴調(diào)優(yōu)和適配器調(diào)優(yōu)則會(huì)保留這些參數(shù)。由于語(yǔ)言模型是在通用語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練的,因此保留 LM 參數(shù)可能有助于泛化到訓(xùn)練期間未見(jiàn)過(guò)的領(lǐng)域。與這一直覺(jué)相一致,我們發(fā)現(xiàn)前綴調(diào)優(yōu)和適配器調(diào)優(yōu)在外推法設(shè)置中都有顯著的性能提升(第 6.4 節(jié));然而,這種提升的原因是一個(gè)未決問(wèn)題。

雖然前綴調(diào)優(yōu)和適配器調(diào)優(yōu)都凍結(jié)了預(yù)訓(xùn)練參數(shù),但它們調(diào)整了不同的參數(shù)集來(lái)影響Transformer的激活層?;仡櫼幌?,前綴調(diào)優(yōu)會(huì)保持 LM 不變,并使用前綴和預(yù)訓(xùn)練的注意力塊來(lái)影響后續(xù)激活;而適配器調(diào)優(yōu)則會(huì)在 LM 層之間插入可訓(xùn)練模塊,直接將殘差向量添加到激活中。此外,我們還發(fā)現(xiàn),與適配器調(diào)優(yōu)相比,前綴調(diào)優(yōu)所需的參數(shù)要少得多,但性能卻不相上下。我們認(rèn)為,這種參數(shù)效率的提高是因?yàn)榍熬Y調(diào)優(yōu)盡可能保持了預(yù)訓(xùn)練 LM 的完整性,因此比適配器調(diào)優(yōu)更能利用 LM。

Aghajanyan 等人(2020 年)同時(shí)進(jìn)行的研究利用本征維度表明,存在一種低維度的重參數(shù)化,其微調(diào)效果不亞于完整參數(shù)空間。這就解釋了為什么只需更新少量參數(shù),就能在下游任務(wù)中獲得很高的精度。我們的工作與這一發(fā)現(xiàn)相呼應(yīng),表明只需更新很小的前綴,就能獲得良好的生成性能。

9 Conclusion

我們提出了前綴調(diào)優(yōu)法,它是微調(diào)法的一種輕量級(jí)替代方案,可為 NLG 任務(wù)預(yù)置可訓(xùn)練的連續(xù)前綴。我們發(fā)現(xiàn),盡管學(xué)習(xí)的參數(shù)比微調(diào)少 1000 倍,前綴調(diào)優(yōu)仍能在全數(shù)據(jù)環(huán)境下保持與微調(diào)相當(dāng)?shù)男阅?,而且在低?shù)據(jù)和外推環(huán)境下都優(yōu)于微調(diào)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-724263.html

到了這里,關(guān)于【LLM微調(diào)范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Prefix-tuning、Adapter、LLaMA-Adapter的流程圖與偽代碼實(shí)現(xiàn)

    Prefix-tuning、Adapter、LLaMA-Adapter的流程圖與偽代碼實(shí)現(xiàn)

    流程圖: 代碼: 流程圖: 代碼: 流程圖: 代碼:

    2024年02月11日
    瀏覽(19)
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning

    大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning

    隨著,ChatGPT 迅速爆火,引發(fā)了大模型的時(shí)代變革。然而對(duì)于普通大眾來(lái)說(shuō),進(jìn)行大模型的預(yù)訓(xùn)練或者全量微調(diào)遙不可及。由此,催生了各種參數(shù)高效微調(diào)技術(shù),讓科研人員或者普通開(kāi)發(fā)者有機(jī)會(huì)嘗試微調(diào)大模型。 因此,該技術(shù)值得我們進(jìn)行深入分析其背后的機(jī)理,本系列大

    2024年02月09日
    瀏覽(19)
  • 一文讀懂大型語(yǔ)言模型參數(shù)高效微調(diào):Prefix Tuning與LLaMA-Adapter

    一文讀懂大型語(yǔ)言模型參數(shù)高效微調(diào):Prefix Tuning與LLaMA-Adapter

    芝士AI吃魚(yú) 在快速發(fā)展的人工智能領(lǐng)域中,高效、有效地使用大型語(yǔ)言模型變得日益重要,參數(shù)高效微調(diào)是這一追求的前沿技術(shù),它允許研究人員和實(shí)踐者在最小化計(jì)算和資源占用的同時(shí),重復(fù)使用預(yù)訓(xùn)練模型。這還使我們能夠在更廣泛的硬件范圍內(nèi)訓(xùn)練AI模型,包括計(jì)算能

    2024年01月17日
    瀏覽(26)
  • Prompt-Tuning——深度解讀一種新的微調(diào)范式

    Prompt-Tuning——深度解讀一種新的微調(diào)范式

    作者:王嘉寧??郵箱:lygwjn@126.com 轉(zhuǎn)載請(qǐng)注明出處:https://wjn1996.blog.csdn.net/article/details/120607050 本博客針對(duì)Prompt進(jìn)行的綜述博客,暫時(shí)為半成品,持續(xù)更新中,若對(duì)您的科研和工作有所幫助,期待您的收藏與引用。 作者簡(jiǎn)介:王嘉寧,華東師范大學(xué) 數(shù)據(jù)學(xué)院 博士生,研究

    2024年02月15日
    瀏覽(17)
  • 【LLM】Prompt tuning大模型微調(diào)實(shí)戰(zhàn)

    【LLM】Prompt tuning大模型微調(diào)實(shí)戰(zhàn)

    prompt tuning可看做是prefix tuning的簡(jiǎn)化版本,在輸入層加入prompt tokens,并不需要加入MLP進(jìn)行調(diào)整來(lái)解決難訓(xùn)練的問(wèn)題,作者實(shí)驗(yàn)表明隨著預(yù)訓(xùn)練模型參數(shù)量的增加,prompt tuning效果逼近fine tuning效果 之前提到過(guò)可以借助 peft 庫(kù)(Parameter-Efficient Fine-Tuning)進(jìn)行微調(diào),支持如下tuni

    2024年02月13日
    瀏覽(26)
  • 大語(yǔ)言模型LLM微調(diào)技術(shù):Prompt Tuning

    大語(yǔ)言模型LLM微調(diào)技術(shù):Prompt Tuning

    截止23年3月底,語(yǔ)言模型發(fā)展走過(guò)了三個(gè)階段: 第一階段 :設(shè)計(jì)一系列的自監(jiān)督訓(xùn)練目標(biāo)(MLM、NSP等),設(shè)計(jì)新穎的模型架構(gòu)(Transformer),遵循Pre-training和Fine-tuning范式。典型代表是BERT、GPT、XLNet等; 第二階段 :逐步擴(kuò)大模型參數(shù)和訓(xùn)練語(yǔ)料規(guī)模,探索不同類(lèi)型的架構(gòu)。

    2024年02月03日
    瀏覽(16)
  • 解密Prompt系列12. LLM Agent零微調(diào)范式 ReAct & Self Ask

    解密Prompt系列12. LLM Agent零微調(diào)范式 ReAct & Self Ask

    前三章我們分別介紹了思維鏈的使用,原理和在小模型上的使用。這一章我們正式進(jìn)入應(yīng)用層面,聊聊如何把思維鏈和工具使用結(jié)合得到人工智能代理。 要回答我們?yōu)槭裁葱枰狝I代理?代理可以解決哪些問(wèn)題?可以有以下兩個(gè)視角 首先是我們賦能模型,如果說(shuō) LLM是大腦,那

    2024年02月15日
    瀏覽(15)
  • 大模型PEFT技術(shù)原理(一):BitFit、Prefix Tuning、Prompt Tuning

    大模型PEFT技術(shù)原理(一):BitFit、Prefix Tuning、Prompt Tuning

    ? ? ? ?隨著預(yù)訓(xùn)練模型的參數(shù)越來(lái)越大,尤其是175B參數(shù)大小的GPT3發(fā)布以來(lái),讓很多中小公司和個(gè)人研究員對(duì)于大模型的 全量微調(diào) 望而卻步,近年來(lái)研究者們提出了各種各樣的參數(shù)高效遷移學(xué)習(xí)方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部

    2024年01月25日
    瀏覽(48)
  • Instruction Tuning:無(wú)/少樣本學(xué)習(xí)新范式

    Instruction Tuning:無(wú)/少樣本學(xué)習(xí)新范式

    作者?|?太子長(zhǎng)琴? 整理?|?NewBeeNLP 大家好,這里是NewBeeNLP。 今天分享一種簡(jiǎn)單的方法來(lái)提升語(yǔ)言模型的 Zero-Shot 能力—— 指示(或指令)微調(diào)(instruction tuning) ,在一組通過(guò)指示描述的數(shù)據(jù)集上對(duì)語(yǔ)言模型微調(diào),大大提高了在未見(jiàn)過(guò)任務(wù)上的 Zero-Shot 能力。 模型 137B,在超

    2024年02月15日
    瀏覽(22)
  • 小白理解GPT的“微調(diào)“(fine-tuning)

    對(duì)于GPT-3.5,我們實(shí)際上并不能在OpenAI的服務(wù)器上直接訓(xùn)練它。OpenAI的模型通常是預(yù)訓(xùn)練好的,也就是說(shuō),它們已經(jīng)在大量的語(yǔ)料上進(jìn)行過(guò)訓(xùn)練,學(xué)習(xí)到了語(yǔ)言的基本規(guī)則和模式。 然而,OpenAI提供了一種叫做\\\"微調(diào)\\\"(fine-tuning)的方法,讓我們可以在預(yù)訓(xùn)練好的模型基礎(chǔ)上進(jìn)行

    2024年02月04日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包