国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models

這篇具有很好參考價(jià)值的文章主要介紹了[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1. 基本信息

題目 論文作者與單位 來(lái)源 年份
LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021

524 Citations

論文鏈接:https://arxiv.org/pdf/2106.09685.pdf

論文代碼:https://github.com/microsoft/LoRA

2. 要點(diǎn)

研究主題 問(wèn)題背景 核心方法流程 亮點(diǎn) 數(shù)據(jù)集 結(jié)論 論文類(lèi)型 關(guān)鍵字
微調(diào)大模型 對(duì)比較大的模型進(jìn)行全部參數(shù)的微調(diào)顯得不太可行,例如GPT-3 175B,每介任務(wù)都部署一個(gè)單獨(dú)的GPT-3,這個(gè)顯得十分的昂貴。 提出Low-Rank Adaptation,LoRA. 凍結(jié)了預(yù)先訓(xùn)練的模型權(quán)值,并將可訓(xùn)練的秩分解矩陣注入變壓器架構(gòu)的每一層,大大減少了下游任務(wù)的可訓(xùn)練參數(shù)的數(shù)量。 效果與全參微調(diào)相當(dāng)或比全參要好,并且沒(méi)有推理延遲。 LoRa

目的主要是不想微調(diào)模型的所有參數(shù),去滿(mǎn)足下游任務(wù),因?yàn)檫@個(gè)成本太大的,特別是大模型例如175B的GPT-3;同時(shí),這個(gè)方法也有人提出了相關(guān)的方法,可是這些方法存在問(wèn)題,通過(guò)擴(kuò)展模型的深度或減少模型的可用序列長(zhǎng)度來(lái)實(shí)現(xiàn)存在推理延遲。最重要的是質(zhì)量不太行呀。

啟發(fā)于:學(xué)習(xí)到的過(guò)度參數(shù)化模型實(shí)際上存在于一個(gè)較低的intrinsic dimension(內(nèi)在維度)上。即是訓(xùn)練下游任務(wù)不需要這么多參數(shù),采用降秩的方法來(lái)保留最內(nèi)在的參數(shù)。

Measuring the Intrinsic Dimension of Objective Landscapes, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. arXiv:2012.13255 [cs], December 2020.

優(yōu)點(diǎn):

只共享一個(gè)大模型,對(duì)于不同的任務(wù),只訓(xùn)練不同的A,B.

訓(xùn)練更有效,訓(xùn)練參數(shù)少;

在推理方面,線(xiàn)性合并,沒(méi)有推理延遲;

LoRA與許多先前的方法正交,可以與其中許多方法結(jié)合,比如前綴調(diào)優(yōu)。

3. 模型(核心內(nèi)容)

3.1 形式表達(dá)

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

3.2 模型結(jié)構(gòu)

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

W0 + ?W = W0 + *BA, 其中 *B:d*r, A:r*k, r << min(d, k).

在訓(xùn)練的時(shí)候W0的凍結(jié)的。

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

Transformer中,自關(guān)注力有4個(gè)矩陣,MLP模塊有2個(gè)矩陣;

這里實(shí)驗(yàn)只關(guān)心自關(guān)注力相關(guān)的權(quán)重矩陣。

4. 實(shí)驗(yàn)與分析

對(duì)比實(shí)驗(yàn)

Fine-Tuning (FT):傳統(tǒng)的微調(diào)。FT變體,只訓(xùn)練最后兩層(FTTop2);

Bias-only or BitFit: 只訓(xùn)練bias vectors;

**Prefifix-embedding tuning (PreEmbed):**在輸入標(biāo)記中插入特殊的標(biāo)記;

Prefix-layer tuning (PreLayer):是對(duì)前綴嵌入調(diào)優(yōu)的擴(kuò)展;

Adapter tuning:在自注意模塊(和MLP模塊)和后續(xù)的剩余連接之間插入適配器層;

Adapter_H:Houlsby et al. (2019) ;

Adapter_L:Lin et al. (2020)

Adapter_P: Pfeiffer et al. (2021),

**Adapter_***D: *AdapterDrop (R¨uckl′e et al., 2020)

所有模型,限制相關(guān)的參數(shù)大小規(guī)模Θ

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

結(jié)果:
[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

訓(xùn)練參數(shù)量與性能對(duì)比實(shí)驗(yàn):

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

對(duì)于GPT-3隨著樣本的增加的效果:

[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models,論文閱讀,筆記,語(yǔ)言模型

5. 代碼

https://github.com/microsoft/LoRA

6. 總結(jié)

從效果來(lái)看,不論預(yù)訓(xùn)練模型的大小,LoRA采用更少的參數(shù),可以達(dá)到全參模型的更好的效果。

7. 知識(shí)整理(知識(shí)點(diǎn),要讀的文獻(xiàn),摘取原文)

通過(guò)更少的參數(shù)去適應(yīng)下游任務(wù),主要是兩個(gè)方向(adapter, soft Prompt):

adding adapter layers,optimizing some forms of the input layer activations

The major downside of fine-tuning is that the new model contains as many parameters as in the original model.

微調(diào)的主要缺點(diǎn)是,新模型包含的參數(shù)與原始模型一樣多。

8. 參考文獻(xiàn)

made by happyprince文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-740494.html

到了這里,關(guān)于[論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文精讀】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    【論文精讀】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    當(dāng)下大模型時(shí)代最火的低資源微調(diào)大模型方法之一,方法簡(jiǎn)單易懂,道理清晰明了,對(duì)未來(lái)的工作有很強(qiáng)的啟發(fā)性。如果想要深入了解LoRA的底層原理,建議仔細(xì)看一看這篇文章,如果只是應(yīng)用,那么簡(jiǎn)單了解就好了~ 大模型預(yù)訓(xùn)練后的全量微調(diào)往往由于算力缺口而不可行,因

    2024年02月10日
    瀏覽(37)
  • 【DL】《LoRA: Low-Rank Adaptation of Large Language Models》譯讀筆記

    《Low-rank Adaption of Large Language Models: Explaining the Key Concepts Behind LoRA》 LoRA的秩分解矩陣是隨機(jī)初始化的,然后通過(guò)梯度下降法進(jìn)行訓(xùn)練。文章中提到,這種初始化方法可以保證LoRA的矩陣與預(yù)訓(xùn)練模型的權(quán)重相互正交,從而避免了對(duì)預(yù)訓(xùn)練模型的干擾。文章還比較了其他幾種初

    2024年02月08日
    瀏覽(45)
  • 簡(jiǎn)單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    簡(jiǎn)單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    [論文地址] [代碼] [ICLR 22] 閱前須知:本博文可能有描述不準(zhǔn)確/過(guò)度簡(jiǎn)化/出錯(cuò)的地方,僅供參考。 網(wǎng)絡(luò)結(jié)構(gòu) 其中,原有模型的參數(shù)是直接凍結(jié)的,可訓(xùn)練參數(shù)只有額外引入的LoRA參數(shù)(由nn.Parameter實(shí)現(xiàn))。 模型微調(diào)的本質(zhì) 記網(wǎng)絡(luò)原有預(yù)訓(xùn)練參數(shù)為 W 0 ∈ R d × k W_0 in R^{d times

    2024年02月15日
    瀏覽(74)
  • LLM:LoRA: Low-Rank Adaptation of Large Language Models

    LLM:LoRA: Low-Rank Adaptation of Large Language Models

    隨著模型規(guī)模的不斷擴(kuò)大,微調(diào)模型的所有參數(shù)(所謂full fine-tuning)的可行性變得越來(lái)越低。以GPT-3的175B參數(shù)為例,每增加一個(gè)新領(lǐng)域就需要完整微調(diào)一個(gè)新模型,代價(jià)和成本很高。 為解決微調(diào)大規(guī)模語(yǔ)言模型到不同領(lǐng)域和任務(wù)的挑戰(zhàn),已有多種方案,比如部分微調(diào)、使用

    2024年02月07日
    瀏覽(20)
  • LLM微調(diào) | LoRA: Low-Rank Adaptation of Large Language Models

    ?? 發(fā)表于論文:(2021) LoRA: Low-Rank Adaptation of Large Language Models ?? 目的:大模型預(yù)訓(xùn)練+微調(diào)范式,微調(diào)成本高。LoRA只微調(diào)新增的小部分參數(shù)。 adapter增加了模型層數(shù),引入了額外的推理延遲; prefix-tuning比較難訓(xùn)練,效果不如直接finetune。 LoRA不會(huì)引入額外的延遲,甚至原文中

    2024年02月17日
    瀏覽(30)
  • LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

    LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

    Paper name LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS Paper Reading Note Paper URL: https://arxiv.org/pdf/2106.09685.pdf Code URL: huggingface 集成: https://github.com/huggingface/peft 官方代碼: https://github.com/microsoft/LoRA 本文提出了低秩自適應(yīng) (Low-Rank Adaptation, LoRA),它凍結(jié)了預(yù)訓(xùn)練的模型權(quán)重,并將可訓(xùn)練

    2023年04月21日
    瀏覽(62)
  • 2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models

    2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models

    Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA 自然語(yǔ)言處理的一個(gè)重要范式包括對(duì)通用領(lǐng)域數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練和對(duì)特定任務(wù)或領(lǐng)域的適應(yīng)。當(dāng)預(yù)訓(xùn)練更大的模型時(shí),完全微調(diào)(重新訓(xùn)練所有模型參數(shù))變得不那么可行。以 GPT-3 175B 為例,部署微調(diào)模型的獨(dú)立

    2024年02月07日
    瀏覽(21)
  • Raki的讀paper小記:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    Raki的讀paper小記:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    研究任務(wù) 對(duì)大模型進(jìn)行部分微調(diào) 已有方法和相關(guān)工作 現(xiàn)有技術(shù)通常通過(guò)擴(kuò)展模型深度引入推理延遲(Houlsby 等人,2019;Rebuffi 等人,2017),或通過(guò)減少模型可用序列長(zhǎng)度(Li 和 Liang,2021;Lester 等人,2021;Ham-bardzumyan 等人,2020;Liu 等人,2021) 面臨挑戰(zhàn) 這些方法通常無(wú)法

    2024年02月15日
    瀏覽(25)
  • Lora升級(jí)!ReLoRa!最新論文 High-Rank Training Through Low-Rank Updates

    Lora升級(jí)!ReLoRa!最新論文 High-Rank Training Through Low-Rank Updates

    關(guān)注公眾號(hào)TechLead,分享AI與云服務(wù)技術(shù)的全維度知識(shí)。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)、AI產(chǎn)品研發(fā)經(jīng)驗(yàn)、團(tuán)隊(duì)管理經(jīng)驗(yàn),同濟(jì)本復(fù)旦碩,復(fù)旦機(jī)器人智能實(shí)驗(yàn)室成員,阿里云認(rèn)證的資深架構(gòu)師,項(xiàng)目管理專(zhuān)業(yè)人士,上億營(yíng)收AI產(chǎn)品研發(fā)負(fù)責(zé)人。 盡管通過(guò)擴(kuò)展導(dǎo)致具有數(shù)千億參

    2024年02月10日
    瀏覽(27)
  • Lightening Network for Low-Light Image Enhancement 論文閱讀筆記

    Lightening Network for Low-Light Image Enhancement 論文閱讀筆記

    這是2022年TIP期刊的一篇有監(jiān)督暗圖增強(qiáng)的文章 網(wǎng)絡(luò)結(jié)構(gòu)如圖所示: LBP的網(wǎng)絡(luò)結(jié)構(gòu)如下: 有點(diǎn)繞,其基于的理論如下。就是說(shuō),普通的暗圖增強(qiáng)就只是走下圖的L1紅箭頭,從暗圖估計(jì)一個(gè)亮圖。但是其實(shí)這個(gè)亮圖和真實(shí)的亮圖還是有一些差距,怎么彌補(bǔ)呢,可以再進(jìn)一步學(xué)習(xí)

    2024年02月16日
    瀏覽(31)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包