国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning

這篇具有很好參考價值的文章主要介紹了大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

隨著,ChatGPT 迅速爆火,引發(fā)了大模型的時代變革。然而對于普通大眾來說,進行大模型的預(yù)訓(xùn)練或者全量微調(diào)遙不可及。由此,催生了各種參數(shù)高效微調(diào)技術(shù),讓科研人員或者普通開發(fā)者有機會嘗試微調(diào)大模型。

因此,該技術(shù)值得我們進行深入分析其背后的機理,本系列大體分七篇文章進行講解。

  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(一)-背景、參數(shù)高效微調(diào)簡介
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(三)-P-Tuning、P-Tuning v2
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(四)-Adapter Tuning及其變體
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(五)-LoRA、AdaLoRA、QLoRA
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(六)-MAM Adapter、UniPELT
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(七)-最佳實踐、總結(jié)

本文為大模型參數(shù)高效微調(diào)技術(shù)原理綜述的第二篇。

BitFit

背景

雖然對每個任務(wù)進行全量微調(diào)非常有效,但它也會為每個預(yù)訓(xùn)練任務(wù)生成一個獨特的大型模型,這使得很難推斷微調(diào)過程中發(fā)生了什么變化,也很難部署, 特別是隨著任務(wù)數(shù)量的增加,很難維護。

理想狀況下,我們希望有一種滿足以下條件的高效微調(diào)方法:

  • 到達能夠匹配全量微調(diào)的效果。
  • 僅更改一小部分模型參數(shù)。
  • 使數(shù)據(jù)可以通過流的方式到達,而不是同時到達,便于高效的硬件部署。
  • 改變的參數(shù)在不同下游任務(wù)中是一致的。

上述的問題取決于微調(diào)過程能多大程度引導(dǎo)新能力的學(xué)習(xí)以及暴露在預(yù)訓(xùn)練LM中學(xué)到的能力。

雖然,之前的高效微調(diào)方法Adapter-Tuning、Diff-Pruning也能夠部分滿足上述的需求。但是,作者提出了一種參數(shù)量更小的稀疏的微調(diào)方法BitFit,來滿足上述的需求。

技術(shù)原理

BitFit(論文:BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models)是一種稀疏的微調(diào)方法,它訓(xùn)練時只更新bias的參數(shù)或者部分bias參數(shù)。

對于Transformer模型而言,凍結(jié)大部分?transformer-encoder 參數(shù),只更新bias參數(shù)跟特定任務(wù)的分類層參數(shù)。涉及到的bias參數(shù)有attention模塊中計算query,key,value跟合并多個attention結(jié)果時涉及到的bias,MLP層中的bias,Layernormalization層的bias參數(shù)。

在Bert-Base/Bert-Large這種模型里,bias參數(shù)僅占模型全部參數(shù)量的0.08%~0.09%。但是通過在Bert-Large模型上基于GLUE數(shù)據(jù)集進行了?BitFit、Adapter和Diff-Pruning的效果對比發(fā)現(xiàn),BitFit在參數(shù)量遠小于Adapter、Diff-Pruning的情況下,效果與Adapter、Diff-Pruning想當(dāng),甚至在某些任務(wù)上略優(yōu)于Adapter、Diff-Pruning。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

同時,通過實驗結(jié)果還可以看出,BitFit微調(diào)結(jié)果相對全量參數(shù)微調(diào)而言, 只更新極少量參數(shù)的情況下,在多個數(shù)據(jù)集上都達到了不錯的效果,雖不及全量參數(shù)微調(diào),但是遠超固定全部模型參數(shù)的Frozen方式。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

同時,通過對比BitFit訓(xùn)練前后的參數(shù),發(fā)現(xiàn)很多bias參數(shù)并沒有太多變化(例如:跟計算key所涉及到的bias參數(shù))。發(fā)現(xiàn)計算query和將特征維度從N放大到4N的FFN層(intermediate)的bias參數(shù)變化最為明顯,只更新這兩類bias參數(shù)也能達到不錯的效果,反之,固定其中任何一者,模型的效果都有較大損失。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

Prefix Tuning

背景

在Prefix?Tuning之前的工作主要是人工設(shè)計離散的模版或者自動化搜索離散的模版。對于人工設(shè)計的模版,模版的變化對模型最終的性能特別敏感,加一個詞、少一個詞或者變動位置都會造成比較大的變化。而對于自動化搜索模版,成本也比較高;同時,以前這種離散化的token搜索出來的結(jié)果可能并不是最優(yōu)的。

除此之外,傳統(tǒng)的微調(diào)范式利用預(yù)訓(xùn)練模型去對不同的下游任務(wù)進行微調(diào),對每個任務(wù)都要保存一份微調(diào)后的模型權(quán)重,一方面微調(diào)整個模型耗時長;另一方面也會占很多存儲空間。

基于上述兩點,Prefix?Tuning提出固定預(yù)訓(xùn)練LM,為LM添加可訓(xùn)練,任務(wù)特定的前綴,這樣就可以為不同任務(wù)保存不同的前綴,微調(diào)成本也??;同時,這種Prefix實際就是連續(xù)可微的Virtual Token(Soft Prompt/Continuous Prompt),相比離散的Token,更好優(yōu)化,效果更好。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

技術(shù)原理

Prefix Tuning(論文:Prefix-Tuning: Optimizing Continuous Prompts for Generation),在輸入token之前構(gòu)造一段任務(wù)相關(guān)的virtual tokens作為Prefix,然后訓(xùn)練的時候只更新Prefix部分的參數(shù),而PLM中的其他部分參數(shù)固定。

針對不同的模型結(jié)構(gòu),需要構(gòu)造不同的Prefix。

  • 針對自回歸架構(gòu)模型:在句子前面添加前綴,得到? z = [PREFIX; x; y],合適的上文能夠在固定 LM 的情況下去引導(dǎo)生成下文(比如:GPT3的上下文學(xué)習(xí))。
  • 針對編碼器-解碼器架構(gòu)模型:Encoder和Decoder都增加了前綴,得到 z = [PREFIX; x; PREFIX0; y]。Encoder端增加前綴是為了引導(dǎo)輸入部分的編碼,Decoder 端增加前綴是為了引導(dǎo)后續(xù)token的生成。
大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

該方法其實和構(gòu)造Prompt類似,只是Prompt是人為構(gòu)造的“顯式”的提示,并且無法更新參數(shù),而Prefix則是可以學(xué)習(xí)的“隱式”的提示。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt ? 同時,為了防止直接更新Prefix的參數(shù)導(dǎo)致訓(xùn)練不穩(wěn)定和性能下降的情況,在Prefix層前面加了MLP結(jié)構(gòu),訓(xùn)練完成后,只保留Prefix的參數(shù)。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

除此之外,通過消融實驗證實,只調(diào)整embedding層的表現(xiàn)力不夠,將導(dǎo)致性能顯著下降,因此,在每層都加了prompt的參數(shù),改動較大。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

另外,實驗還對比了位置對于生成效果的影響,Prefix-tuning也是要略優(yōu)于Infix-tuning的。其中,Prefix-tuning形式為?[PREFIX; x; y],Infix-tuning形式為?[x; INFIX; y]。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

Prompt Tuning

背景

大模型全量微調(diào)對每個任務(wù)訓(xùn)練一個模型,開銷和部署成本都比較高。同時,離散的prompts(指人工設(shè)計prompts提示語加入到模型)方法,成本比較高,并且效果不太好。

基于此,作者提出了Prompt Tuning,通過反向傳播更新參數(shù)來學(xué)習(xí)prompts,而不是人工設(shè)計prompts;同時凍結(jié)模型原始權(quán)重,只訓(xùn)練prompts參數(shù),訓(xùn)練完以后,用同一個模型可以做多任務(wù)推理。

技術(shù)原理

Prompt Tuning(論文:The Power of Scale for Parameter-Efficient Prompt Tuning),該方法可以看作是Prefix Tuning的簡化版本,它給每個任務(wù)定義了自己的Prompt,然后拼接到數(shù)據(jù)上作為輸入,但只在輸入層加入prompt tokens,并且不需要加入 MLP 進行調(diào)整來解決難訓(xùn)練的問題。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

通過實驗發(fā)現(xiàn),隨著預(yù)訓(xùn)練模型參數(shù)量的增加,Prompt Tuning的方法會逼近全參數(shù)微調(diào)的結(jié)果。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

同時,Prompt Tuning 還提出了 Prompt Ensembling,也就是在一個批次(Batch)里同時訓(xùn)練同一個任務(wù)的不同 prompt(即采用多種不同方式詢問同一個問題),這樣相當(dāng)于訓(xùn)練了不同模型,比模型集成的成本小多了。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

除此之外,Prompt Tuning 論文中還探討了 Prompt?token 的初始化方法和長度對于模型性能的影響。通過消融實驗結(jié)果發(fā)現(xiàn),與隨機初始化和使用樣本詞匯表初始化相比,Prompt Tuning采用類標簽初始化模型的效果更好。不過隨著模型參數(shù)規(guī)模的提升,這種gap最終會消失。

Prompt?token?的長度在20左右時的表現(xiàn)已經(jīng)不錯(超過20之后,提升Prompt token長度,對模型的性能提升不明顯了),同樣的,這個gap也會隨著模型參數(shù)規(guī)模的提升而減?。磳τ诔笠?guī)模模型而言,即使 Prompt token 長度很短,對性能也不會有太大的影響)。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt
image.png

結(jié)語

本文針對講述了僅更新一部分參數(shù)高效微調(diào)方法BitFit以及通過增加額外參數(shù)的軟提示高效微調(diào)方法Prefix Tuning、Prompt Tuning,下文將對高效微調(diào)方法P-Tuning、P-Tuning v2進行講解。

如果覺得我的文章能夠能夠給你帶來幫助,歡迎點贊收藏加關(guān)注~~文章來源地址http://www.zghlxwxcb.cn/news/detail-702545.html

到了這里,關(guān)于大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 簡單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    簡單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    [論文地址] [代碼] [ICLR 22] 閱前須知:本博文可能有描述不準確/過度簡化/出錯的地方,僅供參考。 網(wǎng)絡(luò)結(jié)構(gòu) 其中,原有模型的參數(shù)是直接凍結(jié)的,可訓(xùn)練參數(shù)只有額外引入的LoRA參數(shù)(由nn.Parameter實現(xiàn))。 模型微調(diào)的本質(zhì) 記網(wǎng)絡(luò)原有預(yù)訓(xùn)練參數(shù)為 W 0 ∈ R d × k W_0 in R^{d times

    2024年02月15日
    瀏覽(74)
  • 了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)

    了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)

    ?? CSDN 葉庭云 : https://yetingyun.blog.csdn.net/ 大語言模型在眾多應(yīng)用領(lǐng)域?qū)崿F(xiàn)了突破性的進步,顯著提升了各種任務(wù)的完成度。然而,其龐大的規(guī)模也帶來了高昂的計算成本。這些模型往往包含數(shù)十億甚至上千億參數(shù),需要巨大的計算資源來運行。特別是,當(dāng)需要為特定的下游

    2024年04月14日
    瀏覽(38)
  • Meta提出全新參數(shù)高效微調(diào)方案,僅需一個RNN,Transformer模型GPU使用量減少84%!

    Meta提出全新參數(shù)高效微調(diào)方案,僅需一個RNN,Transformer模型GPU使用量減少84%!

    近來,隨著 ChatGPT和GPT-4模型 的不斷發(fā)展,國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,還有國內(nèi)公司和高校推出的一些大模型,例如百度的文心一言,清華的ChatGLM等模型。幾乎隔幾天就會有一個全新的大模型發(fā)布,但是對于研究者

    2024年02月16日
    瀏覽(22)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月09日
    瀏覽(33)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月08日
    瀏覽(24)
  • 擴散模型微調(diào)方法/文獻綜述

    擴散模型微調(diào)方法/文獻綜述

    ??個人主頁: https://zhangxiaoshu.blog.csdn.net ??歡迎大家:關(guān)注??+點贊??+評論??+收藏??,如有錯誤敬請指正! ??未來很長,值得我們?nèi)Ρ几案篮玫纳睿?近年來,擴散模型近年來取得了迅速的發(fā)展。擴散模型被廣泛應(yīng)用于文本到圖像生成、文本到視頻生成、點云完成

    2024年02月01日
    瀏覽(15)
  • LLaMA, ChatGLM, BLOOM的參數(shù)高效微調(diào)實踐

    LLaMA, ChatGLM, BLOOM的參數(shù)高效微調(diào)實踐

    作者:回旋托馬斯x(騰訊NLP算法工程師) 項目地址:https://zhuanlan.zhihu.com/p/635710004 大語言模型的訓(xùn)練分為兩個階段: (1)在海量文本語料上的無監(jiān)督預(yù)訓(xùn)練,學(xué)習(xí)通用的語義表示和世界知識。 (2)在小規(guī)模數(shù)據(jù)上,進行指令微調(diào)和基于人類反饋的強化學(xué)習(xí),更好地對齊最

    2024年02月16日
    瀏覽(21)
  • AIGC|FineTune工程之LoRa高效參數(shù)微調(diào)

    AIGC|FineTune工程之LoRa高效參數(shù)微調(diào)

    徐輝? |?后端開發(fā)工程師 隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練語言模型(如GPT、Vicuna、Alpaca、Llama、ChatGLM等)在各種應(yīng)用場景中取得了顯著的成果。然而,從零開始訓(xùn)練這些模型需要大量的計算資源和時間,這對于許多研究者和開發(fā)者來說是不現(xiàn)實的。

    2024年02月15日
    瀏覽(23)
  • 高效微調(diào)技術(shù)QLoRA實戰(zhàn),基于LLaMA-65B微調(diào)僅需48G顯存,真香

    目錄 環(huán)境搭建 數(shù)據(jù)集準備 模型權(quán)重格式轉(zhuǎn)換 模型微調(diào) 模型權(quán)重合并

    2024年02月11日
    瀏覽(29)
  • 語言大模型的分布式訓(xùn)練與高效微調(diào)指南

    語言大模型的分布式訓(xùn)練與高效微調(diào)指南

    原文:語言大模型的分布式訓(xùn)練與高效微調(diào)指南 - 知乎 目錄 收起 1 分布式訓(xùn)練 2 ZeRO驅(qū)動的數(shù)據(jù)并行 3 全分片數(shù)據(jù)并行 4 實現(xiàn) 5 高效微調(diào) 6 實踐指南 7 關(guān)于DeepSpeed和FSDP的更多內(nèi)容 OneFlow編譯 翻譯|楊婷、宛子琳 最近語言大模型(LLM)異?;鸨?,一個非常特別的開源社區(qū)正在

    2024年01月18日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包