国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="vuh94"></rp>

<rp id="vuh94"></rp>

<td id="vuh94"><strong id="vuh94"></strong></td>

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning

2年前作者：吃果凍不吐果凍皮分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

隨著，ChatGPT 迅速爆火，引發(fā)了大模型的時代變革。然而對于普通大眾來說，進行大模型的預(yù)訓(xùn)練或者全量微調(diào)遙不可及。由此，催生了各種參數(shù)高效微調(diào)技術(shù)，讓科研人員或者普通開發(fā)者有機會嘗試微調(diào)大模型。

因此，該技術(shù)值得我們進行深入分析其背后的機理，本系列大體分七篇文章進行講解。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（一）-背景、參數(shù)高效微調(diào)簡介
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（三）-P-Tuning、P-Tuning v2
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（四）-Adapter Tuning及其變體
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（五）-LoRA、AdaLoRA、QLoRA
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（六）-MAM Adapter、UniPELT
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（七）-最佳實踐、總結(jié)

本文為大模型參數(shù)高效微調(diào)技術(shù)原理綜述的第二篇。

BitFit

背景

雖然對每個任務(wù)進行全量微調(diào)非常有效，但它也會為每個預(yù)訓(xùn)練任務(wù)生成一個獨特的大型模型，這使得很難推斷微調(diào)過程中發(fā)生了什么變化，也很難部署，特別是隨著任務(wù)數(shù)量的增加，很難維護。

理想狀況下，我們希望有一種滿足以下條件的高效微調(diào)方法：

到達能夠匹配全量微調(diào)的效果。
僅更改一小部分模型參數(shù)。
使數(shù)據(jù)可以通過流的方式到達，而不是同時到達，便于高效的硬件部署。
改變的參數(shù)在不同下游任務(wù)中是一致的。

上述的問題取決于微調(diào)過程能多大程度引導(dǎo)新能力的學(xué)習(xí)以及暴露在預(yù)訓(xùn)練LM中學(xué)到的能力。

雖然，之前的高效微調(diào)方法Adapter-Tuning、Diff-Pruning也能夠部分滿足上述的需求。但是，作者提出了一種參數(shù)量更小的稀疏的微調(diào)方法BitFit，來滿足上述的需求。

技術(shù)原理

BitFit（論文：BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-models）是一種稀疏的微調(diào)方法，它訓(xùn)練時只更新bias的參數(shù)或者部分bias參數(shù)。

對于Transformer模型而言，凍結(jié)大部分?transformer-encoder 參數(shù)，只更新bias參數(shù)跟特定任務(wù)的分類層參數(shù)。涉及到的bias參數(shù)有attention模塊中計算query,key,value跟合并多個attention結(jié)果時涉及到的bias，MLP層中的bias，Layernormalization層的bias參數(shù)。

在Bert-Base/Bert-Large這種模型里，bias參數(shù)僅占模型全部參數(shù)量的0.08%～0.09%。但是通過在Bert-Large模型上基于GLUE數(shù)據(jù)集進行了?BitFit、Adapter和Diff-Pruning的效果對比發(fā)現(xiàn)，BitFit在參數(shù)量遠小于Adapter、Diff-Pruning的情況下，效果與Adapter、Diff-Pruning想當(dāng)，甚至在某些任務(wù)上略優(yōu)于Adapter、Diff-Pruning。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

同時，通過實驗結(jié)果還可以看出，BitFit微調(diào)結(jié)果相對全量參數(shù)微調(diào)而言, 只更新極少量參數(shù)的情況下，在多個數(shù)據(jù)集上都達到了不錯的效果，雖不及全量參數(shù)微調(diào)，但是遠超固定全部模型參數(shù)的Frozen方式。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

同時，通過對比BitFit訓(xùn)練前后的參數(shù)，發(fā)現(xiàn)很多bias參數(shù)并沒有太多變化（例如：跟計算key所涉及到的bias參數(shù)）。發(fā)現(xiàn)計算query和將特征維度從N放大到4N的FFN層（intermediate）的bias參數(shù)變化最為明顯，只更新這兩類bias參數(shù)也能達到不錯的效果，反之，固定其中任何一者，模型的效果都有較大損失。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

Prefix Tuning

背景

在Prefix?Tuning之前的工作主要是人工設(shè)計離散的模版或者自動化搜索離散的模版。對于人工設(shè)計的模版，模版的變化對模型最終的性能特別敏感，加一個詞、少一個詞或者變動位置都會造成比較大的變化。而對于自動化搜索模版，成本也比較高；同時，以前這種離散化的token搜索出來的結(jié)果可能并不是最優(yōu)的。

除此之外，傳統(tǒng)的微調(diào)范式利用預(yù)訓(xùn)練模型去對不同的下游任務(wù)進行微調(diào)，對每個任務(wù)都要保存一份微調(diào)后的模型權(quán)重，一方面微調(diào)整個模型耗時長；另一方面也會占很多存儲空間。

基于上述兩點，Prefix?Tuning提出固定預(yù)訓(xùn)練LM，為LM添加可訓(xùn)練，任務(wù)特定的前綴，這樣就可以為不同任務(wù)保存不同的前綴，微調(diào)成本也??；同時，這種Prefix實際就是連續(xù)可微的Virtual Token（Soft Prompt/Continuous Prompt），相比離散的Token，更好優(yōu)化，效果更好。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

技術(shù)原理

Prefix Tuning（論文：Prefix-Tuning: Optimizing Continuous Prompts for Generation），在輸入token之前構(gòu)造一段任務(wù)相關(guān)的virtual tokens作為Prefix，然后訓(xùn)練的時候只更新Prefix部分的參數(shù)，而PLM中的其他部分參數(shù)固定。

針對不同的模型結(jié)構(gòu)，需要構(gòu)造不同的Prefix。

針對自回歸架構(gòu)模型：在句子前面添加前綴，得到? z = [PREFIX; x; y]，合適的上文能夠在固定 LM 的情況下去引導(dǎo)生成下文（比如：GPT3的上下文學(xué)習(xí)）。
針對編碼器-解碼器架構(gòu)模型：Encoder和Decoder都增加了前綴，得到 z = [PREFIX; x; PREFIX0; y]。Encoder端增加前綴是為了引導(dǎo)輸入部分的編碼，Decoder 端增加前綴是為了引導(dǎo)后續(xù)token的生成。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

該方法其實和構(gòu)造Prompt類似，只是Prompt是人為構(gòu)造的“顯式”的提示，并且無法更新參數(shù)，而Prefix則是可以學(xué)習(xí)的“隱式”的提示。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt ? 同時，為了防止直接更新Prefix的參數(shù)導(dǎo)致訓(xùn)練不穩(wěn)定和性能下降的情況，在Prefix層前面加了MLP結(jié)構(gòu)，訓(xùn)練完成后，只保留Prefix的參數(shù)。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

除此之外，通過消融實驗證實，只調(diào)整embedding層的表現(xiàn)力不夠，將導(dǎo)致性能顯著下降，因此，在每層都加了prompt的參數(shù)，改動較大。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

另外，實驗還對比了位置對于生成效果的影響，Prefix-tuning也是要略優(yōu)于Infix-tuning的。其中，Prefix-tuning形式為?[PREFIX; x; y]，Infix-tuning形式為?[x; INFIX; y]。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

Prompt Tuning

背景

大模型全量微調(diào)對每個任務(wù)訓(xùn)練一個模型，開銷和部署成本都比較高。同時，離散的prompts（指人工設(shè)計prompts提示語加入到模型）方法，成本比較高，并且效果不太好。

基于此，作者提出了Prompt Tuning，通過反向傳播更新參數(shù)來學(xué)習(xí)prompts，而不是人工設(shè)計prompts；同時凍結(jié)模型原始權(quán)重，只訓(xùn)練prompts參數(shù)，訓(xùn)練完以后，用同一個模型可以做多任務(wù)推理。

技術(shù)原理

Prompt Tuning（論文：The Power of Scale for Parameter-Efficient Prompt Tuning），該方法可以看作是Prefix Tuning的簡化版本，它給每個任務(wù)定義了自己的Prompt，然后拼接到數(shù)據(jù)上作為輸入，但只在輸入層加入prompt tokens，并且不需要加入 MLP 進行調(diào)整來解決難訓(xùn)練的問題。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

通過實驗發(fā)現(xiàn)，隨著預(yù)訓(xùn)練模型參數(shù)量的增加，Prompt Tuning的方法會逼近全參數(shù)微調(diào)的結(jié)果。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

同時，Prompt Tuning 還提出了 Prompt Ensembling，也就是在一個批次（Batch）里同時訓(xùn)練同一個任務(wù)的不同 prompt（即采用多種不同方式詢問同一個問題），這樣相當(dāng)于訓(xùn)練了不同模型，比模型集成的成本小多了。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

除此之外，Prompt Tuning 論文中還探討了 Prompt?token 的初始化方法和長度對于模型性能的影響。通過消融實驗結(jié)果發(fā)現(xiàn)，與隨機初始化和使用樣本詞匯表初始化相比，Prompt Tuning采用類標簽初始化模型的效果更好。不過隨著模型參數(shù)規(guī)模的提升，這種gap最終會消失。

Prompt?token?的長度在20左右時的表現(xiàn)已經(jīng)不錯（超過20之后，提升Prompt token長度，對模型的性能提升不明顯了），同樣的，這個gap也會隨著模型參數(shù)規(guī)模的提升而減?。磳τ诔笠?guī)模模型而言，即使 Prompt token 長度很短，對性能也不會有太大的影響）。

大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning,動手學(xué)大模型,prompt,人工智能,chatgpt — image.png

結(jié)語

本文針對講述了僅更新一部分參數(shù)高效微調(diào)方法BitFit以及通過增加額外參數(shù)的軟提示高效微調(diào)方法Prefix Tuning、Prompt Tuning，下文將對高效微調(diào)方法P-Tuning、P-Tuning v2進行講解。

如果覺得我的文章能夠能夠給你帶來幫助，歡迎點贊收藏加關(guān)注~~文章來源地址http://www.zghlxwxcb.cn/news/detail-702545.html

到了這里，關(guān)于大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

簡單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)
[論文地址] [代碼] [ICLR 22] 閱前須知：本博文可能有描述不準確/過度簡化/出錯的地方，僅供參考。網(wǎng)絡(luò)結(jié)構(gòu) 其中，原有模型的參數(shù)是直接凍結(jié)的，可訓(xùn)練參數(shù)只有額外引入的LoRA參數(shù)(由nn.Parameter實現(xiàn))。模型微調(diào)的本質(zhì) 記網(wǎng)絡(luò)原有預(yù)訓(xùn)練參數(shù)為 W 0 ∈ R d × k W_0 in R^{d times
2024年02月15日
瀏覽(74)
了解大語言模型的參數(shù)高效微調(diào)（Parameter-Effcient Fine-Tuning）
?? CSDN 葉庭云： https://yetingyun.blog.csdn.net/ 大語言模型在眾多應(yīng)用領(lǐng)域?qū)崿F(xiàn)了突破性的進步，顯著提升了各種任務(wù)的完成度。然而，其龐大的規(guī)模也帶來了高昂的計算成本。這些模型往往包含數(shù)十億甚至上千億參數(shù)，需要巨大的計算資源來運行。特別是，當(dāng)需要為特定的下游
2024年04月14日
瀏覽(38)
Meta提出全新參數(shù)高效微調(diào)方案，僅需一個RNN，Transformer模型GPU使用量減少84%！
近來，隨著 ChatGPT和GPT-4模型的不斷發(fā)展，國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型，例如谷歌的PaLM系列，MetaAI的LLaMA系列，還有國內(nèi)公司和高校推出的一些大模型，例如百度的文心一言，清華的ChatGLM等模型。幾乎隔幾天就會有一個全新的大模型發(fā)布，但是對于研究者
2024年02月16日
瀏覽(22)
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略目錄相關(guān)文章 LLMs之ChatGLM：ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch
2024年02月09日
瀏覽(33)
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略目錄相關(guān)文章 LLMs之ChatGLM：ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch
2024年02月08日
瀏覽(24)
擴散模型微調(diào)方法/文獻綜述
??個人主頁： https://zhangxiaoshu.blog.csdn.net ??歡迎大家：關(guān)注??+點贊??+評論??+收藏??，如有錯誤敬請指正! ??未來很長，值得我們?nèi)Ρ几案篮玫纳睿?近年來，擴散模型近年來取得了迅速的發(fā)展。擴散模型被廣泛應(yīng)用于文本到圖像生成、文本到視頻生成、點云完成
2024年02月01日
瀏覽(15)
LLaMA, ChatGLM, BLOOM的參數(shù)高效微調(diào)實踐
作者：回旋托馬斯x（騰訊NLP算法工程師）項目地址：https://zhuanlan.zhihu.com/p/635710004 大語言模型的訓(xùn)練分為兩個階段：（1）在海量文本語料上的無監(jiān)督預(yù)訓(xùn)練，學(xué)習(xí)通用的語義表示和世界知識。（2）在小規(guī)模數(shù)據(jù)上，進行指令微調(diào)和基于人類反饋的強化學(xué)習(xí)，更好地對齊最
2024年02月16日
瀏覽(21)
AIGC｜FineTune工程之LoRa高效參數(shù)微調(diào)
徐輝? |?后端開發(fā)工程師隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練語言模型（如GPT、Vicuna、Alpaca、Llama、ChatGLM等）在各種應(yīng)用場景中取得了顯著的成果。然而，從零開始訓(xùn)練這些模型需要大量的計算資源和時間，這對于許多研究者和開發(fā)者來說是不現(xiàn)實的。
2024年02月15日
瀏覽(23)
高效微調(diào)技術(shù)QLoRA實戰(zhàn)，基于LLaMA-65B微調(diào)僅需48G顯存，真香
目錄環(huán)境搭建數(shù)據(jù)集準備模型權(quán)重格式轉(zhuǎn)換模型微調(diào) 模型權(quán)重合并
2024年02月11日
瀏覽(29)
語言大模型的分布式訓(xùn)練與高效微調(diào)指南
原文：語言大模型的分布式訓(xùn)練與高效微調(diào)指南 - 知乎目錄收起 1 分布式訓(xùn)練 2 ZeRO驅(qū)動的數(shù)據(jù)并行 3 全分片數(shù)據(jù)并行 4 實現(xiàn) 5 高效微調(diào) 6 實踐指南 7 關(guān)于DeepSpeed和FSDP的更多內(nèi)容 OneFlow編譯翻譯｜楊婷、宛子琳最近語言大模型（LLM）異?；鸨?，一個非常特別的開源社區(qū)正在
2024年01月18日
瀏覽(24)

<rp id="9b4xo"></rp>

<strike id="9b4xo"><form id="9b4xo"></form></strike>

<rp id="9b4xo"></rp>