国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!

這篇具有很好參考價(jià)值的文章主要介紹了Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

近來,隨著ChatGPT和GPT-4模型的不斷發(fā)展,國(guó)內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,還有國(guó)內(nèi)公司和高校推出的一些大模型,例如百度的文心一言,清華的ChatGLM等模型。幾乎隔幾天就會(huì)有一個(gè)全新的大模型發(fā)布,但是對(duì)于研究者和開發(fā)者來講,可能大家更關(guān)心的是在基礎(chǔ)大模型訓(xùn)練、微調(diào)、推理和部署等實(shí)際落地方面上的創(chuàng)新。這就不得不談到大模型底層的語言建模架構(gòu)了,現(xiàn)如今,絕大多數(shù)大模型的基礎(chǔ)架構(gòu),仍然使用6年前發(fā)表在NeurIPS上的Transformer。

隨著模型規(guī)模和任務(wù)數(shù)量的增加,對(duì)整個(gè)Transformer模型進(jìn)行微調(diào)也變得越來越昂貴。因此很多參數(shù)高效的遷移學(xué)習(xí)方法(Parameter Efficient Transfer Learning,PETL)被提出。本文來自Meta AI,提出了一種基于傳統(tǒng)RNN架構(gòu)的參數(shù)高效適應(yīng)方法REcurrent ADaption(READ),具體來說,READ只需要在基礎(chǔ)Transformer旁插入一個(gè)小型RNN網(wǎng)絡(luò),就可以實(shí)現(xiàn)高效的參數(shù)微調(diào),模型無需再通過主干Transformer進(jìn)行反向傳播。作者通過一系列實(shí)驗(yàn)表明,READ在保持較高質(zhì)量模型微調(diào)效果的同時(shí),可以節(jié)省56%的訓(xùn)練顯存消耗和84%的GPU使用量。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

論文鏈接:

https://arxiv.org/abs/2305.15348

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

一、引言?

自2018年以來,大語言模型參數(shù)規(guī)模的增長(zhǎng)速度相比GPU顯存增長(zhǎng)的速度快了近兩個(gè)數(shù)量級(jí),這使得入局大模型的門檻越來越高,配置一個(gè)足以放下大模型的“煉丹爐”的成本非常昂貴。只有少數(shù)資金的公司和機(jī)構(gòu)才有能力對(duì)大模型進(jìn)行訓(xùn)練和微調(diào)。為了降低這一門檻,PETL方法已經(jīng)成為目前首選的方案,例如Adapter方法[1]通過在Transformer中插入小模塊來減少模型需要更新的參數(shù)量。Soft Prompts方法[2]在模型輸入embeddings后拼接小規(guī)模參數(shù)來達(dá)到類似的效果。還有受到廣泛關(guān)注的Lora方法[3],通過低秩近似來最小化模型參數(shù)量,以及僅微調(diào)網(wǎng)絡(luò)前幾層中的偏執(zhí)項(xiàng)的BitFit方法[4],下表展示了本文提出的READ方法與上述幾種方法的微調(diào)代價(jià)對(duì)比結(jié)果。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

從上表中看出,通過PETL方法的優(yōu)化,模型的微調(diào)的成本相比完全微調(diào)已經(jīng)大大降低。同時(shí)本文READ相比其他方法有著明顯的優(yōu)勢(shì),這得益于READ內(nèi)部增加的小型RNN結(jié)構(gòu),在Transformer架構(gòu)橫行的今天,相對(duì)老舊的RNN展現(xiàn)出了強(qiáng)大的生命力。最近一個(gè)由華人主導(dǎo)的開源團(tuán)隊(duì)也發(fā)布了一個(gè)基于RNN架構(gòu)的大語言模型RWKV[5],并且打出了與Transformer“魚和熊掌兼得”的口號(hào)。

二、本文方法

2.1 什么是READ??

本文提出的READ主要由一個(gè)標(biāo)準(zhǔn)的RNN和一個(gè)Joiner網(wǎng)絡(luò)組成,READ網(wǎng)絡(luò)的整體架構(gòu)如下圖所示。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

2. 網(wǎng)絡(luò)在優(yōu)化過程中只涉及到RNN和前饋網(wǎng)絡(luò)(FFN),且無需更新Self-Attention層。這提高了模型整體的可用性和訓(xùn)練效率,READ可以在任意的Transformer結(jié)構(gòu)中即插即用。

3. 由于READ的循環(huán)網(wǎng)絡(luò)特性,模型微調(diào)的可訓(xùn)練參數(shù)規(guī)模不隨主干網(wǎng)絡(luò)層數(shù)的增加而增加。兩者的關(guān)系呈次線性增長(zhǎng)。

4. READ可以在不修改主干Transformer網(wǎng)絡(luò)中間結(jié)果的情況下進(jìn)行計(jì)算。

2.2 READ如何起作用??

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

三、實(shí)驗(yàn)效果?

本文的實(shí)驗(yàn)在GLUE基準(zhǔn)的多個(gè)自然語言任務(wù)中進(jìn)行,采用的基礎(chǔ)Transformer架構(gòu)為T5模型,RNN模型也使用了包含原始RNN,LSTM和GRU等多種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

3.1 READ方法在能耗顯著較低的情況下表現(xiàn)優(yōu)于其他方法?

下圖展示了READ方法與其他PETL方法在GPU能耗降低情況下的性能對(duì)比,從下圖左半部分我們可以看出,相比全微調(diào)(Full-tuning),READ可以將GPU使用量降低90%左右,GPU顯存占用降低56%,同時(shí)模型的預(yù)測(cè)精度與原來保持一致。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

雖然LoRA、BitFit或Adapter等PETL方法也可以明顯減少可訓(xùn)練參數(shù)的數(shù)量,但它們并不能降低微調(diào)的計(jì)算成本,而這是PETL的主要優(yōu)化目標(biāo)。從上圖右半部分我們可以看出,READ在訓(xùn)練過程中使用的顯存占用非常小,圖中主要展示了模型性能和顯存占用之間的性能和空間權(quán)衡。與所有其他的baseline方法相比,READ實(shí)現(xiàn)了至少25%的訓(xùn)練顯存優(yōu)化,同時(shí)實(shí)現(xiàn)了更好的下游任務(wù)預(yù)測(cè)性能。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

3.2 READ具有很強(qiáng)的可擴(kuò)展性

如下圖所示,與其他PETL方法相比,READ的可訓(xùn)練參數(shù)數(shù)量增長(zhǎng)速度非常緩慢。隨著T5骨干模型尺寸的增加,READ的參數(shù)數(shù)量呈現(xiàn)對(duì)數(shù)線性增長(zhǎng)的趨勢(shì)。這得益于READ的循環(huán)網(wǎng)絡(luò)性質(zhì),使其微調(diào)參數(shù)規(guī)模與骨干網(wǎng)絡(luò)層數(shù)無關(guān),這使得READ在具體的工程實(shí)現(xiàn)中更適合于微調(diào)超大規(guī)模的Transformer模型。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

3.3 READ在模型推理速度和顯存占用方面也有很大的改進(jìn)

如下圖左半部分所示,READ相比其他PETL方法在模型推理階段的顯存占用更低,且推理速度也保持在一個(gè)較高的水平。此外,為了更全面地評(píng)估READ的推理顯存占用,作者在下圖右半部分展示了隨著模型骨干網(wǎng)絡(luò)尺寸的增加,推理顯存占用的變化情況,相對(duì)于全微調(diào)方式,READ的推理顯存增長(zhǎng)幾乎可以忽略不計(jì)。

Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!,技術(shù)文章,rnn,transformer,人工智能

四、總結(jié)?

本文針對(duì)大規(guī)模Transformer模型提出了一種全新的高效參數(shù)微調(diào)方法,稱為REcurrent ADaption(READ)。READ方法不僅具有輕量化的特點(diǎn),還能夠在準(zhǔn)確性方面與傳統(tǒng)微調(diào)方法相媲美。READ通過引入RNN+Joiner模塊的形式,使網(wǎng)絡(luò)在微調(diào)時(shí)無需經(jīng)過主干Transformer模型,顯著降低了模型微調(diào)的GPU使用量,最高可以達(dá)到84%的節(jié)省效果。此外,READ還表現(xiàn)出了極強(qiáng)的擴(kuò)展性,可以在幾乎所有的Transformer結(jié)構(gòu)上即插即用,而無需考慮修改原有模型中復(fù)雜的自注意力層。同時(shí)相對(duì)于全微調(diào)方法,READ可以降低56%的訓(xùn)練顯存占用,這也進(jìn)一步降低了深度學(xué)習(xí)工程師微調(diào)大模型的門檻。

參考?

[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International Conference on Machine Learning, pages 2790–2799. PMLR, 2019

[2] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

[3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

[4] Elad Ben Zaken, Shauli Ravfogel, and Yoav Goldberg. Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models, 2022.

[5] Peng B, Alcaide E, Anthony Q, et al. RWKV: Reinventing RNNs for the Transformer Era[J]. arXiv preprint arXiv:2305.13048, 2023.

作者:seven_文章來源地址http://www.zghlxwxcb.cn/news/detail-593098.html

到了這里,關(guān)于Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • AIGC|FineTune工程之LoRa高效參數(shù)微調(diào)

    AIGC|FineTune工程之LoRa高效參數(shù)微調(diào)

    徐輝? |?后端開發(fā)工程師 隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練語言模型(如GPT、Vicuna、Alpaca、Llama、ChatGLM等)在各種應(yīng)用場(chǎng)景中取得了顯著的成果。然而,從零開始訓(xùn)練這些模型需要大量的計(jì)算資源和時(shí)間,這對(duì)于許多研究者和開發(fā)者來說是不現(xiàn)實(shí)的。

    2024年02月15日
    瀏覽(23)
  • 一個(gè)小妙招從Prompt菜鳥秒變專家!加州大學(xué)提出PromptAgent,幫你高效使用ChatGPT!

    一個(gè)小妙招從Prompt菜鳥秒變專家!加州大學(xué)提出PromptAgent,幫你高效使用ChatGPT!

    ?夕小瑤科技說 原創(chuàng) ?作者 | 謝年年、王二狗 有了ChatGPT、GPT4之后,我們的工作學(xué)習(xí)效率得到大大提升(特別在湊字?jǐn)?shù)方面?(???????)?)。 作為一個(gè)工具,有人覺得好用,自然也有人覺得難用。 要把大模型用得6,必須得研究一下prompt使用技巧,但有時(shí)候絞盡腦汁想

    2024年02月06日
    瀏覽(23)
  • 簡(jiǎn)單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    簡(jiǎn)單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)

    [論文地址] [代碼] [ICLR 22] 閱前須知:本博文可能有描述不準(zhǔn)確/過度簡(jiǎn)化/出錯(cuò)的地方,僅供參考。 網(wǎng)絡(luò)結(jié)構(gòu) 其中,原有模型的參數(shù)是直接凍結(jié)的,可訓(xùn)練參數(shù)只有額外引入的LoRA參數(shù)(由nn.Parameter實(shí)現(xiàn))。 模型微調(diào)的本質(zhì) 記網(wǎng)絡(luò)原有預(yù)訓(xùn)練參數(shù)為 W 0 ∈ R d × k W_0 in R^{d times

    2024年02月15日
    瀏覽(74)
  • 大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning

    大模型參數(shù)高效微調(diào)技術(shù)原理綜述(二)-BitFit、Prefix Tuning、Prompt Tuning

    隨著,ChatGPT 迅速爆火,引發(fā)了大模型的時(shí)代變革。然而對(duì)于普通大眾來說,進(jìn)行大模型的預(yù)訓(xùn)練或者全量微調(diào)遙不可及。由此,催生了各種參數(shù)高效微調(diào)技術(shù),讓科研人員或者普通開發(fā)者有機(jī)會(huì)嘗試微調(diào)大模型。 因此,該技術(shù)值得我們進(jìn)行深入分析其背后的機(jī)理,本系列大

    2024年02月09日
    瀏覽(18)
  • 【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    大白話:? DL的本質(zhì)就是矩陣的乘法,就能實(shí)現(xiàn)LLM, 假設(shè)兩個(gè)矩陣都很大,一個(gè)mxn,一個(gè)nxd的矩陣,m,n,d這幾個(gè)數(shù)字可能幾千甚至上萬的場(chǎng)景,計(jì)算起來代價(jià)很大,如果我們可以small 這些數(shù)字,縮小到10甚至5這樣的scenario,cost就非常的小。 訓(xùn)練的時(shí)候只訓(xùn)練?右邊橙色的AB矩陣 那

    2024年02月05日
    瀏覽(26)
  • 了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)

    了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)

    ?? CSDN 葉庭云 : https://yetingyun.blog.csdn.net/ 大語言模型在眾多應(yīng)用領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)步,顯著提升了各種任務(wù)的完成度。然而,其龐大的規(guī)模也帶來了高昂的計(jì)算成本。這些模型往往包含數(shù)十億甚至上千億參數(shù),需要巨大的計(jì)算資源來運(yùn)行。特別是,當(dāng)需要為特定的下游

    2024年04月14日
    瀏覽(38)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎(jiǎng)勵(lì)模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月09日
    瀏覽(33)
  • 一文讀懂大型語言模型參數(shù)高效微調(diào):Prefix Tuning與LLaMA-Adapter

    一文讀懂大型語言模型參數(shù)高效微調(diào):Prefix Tuning與LLaMA-Adapter

    芝士AI吃魚 在快速發(fā)展的人工智能領(lǐng)域中,高效、有效地使用大型語言模型變得日益重要,參數(shù)高效微調(diào)是這一追求的前沿技術(shù),它允許研究人員和實(shí)踐者在最小化計(jì)算和資源占用的同時(shí),重復(fù)使用預(yù)訓(xùn)練模型。這還使我們能夠在更廣泛的硬件范圍內(nèi)訓(xùn)練AI模型,包括計(jì)算能

    2024年01月17日
    瀏覽(26)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎(jiǎng)勵(lì)模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月08日
    瀏覽(24)
  • 7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新對(duì)抗蒸餾框架Lion

    7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新對(duì)抗蒸餾框架Lion

    ?PaperWeekly 原創(chuàng) ·?作者 |? 黃一天 單位 | ?華為 研究方向 |? 自然語言處理 由香港科技大學(xué)提出的針對(duì)閉源大語言模型的對(duì)抗蒸餾框架,成功將 ChatGPT 的知識(shí)轉(zhuǎn)移到了參數(shù)量? 7B ? 的 LLaMA 模型(命名為 Lion),在只有? 70k ? 訓(xùn)練數(shù)據(jù)的情況下,實(shí)現(xiàn)了近? 95 % 的 ChatGPT 能力近

    2024年02月12日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包