国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<output id="6cov9"></output>

<rp id="6cov9"></rp><rp id="6cov9"></rp>

<abbr id="6cov9"></abbr>

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！

2年前作者：TechBeat人工智能社區(qū)分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

近來，隨著ChatGPT和GPT-4模型的不斷發(fā)展，國(guó)內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型，例如谷歌的PaLM系列，MetaAI的LLaMA系列，還有國(guó)內(nèi)公司和高校推出的一些大模型，例如百度的文心一言，清華的ChatGLM等模型。幾乎隔幾天就會(huì)有一個(gè)全新的大模型發(fā)布，但是對(duì)于研究者和開發(fā)者來講，可能大家更關(guān)心的是在基礎(chǔ)大模型訓(xùn)練、微調(diào)、推理和部署等實(shí)際落地方面上的創(chuàng)新。這就不得不談到大模型底層的語言建模架構(gòu)了，現(xiàn)如今，絕大多數(shù)大模型的基礎(chǔ)架構(gòu)，仍然使用6年前發(fā)表在NeurIPS上的Transformer。

隨著模型規(guī)模和任務(wù)數(shù)量的增加，對(duì)整個(gè)Transformer模型進(jìn)行微調(diào)也變得越來越昂貴。因此很多參數(shù)高效的遷移學(xué)習(xí)方法（Parameter Efficient Transfer Learning，PETL）被提出。本文來自Meta AI，提出了一種基于傳統(tǒng)RNN架構(gòu)的參數(shù)高效適應(yīng)方法REcurrent ADaption（READ），具體來說，READ只需要在基礎(chǔ)Transformer旁插入一個(gè)小型RNN網(wǎng)絡(luò)，就可以實(shí)現(xiàn)高效的參數(shù)微調(diào)，模型無需再通過主干Transformer進(jìn)行反向傳播。作者通過一系列實(shí)驗(yàn)表明，READ在保持較高質(zhì)量模型微調(diào)效果的同時(shí)，可以節(jié)省56％的訓(xùn)練顯存消耗和84％的GPU使用量。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

論文鏈接：

https://arxiv.org/abs/2305.15348

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

一、引言?

自2018年以來，大語言模型參數(shù)規(guī)模的增長(zhǎng)速度相比GPU顯存增長(zhǎng)的速度快了近兩個(gè)數(shù)量級(jí)，這使得入局大模型的門檻越來越高，配置一個(gè)足以放下大模型的“煉丹爐”的成本非常昂貴。只有少數(shù)資金的公司和機(jī)構(gòu)才有能力對(duì)大模型進(jìn)行訓(xùn)練和微調(diào)。為了降低這一門檻，PETL方法已經(jīng)成為目前首選的方案，例如Adapter方法[1]通過在Transformer中插入小模塊來減少模型需要更新的參數(shù)量。Soft Prompts方法[2]在模型輸入embeddings后拼接小規(guī)模參數(shù)來達(dá)到類似的效果。還有受到廣泛關(guān)注的Lora方法[3]，通過低秩近似來最小化模型參數(shù)量，以及僅微調(diào)網(wǎng)絡(luò)前幾層中的偏執(zhí)項(xiàng)的BitFit方法[4]，下表展示了本文提出的READ方法與上述幾種方法的微調(diào)代價(jià)對(duì)比結(jié)果。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

從上表中看出，通過PETL方法的優(yōu)化，模型的微調(diào)的成本相比完全微調(diào)已經(jīng)大大降低。同時(shí)本文READ相比其他方法有著明顯的優(yōu)勢(shì)，這得益于READ內(nèi)部增加的小型RNN結(jié)構(gòu)，在Transformer架構(gòu)橫行的今天，相對(duì)老舊的RNN展現(xiàn)出了強(qiáng)大的生命力。最近一個(gè)由華人主導(dǎo)的開源團(tuán)隊(duì)也發(fā)布了一個(gè)基于RNN架構(gòu)的大語言模型RWKV[5]，并且打出了與Transformer“魚和熊掌兼得”的口號(hào)。

二、本文方法

2.1 什么是READ??

本文提出的READ主要由一個(gè)標(biāo)準(zhǔn)的RNN和一個(gè)Joiner網(wǎng)絡(luò)組成，READ網(wǎng)絡(luò)的整體架構(gòu)如下圖所示。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

2. 網(wǎng)絡(luò)在優(yōu)化過程中只涉及到RNN和前饋網(wǎng)絡(luò)（FFN），且無需更新Self-Attention層。這提高了模型整體的可用性和訓(xùn)練效率，READ可以在任意的Transformer結(jié)構(gòu)中即插即用。

3. 由于READ的循環(huán)網(wǎng)絡(luò)特性，模型微調(diào)的可訓(xùn)練參數(shù)規(guī)模不隨主干網(wǎng)絡(luò)層數(shù)的增加而增加。兩者的關(guān)系呈次線性增長(zhǎng)。

4. READ可以在不修改主干Transformer網(wǎng)絡(luò)中間結(jié)果的情況下進(jìn)行計(jì)算。

2.2 READ如何起作用??

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

三、實(shí)驗(yàn)效果?

本文的實(shí)驗(yàn)在GLUE基準(zhǔn)的多個(gè)自然語言任務(wù)中進(jìn)行，采用的基礎(chǔ)Transformer架構(gòu)為T5模型，RNN模型也使用了包含原始RNN，LSTM和GRU等多種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

3.1 READ方法在能耗顯著較低的情況下表現(xiàn)優(yōu)于其他方法?

下圖展示了READ方法與其他PETL方法在GPU能耗降低情況下的性能對(duì)比，從下圖左半部分我們可以看出，相比全微調(diào)（Full-tuning），READ可以將GPU使用量降低90%左右，GPU顯存占用降低56%，同時(shí)模型的預(yù)測(cè)精度與原來保持一致。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

雖然LoRA、BitFit或Adapter等PETL方法也可以明顯減少可訓(xùn)練參數(shù)的數(shù)量，但它們并不能降低微調(diào)的計(jì)算成本，而這是PETL的主要優(yōu)化目標(biāo)。從上圖右半部分我們可以看出，READ在訓(xùn)練過程中使用的顯存占用非常小，圖中主要展示了模型性能和顯存占用之間的性能和空間權(quán)衡。與所有其他的baseline方法相比，READ實(shí)現(xiàn)了至少25%的訓(xùn)練顯存優(yōu)化，同時(shí)實(shí)現(xiàn)了更好的下游任務(wù)預(yù)測(cè)性能。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

3.2 READ具有很強(qiáng)的可擴(kuò)展性

如下圖所示，與其他PETL方法相比，READ的可訓(xùn)練參數(shù)數(shù)量增長(zhǎng)速度非常緩慢。隨著T5骨干模型尺寸的增加，READ的參數(shù)數(shù)量呈現(xiàn)對(duì)數(shù)線性增長(zhǎng)的趨勢(shì)。這得益于READ的循環(huán)網(wǎng)絡(luò)性質(zhì)，使其微調(diào)參數(shù)規(guī)模與骨干網(wǎng)絡(luò)層數(shù)無關(guān)，這使得READ在具體的工程實(shí)現(xiàn)中更適合于微調(diào)超大規(guī)模的Transformer模型。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

3.3 READ在模型推理速度和顯存占用方面也有很大的改進(jìn)

如下圖左半部分所示，READ相比其他PETL方法在模型推理階段的顯存占用更低，且推理速度也保持在一個(gè)較高的水平。此外，為了更全面地評(píng)估READ的推理顯存占用，作者在下圖右半部分展示了隨著模型骨干網(wǎng)絡(luò)尺寸的增加，推理顯存占用的變化情況，相對(duì)于全微調(diào)方式，READ的推理顯存增長(zhǎng)幾乎可以忽略不計(jì)。

Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！,技術(shù)文章,rnn,transformer,人工智能

四、總結(jié)?

本文針對(duì)大規(guī)模Transformer模型提出了一種全新的高效參數(shù)微調(diào)方法，稱為REcurrent ADaption（READ）。READ方法不僅具有輕量化的特點(diǎn)，還能夠在準(zhǔn)確性方面與傳統(tǒng)微調(diào)方法相媲美。READ通過引入RNN+Joiner模塊的形式，使網(wǎng)絡(luò)在微調(diào)時(shí)無需經(jīng)過主干Transformer模型，顯著降低了模型微調(diào)的GPU使用量，最高可以達(dá)到84%的節(jié)省效果。此外，READ還表現(xiàn)出了極強(qiáng)的擴(kuò)展性，可以在幾乎所有的Transformer結(jié)構(gòu)上即插即用，而無需考慮修改原有模型中復(fù)雜的自注意力層。同時(shí)相對(duì)于全微調(diào)方法，READ可以降低56%的訓(xùn)練顯存占用，這也進(jìn)一步降低了深度學(xué)習(xí)工程師微調(diào)大模型的門檻。

參考?

[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International Conference on Machine Learning, pages 2790–2799. PMLR, 2019

[2] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

[3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

[4] Elad Ben Zaken, Shauli Ravfogel, and Yoav Goldberg. Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models, 2022.

[5] Peng B, Alcaide E, Anthony Q, et al. RWKV: Reinventing RNNs for the Transformer Era[J]. arXiv preprint arXiv:2305.13048, 2023.

作者：seven_文章來源地址http://www.zghlxwxcb.cn/news/detail-593098.html

到了這里，關(guān)于Meta提出全新參數(shù)高效微調(diào)方案，僅需一個(gè)RNN，Transformer模型GPU使用量減少84%！的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

AIGC｜FineTune工程之LoRa高效參數(shù)微調(diào)
徐輝? |?后端開發(fā)工程師隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練語言模型（如GPT、Vicuna、Alpaca、Llama、ChatGLM等）在各種應(yīng)用場(chǎng)景中取得了顯著的成果。然而，從零開始訓(xùn)練這些模型需要大量的計(jì)算資源和時(shí)間，這對(duì)于許多研究者和開發(fā)者來說是不現(xiàn)實(shí)的。
2024年02月15日
瀏覽(23)
一個(gè)小妙招從Prompt菜鳥秒變專家！加州大學(xué)提出PromptAgent，幫你高效使用ChatGPT！
?夕小瑤科技說原創(chuàng) ?作者 | 謝年年、王二狗有了ChatGPT、GPT4之后，我們的工作學(xué)習(xí)效率得到大大提升（特別在湊字?jǐn)?shù)方面?(???????)?）。作為一個(gè)工具，有人覺得好用，自然也有人覺得難用。要把大模型用得6，必須得研究一下prompt使用技巧，但有時(shí)候絞盡腦汁想
2024年02月06日
瀏覽(23)
簡(jiǎn)單理解大模型參數(shù)高效微調(diào)中的LoRA(Low-Rank Adaptation)
[論文地址] [代碼] [ICLR 22] 閱前須知：本博文可能有描述不準(zhǔn)確/過度簡(jiǎn)化/出錯(cuò)的地方，僅供參考。網(wǎng)絡(luò)結(jié)構(gòu) 其中，原有模型的參數(shù)是直接凍結(jié)的，可訓(xùn)練參數(shù)只有額外引入的LoRA參數(shù)(由nn.Parameter實(shí)現(xiàn))。模型微調(diào)的本質(zhì) 記網(wǎng)絡(luò)原有預(yù)訓(xùn)練參數(shù)為 W 0 ∈ R d × k W_0 in R^{d times
2024年02月15日
瀏覽(74)
大模型參數(shù)高效微調(diào)技術(shù)原理綜述（二）-BitFit、Prefix Tuning、Prompt Tuning
隨著，ChatGPT 迅速爆火，引發(fā)了大模型的時(shí)代變革。然而對(duì)于普通大眾來說，進(jìn)行大模型的預(yù)訓(xùn)練或者全量微調(diào)遙不可及。由此，催生了各種參數(shù)高效微調(diào)技術(shù)，讓科研人員或者普通開發(fā)者有機(jī)會(huì)嘗試微調(diào)大模型。因此，該技術(shù)值得我們進(jìn)行深入分析其背后的機(jī)理，本系列大
2024年02月09日
瀏覽(18)
【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯
大白話:? DL的本質(zhì)就是矩陣的乘法，就能實(shí)現(xiàn)LLM, 假設(shè)兩個(gè)矩陣都很大，一個(gè)mxn,一個(gè)nxd的矩陣，m,n,d這幾個(gè)數(shù)字可能幾千甚至上萬的場(chǎng)景，計(jì)算起來代價(jià)很大，如果我們可以small 這些數(shù)字，縮小到10甚至5這樣的scenario，cost就非常的小。訓(xùn)練的時(shí)候只訓(xùn)練?右邊橙色的AB矩陣那
2024年02月05日
瀏覽(26)
了解大語言模型的參數(shù)高效微調(diào)（Parameter-Effcient Fine-Tuning）
?? CSDN 葉庭云： https://yetingyun.blog.csdn.net/ 大語言模型在眾多應(yīng)用領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)步，顯著提升了各種任務(wù)的完成度。然而，其龐大的規(guī)模也帶來了高昂的計(jì)算成本。這些模型往往包含數(shù)十億甚至上千億參數(shù)，需要巨大的計(jì)算資源來運(yùn)行。特別是，當(dāng)需要為特定的下游
2024年04月14日
瀏覽(38)
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎(jiǎng)勵(lì)模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略目錄相關(guān)文章 LLMs之ChatGLM：ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch
2024年02月09日
瀏覽(33)
一文讀懂大型語言模型參數(shù)高效微調(diào)：Prefix Tuning與LLaMA-Adapter
芝士AI吃魚在快速發(fā)展的人工智能領(lǐng)域中，高效、有效地使用大型語言模型變得日益重要，參數(shù)高效微調(diào)是這一追求的前沿技術(shù)，它允許研究人員和實(shí)踐者在最小化計(jì)算和資源占用的同時(shí)，重復(fù)使用預(yù)訓(xùn)練模型。這還使我們能夠在更廣泛的硬件范圍內(nèi)訓(xùn)練AI模型，包括計(jì)算能
2024年01月17日
瀏覽(26)
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎(jiǎng)勵(lì)模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略目錄相關(guān)文章 LLMs之ChatGLM：ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch
2024年02月08日
瀏覽(24)
7B LLaMA模型接近ChatGPT 95%的能力！港科大提出全新對(duì)抗蒸餾框架Lion
?PaperWeekly 原創(chuàng) ·?作者 |? 黃一天單位 | ?華為研究方向 |? 自然語言處理由香港科技大學(xué)提出的針對(duì)閉源大語言模型的對(duì)抗蒸餾框架，成功將 ChatGPT 的知識(shí)轉(zhuǎn)移到了參數(shù)量? 7B ? 的 LLaMA 模型（命名為 Lion），在只有? 70k ? 訓(xùn)練數(shù)據(jù)的情況下，實(shí)現(xiàn)了近? 95 % 的 ChatGPT 能力近
2024年02月12日
瀏覽(27)

<blockquote id="rxi4f"></blockquote>