近來,隨著ChatGPT和GPT-4模型的不斷發(fā)展,國(guó)內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,還有國(guó)內(nèi)公司和高校推出的一些大模型,例如百度的文心一言,清華的ChatGLM等模型。幾乎隔幾天就會(huì)有一個(gè)全新的大模型發(fā)布,但是對(duì)于研究者和開發(fā)者來講,可能大家更關(guān)心的是在基礎(chǔ)大模型訓(xùn)練、微調(diào)、推理和部署等實(shí)際落地方面上的創(chuàng)新。這就不得不談到大模型底層的語言建模架構(gòu)了,現(xiàn)如今,絕大多數(shù)大模型的基礎(chǔ)架構(gòu),仍然使用6年前發(fā)表在NeurIPS上的Transformer。
隨著模型規(guī)模和任務(wù)數(shù)量的增加,對(duì)整個(gè)Transformer模型進(jìn)行微調(diào)也變得越來越昂貴。因此很多參數(shù)高效的遷移學(xué)習(xí)方法(Parameter Efficient Transfer Learning,PETL)被提出。本文來自Meta AI,提出了一種基于傳統(tǒng)RNN架構(gòu)的參數(shù)高效適應(yīng)方法REcurrent ADaption(READ),具體來說,READ只需要在基礎(chǔ)Transformer旁插入一個(gè)小型RNN網(wǎng)絡(luò),就可以實(shí)現(xiàn)高效的參數(shù)微調(diào),模型無需再通過主干Transformer進(jìn)行反向傳播。作者通過一系列實(shí)驗(yàn)表明,READ在保持較高質(zhì)量模型微調(diào)效果的同時(shí),可以節(jié)省56%的訓(xùn)練顯存消耗和84%的GPU使用量。
論文鏈接:
https://arxiv.org/abs/2305.15348
一、引言?
自2018年以來,大語言模型參數(shù)規(guī)模的增長(zhǎng)速度相比GPU顯存增長(zhǎng)的速度快了近兩個(gè)數(shù)量級(jí),這使得入局大模型的門檻越來越高,配置一個(gè)足以放下大模型的“煉丹爐”的成本非常昂貴。只有少數(shù)資金的公司和機(jī)構(gòu)才有能力對(duì)大模型進(jìn)行訓(xùn)練和微調(diào)。為了降低這一門檻,PETL方法已經(jīng)成為目前首選的方案,例如Adapter方法[1]通過在Transformer中插入小模塊來減少模型需要更新的參數(shù)量。Soft Prompts方法[2]在模型輸入embeddings后拼接小規(guī)模參數(shù)來達(dá)到類似的效果。還有受到廣泛關(guān)注的Lora方法[3],通過低秩近似來最小化模型參數(shù)量,以及僅微調(diào)網(wǎng)絡(luò)前幾層中的偏執(zhí)項(xiàng)的BitFit方法[4],下表展示了本文提出的READ方法與上述幾種方法的微調(diào)代價(jià)對(duì)比結(jié)果。
從上表中看出,通過PETL方法的優(yōu)化,模型的微調(diào)的成本相比完全微調(diào)已經(jīng)大大降低。同時(shí)本文READ相比其他方法有著明顯的優(yōu)勢(shì),這得益于READ內(nèi)部增加的小型RNN結(jié)構(gòu),在Transformer架構(gòu)橫行的今天,相對(duì)老舊的RNN展現(xiàn)出了強(qiáng)大的生命力。最近一個(gè)由華人主導(dǎo)的開源團(tuán)隊(duì)也發(fā)布了一個(gè)基于RNN架構(gòu)的大語言模型RWKV[5],并且打出了與Transformer“魚和熊掌兼得”的口號(hào)。
二、本文方法
2.1 什么是READ??
本文提出的READ主要由一個(gè)標(biāo)準(zhǔn)的RNN和一個(gè)Joiner網(wǎng)絡(luò)組成,READ網(wǎng)絡(luò)的整體架構(gòu)如下圖所示。
2. 網(wǎng)絡(luò)在優(yōu)化過程中只涉及到RNN和前饋網(wǎng)絡(luò)(FFN),且無需更新Self-Attention層。這提高了模型整體的可用性和訓(xùn)練效率,READ可以在任意的Transformer結(jié)構(gòu)中即插即用。
3. 由于READ的循環(huán)網(wǎng)絡(luò)特性,模型微調(diào)的可訓(xùn)練參數(shù)規(guī)模不隨主干網(wǎng)絡(luò)層數(shù)的增加而增加。兩者的關(guān)系呈次線性增長(zhǎng)。
4. READ可以在不修改主干Transformer網(wǎng)絡(luò)中間結(jié)果的情況下進(jìn)行計(jì)算。
2.2 READ如何起作用??
三、實(shí)驗(yàn)效果?
本文的實(shí)驗(yàn)在GLUE基準(zhǔn)的多個(gè)自然語言任務(wù)中進(jìn)行,采用的基礎(chǔ)Transformer架構(gòu)為T5模型,RNN模型也使用了包含原始RNN,LSTM和GRU等多種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3.1 READ方法在能耗顯著較低的情況下表現(xiàn)優(yōu)于其他方法?
下圖展示了READ方法與其他PETL方法在GPU能耗降低情況下的性能對(duì)比,從下圖左半部分我們可以看出,相比全微調(diào)(Full-tuning),READ可以將GPU使用量降低90%左右,GPU顯存占用降低56%,同時(shí)模型的預(yù)測(cè)精度與原來保持一致。
雖然LoRA、BitFit或Adapter等PETL方法也可以明顯減少可訓(xùn)練參數(shù)的數(shù)量,但它們并不能降低微調(diào)的計(jì)算成本,而這是PETL的主要優(yōu)化目標(biāo)。從上圖右半部分我們可以看出,READ在訓(xùn)練過程中使用的顯存占用非常小,圖中主要展示了模型性能和顯存占用之間的性能和空間權(quán)衡。與所有其他的baseline方法相比,READ實(shí)現(xiàn)了至少25%的訓(xùn)練顯存優(yōu)化,同時(shí)實(shí)現(xiàn)了更好的下游任務(wù)預(yù)測(cè)性能。
3.2 READ具有很強(qiáng)的可擴(kuò)展性
如下圖所示,與其他PETL方法相比,READ的可訓(xùn)練參數(shù)數(shù)量增長(zhǎng)速度非常緩慢。隨著T5骨干模型尺寸的增加,READ的參數(shù)數(shù)量呈現(xiàn)對(duì)數(shù)線性增長(zhǎng)的趨勢(shì)。這得益于READ的循環(huán)網(wǎng)絡(luò)性質(zhì),使其微調(diào)參數(shù)規(guī)模與骨干網(wǎng)絡(luò)層數(shù)無關(guān),這使得READ在具體的工程實(shí)現(xiàn)中更適合于微調(diào)超大規(guī)模的Transformer模型。
3.3 READ在模型推理速度和顯存占用方面也有很大的改進(jìn)
如下圖左半部分所示,READ相比其他PETL方法在模型推理階段的顯存占用更低,且推理速度也保持在一個(gè)較高的水平。此外,為了更全面地評(píng)估READ的推理顯存占用,作者在下圖右半部分展示了隨著模型骨干網(wǎng)絡(luò)尺寸的增加,推理顯存占用的變化情況,相對(duì)于全微調(diào)方式,READ的推理顯存增長(zhǎng)幾乎可以忽略不計(jì)。
四、總結(jié)?
本文針對(duì)大規(guī)模Transformer模型提出了一種全新的高效參數(shù)微調(diào)方法,稱為REcurrent ADaption(READ)。READ方法不僅具有輕量化的特點(diǎn),還能夠在準(zhǔn)確性方面與傳統(tǒng)微調(diào)方法相媲美。READ通過引入RNN+Joiner模塊的形式,使網(wǎng)絡(luò)在微調(diào)時(shí)無需經(jīng)過主干Transformer模型,顯著降低了模型微調(diào)的GPU使用量,最高可以達(dá)到84%的節(jié)省效果。此外,READ還表現(xiàn)出了極強(qiáng)的擴(kuò)展性,可以在幾乎所有的Transformer結(jié)構(gòu)上即插即用,而無需考慮修改原有模型中復(fù)雜的自注意力層。同時(shí)相對(duì)于全微調(diào)方法,READ可以降低56%的訓(xùn)練顯存占用,這也進(jìn)一步降低了深度學(xué)習(xí)工程師微調(diào)大模型的門檻。
參考?
[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International Conference on Machine Learning, pages 2790–2799. PMLR, 2019
[2] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.
[3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021
[4] Elad Ben Zaken, Shauli Ravfogel, and Yoav Goldberg. Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models, 2022.
[5] Peng B, Alcaide E, Anthony Q, et al. RWKV: Reinventing RNNs for the Transformer Era[J]. arXiv preprint arXiv:2305.13048, 2023.文章來源:http://www.zghlxwxcb.cn/news/detail-593098.html
作者:seven_文章來源地址http://www.zghlxwxcb.cn/news/detail-593098.html
到了這里,關(guān)于Meta提出全新參數(shù)高效微調(diào)方案,僅需一個(gè)RNN,Transformer模型GPU使用量減少84%!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!