国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果

這篇具有很好參考價值的文章主要介紹了LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

論文鏈接: https://arxiv.org/abs/2307.05695
代碼倉庫: https://github.com/guitaricet/peft_pretraining

一段時間以來,大模型(LLMs)社區(qū)的研究人員開始關(guān)注于如何降低訓(xùn)練、微調(diào)和推理LLMs所需要的龐大算力,這對于繼續(xù)推動LLMs在更多的垂直領(lǐng)域中發(fā)展和落地具有非常重要的意義。目前這一方向也有很多先驅(qū)工作,例如從模型結(jié)構(gòu)上創(chuàng)新的RWKV,直接替換計算量較大的Transformer架構(gòu),改用基于RNN范式的新架構(gòu)。還有一些方法從模型微調(diào)階段入手,例如在原有LLMs中加入?yún)?shù)量較小的Adapter模塊來進行微調(diào)。還有微軟提出的低秩自適應(yīng)(Low-Rank Adaptation,LoRA)方法,LoRA假設(shè)模型在任務(wù)適配過程中對模型權(quán)重的更新量可以使用低秩矩陣進行估計,因而可以用來間接優(yōu)化新加入的輕量級適應(yīng)模塊,同時保持原有的預(yù)訓(xùn)練權(quán)重不變。目前LoRA已經(jīng)成為大模型工程師必備的一項微調(diào)技能,但本文作者仍然不滿足于目前LoRA所能達(dá)到的微調(diào)效果,并進一步提出了一種可疊加的低秩微調(diào)方法,稱為ReLoRA。

本文來自馬薩諸塞大學(xué)洛厄爾分校的研究團隊,作者團隊將ReLoRA應(yīng)用在具有高達(dá)350M參數(shù)的Transformer上時,展現(xiàn)出了與常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練相當(dāng)?shù)男阅?/strong>。此外,本文作者還觀察到ReLoRA的微調(diào)效率會隨著模型參數(shù)規(guī)模的增加而不斷提高,這使得其未來有可能成為訓(xùn)練超大規(guī)模(通常超過1B參數(shù))LLMs的新型手段。

01. 引言

雖然目前學(xué)術(shù)界和工業(yè)界都在不斷推出自家的各種基座模型,但不可否認(rèn)的是,完全預(yù)訓(xùn)練一個具有初等推理能力的LLMs仍然需要非常龐大的算力,例如大家熟知的LLaMA-6B模型[1]就需要數(shù)百個GPU才能完成訓(xùn)練,這種規(guī)模的算力已經(jīng)讓絕大多數(shù)學(xué)術(shù)研究小組望而卻步了。在這種背景下,參數(shù)高效微調(diào)(PEFT)已經(jīng)成為了一個非常具有前景的LLMs研究方向。具體來說,PEFT方法可以在消費級GPU(例如RTX 3090或4090)上對十億級語言或擴散模型進行微調(diào)。因此本文重點關(guān)注PEFT中的低秩訓(xùn)練技術(shù),尤其是LoRA方法。作者思考到,過去十年中深度學(xué)習(xí)發(fā)展階段中的一個核心原則就是不斷的“堆疊更多層(stack more layers)”,例如ResNet的提出可以使我們將卷積神經(jīng)網(wǎng)絡(luò)的深度提升到100層以上,并且也獲得了非常好的效果。因此本文探索能否同樣以堆疊的方式來提升低秩適應(yīng)的訓(xùn)練效率呢?

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

本文提出了一種基于低秩更新的ReLoRA方法,來訓(xùn)練和微調(diào)高秩網(wǎng)絡(luò),其性能優(yōu)于具有相同可訓(xùn)練參數(shù)數(shù)量的網(wǎng)絡(luò),甚至能夠達(dá)到與訓(xùn)練100M+規(guī)模的完整網(wǎng)絡(luò)類似的性能,對比效果如上圖所示。具體來說,ReLoRA方法包含(1)初始化全秩訓(xùn)練、(2)LoRA 訓(xùn)練、(3)參數(shù)重新啟動、(4)鋸齒狀學(xué)習(xí)率調(diào)度(jagged learning rate schedule)和(5)優(yōu)化器參數(shù)部分重置。作者選擇目前非?;馃岬淖曰貧w語言模型進行實驗,并且保證每個實驗所使用的GPU計算時間不超過8天

02. 本文方法

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

ReLoRA通過序列疊加的方式僅訓(xùn)練一小組參數(shù)就可以實現(xiàn)與全秩訓(xùn)練相當(dāng)?shù)男阅埽?strong>并且遵循LoRA方法的基礎(chǔ)原則,即保持原始網(wǎng)絡(luò)的凍結(jié)權(quán)重并添加新的可訓(xùn)練參數(shù)。乍一看,這種方式可能顯得計算效率低下,但我們需要清楚的是,這種方法可以通過減小梯度和優(yōu)化器狀態(tài)的大小,來顯著提高顯存效率。例如Adam優(yōu)化器狀態(tài)消耗的顯存通常是模型權(quán)重占用的兩倍。通過大幅減少可訓(xùn)練參數(shù)的數(shù)量,ReLoRA可以在相同的顯存條件下使用更大的batchsize大小,從而最大限度地提高硬件效率,ReLoRA的整體操作細(xì)節(jié)如下圖所示。

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

03. 實驗效果

為了清晰的評估ReLoRA方法的性能,作者將其應(yīng)用在各種規(guī)模大小(60M、130M、250M 和 350M)的Transformer模型上,并且都在C4數(shù)據(jù)集上進行訓(xùn)練和測試。為了展現(xiàn)ReLoRA方法的普適性,作者重點考察NLP領(lǐng)域的基礎(chǔ)語言建模任務(wù)。模型架構(gòu)和訓(xùn)練超參數(shù)設(shè)置基本與LLaMA模型保持一致。與LLaMA不同的是,作者在實驗中將原始的注意力機制(使用float32進行 softmax計算)替換為了Flash注意力[2],并且使用bfloat16精度進行計算,這樣操作可以將訓(xùn)練吞吐量提高50-100%,且沒有任何訓(xùn)練穩(wěn)定性問題。此外,使用ReLoRA方法訓(xùn)練的模型參數(shù)規(guī)模相比LLaMA要小得多,最大的模型參數(shù)才僅有350M,使用8個RTX4090上訓(xùn)練了一天時間就可以完成。

下圖展示了本文方法與其他方法的性能對比效果,可以看到ReLoRA顯著優(yōu)于低秩LoRA方法,證明了我們提出的修改的有效性。此外,ReLoRA還實現(xiàn)了與滿秩訓(xùn)練(Full training)相當(dāng)?shù)男阅?,并且我們可以觀察到,隨著網(wǎng)絡(luò)規(guī)模的增加,性能差距逐漸縮小。有趣的是,ReLoRA 唯一無法超過的基線模型是僅具有60M參數(shù)的最小模型。這一觀察結(jié)果表明,ReLoRA在改進大型網(wǎng)絡(luò)的訓(xùn)練方面更加有效,這與作者最開始研究探索一種改進大型網(wǎng)絡(luò)訓(xùn)練方法的目標(biāo)是一致的。

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

04. 總結(jié)

本文是一篇專注于減輕大型Transformer語言模型訓(xùn)練代價的工作,作者選取了一條非常具有前景的方向,即低秩訓(xùn)練技術(shù),并且從最樸素的低秩矩陣分解 (LoRA) 方法出發(fā),利用多個疊加的低秩更新矩陣來訓(xùn)練高秩網(wǎng)絡(luò),為了實現(xiàn)這一點,作者精心設(shè)計了包含參數(shù)重新啟動、鋸齒狀學(xué)習(xí)率調(diào)度算法和優(yōu)化器參數(shù)重置等一系列操作,這些操作共同提高了ReLoRA算法的訓(xùn)練效率,在某些情況下甚至能夠達(dá)到與全秩訓(xùn)練相當(dāng)?shù)男阅?/strong>,尤其實在超大規(guī)模的Transformer網(wǎng)絡(luò)中。作者通過大量的實驗證明了ReLoRA的算法可行性和操作有效性,不知ReLoRA是否也會成為大模型工程師一項必備的算法技能呢?

參考

[1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[2] T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Re. Flashattention: Fast and memory-efficient exact attention with IO-awareness. In A. H. Oh, A. Agarwal, D. Belgrave, and K. Cho, editors, Advances in Neural
Information Processing Systems, 2022.


??關(guān)于TechBeat人工智能社區(qū)

TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個薈聚全球華人AI精英的成長社區(qū)。

我們希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其學(xué)習(xí)成長。

期待這里可以成為你學(xué)習(xí)AI前沿知識的高地,分享自己最新工作的沃土,在AI進階之路上的升級打怪的根據(jù)地!

更多詳細(xì)介紹>>TechBeat,一個薈聚全球華人AI精英的學(xué)習(xí)成長社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-677587.html

到了這里,關(guān)于LoRA繼任者ReLoRA登場,通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 隨手筆記——根據(jù)相機位姿實現(xiàn)多個RGBD圖像點云的疊加

    程序主要實現(xiàn):(1). 根據(jù)內(nèi)參計算一對 RGB-D 圖像對應(yīng)的點云;(2). 根據(jù)各張圖的相機位姿(也就是外參),把點云加起來,組成地圖。

    2024年02月16日
    瀏覽(23)
  • uniapp小程序通過canvas給圖片疊加自定義文字

    uniapp小程序通過canvas給圖片疊加自定義文字

    功能背景 之前文章uniapp小程序開發(fā)自定義相機、拍照、上傳提到的前端給圖片疊加文字水印的操作。比如想要一張照片上,疊加上自定義的文字。 效果圖 保存到本地 放大看看 功能說明 借助于uniapp的API: 第一步 uni.getImageInfo 或者 uni.downloadFile ,把在線圖片加載出來,拿到臨

    2024年02月13日
    瀏覽(17)
  • 【peft】huggingface大模型加載多個LoRA并隨時切換

    參考Multi Adapter support 要求 peft=0.3.0 在加載第一個適配器時,可以通過 PeftModel.from_pretrained 方法并指定 adapter_name 參數(shù)來給它命名。否則,將使用默認(rèn)的適配器名稱 default 。 要加載另一個適配器,請使用 PeftModel 的 load_adapter() 方法,例如: model.load_adapter(peft_model_path, adapter_na

    2024年02月10日
    瀏覽(23)
  • 通過位運算打多個標(biāo)記

    如何在一個字段上,記錄多個標(biāo)記? 如何在一個字段上,記錄不同類型的多個標(biāo)記? 如何用較少的字段,記錄多個標(biāo)記? 如何在不增加字段的要求下,記錄新增的標(biāo)記? 在實際的開發(fā)中,經(jīng)常有這樣的需求,需要用盡可能少的字段,記錄多個標(biāo)記? 比如交易中一個訂單,

    2024年02月10日
    瀏覽(13)
  • 通過環(huán)境變量實現(xiàn)多個JDK切換

    通過環(huán)境變量實現(xiàn)多個JDK切換

    前文: ? ? ? ? ?由于jdk版本需要升級為jdk17,因為jdk8比較常用且穩(wěn)定,本人又不想卸載掉安裝的jdk8,在經(jīng)過查找資料后找到了可以通過修改環(huán)境變量在本地任意切換jdk版本 環(huán)境變量配置 ? ? ? ? 網(wǎng)上教程一堆,直接跳過了,這里主要說明怎么通過配置環(huán)境變量切換 電腦-屬性-高級

    2024年02月05日
    瀏覽(21)
  • mysql 一對多 合并多個通過 逗號拼接展示

    mysql 一對多 合并多個通過 逗號拼接展示 以上內(nèi)容由chatgpt中文網(wǎng) 動態(tài)生成 laravel model 對應(yīng)寫法

    2024年01月16日
    瀏覽(19)
  • Vue3:通過路由寫多個頁面,通過不同的路徑可以進入不同的頁面

    Vue3:通過路由寫多個頁面,通過不同的路徑可以進入不同的頁面

    Vue3:想通過路由寫2個頁面,不同的路徑可以進入不同的頁面 1、創(chuàng)建Vue3項目 通過腳手架創(chuàng)建一個Vue3的項目,然后在此基礎(chǔ)上對文件進行增刪改,修改成自己需要的項目框架 2、views文件夾 對應(yīng) 頁面文件 如果需要寫2個頁面,則在views文件夾里面創(chuàng)建2個.vue文件 可以在.vue文件

    2024年02月11日
    瀏覽(22)
  • IDEA通過Services界面管理多個SpringBoot應(yīng)用

    以前使用老版本IDEA時,如果一個Project下有多個基于SpringBoot的module,本地啟動時需要一個個點擊Debug或者Run來啟動,無法一鍵啟動和停止多個應(yīng)用。 新版本的IDEA考慮到了這個問題,增加了Services模塊界面,可以統(tǒng)一管理所有SpringBoot應(yīng)用,對于直觀查看、批量啟動/停止應(yīng)用非

    2024年02月14日
    瀏覽(17)
  • Ubuntu下通過.sh文件同時啟動多個程序系列2—啟動多個終端分別運行不同指令或者程序

    項目上經(jīng)常遇到需要到開多個終端分別啟動不用程序,這里簡單介紹一個方法,通過.sh文件,同時啟動多個程序 這里創(chuàng)建的文件名為 test.sh chmod 777 test.sh ./test.sh gnome-terminal --tab --title=A.sh – bash -c “ cd /home/aha/Downloads/test1 ./run.sh run.log ;exec bash” 只需要修改加粗部分即可 例如

    2024年02月06日
    瀏覽(33)
  • 3dmax通過烘焙合并一個模型的多個貼圖流程

    3dmax通過烘焙合并一個模型的多個貼圖流程

    合并多個模型也是可以的,文件是自動保存的TGA格式,后期PS可以批處理保存JPEG。 1、3dmax中文件打開模型 2、轉(zhuǎn)為可編輯多邊形 ?3、設(shè)置環(huán)境光 4、 渲染到紋理(0) ? ?

    2024年02月16日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包