国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="uz9tf"><font id="uz9tf"></font></ul>

<ul id="uz9tf"><delect id="uz9tf"></delect></ul><pre id="uz9tf"><dl id="uz9tf"></dl></pre>

<strike id="uz9tf"></strike>

<p id="uz9tf"></p>

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果

2年前作者：TechBeat人工智能社區(qū)分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

論文鏈接： https://arxiv.org/abs/2307.05695
代碼倉庫： https://github.com/guitaricet/peft_pretraining

一段時間以來，大模型（LLMs）社區(qū)的研究人員開始關(guān)注于如何降低訓(xùn)練、微調(diào)和推理LLMs所需要的龐大算力，這對于繼續(xù)推動LLMs在更多的垂直領(lǐng)域中發(fā)展和落地具有非常重要的意義。目前這一方向也有很多先驅(qū)工作，例如從模型結(jié)構(gòu)上創(chuàng)新的RWKV，直接替換計算量較大的Transformer架構(gòu)，改用基于RNN范式的新架構(gòu)。還有一些方法從模型微調(diào)階段入手，例如在原有LLMs中加入?yún)?shù)量較小的Adapter模塊來進行微調(diào)。還有微軟提出的低秩自適應(yīng)（Low-Rank Adaptation，LoRA）方法，LoRA假設(shè)模型在任務(wù)適配過程中對模型權(quán)重的更新量可以使用低秩矩陣進行估計，因而可以用來間接優(yōu)化新加入的輕量級適應(yīng)模塊，同時保持原有的預(yù)訓(xùn)練權(quán)重不變。目前LoRA已經(jīng)成為大模型工程師必備的一項微調(diào)技能，但本文作者仍然不滿足于目前LoRA所能達(dá)到的微調(diào)效果，并進一步提出了一種可疊加的低秩微調(diào)方法，稱為ReLoRA。

本文來自馬薩諸塞大學(xué)洛厄爾分校的研究團隊，作者團隊將ReLoRA應(yīng)用在具有高達(dá)350M參數(shù)的Transformer上時，展現(xiàn)出了與常規(guī)神經(jīng)網(wǎng)絡(luò)訓(xùn)練相當(dāng)?shù)男阅?/strong>。此外，本文作者還觀察到ReLoRA的微調(diào)效率會隨著模型參數(shù)規(guī)模的增加而不斷提高，這使得其未來有可能成為訓(xùn)練超大規(guī)模（通常超過1B參數(shù)）LLMs的新型手段。

01. 引言

雖然目前學(xué)術(shù)界和工業(yè)界都在不斷推出自家的各種基座模型，但不可否認(rèn)的是，完全預(yù)訓(xùn)練一個具有初等推理能力的LLMs仍然需要非常龐大的算力，例如大家熟知的LLaMA-6B模型[1]就需要數(shù)百個GPU才能完成訓(xùn)練，這種規(guī)模的算力已經(jīng)讓絕大多數(shù)學(xué)術(shù)研究小組望而卻步了。在這種背景下，參數(shù)高效微調(diào)（PEFT）已經(jīng)成為了一個非常具有前景的LLMs研究方向。具體來說，PEFT方法可以在消費級GPU（例如RTX 3090或4090）上對十億級語言或擴散模型進行微調(diào)。因此本文重點關(guān)注PEFT中的低秩訓(xùn)練技術(shù)，尤其是LoRA方法。作者思考到，過去十年中深度學(xué)習(xí)發(fā)展階段中的一個核心原則就是不斷的“堆疊更多層（stack more layers）”，例如ResNet的提出可以使我們將卷積神經(jīng)網(wǎng)絡(luò)的深度提升到100層以上，并且也獲得了非常好的效果。因此本文探索能否同樣以堆疊的方式來提升低秩適應(yīng)的訓(xùn)練效率呢？

本文提出了一種基于低秩更新的ReLoRA方法，來訓(xùn)練和微調(diào)高秩網(wǎng)絡(luò)，其性能優(yōu)于具有相同可訓(xùn)練參數(shù)數(shù)量的網(wǎng)絡(luò)，甚至能夠達(dá)到與訓(xùn)練100M+規(guī)模的完整網(wǎng)絡(luò)類似的性能，對比效果如上圖所示。具體來說，ReLoRA方法包含（1）初始化全秩訓(xùn)練、（2）LoRA 訓(xùn)練、（3）參數(shù)重新啟動、（4）鋸齒狀學(xué)習(xí)率調(diào)度（jagged learning rate schedule）和（5）優(yōu)化器參數(shù)部分重置。作者選擇目前非?；馃岬淖曰貧w語言模型進行實驗，并且保證每個實驗所使用的GPU計算時間不超過8天。

02. 本文方法

ReLoRA通過序列疊加的方式僅訓(xùn)練一小組參數(shù)就可以實現(xiàn)與全秩訓(xùn)練相當(dāng)?shù)男阅埽?strong>并且遵循LoRA方法的基礎(chǔ)原則，即保持原始網(wǎng)絡(luò)的凍結(jié)權(quán)重并添加新的可訓(xùn)練參數(shù)。乍一看，這種方式可能顯得計算效率低下，但我們需要清楚的是，這種方法可以通過減小梯度和優(yōu)化器狀態(tài)的大小，來顯著提高顯存效率。例如Adam優(yōu)化器狀態(tài)消耗的顯存通常是模型權(quán)重占用的兩倍。通過大幅減少可訓(xùn)練參數(shù)的數(shù)量，ReLoRA可以在相同的顯存條件下使用更大的batchsize大小，從而最大限度地提高硬件效率，ReLoRA的整體操作細(xì)節(jié)如下圖所示。

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

03. 實驗效果

為了清晰的評估ReLoRA方法的性能，作者將其應(yīng)用在各種規(guī)模大小（60M、130M、250M 和 350M）的Transformer模型上，并且都在C4數(shù)據(jù)集上進行訓(xùn)練和測試。為了展現(xiàn)ReLoRA方法的普適性，作者重點考察NLP領(lǐng)域的基礎(chǔ)語言建模任務(wù)。模型架構(gòu)和訓(xùn)練超參數(shù)設(shè)置基本與LLaMA模型保持一致。與LLaMA不同的是，作者在實驗中將原始的注意力機制（使用float32進行 softmax計算）替換為了Flash注意力[2]，并且使用bfloat16精度進行計算，這樣操作可以將訓(xùn)練吞吐量提高50-100%，且沒有任何訓(xùn)練穩(wěn)定性問題。此外，使用ReLoRA方法訓(xùn)練的模型參數(shù)規(guī)模相比LLaMA要小得多，最大的模型參數(shù)才僅有350M，使用8個RTX4090上訓(xùn)練了一天時間就可以完成。

下圖展示了本文方法與其他方法的性能對比效果，可以看到ReLoRA顯著優(yōu)于低秩LoRA方法，證明了我們提出的修改的有效性。此外，ReLoRA還實現(xiàn)了與滿秩訓(xùn)練（Full training）相當(dāng)?shù)男阅?，并且我們可以觀察到，隨著網(wǎng)絡(luò)規(guī)模的增加，性能差距逐漸縮小。有趣的是，ReLoRA 唯一無法超過的基線模型是僅具有60M參數(shù)的最小模型。這一觀察結(jié)果表明，ReLoRA在改進大型網(wǎng)絡(luò)的訓(xùn)練方面更加有效，這與作者最開始研究探索一種改進大型網(wǎng)絡(luò)訓(xùn)練方法的目標(biāo)是一致的。

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果,技術(shù)文章,自然語言處理

04. 總結(jié)

本文是一篇專注于減輕大型Transformer語言模型訓(xùn)練代價的工作，作者選取了一條非常具有前景的方向，即低秩訓(xùn)練技術(shù)，并且從最樸素的低秩矩陣分解 (LoRA) 方法出發(fā)，利用多個疊加的低秩更新矩陣來訓(xùn)練高秩網(wǎng)絡(luò)，為了實現(xiàn)這一點，作者精心設(shè)計了包含參數(shù)重新啟動、鋸齒狀學(xué)習(xí)率調(diào)度算法和優(yōu)化器參數(shù)重置等一系列操作，這些操作共同提高了ReLoRA算法的訓(xùn)練效率，在某些情況下甚至能夠達(dá)到與全秩訓(xùn)練相當(dāng)?shù)男阅?/strong>，尤其實在超大規(guī)模的Transformer網(wǎng)絡(luò)中。作者通過大量的實驗證明了ReLoRA的算法可行性和操作有效性，不知ReLoRA是否也會成為大模型工程師一項必備的算法技能呢？

參考

[1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[2] T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Re. Flashattention: Fast and memory-efficient exact attention with IO-awareness. In A. H. Oh, A. Agarwal, D. Belgrave, and K. Cho, editors, Advances in Neural
Information Processing Systems, 2022.

??關(guān)于TechBeat人工智能社區(qū)

▼

TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投，是一個薈聚全球華人AI精英的成長社區(qū)。

我們希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其學(xué)習(xí)成長。

期待這里可以成為你學(xué)習(xí)AI前沿知識的高地，分享自己最新工作的沃土，在AI進階之路上的升級打怪的根據(jù)地！

更多詳細(xì)介紹>>TechBeat，一個薈聚全球華人AI精英的學(xué)習(xí)成長社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-677587.html

到了這里，關(guān)于LoRA繼任者ReLoRA登場，通過疊加多個低秩更新矩陣實現(xiàn)更高效大模型訓(xùn)練效果的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

隨手筆記——根據(jù)相機位姿實現(xiàn)多個RGBD圖像點云的疊加
程序主要實現(xiàn)：(1). 根據(jù)內(nèi)參計算一對 RGB-D 圖像對應(yīng)的點云；(2). 根據(jù)各張圖的相機位姿（也就是外參），把點云加起來，組成地圖。
2024年02月16日
瀏覽(23)
uniapp小程序通過canvas給圖片疊加自定義文字
功能背景之前文章uniapp小程序開發(fā)自定義相機、拍照、上傳提到的前端給圖片疊加文字水印的操作。比如想要一張照片上，疊加上自定義的文字。效果圖保存到本地放大看看功能說明借助于uniapp的API：第一步 uni.getImageInfo 或者 uni.downloadFile ,把在線圖片加載出來，拿到臨
2024年02月13日
瀏覽(17)
【peft】huggingface大模型加載多個LoRA并隨時切換
參考Multi Adapter support 要求 peft=0.3.0 在加載第一個適配器時，可以通過 PeftModel.from_pretrained 方法并指定 adapter_name 參數(shù)來給它命名。否則，將使用默認(rèn)的適配器名稱 default 。要加載另一個適配器，請使用 PeftModel 的 load_adapter() 方法，例如： model.load_adapter(peft_model_path, adapter_na
2024年02月10日
瀏覽(23)
通過位運算打多個標(biāo)記
如何在一個字段上，記錄多個標(biāo)記？如何在一個字段上，記錄不同類型的多個標(biāo)記？如何用較少的字段，記錄多個標(biāo)記？如何在不增加字段的要求下，記錄新增的標(biāo)記？在實際的開發(fā)中，經(jīng)常有這樣的需求，需要用盡可能少的字段，記錄多個標(biāo)記？比如交易中一個訂單，
2024年02月10日
瀏覽(13)
通過環(huán)境變量實現(xiàn)多個JDK切換
前文: ? ? ? ? ?由于jdk版本需要升級為jdk17,因為jdk8比較常用且穩(wěn)定,本人又不想卸載掉安裝的jdk8,在經(jīng)過查找資料后找到了可以通過修改環(huán)境變量在本地任意切換jdk版本環(huán)境變量配置 ? ? ? ? 網(wǎng)上教程一堆,直接跳過了,這里主要說明怎么通過配置環(huán)境變量切換電腦-屬性-高級
2024年02月05日
瀏覽(21)
mysql 一對多合并多個通過逗號拼接展示
mysql 一對多合并多個通過逗號拼接展示以上內(nèi)容由chatgpt中文網(wǎng) 動態(tài)生成 laravel model 對應(yīng)寫法
2024年01月16日
瀏覽(19)
Vue3：通過路由寫多個頁面，通過不同的路徑可以進入不同的頁面
Vue3：想通過路由寫2個頁面，不同的路徑可以進入不同的頁面 1、創(chuàng)建Vue3項目通過腳手架創(chuàng)建一個Vue3的項目，然后在此基礎(chǔ)上對文件進行增刪改，修改成自己需要的項目框架 2、views文件夾對應(yīng) 頁面文件如果需要寫2個頁面，則在views文件夾里面創(chuàng)建2個.vue文件可以在.vue文件
2024年02月11日
瀏覽(22)
IDEA通過Services界面管理多個SpringBoot應(yīng)用
以前使用老版本IDEA時，如果一個Project下有多個基于SpringBoot的module，本地啟動時需要一個個點擊Debug或者Run來啟動，無法一鍵啟動和停止多個應(yīng)用。新版本的IDEA考慮到了這個問題，增加了Services模塊界面，可以統(tǒng)一管理所有SpringBoot應(yīng)用，對于直觀查看、批量啟動/停止應(yīng)用非
2024年02月14日
瀏覽(17)
Ubuntu下通過.sh文件同時啟動多個程序系列2—啟動多個終端分別運行不同指令或者程序
項目上經(jīng)常遇到需要到開多個終端分別啟動不用程序，這里簡單介紹一個方法，通過.sh文件，同時啟動多個程序這里創(chuàng)建的文件名為 test.sh chmod 777 test.sh ./test.sh gnome-terminal --tab --title=A.sh – bash -c “ cd /home/aha/Downloads/test1 ./run.sh run.log ;exec bash” 只需要修改加粗部分即可例如
2024年02月06日
瀏覽(33)
3dmax通過烘焙合并一個模型的多個貼圖流程
合并多個模型也是可以的，文件是自動保存的TGA格式，后期PS可以批處理保存JPEG。 1、3dmax中文件打開模型 2、轉(zhuǎn)為可編輯多邊形 ?3、設(shè)置環(huán)境光 4、渲染到紋理（0） ? ?
2024年02月16日
瀏覽(31)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区