国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)

這篇具有很好參考價值的文章主要介紹了了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

?? CSDN 葉庭云https://yetingyun.blog.csdn.net/


了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning),心流,大語言模型,人工智能,參數(shù)高效微調(diào),ChatGPT,PEFT

大語言模型在眾多應用領域?qū)崿F(xiàn)了突破性的進步,顯著提升了各種任務的完成度。然而,其龐大的規(guī)模也帶來了高昂的計算成本。這些模型往往包含數(shù)十億甚至上千億參數(shù),需要巨大的計算資源來運行。特別是,當需要為特定的下游任務定制模型時,尤其是在計算能力有限的硬件平臺上,這一挑戰(zhàn)尤為突出。

為了提升 LLM 在未見用戶數(shù)據(jù)集和任務上的性能,微調(diào)仍是關鍵。隨著模型規(guī)模的不斷擴大,如從 GPT-2 的 1.5B 參數(shù)增長到 GPT-3 的 175B 參數(shù),標準的全參數(shù)微調(diào)范式需要成千上萬的 GPUs 并行工作,這在效率和可持續(xù)性方面表現(xiàn)不佳。此外,它可能損害模型的泛化能力,以及導致災難性遺忘問題。為解決這一問題,參數(shù)高效微調(diào)(PEFT) 算法應運而生。該算法通過調(diào)整少量參數(shù),在下游任務上實現(xiàn)了優(yōu)于全面微調(diào)的性能。

參數(shù)高效微調(diào)(PEFT)是一種實用的解決方案,它涉及選擇性地調(diào)整模型中的少數(shù)參數(shù),而保持其他參數(shù)不變。調(diào)整大語言模型以高效地適應各種下游任務。PEFT 通過最小化新增參數(shù)數(shù)量或降低計算資源需求來調(diào)整預訓練大語言模型,這在計算資源受限的情況下尤為重要。在處理參數(shù)數(shù)量龐大的大語言模型時,這種方法尤為有價值。因為從頭開始微調(diào)這些模型不僅計算代價高昂,而且資源密集,這給支持系統(tǒng)平臺設計帶來了相當大的挑戰(zhàn)。

我們將 PEFT 算法按照其操作方式分為加法、選擇性、重參數(shù)化和混合微調(diào)四類。常見的加法微調(diào)算法主要有三種:(1)適配器;(2)軟提示;(3)其他。這些算法在附加的可調(diào)模塊或參數(shù)上存在差異。相比之下,選擇性微調(diào)無需額外參數(shù),它僅從骨干模型中選擇部分參數(shù),使這些參數(shù)在下游任務微調(diào)過程中可調(diào),而保持大多數(shù)參數(shù)不變。我們根據(jù)所選參數(shù)的分組將選擇性微調(diào)分為:(1)非結構化遮罩;(2)結構化遮罩。重參數(shù)化則是指在兩種等效形式之間轉換模型參數(shù)。具體而言,重參數(shù)化微調(diào)在訓練過程中引入額外的低秩可訓練參數(shù),并在推理時將這些參數(shù)與原始模型集成。這種方法主要分為兩種策略:(1)低秩分解;(2)LoRA 衍生物?;旌衔⒄{(diào)則探索了不同 PEFT 方法的設計空間,并結合了它們的優(yōu)點。

自然語言處理目前存在一個重要的范式:大規(guī)模預訓練一般領域數(shù)據(jù),并針對特定任務或領域進行微調(diào)(Fine-tuning)。然而,隨著預訓練語言模型規(guī)模的不斷擴大,該范式面臨以下問題:

  • 在微調(diào)大語言模型時,由于訓練成本高昂,不太可能對所有模型參數(shù)進行重新訓練。

  • 以往的方法都存在不同程度的性能問題。例如,adapter 增加了模型的層數(shù),從而引入了額外的推理延遲;而 Prefix-Tuning 的訓練難度較大,效果也不如直接進行微調(diào)。

模型通常過度參數(shù)化,導致冗余,其內(nèi)在維度相對較小,主要依賴這一低內(nèi)在維度進行任務適配?;谀P驮谌蝿者m配過程中權重變化具有低秩特性的假設,研究者提出了低秩自適應(LoRA)方法。LoRA 通過優(yōu)化適應過程中密集層變化的秩分解矩陣,間接訓練神經(jīng)網(wǎng)絡中的部分密集層,同時保持預訓練權重的穩(wěn)定。實現(xiàn)上,LoRA 簡潔明了地凍結預訓練語言模型的矩陣參數(shù),并選用 A 和 B 矩陣進行替代。在下游任務中,僅更新 A 和 B 矩陣,如圖所示。

了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning),心流,大語言模型,人工智能,參數(shù)高效微調(diào),ChatGPT,PEFT

結合圖片來看,LoRA 的實現(xiàn)流程如下:

  • 在原始預訓練語言模型(PLM)的基礎上,我們引入了一個旁路,通過降維再升維的操作,來模擬所謂的內(nèi)在秩。

  • 在訓練過程中,我們將固定預訓練語言模型(PLM)的參數(shù),僅對降維矩陣 A 和升維矩陣 B 進行訓練。

  • 模型的輸入輸出維度保持不變,輸出時,將 BA 與 PLM 的參數(shù)進行疊加。

  • 使用隨機高斯分布對矩陣 A 進行初始化,同時將矩陣 B 初始化為 0 矩陣,以確保訓練開始時,旁路矩陣仍維持為 0 矩陣狀態(tài)。

具體實現(xiàn):接下來我們從公式上解釋 LoRA 的實現(xiàn)。假設要在下游任務微調(diào)一個預訓練語言模型(如 GPT-3),則需要更新預訓練模型參數(shù),公式表示如下:

h = W 0 x + Δ W x = W 0 x + B A x h=W_{0} x+\Delta W x=W_{0} x+B A x h=W0?x+ΔWx=W0?x+BAx

W0 是預訓練模型的初始化參數(shù),而 ΔW 是需要更新的參數(shù)。在全參數(shù)微調(diào)的情況下,參數(shù)量等同于 W0 的參數(shù)量。例如,對于 GPT3,ΔW 的參數(shù)量約為 175B。由此可見,全參數(shù)微調(diào)大型語言模型對于資源有限的環(huán)境來說是不切實際的。鑒于前人的研究揭示預訓練語言模型具有較低的 “內(nèi)部維度”,這些模型在任務適配過程中即便被隨機投影到較小的子空間,也能保持有效的學習。因此,LoRA 引入了一個小參數(shù)模塊,專門用于學習改變量 ΔW。

在訓練過程中,W0 保持不變,而 A 和 B 包含訓練參數(shù),會發(fā)生變化。在推理階段,只需將變化量融入原模型,即可實現(xiàn)無延遲操作。若要切換任務,只需在切換過程中減去 BA,并替換為用其他任務訓練好的 B’A’ 即可。

總的來說,LoRA 是一種簡單而有效的輕量級微調(diào)方案,它基于大語言模型的內(nèi)在低秩特性,通過增加旁路矩陣來模擬全參數(shù)微調(diào)。目前,LoRA 技術已廣泛應用于大語言模型的微調(diào),如 Alpaca 和 Stable Diffusion + LoRA,并能與其他高效的參數(shù)微調(diào)方法,如最先進的參數(shù)高效微調(diào)(PEFT)有效結合。

“r” 是 LoRA 中至關重要的參數(shù),它決定了 LoRA 矩陣的秩或維度,對模型的復雜度和容量產(chǎn)生直接影響。當 “r” 值較高時,模型的表達能力增強,但可能引發(fā)過擬合問題;相反,降低 “r” 值可以減少過擬合,但相應地,模型的表達能力會有所減弱。在我們保持所有層都啟用 LoRA 的前提下,將 “r” 值從 8 提升至 16,以探究其對性能的具體影響。一般來說,微調(diào) LLM 時選擇的 alpha 值是秩的兩倍。調(diào)整 “alpha” 有助于在擬合數(shù)據(jù)和通過正則化防止過擬合之間保持平衡。

QLoRA,即量化 LoRA 的簡稱,由 Tim Dettmers 等人提出。它是一種在微調(diào)過程中有效降低內(nèi)存占用的技術。在反向傳播階段,QLoRA 將預訓練的權重量化為 4-bit,并采用分頁優(yōu)化器來管理內(nèi)存峰值。QLoRA 會增加運行時間成本(因為量化和反量化增加了額外步驟),但它是一種很好的節(jié)省內(nèi)存的方法。此外,AdamW 優(yōu)化器是 LLM 訓練的常用選擇。此外,雖然學習率調(diào)度器可能有益,但 AdamW 和 SGD 優(yōu)化器之間幾乎沒有區(qū)別。

LongLoRA:增強大語言模型(LLM)的長上下文處理能力,而無需大量算力資源。LongLoRA 通過使用一種簡化的注意力形式和 LoRA 方法來高效擴展上下文長度,成功在 LLaMA2 7B/13B/70B 模型上將上下文長度擴展至 32K、64K、100K,幾乎不增加算力消耗。此外,研究還創(chuàng)建了 LongQA 數(shù)據(jù)集來進一步改進模型的輸出能力,并證明了通過增加訓練信息量可以獲得更好的結果。LongLoRA 不僅兼容現(xiàn)有技術,而且在處理長文本和長對話中尋找特定主題方面表現(xiàn)出色,為大型語言模型領域帶來了創(chuàng)新的微調(diào)方法。

注意:LoRA 經(jīng)常與現(xiàn)代的 LLMs 結合使用。盡管如此,眾多 LoRA 的變體已經(jīng)涌現(xiàn)(LoRA+、VeRA、LoRA-FA、LoRa-drop、AdaLoRA、DoRA、Delta-LoRA),它們以不同方式偏離了原始方法,旨在提升速度、性能或兩者兼具。

  • LoRA+ 通過為兩個矩陣設置不同學習率來提高訓練效率;

  • VeRA 減少參數(shù)數(shù)量,通過訓練額外的向量而非直接訓練矩陣 A 和 B;

  • LoRA-FA 只訓練矩陣 B;

  • LoRA-drop 決定哪些層值得通過 LoRA 增強;

  • AdaLoRA 動態(tài)調(diào)整矩陣的秩;

  • DoRA分別訓練大小和方向;

  • Delta-LoRA 通過 A 和 B 的梯度更新預訓練矩陣 W。

這些方法展示了在不犧牲性能的情況下,如何通過創(chuàng)新思路減少訓練大語言模型的計算需求。

AdapterFusion 算法,用以實現(xiàn)多個 Adapter 模塊間的最大化任務遷移。通過將適配器的訓練劃分為知識提取和知識組合兩個階段,成功解決了災難性遺忘、任務間干擾以及訓練不穩(wěn)定的問題。然而,Adapter 模塊的引入增加了模型的整體參數(shù)量,進而影響了模型在推理時的性能。AdapterFusion 在大多數(shù)情況下性能優(yōu)于全模型微調(diào)和 Adapter。

前綴微調(diào)(Prefix-Tunning)是一種用于生成任務的輕量級微調(diào)方法。它通過向輸入添加一個特定的、連續(xù)的任務向量序列,即 “前綴”,來實現(xiàn)這一點。這些前綴在圖中以紅色塊表示。與提示(Prompt)不同,前綴完全由自由參數(shù)組成,不與真實的 token 相對應。與傳統(tǒng)的微調(diào)相比,前綴微調(diào)僅針對前綴進行優(yōu)化。因此,我們只需存儲一個大型 Transformer 模型和已知任務特定前綴的副本,這使得為每個額外任務產(chǎn)生的開銷非常小。

Prompt-tuning 為每個任務定義了獨特的 Prompt,并將其與數(shù)據(jù)拼接作為輸入。在此過程中,預訓練模型被凍結以進行訓練。值得注意的是,隨著模型規(guī)模的擴大,其效果逐漸提升,并最終與微調(diào)效果相當。此外,Prompt-tuning 還引入了 Prompt-ensembling 的概念,即在同一批次中同時訓練同一任務的不同 Prompt。這種方法相當于訓練了多個不同的「模型,但相較于模型集成,其成本大幅降低。

P-Tuning 方法旨在解決大語言模型中 Prompt 構造方式對下游任務效果的重大影響問題。通過引入連續(xù)可微的 virtual token 替代傳統(tǒng)的離散 token,實現(xiàn)了模板的自動構建,使得 GPT 在 SuperGLUE 上的成績首次超過了 BERT 模型,改變了 GPT 不擅長 NLU 的觀點。P-Tuning 將 Prompt 轉換為可學習的 Embedding 層,通過 MLP+LSTM 處理,提高了模型的適應性和性能。P-Tuning v2 進一步改進,通過在每一層都加入 Prompts tokens 作為輸入,不僅增加了可學習的參數(shù),還提高了模型預測的直接影響,顯示出跨規(guī)模和 NLU 任務的通用性。此外,P-Tuning v2 還引入了多任務學習和回歸傳統(tǒng)分類標簽范式,提高了訓練效率和模型的通用性。


??? 相關鏈接:

  • 《大型模型的參數(shù)高效微調(diào)》全面綜述

  • LongLoRA:超長上下文,大語言模型高效微調(diào)方法

  • 騰訊技術工程 - 大模型微調(diào)方法總結

  • 大規(guī)模語言模型高效參數(shù)微調(diào):P-Tuning 微調(diào)系列

  • LoRA 和 QLoRA 微調(diào)語言大模型:數(shù)百次實驗后的見解

  • 不是大模型全局微調(diào)不起,只是 LoRA 更有性價比,教程已經(jīng)準備好了

  • LoRA 家族概述文章來源地址http://www.zghlxwxcb.cn/news/detail-850918.html

到了這里,關于了解大語言模型的參數(shù)高效微調(diào)(Parameter-Effcient Fine-Tuning)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 深入了解 大語言模型(LLM)微調(diào)方法

    深入了解 大語言模型(LLM)微調(diào)方法

    眾所周知,大語言模型(LLM)正在飛速發(fā)展,各行業(yè)都有了自己的大模型。其中,大模型微調(diào)技術在此過程中起到了非常關鍵的作用,它提升了模型的生成效率和適應性,使其能夠在多樣化的應用場景中發(fā)揮更大的價值。 那么,今天這篇文章就帶大家深入了解大模型微調(diào)。其中

    2024年03月14日
    瀏覽(28)
  • 【自然語言處理】大模型高效微調(diào):PEFT 使用案例

    【自然語言處理】大模型高效微調(diào):PEFT 使用案例

    PEFT(Parameter-Efficient Fine-Tuning,參數(shù)高效微調(diào)),是一個用于在不微調(diào)所有模型參數(shù)的情況下,高效地將預訓練語言模型(PLM)適應到各種下游應用的庫。 PEFT方法僅微調(diào)少量(額外的)模型參數(shù),顯著降低了計算和存儲成本,因為對大規(guī)模PLM進行完整微調(diào)的代價過高。最近的

    2024年02月13日
    瀏覽(56)
  • 語言大模型的分布式訓練與高效微調(diào)指南

    語言大模型的分布式訓練與高效微調(diào)指南

    原文:語言大模型的分布式訓練與高效微調(diào)指南 - 知乎 目錄 收起 1 分布式訓練 2 ZeRO驅(qū)動的數(shù)據(jù)并行 3 全分片數(shù)據(jù)并行 4 實現(xiàn) 5 高效微調(diào) 6 實踐指南 7 關于DeepSpeed和FSDP的更多內(nèi)容 OneFlow編譯 翻譯|楊婷、宛子琳 最近語言大模型(LLM)異?;鸨?,一個非常特別的開源社區(qū)正在

    2024年01月18日
    瀏覽(25)
  • Meta提出全新參數(shù)高效微調(diào)方案,僅需一個RNN,Transformer模型GPU使用量減少84%!

    Meta提出全新參數(shù)高效微調(diào)方案,僅需一個RNN,Transformer模型GPU使用量減少84%!

    近來,隨著 ChatGPT和GPT-4模型 的不斷發(fā)展,國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出了自家的大語言模型,例如谷歌的PaLM系列,MetaAI的LLaMA系列,還有國內(nèi)公司和高校推出的一些大模型,例如百度的文心一言,清華的ChatGLM等模型。幾乎隔幾天就會有一個全新的大模型發(fā)布,但是對于研究者

    2024年02月16日
    瀏覽(22)
  • 【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    大白話:? DL的本質(zhì)就是矩陣的乘法,就能實現(xiàn)LLM, 假設兩個矩陣都很大,一個mxn,一個nxd的矩陣,m,n,d這幾個數(shù)字可能幾千甚至上萬的場景,計算起來代價很大,如果我們可以small 這些數(shù)字,縮小到10甚至5這樣的scenario,cost就非常的小。 訓練的時候只訓練?右邊橙色的AB矩陣 那

    2024年02月05日
    瀏覽(27)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微調(diào)+獎勵模型訓練+PPO 訓練+DPO 訓練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月09日
    瀏覽(34)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預訓練+指令監(jiān)督微調(diào)+獎勵模型訓練+PPO 訓練+DPO 訓練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月08日
    瀏覽(24)
  • 微調(diào)語言大模型選LoRA還是全參數(shù)?基于LLaMA 2深度分析

    微調(diào)語言大模型選LoRA還是全參數(shù)?基于LLaMA 2深度分析

    本文對比了全參數(shù)微調(diào)和LoRA,并分析了這兩種技術各自的優(yōu)勢和劣勢。作者使用了三個真實用例來訓練LLaMA 2模型,這提供了比較特定任務的性能、硬件要求和訓練成本的基準。本文證明了使用LoRA需要在serving效率和模型質(zhì)量之間做出權衡,而這取決于具體的任務。 此外,本

    2024年02月05日
    瀏覽(21)
  • LLaMA, ChatGLM, BLOOM的參數(shù)高效微調(diào)實踐

    LLaMA, ChatGLM, BLOOM的參數(shù)高效微調(diào)實踐

    作者:回旋托馬斯x(騰訊NLP算法工程師) 項目地址:https://zhuanlan.zhihu.com/p/635710004 大語言模型的訓練分為兩個階段: (1)在海量文本語料上的無監(jiān)督預訓練,學習通用的語義表示和世界知識。 (2)在小規(guī)模數(shù)據(jù)上,進行指令微調(diào)和基于人類反饋的強化學習,更好地對齊最

    2024年02月16日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包