国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

QLoRA:量化 LLM 的高效微調(diào)

這篇具有很好參考價值的文章主要介紹了QLoRA:量化 LLM 的高效微調(diào)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

此 repo 支持論文“QLoRA:量化 LLM 的高效微調(diào)”,旨在使對 LLM 研究的訪問民主化。

QLoRA 使用bitsandbytes進行量化,并與 Hugging Face 的PEFT和transformers庫集成。QLoRA 由華盛頓大學(xué) UW NLP 小組的成員開發(fā)。

概述

我們介紹了 QLoRA,這是一種有效的微調(diào)方法,可以減少內(nèi)存使用量,足以在單個 48GB GPU 上微調(diào) 65B 參數(shù)模型,同時保留完整的 16 位微調(diào)任務(wù)性能。QLoRA 通過凍結(jié)的 4 位量化預(yù)訓(xùn)練語言模型將梯度反向傳播到低階適配器 (LoRA)。我們最好的模型系列,我們命名為 Guanaco,在 Vicuna 基準測試中優(yōu)于所有以前公開發(fā)布的模型,達到 ChatGPT 性能水平的 99.3%,同時只需要在單個 GPU 上進行 24 小時的微調(diào)。QLoRA 引入了許多創(chuàng)新來節(jié)省內(nèi)存而不犧牲性能:(a) 4 位 NormalFloat (NF4),一種新的數(shù)據(jù)類型,理論上是正態(tài)分布權(quán)重的最佳信息(b)雙量化通過量化量化常量來減少平均內(nèi)存占用,以及(c)分頁優(yōu)化器來管理內(nèi)存峰值。我們使用 QLoRA 對 1,000 多個模型進行微調(diào),提供跨 8 個指令數(shù)據(jù)集、多種模型類型(LLaMA、T5)和無法通過常規(guī)微調(diào)運行的模型規(guī)模(例如 33B 和65B參數(shù)模型)。我們的結(jié)果表明,即使使用比以前的 SoTA 更小的模型,QLoRA 在小型高質(zhì)量數(shù)據(jù)集上進行微調(diào)也會產(chǎn)生最先進的結(jié)果。我們提供了基于人類和 GPT-4 評估的聊天機器人性能的詳細分析,表明 GPT-4 評估是人類評估的廉價且合理的替代方案。此外,我們發(fā)現(xiàn)當前的聊天機器人基準測試無法準確評估聊天機器人的性能水平。我們發(fā)布了所有模型和代碼,包括用于 4 位訓(xùn)練的 CUDA 內(nèi)核。

許可和預(yù)期用途

我們根據(jù) MIT 許可在此存儲庫中發(fā)布與 QLoRA 微調(diào)相關(guān)的資源。此外,我們還發(fā)布了用于 7B、13B、33B 和 65B 基本 LLaMA 模型尺寸的 Guanaco 模型系列。這些模型旨在用于符合 LLaMA 許可證的目的,并且需要訪問 LLaMA 模型。

演示

Guanaco 是一個純粹用于研究目的的系統(tǒng),可能會產(chǎn)生有問題的輸出。

  1. 在此處訪問現(xiàn)場演示。注意這里是33B型號,65B型號的demo稍后會有。

  2. 或者使用此筆記本直接在 Colab 中托管您自己的 Guanaco gradio 演示。適用于 7B 和 13B 型號的免費 G??PU。

  3. 或者,您能區(qū)分 ChatGPT 和 Guanaco 嗎?試一試!您可以在此處訪問模型響應(yīng) Colab,在 Vicuna 提示上比較 ChatGPT 和 Guanaco 65B。

安裝

要使用 transformers 和 bitsandbytes 加載 4 位模型,您必須從源代碼安裝加速器和 transformers,并確保您擁有最新版本的 bitsandbytes 庫 (0.39.0)。安裝 PyTorch 后(按照此處的說明操作),您可以使用以下命令實現(xiàn)上述目標:

pip install -U -r requirements.txt

入門

qlora.py代碼是對各種數(shù)據(jù)集進行微調(diào)和推理的起點。在羊駝數(shù)據(jù)集上微調(diào)基線模型的基本命令:

python qlora.py --model_name_or_path <path_or_name>

對于大于 13B 的模型,我們建議調(diào)整學(xué)習(xí)率:

python qlora.py –learning_rate 0.0001 --model_name_or_path <path_or_name>

要復(fù)制我們的 Guanaco 模型,請參見下文。

教程和演示

這是一篇討論 4 位量化、QLoRA 以及它們?nèi)绾渭傻睫D(zhuǎn)換器中的博客。

您可以按照此筆記本直接在 Colab 中托管自己的 gradio Guanaco 演示。此外,以下是 Colab 筆記本,其中包含使用 QLoRA 進行推理和微調(diào)的示例:

  • 推理筆記本
  • 微調(diào)筆記本

其他示例位于該examples/文件夾下。

量化

BitsandbytesConfig量化參數(shù)由(參見 HF 文檔)控制,如下所示:

  • 通過激活加載 4 位load_in_4bit
  • 用于線性層計算的數(shù)據(jù)類型bnb_4bit_compute_dtype
  • 嵌套量化是通過激活bnb_4bit_use_double_quant
  • 用于量化的數(shù)據(jù)類型用 指定bnb_4bit_quant_type。請注意,有兩種支持的量化數(shù)據(jù)類型fp4(四位浮點數(shù))和nf4(普通四位浮點數(shù))。后者在理論上對于正態(tài)分布的權(quán)重是最優(yōu)的,我們建議使用nf4.
    model = AutoModelForCausalLM.from_pretrained(
        model_name_or_path='/name/or/path/to/your/model',
        load_in_4bit=True,
        device_map='auto',
        max_memory=max_memory,
        torch_dtype=torch.bfloat16,
        quantization_config=BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type='nf4'
        ),
    )

分頁優(yōu)化器

您可以使用參數(shù)訪問分頁優(yōu)化器--optim paged_adamw_32bit

原駝微調(diào)

您可以選擇--dataset oasst1加載用于訓(xùn)練 Guanaco 的 OpenAssistant 數(shù)據(jù)集。您還可以在 HF 上的timdettmers/openassistant-guanaco找到它。

我們包括用于重現(xiàn) Guanaco 模型訓(xùn)練的超參數(shù)的腳本,用于各種大小./scripts/finetune_guanaco*.sh。確保進行調(diào)整per_device_train_batch_size,gradient_accumulation_steps使他們的乘積為 16,并且訓(xùn)練適合您的 GPU。

使用本地數(shù)據(jù)集

您可以使用參數(shù)指定數(shù)據(jù)集的路徑--dataset。如果--dataset_format未設(shè)置參數(shù),它將默認為羊駝格式。這里有一些例子:

  • 使用羊駝格式數(shù)據(jù)集進行訓(xùn)練:
    python qlora.py --dataset="path/to/your/dataset"
  • 使用自指導(dǎo)格式數(shù)據(jù)集進行訓(xùn)練:
    python qlora.py --dataset="path/to/your/dataset" --dataset_format="self-instruct"

多GPU

多 GPU 訓(xùn)練和推理通過 Hugging Face 的 Accelerate 開箱即用。請注意,per_device_train_batch_sizeper_device_eval_batch_size參數(shù)是全局批量大小,不像它們的名字所暗示的那樣。

在多個 GPU 上加載用于訓(xùn)練或推理的模型時,您應(yīng)該將類??似以下的內(nèi)容傳遞給AutoModelForCausalLM.from_pretrained()

device_map = "auto"
max_memory = {i: '46000MB' for i in range(torch.cuda.device_count())}

示例輸出

我們?yōu)槲募A中的 OA 和 Vicuna 查詢提供論文中描述的模型的生成eval/generations。這些旨在促進對模型評估和分析的進一步研究。

你能區(qū)分 ChatGPT 和 Guanaco 嗎?試一試!您可以在此處訪問模型響應(yīng) Colab,在 Vicuna 提示上比較 ChatGPT 和 Guanaco 65B。

評估

我們包括改編自 FastChat 存儲庫的腳本,以使用 GPT-4 自動評估模型生成。我們包括用于與 ChatGPT 進行比較的腳本,得分為 10 分,以及帶有三類標簽(贏、松或平)的“成對比較”。這些可以在文件夾中找到eval。

為了促進我們在該領(lǐng)域的評估和未來工作的復(fù)制,我們發(fā)布了 GPT-4 和我們系統(tǒng)的人工評級。這些位于eval/ratings-human和下eval/ratings-gpt4。

可以在 找到更多詳細信息eval/EVAL_README.md。

已知問題和限制

這里是已知問題和錯誤的列表。如果您的問題未在此處報告,請打開一個新問題并描述問題。

  1. 4 位推理很慢。目前,我們的 4 位推理實現(xiàn)尚未與 4 位矩陣乘法集成
  2. 使用 HF 當前不支持的訓(xùn)練器恢復(fù) LoRA 訓(xùn)練運行。
  3. 目前,使用bnb_4bit_compute_type='fp16'會導(dǎo)致不穩(wěn)定。對于 7B LLaMA,只有 80% 的微調(diào)運行完成且沒有錯誤。我們有解決方案,但它們尚未集成到 bitsandbytes 中。
  4. 確保tokenizer.bos_token_id = 1避免生成問題。
  5. 如果遇到此問題(“非法內(nèi)存訪問”),則應(yīng)使用更新的 HF LLaMA 轉(zhuǎn)換或降級 PyTorch 版本。

引用

@article{dettmers2023qlora,
  title={QLoRA: Efficient Finetuning of Quantized LLMs},
  author={Dettmers, Tim and Pagnoni, Artidoro and Holtzman, Ari and Zettlemoyer, Luke},
  journal={arXiv preprint arXiv:2305.14314},
  year={2023}
}

5月24日華盛頓大學(xué)的研究者發(fā)布了QLoRA技術(shù)及用其生成的Guanaco大模型。在Vicuna基準測試中表現(xiàn)優(yōu)于所有先前公開發(fā)布的模型,達到ChatGPT性能水平的99.3%,僅需要單個GPU上的24小時微調(diào)時間。業(yè)界一片叫好。

QLoRA:量化 LLM 的高效微調(diào)

參考及資源鏈接:

代碼:https://github.com/artidoro/qlora

量化代碼:GitHub - TimDettmers/bitsandbytes: 8-bit CUDA functions for PyTorch

PEFT:?https://github.com/huggingface/peft

Transformer:https://github.com/huggingface/transformers/

模型:timdettmers (Tim Dettmers)

BLOG :?Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA

論文:[2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs (arxiv.org)

Demo環(huán)境:Guanaco Playground Tgi - a Hugging Face Space by uwnlp

QLoRA:量化 LLM 的高效微調(diào)

Basic usage Google Colab notebook?- This notebook shows how to use 4bit models in inference with all their variants, and how to run GPT-neo-X (a 20B parameter model) on a free Google Colab instance

Fine tuning Google Colab notebook?- This notebook shows how to fine-tune a 4bit model on a downstream task using the Hugging Face ecosystem. We show that it is possible to fine tune GPT-neo-X 20B on a Google Colab instance!

Original repository for replicating the paper's results

Guanaco 33b playground

以下內(nèi)容主要來自論文QLoRA: Efficient Finetuning of Quantized LLMs和其他資料。

摘要:

我們提出了一種高效的微調(diào)方法QLORA,可以在單個48GB GPU上減少內(nèi)存使用量,同時保持完整的16位微調(diào)任務(wù)性能,從而對一個擁有65B參數(shù)的模型進行微調(diào)。QLORA通過將梯度反向傳播到凍結(jié)的4位量化預(yù)訓(xùn)練語言模型中,進而傳遞到低秩適配器(LoRA)。我們的最佳模型系列被命名為Guanaco,在Vicuna基準測試中表現(xiàn)優(yōu)于所有先前公開發(fā)布的模型,達到ChatGPT性能水平的99.3%,僅需要單個GPU上的24小時微調(diào)時間。QLORA引入了一些創(chuàng)新來節(jié)省內(nèi)存而不犧牲性能:(a)4位NormalFloat(NF4),這是一種對于正態(tài)分布權(quán)重來說在信息論上是最優(yōu)的數(shù)據(jù)類型;(b)雙量化,通過量化量化常數(shù)來減少平均內(nèi)存占用;以及(c)分頁優(yōu)化器,用于管理內(nèi)存峰值。我們使用QLORA對1,000多個模型進行微調(diào),并對8個指令數(shù)據(jù)集、多個模型類型(LLaMA、T5)和模型規(guī)模進行了詳細的指令追蹤和聊天機器人性能分析,這在常規(guī)微調(diào)中是不可行的(例如33B和65B參數(shù)模型)。我們的結(jié)果表明,QLoRA在一個小型高質(zhì)量數(shù)據(jù)集上進行微調(diào)可以獲得最先進的結(jié)果,即使使用的模型比先前的最優(yōu)模型要小。我們基于人工和GPT-4評估對聊天機器人性能進行了詳細分析,結(jié)果顯示GPT-4評估是評估聊天機器人的廉價且合理的替代方法。此外,我們發(fā)現(xiàn)當前的聊天機器人基準測試不能準確評估聊天機器人的性能水平。通過一項詳細的分析,我們展示了Guanaco與ChatGPT相比存在的失敗之處。我們公開發(fā)布了我們的所有模型和代碼,包括4位訓(xùn)練的CUDA核心。

1 引言

微調(diào)大型語言模型(LLMs)是提高它們性能的一種高效方法[40, 62, 43, 61, 59, 37],也可以添加期望的行為或去除不可取的行為[43, 2, 4]。然而,對于非常大的模型,常規(guī)的16位微調(diào)是成本過高的;對LLaMA 65B參數(shù)模型[57]的常規(guī)16位微調(diào)需要超過780GB的GPU內(nèi)存。盡管最近的量化方法可以減少LLMs的內(nèi)存占用[14, 13, 18, 66],但這些技術(shù)只適用于推理階段,在訓(xùn)練階段會失效[65]。

我們首次證明了可以在不降低性能的情況下微調(diào)量化的4位模型。我們的方法QLORA使用一種新的高精度技術(shù)將預(yù)訓(xùn)練模型量化為4位,然后通過反向傳播梯度來調(diào)整量化權(quán)重集合中的一小組可學(xué)習(xí)低秩適配器權(quán)重[28]。

QLORA將微調(diào)65B參數(shù)模型的平均內(nèi)存需求從>780GB的GPU內(nèi)存降低到<48GB,與完全微調(diào)的16位基準相比,既不降低運行時間也不降低預(yù)測性能。這標志著LLM微調(diào)的可及性出現(xiàn)了重大變化:現(xiàn)在可以在單個GPU上微調(diào)迄今為止最大的公開可用模型。使用QLORA,我們訓(xùn)練了Guanaco模型系列,其中第二好的模型在Vicuna[10]基準測試上達到了ChatGPT性能水平的97.8%,而在單個消費級GPU上的微調(diào)時間不到12小時;在單個專業(yè)級GPU上的24小時內(nèi),我們的最大模型達到了99.3%,基本上縮小了與Vicuna基準測試上的ChatGPT之間的差距。在部署時,我們最小的Guanaco模型(7B參數(shù))僅需要5GB內(nèi)存,在Vicuna基準測試上比26GB的Alpaca模型高出20個百分點以上(表6)。

QLORA引入了多個創(chuàng)新,旨在減少內(nèi)存使用而不犧牲性能:(1)4位NormalFloat,一種信息論上對于正態(tài)分布數(shù)據(jù)來說最優(yōu)的量化數(shù)據(jù)類型,其實際結(jié)果比4位整數(shù)和4位浮點數(shù)更好。 (2)雙量化(Double Quantization),一種量化量化常數(shù)的方法,平均每個參數(shù)節(jié)省約0.37位(65B模型約為3GB)。 (3)分頁優(yōu)化器(Paged Optimizers),使用NVIDIA統(tǒng)一內(nèi)存來避免在處理具有長序列長度的小批量時出現(xiàn)的梯度檢查點內(nèi)存峰值。我們將這些貢獻結(jié)合到更好調(diào)整的LoRA方法中,其中包括在每個網(wǎng)絡(luò)層中使用適配器,從而避免了先前工作中出現(xiàn)的幾乎所有精度權(quán)衡取舍(accuracy tradeoffs)的問題。

QLORA的高效性使我們能夠?qū)χ噶钗⒄{(diào)和聊天機器人性能進行深入研究,這在常規(guī)微調(diào)中由于內(nèi)存開銷是不可能的。因此,我們在幾個指令微調(diào)數(shù)據(jù)集、模型架構(gòu)和參數(shù)大小在80M到65B之間訓(xùn)練了1,000多個模型。除了展示QLORA恢復(fù)了16位性能(§4)和訓(xùn)練了最先進的聊天機器人Guanaco(§5),我們還分析了訓(xùn)練模型的趨勢。首先,我們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量遠比數(shù)據(jù)集大小更重要,例如,一個9k樣本的數(shù)據(jù)集(OASST1)在聊天機器人性能上優(yōu)于一個450k樣本的數(shù)據(jù)集(FLAN v2,子采樣),即使兩者都旨在支持指令跟蹤泛化。其次,我們顯示了強大的Massive Multitask Language Understanding(MMLU)基準性能并不意味著強大的Vicuna聊天機器人基準性能,反之亦然,換句話說,對于給定任務(wù),數(shù)據(jù)集的適用性比大小更重要。

此外,我們還對聊天機器人性能進行了詳細分析,同時使用人工評估者和GPT-4進行評估。我們采用了錦標賽風(fēng)格的基準測試,其中模型在比賽中互相競爭,為給定提示產(chǎn)生最佳回答。一場比賽的獲勝者由GPT-4或人工注釋員評判。錦標賽結(jié)果被匯總為Elo分數(shù)[16, 17],確定聊天機器人性能的排名。我們發(fā)現(xiàn),在錦標賽中,GPT-4和人工評估在模型性能的排名上基本一致,但我們也發(fā)現(xiàn)存在強烈分歧的情況。因此,我們強調(diào)基于模型的評估雖然提供了與人工注釋相比的廉價替代方案,但也存在不確定性。

我們通過定性分析Guanaco模型來增強我們的聊天機器人基準測試結(jié)果。我們的分析突出了定量基準測試未能捕捉到的成功和失敗案例。我們公開發(fā)布所有帶有人工和GPT-4注釋的模型,以促進進一步的研究。我們開源我們的代碼庫和CUDA核心,并將我們的方法整合到Hugging Face的transformers堆棧[64]中,使其易于訪問。我們發(fā)布了7/13/33/65B大小模型的適配器集合,這些模型在8個不同的指令跟蹤數(shù)據(jù)集上進行了訓(xùn)練,總共有32個不同的開源微調(diào)模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-473125.html

到了這里,關(guān)于QLoRA:量化 LLM 的高效微調(diào)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月09日
    瀏覽(33)
  • LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微

    LLMs:LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細攻略 目錄 相關(guān)文章 LLMs之ChatGLM:ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch

    2024年02月08日
    瀏覽(24)
  • 【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    【LLM】大語言模型高效微調(diào)方案Lora||直擊底層邏輯

    大白話:? DL的本質(zhì)就是矩陣的乘法,就能實現(xiàn)LLM, 假設(shè)兩個矩陣都很大,一個mxn,一個nxd的矩陣,m,n,d這幾個數(shù)字可能幾千甚至上萬的場景,計算起來代價很大,如果我們可以small 這些數(shù)字,縮小到10甚至5這樣的scenario,cost就非常的小。 訓(xùn)練的時候只訓(xùn)練?右邊橙色的AB矩陣 那

    2024年02月05日
    瀏覽(26)
  • 邁向高效LLM微調(diào):低秩適應(yīng)(LoRA)技術(shù)的原理與實踐

    邁向高效LLM微調(diào):低秩適應(yīng)(LoRA)技術(shù)的原理與實踐

    在快速發(fā)展的人工智能領(lǐng)域中,以高效和有效的方式使用大型語言模型(LLM)變得越來越重要。在本文中,您將學(xué)習(xí)如何以計算高效的方式使用低秩適應(yīng)(LoRA)對LLM進行調(diào)整! 預(yù)訓(xùn)練的大型語言模型通常被視為基礎(chǔ)模型,原因很充分:它們在各種任務(wù)上表現(xiàn)良好,我們可以

    2024年01月16日
    瀏覽(34)
  • 【論文閱讀】大模型參數(shù)高效微調(diào)方式——LORA

    【論文閱讀】大模型參數(shù)高效微調(diào)方式——LORA

    本文成文于23年5月,當時的市場熱點正在從“超大模型訓(xùn)練到微調(diào)應(yīng)用”轉(zhuǎn)變。 一段話總結(jié): 面向大模型的全參數(shù)finetune 需要很高的計算消耗和存儲成本,學(xué)界開始探索參數(shù)高效的微調(diào)方法。LoRA就是其中的代表,他在原始的Transformer模型上插入少量的參數(shù),只訓(xùn)練增量的參

    2024年02月06日
    瀏覽(21)
  • 量化QAT QLoRA GPTQ

    量化QAT QLoRA GPTQ

    模型量化的思路可以分為PTQ(Post-Training Quantization,訓(xùn)練后量化)和QAT(Quantization Aware Training,在量化過程中進行梯度反傳更新權(quán)重,例如QLoRA),GPTQ是一種PTQ的思路。 BN需要先融合掉: 偽量化節(jié)點是根據(jù)融合圖來決定的 量化過程中不可導(dǎo)的部分是Round函數(shù),Hinton論文中把他

    2024年02月11日
    瀏覽(20)
  • 大模型微調(diào)技術(shù)LoRA與QLoRA

    大模型微調(diào)技術(shù)LoRA與QLoRA

    大模型的參數(shù)量都在100B級別,由于算力的吃緊,在這個基礎(chǔ)上進行所有參數(shù)的微調(diào)變得不可能。LoRA正是在這個背景下提出的解決方案。 雖然模型的參數(shù)眾多,但其實模型主要依賴低秩維度的內(nèi)容( low intrinsic dimension ),由此引出低秩自適應(yīng)方法lora,通過低秩分解來模擬參數(shù)的

    2024年02月11日
    瀏覽(31)
  • Phi-2小語言模型QLoRA微調(diào)教程

    Phi-2小語言模型QLoRA微調(diào)教程

    就在不久前,微軟正式發(fā)布了一個 27 億參數(shù)的語言模型——Phi-2。這是一種文本到文本的人工智能程序,具有出色的推理和語言理解能力。同時,微軟研究院也在官方 X 平臺上聲稱:“Phi-2 的性能優(yōu)于其他現(xiàn)有的小型語言模型,但它足夠小,可以在筆記本電腦或者移動設(shè)備上

    2024年01月16日
    瀏覽(23)
  • ChatGLM2-6B微調(diào)實踐-QLora方案

    ChatGLM2-6B微調(diào)實踐-QLora方案

    申請阿里云GPU服務(wù)器: CentOS 7.6 64 Anaconda3-2023.07-1-Linux-x86_64 Python 3.11.5 GPU NVIDIA A10(顯存24 G/1 core) CPU 8 vCore/30G 安裝Anaconda、CUDA、PyTorch 參考:ChatGLM2-6B微調(diào)實踐-P-Tuning方案 項目部署 準備數(shù)據(jù)集 準備我們自己的數(shù)據(jù)集,分別生成訓(xùn)練文件和測試文件這兩個文件,放在項目dat

    2024年02月07日
    瀏覽(31)
  • LLMs之ChatGLM2:ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-t

    LLMs之ChatGLM2:ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-tuning v2)、模型評估和推理之圖文教程之詳細攻略 目錄 一、配置基礎(chǔ)環(huán)境及其注意事項 第一步、檢測軟硬件環(huán)境

    2024年02月07日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包