雖然 Meta 的 Llama2 在 AI 領(lǐng)域引起了廣泛關(guān)注,但 34b 模型卻缺席了相當(dāng)長(zhǎng)一段時(shí)間。對(duì)于許多人來(lái)說(shuō),這個(gè) 34b 模型是運(yùn)行本地 LLM 的理想選擇,因?yàn)樗c使用 4 位量化的單個(gè) 4090 GPU 兼容。我一直在熱切地等待 Meta 發(fā)布這個(gè)特定的模型。幸運(yùn)的是,Meta 最近推出了 CodeLlama,這是一個(gè)針對(duì)編碼相關(guān)任務(wù)訓(xùn)練的專門(mén)模型。然而,根據(jù)他們的論文,由于原始 Llama2 模型是在 2t 個(gè)令牌上訓(xùn)練的,因此它在原始 Llama2 的 34b 個(gè)令牌上額外訓(xùn)練了 500b 個(gè)令牌。Codellama 僅在訓(xùn)練期間添加了額外的 500b 令牌,并且從概念上講將針對(duì)各種下游領(lǐng)域進(jìn)行進(jìn)一步微調(diào)。
在這篇博文中,我將引導(dǎo)您完成微調(diào) CodeLlama 34B 模型的完整過(guò)程。培訓(xùn)結(jié)束后,我將指導(dǎo)您如何量化模型并使用 Huggingface 的文本生成推理框架進(jìn)行部署。
QLora 代碼Llama 34B
合并適配器
完成微調(diào)過(guò)程后,最好將適配器合并回基本模型。由于涉及額外的參數(shù)和計(jì)算,直接在適配器上運(yùn)行推理可能會(huì)導(dǎo)致性能降低。
您可以使用以下腳本在CP??U上合并適配器以避免OOM: https: //gist.github.com/mzbac/16b0f4289059d18b8ed34345ae1ab168文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-724961.html
python merge_peft_adapters.py - device cpu - base_model_name_or_path codellama/CodeLlama-34b-hf - peft_model_path ./results_new/final_checkpoint - output_dir ./merged_models/
量化
在當(dāng)?shù)氐姆▽W(xué)碩士社區(qū)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-724961.html
到了這里,關(guān)于Code Llama系列教程之 微調(diào) CodeLlama 34B 以進(jìn)行聊天(打造自己的代碼AI)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!