摘要:
量化方案基于AutoGPTQ,提供了Int4量化模型,其中包括Qwen-7B-Chat和Qwen-14B-Chat。更新承諾在模型評(píng)估效果幾乎沒有損失的情況下,降低存儲(chǔ)要求并提高推理速度。量化是指將模型權(quán)重和激活的精度降低以節(jié)省存儲(chǔ)空間并提高推理速度的過程。AutoGPTQ是一種專有量化工具。Int4是指4位整數(shù)量化,與傳統(tǒng)的8位量化相比,可以進(jìn)一步減少存儲(chǔ)要求。
如何使用Int4量化模型
在開始使用前,請(qǐng)先保證滿足要求(如torch 2.0及以上,transformers版本為4.32.0及以上,等等),并安裝所需安裝包:
pip install auto-gptq optimum
?【Auto-GPT 】
AutoGPTQ將能夠作為一個(gè)可擴(kuò)展、靈活的量化后端,支持所有類似GPTQ的方法,并自動(dòng)量化由Pytorch編寫的LLM。說白了就是讓模型能夠輕量化。文章來源:http://www.zghlxwxcb.cn/news/detail-716379.html
┏ (゜ω゜)=??傳送門==>GitHub - PanQiWei/AutoGPTQ: An easy-to-use LLMs quantization packa文章來源地址http://www.zghlxwxcb.cn/news/detail-716379.html
到了這里,關(guān)于【通義千問】大模型Qwen GitHub開源工程學(xué)習(xí)筆記(4)-- 模型的量化與離線部署的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!