介紹
ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù),針對中文問答和對話進行了優(yōu)化。經(jīng)過約 1T 標識符的中英雙語訓(xùn)練,輔以監(jiān)督微調(diào)、反饋自助、人類反饋強化學(xué)習(xí)等技術(shù)的加持,62 億參數(shù)的 ChatGLM-6B 已經(jīng)能生成相當符合人類偏好的回答
為了方便下游開發(fā)者針對自己的應(yīng)用場景定制模型,我們同時實現(xiàn)了基于 P-Tuning v2 的高效參數(shù)微調(diào)方法 (使用指南) ,INT4 量化級別下最低只需 7GB 顯存即可啟動微調(diào)。
硬件需求
量化等級 | 最低 GPU 顯存(推理) | 最低 GPU 顯存(高效參數(shù)微調(diào)) |
---|---|---|
FP16(無量化) | 13 GB | 14 GB |
INT8 | 8 GB | 9 GB |
INT4 | 6 GB | 7 GB |
CPU 部署
如果你沒有 GPU 硬件的話,也可以在 CPU 上進行推理,但是推理速度會更慢。使用方法如下(需要大概 32GB 內(nèi)存)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).float()
如果你的內(nèi)存不足,可以直接加載量化后的模型:
# INT8 量化的模型將"THUDM/chatglm-6b-int4"改為"THUDM/chatglm-6b-int8"
model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4",trust_remote_code=True).float()
截圖
文章來源:http://www.zghlxwxcb.cn/news/detail-657564.html
地址
ChatGLM-6B文章來源地址http://www.zghlxwxcb.cn/news/detail-657564.html
到了這里,關(guān)于中英雙語對話大語言模型:ChatGLM-6B的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!