介紹
ChatGLM-6B是開(kāi)源的文本生成式對(duì)話模型,基于General Language Model(GLM)框架,具有62億參數(shù),結(jié)合模型蒸餾技術(shù),實(shí)測(cè)在2080ti顯卡訓(xùn)練中上(INT4)顯存占用6G左右,
優(yōu)點(diǎn):1.較低的部署門檻: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的顯存進(jìn)行推理,結(jié)合模型量化技術(shù),一需求可以進(jìn)一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消費(fèi)級(jí)顯卡上。
2,更長(zhǎng)的序列長(zhǎng)度: 相比 GLM-10B(序列長(zhǎng)度1024),ChatGLM2-6B 序列長(zhǎng)度達(dá)32K,支持更長(zhǎng)對(duì)話和應(yīng)用。
3,人類意圖對(duì)齊訓(xùn)練: 使用了監(jiān)督微調(diào)(Supervised Fine-Tuning)、反饋?zhàn)灾‵eedback Bootstrap)、人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback) 等方式,使模型初具理解人類指令意圖的能力。輸出格式為 markdown,方便展示。目前已開(kāi)源監(jiān)督微調(diào)方法,
不足:1,模型容量較小: 6B 的小容量,決定了其相對(duì)較弱的模型記憶和語(yǔ)言能力,隨著自己訓(xùn)練數(shù)據(jù)數(shù)量和輪次增加,會(huì)逐步喪失原來(lái)的對(duì)話能力,智譜ai于魁飛博士給的訓(xùn)練數(shù)據(jù)再好在1000條左右。
2,較弱的多輪對(duì)話能力:ChatGLM-6B 的上下文理解能力還不夠充分,在面對(duì)長(zhǎng)答案生成,以及多輪對(duì)話的場(chǎng)景時(shí),可能會(huì)出現(xiàn)上下文丟失和理解錯(cuò)誤的情況。解決方式:外掛知識(shí)庫(kù)的形式,例如ChatGLM-6B 結(jié)合 langchain 實(shí)現(xiàn)本地知識(shí)庫(kù)link
3,訓(xùn)練完自己的數(shù)據(jù)后,遺忘掉之前對(duì)話的能力,出現(xiàn)災(zāi)難性遺忘,解決辦法在自己專業(yè)領(lǐng)域數(shù)據(jù)上可以加入通用開(kāi)源的對(duì)話微調(diào)數(shù)據(jù)集一起訓(xùn)練,
制作不易,收藏關(guān)注哈,一起交流…
1,安裝
1.1,ChatGLM2-6B官方開(kāi)源的訓(xùn)練方式基于P-Tuning v2微調(diào),
鏈接: git_link
基于QLoRA
鏈接: git_link
1.2,ChatGLM-6B基于P-Tuning v2微調(diào),
鏈接: git_link
兩個(gè)版本區(qū)別,文章末尾介紹
以下ChatGLM2-6B微調(diào)步驟
下載ChatGLM2-6B
git clone https://github.com/THUDM/ChatGLM2-6B
cd ChatGLM2-6B
pip install -r requirements.txt
cd ptuning/
pip install rouge_chinese nltk jieba datasets
2, 使用自己數(shù)據(jù)集
2.1 構(gòu)建自己的數(shù)據(jù)集
樣例數(shù)據(jù)下載鏈接
鏈接: Dataset
將自己的數(shù)據(jù)集換成以下格式
{
"content": "類型#上衣*版型#寬松*版型#顯瘦*圖案#線條*衣樣式#襯衫*衣袖型#泡泡袖*衣款式#抽繩",
"summary": "這件襯衫的款式非常的寬松,利落的線條可以很好的隱藏身材上的小缺點(diǎn),穿在身上有著很好的顯瘦效果。領(lǐng)口裝飾了一個(gè)可愛(ài)的抽繩,漂亮的繩結(jié)展現(xiàn)出了十足的個(gè)性,配合時(shí)尚的泡泡袖型,盡顯女性甜美可愛(ài)的氣息。"
}
解釋:構(gòu)建數(shù)據(jù)集是一個(gè) JSON 格式文件,其中一個(gè)列表中包含多個(gè)字典
{ “content”: “問(wèn)句1”,
“summary”: "答案1“}
{ “content”: “問(wèn)句1”,
“summary”: "答案1“}
{…}
2.2 修改 train.sh 和 evaluate.sh
修改 train.sh 和 evaluate.sh 中的 train_file、validation_file和test_file為你自己的 JSON 格式數(shù)據(jù)集路徑,并將 prompt_column 和 response_column 改為 JSON 文件中輸入文本和輸出文本對(duì)應(yīng)的 KEY。
我修改的train.sh示例如下:
## 切記如果粘貼我的這個(gè)示例代碼,請(qǐng)刪除注釋
PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=2 # 雙卡
torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
--do_train \
--train_file di/train.json \ # 訓(xùn)練文件地址
--validation_file di/fval.json \ # 驗(yàn)證文件地址
--prompt_column content \ # 訓(xùn)練集中prompt名稱
--response_column summary \ # 訓(xùn)練集中答案明細(xì)
--overwrite_cache \ # 重復(fù)訓(xùn)練一個(gè)訓(xùn)練集時(shí)候可刪除
--model_name_or_path THUDM/chatglm-6b \ # 加載模型文件地址,可修改為本地路徑,第五章講怎么找
--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存訓(xùn)練模型文件地址
--overwrite_output_dir \
--max_source_length 64 \ # 最大輸入文本的長(zhǎng)度
--max_target_length 128 \
--per_device_train_batch_size 1 \ # batch_size 根據(jù)顯存調(diào)節(jié)
--per_device_eval_batch_size 1 \
--gradient_accumulation_steps 16 \
--predict_with_generate \
--max_steps 2000 \ # 最大保存模型的步數(shù)
--logging_steps 10 \ # 打印日志間隔
--save_steps 500 \ # 多少部保存一次模型
--learning_rate $LR \
--pre_seq_len $PRE_SEQ_LEN \
--quantization_bit 4 # 可修改為int8
參數(shù)具體解釋
train.sh 中的 PRE_SEQ_LEN 和 LR 分別是 soft prompt 長(zhǎng)度和訓(xùn)練的學(xué)習(xí)率,可以進(jìn)行調(diào)節(jié)以取得最佳的效果。
P-Tuning-v2 方法會(huì)凍結(jié)全部的模型參數(shù),可通過(guò)調(diào)整 quantization_bit 來(lái)被原始模型的量化等級(jí),不加此選項(xiàng)則為 FP16 精度加載。
在默認(rèn)配置 quantization_bit=4、per_device_train_batch_size=1、gradient_accumulation_steps=16 下,INT4 的模型參數(shù)被凍結(jié),一次訓(xùn)練迭代會(huì)以 1 的批處理大小進(jìn)行 16 次累加的前后向傳播,等效為 16 的總批處理大小,此時(shí)最低只需 6.7G 顯存。若想在同等批處理大小下提升訓(xùn)練效率,可在二者乘積不變的情況下,加大 per_device_train_batch_size 的值,但也會(huì)帶來(lái)更多的顯存消耗,請(qǐng)根據(jù)實(shí)際情況酌情調(diào)整。
2.3,開(kāi)始訓(xùn)練
bash train.sh
示例:兩個(gè)顯卡分別占用8.3G顯存
3,驗(yàn)證模型
將 evaluate.sh 中的 CHECKPOINT 更改為訓(xùn)練時(shí)保存的 checkpoint 名稱,運(yùn)行以下指令進(jìn)行模型推理和評(píng)測(cè):
bash evaluate.sh
4,模型部署
3.1 自己驗(yàn)證 ,更換模型路徑
將對(duì)應(yīng)的demo或代碼中的THUDM/chatglm2-6b換成經(jīng)過(guò) P-Tuning 微調(diào)之后 checkpoint 的地址(在示例中為 ./output/adgen-chatglm-6b-pt-8-1e-2/checkpoint-3000)。注意,目前的微調(diào)還不支持多輪數(shù)據(jù),所以只有對(duì)話第一輪的回復(fù)是經(jīng)過(guò)微調(diào)的。
在 P-tuning v2 訓(xùn)練時(shí)模型只保存 PrefixEncoder 部分的參數(shù),所以在推理時(shí)需要同時(shí)加載原 ChatGLM-6B 模型以及 PrefixEncoder 的權(quán)重,因此需要指定 evaluate.sh 中的參數(shù):
首先載入Tokenizer:
from transformers import AutoConfig, AutoModel, AutoTokenizer
# 載入Tokenizer
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
如果需要加載的 P-Tuning 的 checkpoint:
config = AutoConfig.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True, pre_seq_len=128)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", config=config, trust_remote_code=True)
prefix_state_dict = torch.load(os.path.join(CHECKPOINT_PATH, "pytorch_model.bin"))
new_prefix_state_dict = {}
for k, v in prefix_state_dict.items():
if k.startswith("transformer.prefix_encoder."):
new_prefix_state_dict[k[len("transformer.prefix_encoder."):]] = v
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict)
# Comment out the following line if you don't use quantization
model = model.quantize(4) #或者8
model = model.half().cuda()
model.transformer.prefix_encoder.float()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
你也可以直接運(yùn)行支持加載 P-Tuning v2 checkpoint 的 web demo
bash web_demo.sh
可能需要修改 web_demo.sh 的內(nèi)容以符合你實(shí)際的 checkpoint 情況。
5,預(yù)訓(xùn)練模型地址一般存放位置在本機(jī)
本章第二步執(zhí)行bash train.sh,終端會(huì)打印出模型加載的位置,找到位置后替換
一般存放的位置是
.cache/huggingface/hub/models–THUDM–chatglm-6b/snapshots/aa51e62ddc9c9f334858b0af44cf59b05c70148a/
查看包含這些目錄
config.json configuration_chatglm.py modeling_chatglm.py pytorch_model.bin quantization.py
替換掉 demo.py 文件中THUDM/chatglm-6b為自己路徑
6 如需要使用多輪對(duì)話數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),可以提供聊天歷史,例如以下是一個(gè)三輪對(duì)話的訓(xùn)練數(shù)據(jù):
{"prompt": "長(zhǎng)城h3風(fēng)扇不轉(zhuǎn)。繼電器好的。保險(xiǎn)絲好的傳感器新的風(fēng)扇也新的這是為什么。就是繼電器缺一個(gè)信號(hào)線", "response": "用電腦能讀數(shù)據(jù)流嗎?水溫多少", "history": []}
{"prompt": "95", "response": "上下水管溫差怎么樣???空氣是不是都排干凈了呢?", "history": [["長(zhǎng)城h3風(fēng)扇不轉(zhuǎn)。繼電器好的。保險(xiǎn)絲好的傳感器新的風(fēng)扇也新的這是為什么。就是繼電器缺一個(gè)信號(hào)線", "用電腦能讀數(shù)據(jù)流嗎?水溫多少"]]}
{"prompt": "是的。上下水管都好的", "response": "那就要檢查線路了,一般風(fēng)扇繼電器是由電腦控制吸合的,如果電路存在斷路,或者電腦壞了的話會(huì)出現(xiàn)繼電器不吸合的情況!", "history": [["長(zhǎng)城h3風(fēng)扇不轉(zhuǎn)。繼電器好的。保險(xiǎn)絲好的傳感器新的風(fēng)扇也新的這是為什么。就是繼電器缺一個(gè)信號(hào)線", "用電腦能讀數(shù)據(jù)流嗎?水溫多少"], ["95", "上下水管溫差怎么樣???空氣是不是都排干凈了呢?"]]}
訓(xùn)練時(shí)需要指定 --history_column 為數(shù)據(jù)中聊天歷史的 key(在此例子中是 history),將自動(dòng)把聊天歷史拼接。要注意超過(guò)輸入長(zhǎng)度 max_source_length 的內(nèi)容會(huì)被截?cái)唷?/p>
可以參考以下指令:
bash train_chat.sh
7,遇到的問(wèn)題和解決辦法
7.1,出現(xiàn)一個(gè)問(wèn)題了。 RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.
訓(xùn)練的時(shí)候
估計(jì)transforms版本,我也遇到了,我回退到transformers==4.27.1 就可以了
7.2 ,問(wèn)題:ValueError: Unable to create tensor, you should probably activate truncation and/or padding with ‘padding=True’ ‘truncation=True’ to have batched tensors with the same length. Perhaps your features 。。
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 16858) of binary
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
解決方式
顯存不夠,調(diào)小batch_size顯存就可以了
8,ChatGLM2-6B和ChatGLM-6B區(qū)別
ChatGLM2-6B 是開(kāi)源中英雙語(yǔ)對(duì)話模型 ChatGLM-6B 的第二代版本,在保留了初代模型對(duì)話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上,ChatGLM2-6B 引入了如下新特性:
更強(qiáng)大的性能:基于 ChatGLM 初代模型的開(kāi)發(fā)經(jīng)驗(yàn),我們?nèi)嫔?jí)了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目標(biāo)函數(shù),經(jīng)過(guò)了 1.4T 中英標(biāo)識(shí)符的預(yù)訓(xùn)練與人類偏好對(duì)齊訓(xùn)練,評(píng)測(cè)結(jié)果顯示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等數(shù)據(jù)集上的性能取得了大幅度的提升,在同尺寸開(kāi)源模型中具有較強(qiáng)的競(jìng)爭(zhēng)力。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-523558.html
更長(zhǎng)的上下文:基于 FlashAttention 技術(shù),我們將基座模型的上下文長(zhǎng)度(Context Length)由 ChatGLM-6B 的 2K 擴(kuò)展到了 32K,并在對(duì)話階段使用 8K 的上下文長(zhǎng)度訓(xùn)練,允許更多輪次的對(duì)話。但當(dāng)前版本的 ChatGLM2-6B 對(duì)單輪超長(zhǎng)文檔的理解能力有限,我們會(huì)在后續(xù)迭代升級(jí)中著重進(jìn)行優(yōu)化。
更高效的推理:基于 Multi-Query Attention 技術(shù),ChatGLM2-6B 有更高效的推理速度和更低的顯存占用:在官方的模型實(shí)現(xiàn)下,推理速度相比初代提升了 42%,INT4 量化下,6G 顯存支持的對(duì)話長(zhǎng)度由 1K 提升到了 8K。
更開(kāi)放的協(xié)議:ChatGLM2-6B 權(quán)重對(duì)學(xué)術(shù)研究完全開(kāi)放,在獲得官方的書(shū)面許可后,亦允許商業(yè)使用。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-523558.html
到了這里,關(guān)于ChatGLM2-6B、ChatGLM-6B 模型介紹及訓(xùn)練自己數(shù)據(jù)集實(shí)戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!