轉(zhuǎn)載請(qǐng)注明出處:https://www.cnblogs.com/zhiyong-ITNote文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-841215.html
參考現(xiàn)有的中文醫(yī)療模型:MedicalGPT、CareGPT等領(lǐng)域模型的訓(xùn)練流程,結(jié)合ChatGPT的訓(xùn)練流程,總結(jié)如下:
在預(yù)訓(xùn)練階段,模型會(huì)從大量無(wú)標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)領(lǐng)域/通用知識(shí);其次使用{有監(jiān)督微調(diào)}(SFT)優(yōu)化模型以更好地遵守特定指令;最后使用對(duì)齊技術(shù)使LLM更有用更安全的響應(yīng)用戶的提示。
訓(xùn)練流程的四個(gè)階段,分別如下:
- 預(yù)訓(xùn)練(pre-training,pt),基于基座模型,經(jīng)過(guò)海量中文醫(yī)療預(yù)料訓(xùn)練,得到領(lǐng)域適配的ChatGLM-6B。
- 監(jiān)督微調(diào)(supervised finetuning,sft),通過(guò)在線問(wèn)診等數(shù)據(jù),構(gòu)建訓(xùn)練數(shù)據(jù)完成指令微調(diào)。
- RM模型構(gòu)建(reward modeling, rm),人工對(duì)預(yù)測(cè)答案排序,訓(xùn)練一個(gè)打分模型
- 強(qiáng)化學(xué)習(xí)階段(reinforcement learning, rl),基于PPO算法,采用RL的方式,完成fine-tuned ChatGLM-6B模型的優(yōu)化。
預(yù)訓(xùn)練階段-PT
該階段的訓(xùn)練數(shù)據(jù)格式如下。對(duì)應(yīng)是非結(jié)構(gòu)化的自然語(yǔ)言文本,通過(guò)設(shè)定max_seq_len和block_size等方式,實(shí)現(xiàn)文本數(shù)據(jù)的chunk,batch化,作為模型的訓(xùn)練數(shù)據(jù),處理完的單條數(shù)據(jù)包含input_ids,attention_mask和labels;訓(xùn)練的目標(biāo)是模型需要根據(jù)提供的文本來(lái)預(yù)測(cè) 下一個(gè)單詞。
監(jiān)督微調(diào)階段-SFT
該階段的訓(xùn)練數(shù)據(jù)格式如下。一般對(duì)應(yīng)的結(jié)構(gòu)采用instruction/input/output/history,根據(jù)不同的場(chǎng)景,input與history可以做缺省處理。但是需要人工標(biāo)注的指令數(shù)據(jù)集。
對(duì)齊
該階段的主要目標(biāo)是將語(yǔ)言模型喻人類的偏好、價(jià)值觀進(jìn)行對(duì)齊,這也是RHLF機(jī)制的作用。
RLHF主要包括兩步:
- 基于有監(jiān)督微調(diào)模型基礎(chǔ)上創(chuàng)建一個(gè)reward model(RM)模型;
- 基于RM模型使用PPO/DPO算法微調(diào)SFT模型,返回最佳response。
獎(jiǎng)勵(lì)模型-RM
該階段是RHLF的第一個(gè)階段,訓(xùn)練得到一個(gè)rm模型用于rl階段的模型打分,其結(jié)構(gòu)格式如下:
有多種格式的數(shù)據(jù),可自己選擇,但需要程序做額外的處理,且這些數(shù)據(jù)都是人工標(biāo)注好的。
強(qiáng)化學(xué)習(xí)-RL
該階段是RHLF的第二個(gè)階段,也是核心部分,用于優(yōu)化一個(gè)RM模型,并完成打分。數(shù)據(jù)格式同SFT。一般在此階段會(huì)使用特定的算法(DPO/PPO)來(lái)實(shí)現(xiàn);引導(dǎo)優(yōu)化后的大模型生成更符合人類偏好的內(nèi)容。
總結(jié)
對(duì)于模型的微調(diào),一開(kāi)始我是想的太簡(jiǎn)單了,覺(jué)得只要按照基座官方模型文檔調(diào)試即可;隨著了解的深入與不斷的學(xué)習(xí),微調(diào)是個(gè)大工程而且對(duì)于領(lǐng)域模型來(lái)說(shuō),其訓(xùn)練流程:預(yù)訓(xùn)練 --> 監(jiān)督微調(diào) --> RHLF 中包含的事項(xiàng)與知識(shí)太多。
參考:【中文醫(yī)療大模型】訓(xùn)練全流程源碼剖析
轉(zhuǎn)載請(qǐng)注明出處:https://www.cnblogs.com/zhiyong-ITNote
首發(fā)于個(gè)人公眾號(hào)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-841215.html
到了這里,關(guān)于聊聊大模型微調(diào)訓(xùn)練全流程的思考的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!