介紹
大語言模型的一般訓(xùn)練過程(3步):1、預(yù)訓(xùn)練學(xué)知識,2、指令微調(diào)學(xué)格式,3、強化學(xué)習(xí)對齊人類偏好
預(yù)訓(xùn)練
所以要想大模型有領(lǐng)域知識,得增量預(yù)訓(xùn)練(靠指令微調(diào)記知識不靠譜,不是幾十w條數(shù)據(jù)能做到的)
1. 準(zhǔn)備工作
準(zhǔn)備基座模型->收集數(shù)據(jù)->數(shù)據(jù)清洗
2. 增量預(yù)訓(xùn)練所用訓(xùn)練框架
超大規(guī)模訓(xùn)練:選用 3D 并行,Megatron-Deepspeed擁有多個成功案例
少量節(jié)點訓(xùn)練:選用張量并行,但張量并行只有在 nvlink 環(huán)境下才會起正向作用,但提升也不會太明顯。
少量卡訓(xùn)練:如果資源特別少,顯存怎么也不夠,可以使用 LoRA 進行增量預(yù)訓(xùn)練。
3. 增量預(yù)訓(xùn)練
先用大規(guī)模通用語料預(yù)訓(xùn)練,再用小規(guī)模領(lǐng)域語料二次訓(xùn)練
直接進行大規(guī)模領(lǐng)域語料預(yù)訓(xùn)練
通用語料比例混合領(lǐng)域語料同時訓(xùn)練文章來源:http://www.zghlxwxcb.cn/news/detail-854484.html
4. 流程
數(shù)據(jù)預(yù)處理:參考 LLaMA 的預(yù)訓(xùn)練長度,也把數(shù)據(jù)處理成2048長度(如果不夠,做補全)。
分詞器:如果使用 LLaMA 可能需要添加中文詞表,目前有不少人做了相關(guān)工作,當(dāng)然也可以自己添加自己需要的詞表。
原始模型:各家框架的模型層名不太一樣,訓(xùn)練時可能需要做一些調(diào)整,在預(yù)訓(xùn)練時盡量選擇基座模型,不選 Chat 模型。
訓(xùn)練模型:跑通只是第一步,根據(jù)訓(xùn)練情況反復(fù)調(diào)整比較重要。
模型轉(zhuǎn)換:不同框架的checkpoint格式不同,還會根據(jù)并行度分成很多個文件。
模型測試:簡單測試下續(xù)寫能力,驗證下模型是否正常。文章來源地址http://www.zghlxwxcb.cn/news/detail-854484.html
到了這里,關(guān)于大模型之一:大語言模型預(yù)訓(xùn)練的過程的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!