大模型學(xué)習(xí)筆記08——分布式訓(xùn)練
模型規(guī)模的擴(kuò)大,對(duì)硬件(算力、內(nèi)存)的發(fā)展提出要求。然而,因?yàn)閮?nèi)存墻的存在,單一設(shè)備的算力及容量,受限于物理定律,持續(xù)提高芯片的集成越來越困難,難以跟上模型擴(kuò)大的需求。
為了解決算力增速不足的問題,人們考慮用多節(jié)點(diǎn)集群進(jìn)行分布式訓(xùn)練,以提升算力,分布式訓(xùn)練勢(shì)在必行文章來源:http://www.zghlxwxcb.cn/news/detail-816837.html
1、常見的并行策略
- 數(shù)據(jù)并行:將數(shù)據(jù)切分為多份分發(fā)到每個(gè)設(shè)備上,每個(gè)設(shè)備上擁有完整的模型參數(shù),將所有設(shè)備的結(jié)果拼接則為完整的輸出
- 模型并行:每個(gè)設(shè)備上的數(shù)據(jù)是完整并一致的,每個(gè)設(shè)備僅有模型的一部分
- 流水線并行:將網(wǎng)絡(luò)切為多個(gè)階段并分發(fā)到不同的設(shè)備上,讓完整的數(shù)據(jù)按順序途徑所有的設(shè)備完成計(jì)算
- 混合并行:流水線并行、數(shù)據(jù)并行與模型并行都有使用
注
學(xué)習(xí)內(nèi)容來源:添加鏈接描述文章來源地址http://www.zghlxwxcb.cn/news/detail-816837.html
到了這里,關(guān)于大模型學(xué)習(xí)筆記08——分布式訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!