?Datawhale論文?
來源:WhalePaper,負(fù)責(zé)人:芙蕖
WhalePaper簡(jiǎn)介
由Datawhale團(tuán)隊(duì)成員發(fā)起,對(duì)目前學(xué)術(shù)論文中比較成熟的 Topic 和開源方案進(jìn)行分享,通過一起閱讀、分享論文學(xué)習(xí)的方式幫助大家更好地“高效+全面+自律”學(xué)習(xí),讓大家都有所收獲和提升!方向包括自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)、推薦(Res)等相關(guān)方向的論文解讀和分享,后續(xù)將融入更多的方向。
開源地址:https://datawhalechina.github.io/whale-paper
本期活動(dòng)
嘉賓簡(jiǎn)介
孫偉高現(xiàn)為上海人工智能實(shí)驗(yàn)室算法研究員,從事分布式訓(xùn)練算法與高效大語言模型建模的相關(guān)研究。在此之前,曾在2020至2022年間工作于華為圖靈架構(gòu)與設(shè)計(jì)部靈犀實(shí)驗(yàn)室,擔(dān)任AI算法研究員,負(fù)責(zé)高效分布式訓(xùn)練算法的研究與落地。其于2020年博士畢業(yè)于華中科技大學(xué)人工智能與自動(dòng)化學(xué)院,博士期間的主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、凸/非凸優(yōu)化及其工業(yè)應(yīng)用等。其在國際頂級(jí)會(huì)議和權(quán)威期刊發(fā)表多篇論文,包括ICLR、RAL、IJCAI、IEEE Trans等,并擁有多項(xiàng)中美專利。
分享詳情
論文題目:Linear Attention Sequence Parallelism
聯(lián)合分享:OpenNLPLab
分享方向:大語言模型分布式訓(xùn)練
論文簡(jiǎn)介:
本文介紹了一種名為L(zhǎng)inear Attention Sequence Parallel(LASP)的高效序列并行(SP)方法,專門針對(duì)基于線性注意力的高效大語言模型設(shè)計(jì)。傳統(tǒng)的SP方法未能充分利用線性注意力特性,導(dǎo)致并行效率和可用性不佳。為此,作者設(shè)計(jì)了一種高效的點(diǎn)對(duì)點(diǎn)通信機(jī)制,利用線性注意力的右乘核技巧,大大降低了SP的通信開銷。此外,作者通過進(jìn)行內(nèi)核融合和中間狀態(tài)緩存來提高LASP的實(shí)際執(zhí)行效率,使其在GPU集群上的實(shí)現(xiàn)更加硬件友好。另外,作者還確保了LASP序列并行與各種(切片)數(shù)據(jù)并行方法(比如DDP、FSDP、ZeRO系列)的兼容性,這對(duì)于在具有長(zhǎng)序列和大批次的大型集群上進(jìn)行分布式訓(xùn)練至關(guān)重要。作者在兩種基于線性注意力的模型上進(jìn)行了大規(guī)模實(shí)驗(yàn),結(jié)果表明在128個(gè)A100 80G GPU與1B模型上,LASP可將序列長(zhǎng)度擴(kuò)展至4096K即4M,比現(xiàn)有SP方法長(zhǎng)8倍且速度提升顯著。
具體細(xì)節(jié):
極長(zhǎng)序列、極快速度:面向新一代高效大語言模型的LASP序列并行
論文地址:https://arxiv.org/abs/2404.02882
分享時(shí)間:2024年4月24日(周三)19點(diǎn)
本場(chǎng)分享會(huì)在視頻號(hào)、b站同步直播
進(jìn)群參與
群滿在公眾號(hào)后臺(tái)回復(fù)“paper”
文章來源:http://www.zghlxwxcb.cn/news/detail-856238.html
一起“點(diǎn)贊”三連↓文章來源地址http://www.zghlxwxcb.cn/news/detail-856238.html
到了這里,關(guān)于帶你讀論文第十一期:上海人工智能實(shí)驗(yàn)室孫偉高博士,分享大模型分布式訓(xùn)練方法!...的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!