国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Pytorch 分布式并行DDP 卡死掛起

2年前作者：馬圈圈馬分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Pytorch 分布式并行DDP 卡死掛起。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

問(wèn)題描述：

1、使用A30顯卡，使用分布式并行Distributed Data Parallel，運(yùn)行程序時(shí)顯卡顯存充滿，卡在設(shè)置local_rank處，并未啟動(dòng)進(jìn)程組
2、如圖：
Pytorch 分布式并行DDP 卡死掛起

解決方案：

0、最新解決方案，針對(duì)Supermicro主板：BIOS->Advanced->NB Configuration->IOMMU->Disabled
Pytorch 分布式并行DDP 卡死掛起
==其它型號(hào)的主板的BIOS可能還需要禁用ACS：
https://zhuanlan.zhihu.com/p/607203976
https://www.supermicro.com/support/faqs/faq.cfm?faq=20264
https://www.supermicro.com/support/faqs/faq.cfm?faq=22226
后面的1-4可不看了~

1、更換后端為“Gloo”，正常執(zhí)行shell命令運(yùn)行程序。

torch.distributed.init_process_group(backend="Gloo")

python -m torch.distributed.launch --nproc_per_node=7 --master_port 8888 main.py

2、仍舊使用“NCCL”后端，但需要更改環(huán)境變量，在shell命令前加入禁用P2P。

torch.distributed.init_process_group(backend="NCCL")

NCCL_P2P_DISABLE=1 python -m torch.distributed.launch --nproc_per_node=7 --master_port 8888 main.py

3、仍舊使用“NCCL”后端，但需要更改環(huán)境變量，永久更改環(huán)境設(shè)置，正常執(zhí)行shell命令運(yùn)行程序。

torch.distributed.init_process_group(backend="NCCL")

vim ~/.bashrc
export NCCL_P2P_DISABLE=1
source ~/.bashrc.

python -m torch.distributed.launch --nproc_per_node=7 --master_port 8888 main.py

4、建議使用第3個(gè)方案，據(jù)我測(cè)試，Gloo后端沒(méi)有NCCL后端通信速度快，程序運(yùn)行速度NCCL較快。另外，每次加上修改環(huán)境變量的命令也挺煩的，修改bash環(huán)境變量一勞永逸。

bug分析：

NCCL_P2P_DISABLE=1將禁用GPU之間直接通信（如使用NVlink或者PCIe），鑒于NVDIA官網(wǎng)顯示A30支持NVlink或者PCIe，因此判斷可能是硬件故障或者是軟件版本不匹配導(dǎo)致P2P通信受阻，使得進(jìn)程阻塞，程序掛起。

參考：

1：https://zhuanlan.zhihu.com/p/60054075
2：https://github.com/pytorch/pytorch/issues/23074文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-413937.html

到了這里，關(guān)于Pytorch 分布式并行DDP 卡死掛起的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【深入了解PyTorch】PyTorch分布式訓(xùn)練：多GPU、數(shù)據(jù)并行與模型并行
在深度學(xué)習(xí)領(lǐng)域，模型的復(fù)雜性和數(shù)據(jù)集的巨大規(guī)模使得訓(xùn)練過(guò)程變得極具挑戰(zhàn)性。為了加速訓(xùn)練過(guò)程，利用多個(gè)GPU進(jìn)行并行計(jì)算是一種常見(jiàn)的方法。PyTorch作為一種流行的深度學(xué)習(xí)框架，提供了強(qiáng)大的分布式訓(xùn)練工具，使得多GPU、數(shù)據(jù)并行和模型并行等技術(shù)變得更加容易實(shí)現(xiàn)
2024年02月12日
瀏覽(25)
分布式云計(jì)算與分布式并行計(jì)算研究綜述
In this paper, we present a discussion panel of two of the hottest topics in this area namely distributed parallel processing and distributed cloud computing. Various aspects have been discussed in this review paper such as concentrating on whether these topics are discussed simultaneously in any previous works. Other aspects that have been reviewed in this
2024年02月01日
瀏覽(41)
分布式深度學(xué)習(xí)中的數(shù)據(jù)并行和模型并行
??個(gè)人主頁(yè)： https://zhangxiaoshu.blog.csdn.net ??歡迎大家：關(guān)注??+點(diǎn)贊??+評(píng)論??+收藏??，如有錯(cuò)誤敬請(qǐng)指正! ??未來(lái)很長(zhǎng)，值得我們?nèi)Ρ几案篮玫纳睿?對(duì)于深度學(xué)習(xí)模型的預(yù)訓(xùn)練階段，海量的訓(xùn)練數(shù)據(jù)、超大規(guī)模的模型給深度學(xué)習(xí)帶來(lái)了日益嚴(yán)峻的挑戰(zhàn)，因此，經(jīng)
2024年01月24日
瀏覽(27)
用通俗易懂的方式講解大模型分布式訓(xùn)練并行技術(shù)：MOE并行
前面的文章中講述了數(shù)據(jù)并行、流水線并行、張量并行、序列并行、自動(dòng)并行等多種并行技術(shù)。但現(xiàn)在的模型越來(lái)越大，訓(xùn)練樣本越來(lái)越多，每個(gè)樣本都需要經(jīng)過(guò)模型的全部計(jì)算，這就導(dǎo)致了訓(xùn)練成本的平方級(jí)增長(zhǎng)。而當(dāng)我們希望在犧牲極少的計(jì)算效率的情況下，把模型規(guī)模
2024年02月02日
瀏覽(29)
mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練
后面的不用看了，直接看最省事版本： ?????? ?????????直接用CUDA_VISIBLE_DEVICES=\\\"2,3\\\"指定多卡就可以，也可以給sh文件傳參進(jìn)去。但是，切記！切記！切記！ sh文件里不能有空行，尤其是使用反斜杠連接多行的時(shí)候，我一開(kāi)始嘗試指定多卡不起作用，就是因?yàn)閳D美觀手
2024年02月08日
瀏覽(21)
PyTorch數(shù)據(jù)并行（DP/DDP）淺析
一直以來(lái)都是用的單機(jī)單卡訓(xùn)練模型，雖然很多情況下已經(jīng)足夠了，但總有一些情況得上分布式訓(xùn)練：模型大到一張卡放不下；單張卡batch size不敢設(shè)太大，訓(xùn)練速度慢；當(dāng)你有好幾張卡，不想浪費(fèi)；展示一下技術(shù) 。由于還沒(méi)遇到過(guò)一張顯卡放不下整個(gè)模型的情況，本文的
2024年02月02日
瀏覽(26)
關(guān)于subprocess.CalledProcessError: Commandxxx returned non-zero exit status 1. 的問(wèn)題--pytorch分布式訓(xùn)練問(wèn)題
我想跑一個(gè)模型的訓(xùn)練源代碼時(shí)，就出現(xiàn)了這個(gè)問(wèn)題，之前上網(wǎng)一頓查，發(fā)現(xiàn)并沒(méi)有解決的辦法。所說(shuō)的也跟這個(gè)對(duì)不上。這個(gè)問(wèn)題的本身是有關(guān)于pytorch分布使訓(xùn)練的問(wèn)題。 ?實(shí)際情況如下。出現(xiàn)這個(gè)問(wèn)題時(shí)，解決問(wèn)題的關(guān)鍵不在于這個(gè)問(wèn)題本身，而是在于這個(gè)問(wèn)題前面所
2024年02月15日
瀏覽(18)
Pytorch實(shí)現(xiàn)多GPU并行訓(xùn)練（DDP）
Pytorch實(shí)現(xiàn)并行訓(xùn)練通常有兩個(gè)接口： DP（DataParallel）和 DDP（DistributedDataParallel）。目前 DP（DataParallel）已經(jīng)被Pytorch官方deprecate掉了，原因有二：1， DP（DataParallel）只支持單機(jī)多卡，無(wú)法支持多機(jī)多卡；2， DP（DataParallel）即便在單機(jī)多卡模式下效率也不及 DDP（Distributed
2024年02月11日
瀏覽(18)
Megatron-LM：Transformer模型專用分布式張量模型并行方法
論文標(biāo)題：Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 論文鏈接：https://arxiv.org/abs/1909.08053 論文來(lái)源：NVIDIA 隨著自然語(yǔ)言處理領(lǐng)域預(yù)訓(xùn)練語(yǔ)言模型的規(guī)模變得越來(lái)越大，它們超過(guò)了現(xiàn)代處理器的內(nèi)存限制，需要額外的內(nèi)存管理技術(shù)，如激活檢查點(diǎn)(activ
2024年02月15日
瀏覽(23)
Pytorch 多卡并行（3）—— 使用 DDP 加速 minGPT 訓(xùn)練
前文并行原理簡(jiǎn)介和 DDP 并行實(shí)踐和使用 torchrun 進(jìn)行容錯(cuò)處理在簡(jiǎn)單的隨機(jī)數(shù)據(jù)上演示了使用 DDP 并行加速訓(xùn)練的方法，本文考慮一個(gè)更加復(fù)雜的 GPT 類(lèi)模型，說(shuō)明如何進(jìn)行 DDP 并行實(shí)戰(zhàn) MinGPT 是 GPT 模型的一個(gè)流行的開(kāi)源 PyTorch 復(fù)現(xiàn)項(xiàng)目，其實(shí)現(xiàn)簡(jiǎn)潔干凈可解釋，因而頗具
2024年02月09日
瀏覽(22)