国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<b id="2txvp"><rt id="2txvp"></rt></b>

<menuitem id="2txvp"><pre id="2txvp"><center id="2txvp"></center></pre></menuitem>

mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練

2年前作者：今天漲知識(shí)了嗎分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

后面的不用看了，直接看最省事版本：

mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練 ??????

?????????直接用CUDA_VISIBLE_DEVICES="2,3"指定多卡就可以，也可以給sh文件傳參進(jìn)去。但是，切記！切記！切記！sh文件里不能有空行，尤其是使用反斜杠 \ 連接多行的時(shí)候，我一開始嘗試指定多卡不起作用，就是因?yàn)閳D美觀手賤多了個(gè)空行，調(diào)試了好久。反面教材如下：

mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練

到這里就OK了，下面的正文不用看了。懶得刪了(╯︵╰)

?正文：

?????????今天做目標(biāo)檢測(cè)的多卡訓(xùn)練，想兩張卡并行跑一組參數(shù)，希望在0號(hào)和1號(hào)顯卡上掛兩組實(shí)驗(yàn)，在2號(hào)和3號(hào)顯卡上掛兩組實(shí)驗(yàn)，他們都用兩張卡并行。為什么不用四張卡并行跑四個(gè)實(shí)驗(yàn)?zāi)?？因?yàn)轱@存不夠。使用的命令是tools/dist_train.sh中的python -m torch.distributed.launch...

????????但是問題出現(xiàn)了：指定雙卡并行時(shí)每次總會(huì)是用0號(hào)和1號(hào)卡，不管我怎么設(shè)置gpu_ids,devices或者local_rank，都不會(huì)看23顯卡一眼，網(wǎng)上搜了半天，問了許多同學(xué)，都未果，于是自己折騰一晚上，終于搞定了。

??????? 首先，原理：我猜測(cè)是雙卡時(shí)，兩個(gè)進(jìn)程的序號(hào)也就是rank會(huì)是0和1，于是mmdet分布式訓(xùn)練時(shí)就直接用rank序號(hào)作為GPU序號(hào)。體現(xiàn)在mmdet/apis/train.py中如下部分：

    if distributed:
        find_unused_parameters = cfg.get('find_unused_parameters', False)
        # Sets the `find_unused_parameters` parameter in
        # torch.nn.parallel.DistributedDataParallel
        model = build_ddp(
            model,
            cfg.device,
            device_ids=[int(os.environ['LOCAL_RANK'])],
            broadcast_buffers=False,
            find_unused_parameters=find_unused_parameters)
    else:
        model = build_dp(model, cfg.device, device_ids=cfg.gpu_ids)

????????其中device_ids直接用的rank序號(hào)，省時(shí)確實(shí)省時(shí)，可把我折騰壞了。于是我稍作修改，當(dāng)前兩個(gè)進(jìn)程的rank是0和1，我需要用2和3，只需要給他們各自加2即可。于是可以改成

device_ids=[int(os.environ['LOCAL_RANK'])+2],

????????改完這一步后運(yùn)行，會(huì)報(bào)錯(cuò)Expected all tensors to be on the same device, but found at least two devices, cuda:2 and cuda:0! 經(jīng)過檢查，發(fā)現(xiàn)數(shù)據(jù)是放到2和3號(hào)卡上了，但是模型model還在0和1號(hào)卡上，定位到mmdet/utils/util_distribution.py的build_ddp()函數(shù)，其中有一句

    if device == 'cuda':
        model = model.cuda()

這一句默認(rèn)是放到0號(hào)開頭的顯卡上，需要我們?cè)俅渭?，把model也放到2和3號(hào)卡上，如下：

    if device == 'cuda':
        from mmcv.runner import get_dist_info
        rank, _ = get_dist_info()
        model = model.cuda('cuda:{}'.format(rank+2))

????????到此為止，就可以成功的把mmdet程序放到2號(hào)和3號(hào)顯卡上訓(xùn)練了，實(shí)現(xiàn)過程的不足之處在于沒有用參數(shù)的形式指定，相當(dāng)于一個(gè)臨時(shí)措施，我考慮賦值os.environ['LOCAL_RANK']="2,3"，但是這是多進(jìn)程，需要讓一個(gè)進(jìn)程看到2，另一個(gè)進(jìn)程看到3，而非兩個(gè)進(jìn)程都看到2和3，所以可能需要再次rank, _ = get_dist_info()，根據(jù)當(dāng)前進(jìn)程的序號(hào)改變os.environ['LOCAL_RANK']的值。另外，前面的device_ids=[int(os.environ['LOCAL_RANK'])+2],我后來沒有這樣做，而是在main.py中os.environ['LOCAL_RANK'] = str(int(os.environ['LOCAL_RANK']) + 2)，因?yàn)槿绻竺婺承┑胤桨裠ata放大顯卡上時(shí)仍然直接用rank值，那后面就不需要再給data把rank+2一次。

??????? 從上面過程也能看出，多卡并行訓(xùn)練時(shí)用哪些卡，主要還是model.cuda()要指定設(shè)備號(hào)，以及某些原作者圖省事直接使用LOCAL_RANK環(huán)境變量的地方需要改成自己需要的數(shù)字。對(duì)了，LOCAL_RANK應(yīng)該是pytorch自動(dòng)生成的，我們無法在外圍指定。文章來源地址http://www.zghlxwxcb.cn/news/detail-481874.html

到了這里，關(guān)于mmdetection使用指定的顯卡號(hào)并行分布式訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【深入了解PyTorch】PyTorch分布式訓(xùn)練：多GPU、數(shù)據(jù)并行與模型并行
在深度學(xué)習(xí)領(lǐng)域，模型的復(fù)雜性和數(shù)據(jù)集的巨大規(guī)模使得訓(xùn)練過程變得極具挑戰(zhàn)性。為了加速訓(xùn)練過程，利用多個(gè)GPU進(jìn)行并行計(jì)算是一種常見的方法。PyTorch作為一種流行的深度學(xué)習(xí)框架，提供了強(qiáng)大的分布式訓(xùn)練工具，使得多GPU、數(shù)據(jù)并行和模型并行等技術(shù)變得更加容易實(shí)現(xiàn)
2024年02月12日
瀏覽(25)
Pytorch 分布式并行DDP 卡死掛起
1 、使用A30顯卡，使用分布式并行Distributed Data Parallel，運(yùn)行程序時(shí)顯卡顯存充滿，卡在設(shè)置local_rank處，并未啟動(dòng)進(jìn)程組 2 、如圖： 0 、最新解決方案，針對(duì)Supermicro主板：BIOS-Advanced-NB Configuration-IOMMU-Disabled ==其它型號(hào)的主板的BIOS可能還需要禁用ACS： https://zhuanlan.zhihu.com/p/60
2023年04月15日
瀏覽(21)
分布式并行訓(xùn)練（DP、DDP、DeepSpeed）
[pytorch distributed] 01 nn.DataParallel 數(shù)據(jù)并行初步數(shù)據(jù)并行 vs. 模型并行數(shù)據(jù)并行：模型拷貝（per device），數(shù)據(jù) split/chunk（對(duì)batch切分）每個(gè)device上都拷貝一份完整模型，每個(gè)device分別處理1個(gè)batch的一部分(如batch_size=64, 2個(gè)device, 每device處理32個(gè)樣本) 梯度反向傳播時(shí)，每個(gè)設(shè)備上
2024年02月07日
瀏覽(33)
Megatron-LM：Transformer模型專用分布式張量模型并行方法
論文標(biāo)題：Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 論文鏈接：https://arxiv.org/abs/1909.08053 論文來源：NVIDIA 隨著自然語言處理領(lǐng)域預(yù)訓(xùn)練語言模型的規(guī)模變得越來越大，它們超過了現(xiàn)代處理器的內(nèi)存限制，需要額外的內(nèi)存管理技術(shù)，如激活檢查點(diǎn)(activ
2024年02月15日
瀏覽(23)
torch分布式數(shù)據(jù)并行：torch.nn.parallel.DistributedDataParallel（DDP），代碼書寫步驟
多進(jìn)程做多卡訓(xùn)練；目錄 1 初始化進(jìn)程組： 2 當(dāng)前進(jìn)程所能用到的GPU卡的名稱 3 將數(shù)據(jù)集隨機(jī)分配到不同的GPU上 4 將train_sampler傳入DataLoader中 5 將數(shù)據(jù)進(jìn)行拷貝 6 模型放到GPU上 7 執(zhí)行命令 8 模型保存 9 加載模型 10 注意事項(xiàng) 代碼編寫流程： 1 初始化進(jìn)程組： ‘nccl’ 指定GPU之
2024年02月15日
瀏覽(18)
【金猿案例展】智譜AI——基于全閃分布式并行文件存儲(chǔ)打造高速大模型訓(xùn)練平臺(tái)...
? 焱融科技案例本項(xiàng)目案例由焱融科技投遞并參與“數(shù)據(jù)猿年度金猿策劃活動(dòng)——2023大數(shù)據(jù)產(chǎn)業(yè)年度創(chuàng)新服務(wù)企業(yè)榜單/獎(jiǎng)項(xiàng)”評(píng)選。大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新服務(wù)媒體 ——聚焦數(shù)據(jù)?· 改變商業(yè) 自 ChatGPT 爆火以來，中國的 AI 產(chǎn)業(yè)已經(jīng)進(jìn)入名副其實(shí)的“百模大戰(zhàn)”?！吨袊斯ぶ悄?/p>
2024年02月02日
瀏覽(23)
【云計(jì)算與大數(shù)據(jù)技術(shù)】分布式計(jì)算、虛擬化技術(shù)、并行編程技術(shù)等技術(shù)講解（超詳細(xì)必看）
分布式計(jì)算是一種計(jì)算方法，和集中式計(jì)算相對(duì)，隨著計(jì)算的發(fā)展，一些應(yīng)用需要巨大的計(jì)算能力才能完成，如果采用集中式計(jì)算則需要耗費(fèi)很長的時(shí)間，而分布式計(jì)算將應(yīng)用分解成許多更小的部分，分配到多臺(tái)計(jì)算機(jī)進(jìn)行處理，這樣可以節(jié)省整體計(jì)算時(shí)間，大大提高計(jì)算效
2023年04月15日
瀏覽(123)
【計(jì)算系統(tǒng)】5分鐘了解超算，高性能計(jì)算，并行計(jì)算，分布式計(jì)算，網(wǎng)格計(jì)算，集群計(jì)算以及云計(jì)算的區(qū)別
超級(jí)計(jì)算機(jī)（Supercomputer）是一種計(jì)算力極強(qiáng)的計(jì)算機(jī)，學(xué)術(shù)界通常稱這一領(lǐng)域?yàn)楦咝阅苡?jì)算（High-Performance Computing）。超級(jí)計(jì)算機(jī)主要為最頂尖的科學(xué)研究服務(wù)，包括核聚變模擬、石油勘探、量子力學(xué)、氣候模擬、癌癥研究、基因組學(xué)、分子動(dòng)力學(xué)、飛機(jī)和航天器空氣動(dòng)力學(xué)
2024年02月06日
瀏覽(24)
LLM-分布式訓(xùn)練工具（一）：DeepSpeed【微軟】【大模型分布式訓(xùn)練工具，實(shí)現(xiàn)ZeRO并行訓(xùn)練算法】【zero3配置將模型參數(shù)切分后分配到不同的顯卡中，突破單張顯卡容量不足以加載模型參數(shù)的限制】
DeepSpeed是微軟推出的大規(guī)模模型分布式訓(xùn)練的工具，主要實(shí)現(xiàn)了ZeRO并行訓(xùn)練算法。原始文檔鏈接： DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo
2024年02月16日
瀏覽(23)
分布式文件系統(tǒng)使用——MinIO
1.1 概念常見的文件系統(tǒng)：FAT16/FAT32、NTFS、HFS、UFS、APFS、XFS、Ext4等。現(xiàn)在有個(gè)問題，一此短視頻平臺(tái)擁有大量的視頻、圖片，這些視頻文件、圖片文件該如何存儲(chǔ)呢？如何存儲(chǔ)可以滿足互聯(lián)網(wǎng)上海量用戶的瀏覽。分布式文件系統(tǒng) 就是海量用戶查閱海量文件的方案。通過概
2024年02月12日
瀏覽(22)

<b id="5fzgw"><rt id="5fzgw"><dfn id="5fzgw"></dfn></rt></b>

<b id="5fzgw"><dfn id="5fzgw"></dfn></b>

<kbd id="5fzgw"></kbd>