国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng))

這篇具有很好參考價(jià)值的文章主要介紹了集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng))。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

相關(guān)手冊(cè)與軟件準(zhǔn)備

官方使用手冊(cè)

用戶手冊(cè):https://hpc.sustech.edu.cn/ref/cluster_User_Manual.pdf
培訓(xùn)視頻:https://hpc.sustech.edu.cn/ref/meeting_20230810.mp4
啟明2.0使用手冊(cè):https://hpc.sustech.edu.cn/ref/qiming_User_Manual_v3.0.pdf
Anaconda官方教程:https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html

集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng)),服務(wù)器,深度學(xué)習(xí),人工智能

安裝前置軟件

  1. FileZilla傳輸數(shù)據(jù)
    filezilla是一款用于與遠(yuǎn)程服務(wù)器傳輸數(shù)據(jù)的軟件。
    下載FileZilla,下載教程參考https://blog.csdn.net/SoloVersion/article/details/124579221
    FileZilla官方使用說明:https://welcome.filezilla-project.org/welcome?type=client&category=documentation_network&version=3.66.1
    FileZilla官方網(wǎng)絡(luò)設(shè)置手冊(cè):https://wiki.filezilla-project.org/Network_Configuration

按照步驟登錄節(jié)點(diǎn),注意:在站點(diǎn)管理器中,傳輸協(xié)議要選擇SFTP?。?!不然會(huì)連接失敗。

  1. xshell登錄節(jié)點(diǎn)
    xshell用于遠(yuǎn)程登陸服務(wù)器以及進(jìn)行命令行操作。
    xshell安裝官網(wǎng):https://www.xshell.com/zh/free-for-home-school/
    集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng)),服務(wù)器,深度學(xué)習(xí),人工智能

深度學(xué)習(xí)模型單節(jié)點(diǎn)訓(xùn)練

以yolov5最基本模型訓(xùn)練為例

1. 配置Anaconda

Anaconda官方教程:https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html

因?yàn)閍naconda相關(guān)文件會(huì)存儲(chǔ)在自己的工作文件夾里,所以和環(huán)境相關(guān)的步驟可以直接在登錄節(jié)點(diǎn)執(zhí)行。

下載Anaconda(只需完成一次)

test -d ~/softwares/python/anaconda3 || mkdir -p ~/softwares/python/anaconda3 #創(chuàng)建安裝目錄
wget https://mirrors.sustech.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.sh #下載安裝包
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p ~/softwares/python/anaconda3/2020.07 #自動(dòng)安裝到目錄

在安裝目錄寫入環(huán)境變量文件anaconda.2020.07.source,此文件也可以放在任意計(jì)算時(shí)可以調(diào)用的目錄,在命令行輸入:

cat>~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source<<EOF
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/work/ccse-tangh/softwares/python/anaconda3/2020.07/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh" ]; then
        . "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh"
    else
        export PATH="~/softwares/python/anaconda3/2020.07/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<
EOF

在用戶目錄寫入.condarc文件,配置國(guó)內(nèi)更新源,以便于加快更新和安裝環(huán)境或者軟件包的速度,在命令行輸入:

cat>~/.condarc<<EOF
channels:
  - defaults
show_channel_urls: true
channel_alias: https://mirrors.sustech.edu.cn/anaconda
default_channels:
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/main
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/free
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/r
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/pro
custom_channels:
  conda-forge: https://mirrors.sustech.edu.cn/anaconda/cloud
  msys2: https://mirrors.sustech.edu.cn/anaconda/cloud
  bioconda: https://mirrors.sustech.edu.cn/anaconda/cloud
  menpo: https://mirrors.sustech.edu.cn/anaconda/cloud
  pytorch: https://mirrors.sustech.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.sustech.edu.cn/anaconda/cloud
EOF

加載環(huán)境變量,清理索引緩存,更新:

source ~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source
conda clean -i 
conda update --prefix ~/softwares/python/anaconda3/2020.07 anaconda -y

為每一個(gè)任務(wù)創(chuàng)建一個(gè)conda環(huán)境

直接在登陸節(jié)點(diǎn)創(chuàng)建并配置好requirement,在pbs文件里activate就可以了。在訓(xùn)練節(jié)點(diǎn)無法聯(lián)網(wǎng),不能下載相關(guān)包或者創(chuàng)建環(huán)境?。?!

先激活bash使用conda:

conda init bash
source ~/.bashrc

然后就是標(biāo)準(zhǔn)conda操作了:

conda create -n yolov5 python=3.8 -y -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda activate yolov5

cd yolov5
pip install -r requirements.txt

再正常使用,比如創(chuàng)建,激活等

配置cuda+torch

這里不知道卡了多久,配置cuda和torch主要有幾個(gè)要點(diǎn),分別是:

  1. 顯卡與驅(qū)動(dòng)(NIVIADA driver)是否適配。
  2. cuda版本與顯卡是否適配。
  3. torch是否為gpu版本
  4. torch版本與cuda,與python是否適配
  5. touchvision版本與torch是否適配。

詳細(xì)內(nèi)容見
注意沒conda create一個(gè)環(huán)境都要手動(dòng)裝一下torch和torchvision

pip install torch-2.0.0+cu118-cp311-cp311-linux_x86_64.whl
pip install torchvision-0.15.1+cu118-cp311-cp311-linux_x86_64.whl

2. pbs文件編寫

成功完成訓(xùn)練pbs文件示例:

!/bin/bash
#PBS -N yolov5_train
#PBS -l nodes=1:ppn=1,gpus=1
#PBS -l walltime=1:00:00
#PBS -o yolov5_train.out
#PBS -e yolov5_train.err
#PBS -A your_account
#PBS -V
#PBS -q gpu

export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

# 查看gpu版本
#nvcc --version
# Display GPU information
# nvidia-smi

conda init bash
source ~/.bashrc
conda activate checkcuda5

export GIT_PYTHON_REFRESH=quiet

# 載入cuda
module load cuda/11.8

cd yolov5

python -c "import torch; print(torch.cuda.is_available())"

python train.py --img 640 --epochs 2 --data data/coco128.yaml --weights yolov5s.pt

# 退出 conda 環(huán)境
conda deactivate

3.作業(yè)提交與監(jiān)控

因?yàn)槲覀兊膒bs文件是在win上編輯好后再傳過去的,在提交之前需要轉(zhuǎn)化為unix格式:

dos2unix train_job14.pbs
qsub -q 2a100-80 train_job14.pbs
隊(duì)列選擇

啟明所有隊(duì)列:
集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng)),服務(wù)器,深度學(xué)習(xí),人工智能
查看當(dāng)前隊(duì)列使用情況

qstat

查看自己的作業(yè)文章來源地址http://www.zghlxwxcb.cn/news/detail-793051.html

bjobs

Multi-GPU Training

到了這里,關(guān)于集群服務(wù)器GPU深度模型訓(xùn)練筆記(PBS作用調(diào)度系統(tǒng))的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 租服務(wù)器訓(xùn)練深度學(xué)習(xí)模型

    租服務(wù)器訓(xùn)練深度學(xué)習(xí)模型

    推薦用AutoDL(便宜、功能強(qiáng)大、gug少、有時(shí)時(shí)客服解決問題) AutoDL算力云 | 彈性、好用、省錢。租GPU就上AutoDL 學(xué)生可以認(rèn)證,享受會(huì)員價(jià) 服務(wù)器需要登錄后先充值,先充個(gè)10元,接下來試試看。每次都是開機(jī)使用完關(guān)機(jī)后扣費(fèi),可以選擇按量,超級(jí)劃算,按小時(shí)扣費(fèi)。 (租之

    2024年02月09日
    瀏覽(28)
  • [3D數(shù)據(jù)深度學(xué)習(xí)] (PC/服務(wù)器集群cluster)CPU內(nèi)存/GPU顯存限制及解決辦法

    [3D數(shù)據(jù)深度學(xué)習(xí)] (PC/服務(wù)器集群cluster)CPU內(nèi)存/GPU顯存限制及解決辦法

    3D數(shù)據(jù)的深度學(xué)習(xí)目前研究遠(yuǎn)不如2D深度學(xué)習(xí)成熟,其中最大的一個(gè)原因之一就是收到硬件條件的限制。3D數(shù)據(jù)雖說只比2D數(shù)據(jù)增加了一個(gè)維度,但所占據(jù)的內(nèi)存卻是成倍的增長(zhǎng)。對(duì)于3D數(shù)據(jù)的深度學(xué)習(xí),我們會(huì)分析其在CPU內(nèi)存和GPU顯存兩方面的限制,希望大家能夠充分利用自己

    2024年02月10日
    瀏覽(31)
  • 【目標(biāo)檢測(cè)實(shí)驗(yàn)系列】AutoDL線上GPU服務(wù)器租用流程以及如何用Pycharm軟件遠(yuǎn)程連接服務(wù)器進(jìn)行模型訓(xùn)練 (以Pycharm遠(yuǎn)程訓(xùn)練Yolov5項(xiàng)目為例子 超詳細(xì))

    【目標(biāo)檢測(cè)實(shí)驗(yàn)系列】AutoDL線上GPU服務(wù)器租用流程以及如何用Pycharm軟件遠(yuǎn)程連接服務(wù)器進(jìn)行模型訓(xùn)練 (以Pycharm遠(yuǎn)程訓(xùn)練Yolov5項(xiàng)目為例子 超詳細(xì))

    ? ? ? ?本篇博客主要涉及兩個(gè)主體內(nèi)容。 第一個(gè) :從AutoDL網(wǎng)站中租用GPU服務(wù)器。 第二個(gè) :用Pycharm軟件遠(yuǎn)程連接租來的線上服務(wù)器,并以Yolov5項(xiàng)目為例,線上訓(xùn)練模型。此過程中會(huì)記錄重要的地方,以及本人踩坑之后,如何解決問題的所思所想( 通讀本篇博客大概需要1

    2024年02月03日
    瀏覽(40)
  • 【深度學(xué)習(xí)】模型訓(xùn)練云服務(wù)器平臺(tái)推薦!??!個(gè)人心路歷程,新手少踩坑

    【深度學(xué)習(xí)】模型訓(xùn)練云服務(wù)器平臺(tái)推薦?。?!個(gè)人心路歷程,新手少踩坑

    作為一名深度學(xué)習(xí)訓(xùn)練小白,想上github下一個(gè)一般的網(wǎng)絡(luò)練練,但是每次千辛萬苦地配置好環(huán)境,成功運(yùn)行,沒開始幾步,就提示顯存不夠! (362條消息) 把顯存用在刀刃上!17 種 pytorch 節(jié)約顯存技巧_聽 風(fēng)、的博客-CSDN博客_降低顯存占用 上網(wǎng)一搜一大堆教程,改小batchsize,清

    2023年04月22日
    瀏覽(21)
  • 深度學(xué)習(xí)GPU服務(wù)器環(huán)境配置

    組里面分配了臺(tái)gpu服務(wù)器,讓我負(fù)責(zé)管理,需要先配置一些深度學(xué)習(xí)環(huán)境,記錄一下。 一些linux服務(wù)器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910 首先需要了解linux系統(tǒng)信息 通過 cat /proc/version 查看包含gcc的版本信息 通過 hostnamectl 命令查看系統(tǒng)信息,這個(gè)命令是

    2024年02月01日
    瀏覽(29)
  • 基于slurm框架的GPU服務(wù)器集群搭建方法

    基于slurm框架的GPU服務(wù)器集群搭建方法

    1. 環(huán)境基礎(chǔ) 2. 環(huán)境配置 2.1 hostname配置 2.2 關(guān)閉SELinux (master, slave) 2.3 關(guān)閉Firewall (master, slave) 2.4 配置ip與hostname映射關(guān)系 (master, slave1) 3. 創(chuàng)建munge和slurm用戶 (master, slave) 4. 安裝munge 4.1 下載munge及依賴包 (master, slave) 4.2 生成munge.key并發(fā)送到各計(jì)算節(jié)點(diǎn) (master) 4.3 修改

    2024年02月05日
    瀏覽(15)
  • 如何在服務(wù)器使用GPU跑深度學(xué)習(xí)代碼

    如何在服務(wù)器使用GPU跑深度學(xué)習(xí)代碼

    每個(gè)人都有他們偏好的工具和工作流程。就我個(gè)人而言,我喜歡使用 PyCharm Professional Edition 作為我的集成開發(fā)環(huán)境,選擇使用 HengYuan Cloud\\\'s OSS.exe 和 FileZilla 進(jìn)行文件傳輸,并且我傾向于使用 Xshell 來處理命令行操作。這些工具的組合滿足了我的所有需求,并使我的工作效率最

    2024年04月12日
    瀏覽(22)
  • 新手小白如何租用GPU云服務(wù)器跑深度學(xué)習(xí)

    新手小白如何租用GPU云服務(wù)器跑深度學(xué)習(xí)

    最近剛學(xué)深度學(xué)習(xí),自己電腦的cpu版本的pytorch最多跑個(gè)LexNet,AlexNet直接就跑不動(dòng)了,但是作業(yè)不能不寫,實(shí)驗(yàn)不能不做。無奈之下,上網(wǎng)發(fā)現(xiàn)還可以租服務(wù)器這種操作,我租的服務(wù)器每小時(shí)0.78人民幣,簡(jiǎn)直是發(fā)現(xiàn)新大陸,又省下一大筆錢,太開心了吧(啪,什么亂七八糟的

    2023年04月15日
    瀏覽(22)
  • 打造專屬個(gè)人模型-私有獨(dú)立離線模型部署-阿里云GPU服務(wù)器配置

    打造專屬個(gè)人模型-私有獨(dú)立離線模型部署-阿里云GPU服務(wù)器配置

    阿里云有免費(fèi)的機(jī)器學(xué)習(xí) GPU 服務(wù)器,免費(fèi)試用活動(dòng)頁(yè)https://free.aliyun.com 只要沒有申請(qǐng)過 PAI-DSW 資源的新老用戶皆可申請(qǐng) 5000CU 的免費(fèi)額度,3個(gè)月內(nèi)使用。 選擇第一個(gè)進(jìn)行立即試用 可以看到試用的界面 如果遇到下面的錯(cuò)誤,當(dāng)前賬號(hào)沒有權(quán)限開通PAI,請(qǐng)聯(lián)系主賬號(hào)。 您可以

    2024年02月11日
    瀏覽(386)
  • 使用網(wǎng)上服務(wù)器(AutoDL)訓(xùn)練模型

    使用網(wǎng)上服務(wù)器(AutoDL)訓(xùn)練模型

    ①請(qǐng)把數(shù)據(jù)集放到名為dataset文件夾下;②數(shù)據(jù)集請(qǐng)壓縮,后綴名為.zip;③點(diǎn)擊確定 ①請(qǐng)把代碼放到名為coad文件夾下;②代碼請(qǐng)壓縮,后綴名為.zip;③點(diǎn)擊確定 下面我們有兩個(gè)壓縮包。 https://www.autodl.com/register?code=e0ab7117-bd25-4480-8184-5953048a2502 ①打開界面。 ②注冊(cè)用戶會(huì)有

    2024年02月02日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包