国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

曙光超算平臺如何使用以及常見問題

這篇具有很好參考價(jià)值的文章主要介紹了曙光超算平臺如何使用以及常見問題。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

?了解常用的E-shell命令

1. squeue: 查看目前提交作業(yè)的信息

2.? salloc :搶占計(jì)算資源命令

3.? hy-smi :查看DCU利用率

常見問題?

1. 如何用 pip 安裝工具包

?2. pip 安裝失敗

3. 如何直接殺死進(jìn)程

4. 如何用腳本提交作業(yè)?(sbatch)


官網(wǎng)登錄網(wǎng)址:

AC

官方操作細(xì)節(jié)參考鏈接如下,有需要的自取:

Notebook · 計(jì)算服務(wù)

?了解常用的E-shell命令

1. squeue: 查看目前提交作業(yè)的信息

曙光超算平臺如何使用以及常見問題

2.? salloc :搶占計(jì)算資源命令

salloc -p wzhdtest -N 1 -n 8 --gres=dcu:1

(部分地區(qū)有綁卡機(jī)制,比如烏鎮(zhèn),核數(shù)和卡數(shù)的比=8:1)

曙光超算平臺如何使用以及常見問題

注:

(1) salloc之后如果需要使用dcu ,則需要ssh到相應(yīng)的計(jì)算節(jié)點(diǎn),比如我這里的計(jì)算節(jié)點(diǎn)是b03r4n14,我就需要ssh??b03r4n14

曙光超算平臺如何使用以及常見問題

(2)?使用salloc方式時(shí)需要保持E-Shell頁面常開啟,否則此終端對應(yīng)的作業(yè)將出現(xiàn)結(jié)束。若有長時(shí)間或者后臺計(jì)算需求,可使用sbatch方式提交任務(wù)。

(3) 如果出現(xiàn)以下bug ,說明你使用的隊(duì)列已經(jīng)過期了,需要聯(lián)系相關(guān)人員重新申請隊(duì)列。

salloc: error: Job submit/allocate failed: Invalid account or account/partition combination specified

3.? hy-smi :查看DCU利用率

(需要先用ssh 登錄到計(jì)算節(jié)點(diǎn)才能查到)
曙光超算平臺如何使用以及常見問題

常見問題?

1. 如何用 pip 安裝工具包

如果想用pip安裝相關(guān)的工具包,需要注意安裝到對應(yīng)的環(huán)境。我這里需要先??source ?pytorch_env.sh? ,然后直接用 pip install? xxx 即可。

我pytorch_env.sh 腳本文件中的內(nèi)容如下:

source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

?2. pip 安裝失敗

如果你pip安裝失敗了,可以考慮三方面原因:

a. 各安裝包之間的版本不兼容,可以考慮用pip uninstall 卸載再重新安裝相兼容的版本。我曾遇到setuptools 的版本太高(高于60),導(dǎo)致tensorboard安裝包安裝不上。我將setuptools版本換成56.1.0之后就可以安裝成功了。

b.? 如果你明明pip install 了相關(guān)的安裝包,但是運(yùn)行程序時(shí),卻出現(xiàn)找不到module的錯(cuò)誤,這個(gè)時(shí)候你可能就是將安裝包安錯(cuò)了環(huán)境。比如我使用的是pytorch框架,那么我需要在相應(yīng)的環(huán)境下(pytorch_1.10)安裝,而不是(base) 環(huán)境下。

c. 如果你用salloc搶占資源,然后又用ssh登錄到了相應(yīng)的計(jì)算節(jié)點(diǎn),這時(shí)你用pip install 某個(gè)安裝包失敗了。具體報(bào)錯(cuò)如下圖所示:

曙光超算平臺如何使用以及常見問題

?解決方法是,可以先logout 計(jì)算節(jié)點(diǎn),即退出計(jì)算結(jié)點(diǎn),回到環(huán)境(pytorch_1.10)下再pip install 就可以了。是個(gè)很細(xì)節(jié)的錯(cuò)誤,大家在安裝的時(shí)候一定注意??!

曙光超算平臺如何使用以及常見問題

3. 如何直接殺死進(jìn)程

如果你的進(jìn)程中有錯(cuò)誤 ,想直接殺死,那么可以用以下命令,它會殺死該用戶名下的所有進(jìn)程

ps -ef | grep 用戶名 | awk '{print $2 }'| xargs kill -9? ?

例 :?ps -ef | grep acctrm9ew5 | awk '{print $2 }'| xargs kill -9?

曙光超算平臺如何使用以及常見問題

?出現(xiàn)上圖片說明進(jìn)程已殺死,這個(gè)時(shí)候只需重新打開客戶端登錄即可。

注:也可以嘗試用 下述命令殺死自己用戶名下的所有進(jìn)程!

killall -u 自己的用戶名

4. 如何用腳本提交作業(yè)?(sbatch)

為了避免作業(yè)經(jīng)常被意外中斷,訓(xùn)練了一天的模型突然中斷真的好氣。。所以我選擇用sbatch的方式提交作業(yè)。也更推薦大家用這種方式。具體步驟如下:

(1) 打開test.slurm 文件(初次打開是一個(gè)新文件)

vim test.slurm?

?(2) 在test.slurm文件中寫入內(nèi)容

#!/bin/bash
#SBATCH -p wzhdtest
#SBATCH -N 1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=dcu:1
#SBATCH -J ceshi
#SBATCH -o %x.o%j
#SBATCH -e %x.e%j

#添加環(huán)境變量

source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

#運(yùn)行程序
python3 main.py

我相應(yīng)文件中的內(nèi)容如下:

曙光超算平臺如何使用以及常見問題

?(3) 內(nèi)容寫好后就可以運(yùn)行了

sbatch test.slurm?

曙光超算平臺如何使用以及常見問題

(4) 用 squeue 查看作業(yè)運(yùn)行情況

曙光超算平臺如何使用以及常見問題

上圖中的 R 代表運(yùn)行, b03r4n14 是計(jì)算節(jié)點(diǎn)。

(5) 登錄計(jì)算節(jié)點(diǎn)查看DCU使用情況

曙光超算平臺如何使用以及常見問題

注:sbatch 時(shí)作業(yè)能正常運(yùn)行,但是輸出日志文件中沒有內(nèi)容。這個(gè)時(shí)候需要考慮的是 多加一個(gè)參數(shù)-u 強(qiáng)制打印。具體如下:

曙光超算平臺如何使用以及常見問題

后續(xù)遇到問題會繼續(xù)更新,請多多關(guān)注?。?感謝~?文章來源地址http://www.zghlxwxcb.cn/news/detail-448918.html

到了這里,關(guān)于曙光超算平臺如何使用以及常見問題的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包