目錄
?了解常用的E-shell命令
1. squeue: 查看目前提交作業(yè)的信息
2.? salloc :搶占計(jì)算資源命令
3.? hy-smi :查看DCU利用率
常見問題?
1. 如何用 pip 安裝工具包
?2. pip 安裝失敗
3. 如何直接殺死進(jìn)程
4. 如何用腳本提交作業(yè)?(sbatch)
官網(wǎng)登錄網(wǎng)址:
AC
官方操作細(xì)節(jié)參考鏈接如下,有需要的自取:
Notebook · 計(jì)算服務(wù)
?了解常用的E-shell命令
1. squeue: 查看目前提交作業(yè)的信息
2.? salloc :搶占計(jì)算資源命令
salloc -p wzhdtest -N 1 -n 8 --gres=dcu:1
(部分地區(qū)有綁卡機(jī)制,比如烏鎮(zhèn),核數(shù)和卡數(shù)的比=8:1)
注:
(1) salloc之后如果需要使用dcu ,則需要ssh到相應(yīng)的計(jì)算節(jié)點(diǎn),比如我這里的計(jì)算節(jié)點(diǎn)是b03r4n14,我就需要ssh??b03r4n14
(2)?使用salloc方式時(shí)需要保持E-Shell頁面常開啟,否則此終端對應(yīng)的作業(yè)將出現(xiàn)結(jié)束。若有長時(shí)間或者后臺計(jì)算需求,可使用sbatch方式提交任務(wù)。
(3) 如果出現(xiàn)以下bug ,說明你使用的隊(duì)列已經(jīng)過期了,需要聯(lián)系相關(guān)人員重新申請隊(duì)列。
salloc: error: Job submit/allocate failed: Invalid account or account/partition combination specified
3.? hy-smi :查看DCU利用率
(需要先用ssh 登錄到計(jì)算節(jié)點(diǎn)才能查到)
常見問題?
1. 如何用 pip 安裝工具包
如果想用pip安裝相關(guān)的工具包,需要注意安裝到對應(yīng)的環(huán)境。我這里需要先??source ?pytorch_env.sh? ,然后直接用 pip install? xxx 即可。
我pytorch_env.sh 腳本文件中的內(nèi)容如下:
source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
?2. pip 安裝失敗
如果你pip安裝失敗了,可以考慮三方面原因:
a. 各安裝包之間的版本不兼容,可以考慮用pip uninstall 卸載再重新安裝相兼容的版本。我曾遇到setuptools 的版本太高(高于60),導(dǎo)致tensorboard安裝包安裝不上。我將setuptools版本換成56.1.0之后就可以安裝成功了。
b.? 如果你明明pip install 了相關(guān)的安裝包,但是運(yùn)行程序時(shí),卻出現(xiàn)找不到module的錯(cuò)誤,這個(gè)時(shí)候你可能就是將安裝包安錯(cuò)了環(huán)境。比如我使用的是pytorch框架,那么我需要在相應(yīng)的環(huán)境下(pytorch_1.10)安裝,而不是(base) 環(huán)境下。
c. 如果你用salloc搶占資源,然后又用ssh登錄到了相應(yīng)的計(jì)算節(jié)點(diǎn),這時(shí)你用pip install 某個(gè)安裝包失敗了。具體報(bào)錯(cuò)如下圖所示:
?解決方法是,可以先logout 計(jì)算節(jié)點(diǎn),即退出計(jì)算結(jié)點(diǎn),回到環(huán)境(pytorch_1.10)下再pip install 就可以了。是個(gè)很細(xì)節(jié)的錯(cuò)誤,大家在安裝的時(shí)候一定注意??!
3. 如何直接殺死進(jìn)程
如果你的進(jìn)程中有錯(cuò)誤 ,想直接殺死,那么可以用以下命令,它會殺死該用戶名下的所有進(jìn)程
ps -ef | grep 用戶名 | awk '{print $2 }'| xargs kill -9? ?
例 :?ps -ef | grep acctrm9ew5 | awk '{print $2 }'| xargs kill -9?
?出現(xiàn)上圖片說明進(jìn)程已殺死,這個(gè)時(shí)候只需重新打開客戶端登錄即可。
注:也可以嘗試用 下述命令殺死自己用戶名下的所有進(jìn)程!
killall -u 自己的用戶名
4. 如何用腳本提交作業(yè)?(sbatch)
為了避免作業(yè)經(jīng)常被意外中斷,訓(xùn)練了一天的模型突然中斷真的好氣。。所以我選擇用sbatch的方式提交作業(yè)。也更推薦大家用這種方式。具體步驟如下:
(1) 打開test.slurm 文件(初次打開是一個(gè)新文件)
vim test.slurm?
?(2) 在test.slurm文件中寫入內(nèi)容
#!/bin/bash
#SBATCH -p wzhdtest
#SBATCH -N 1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=dcu:1
#SBATCH -J ceshi
#SBATCH -o %x.o%j
#SBATCH -e %x.e%j
#添加環(huán)境變量
source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
#運(yùn)行程序
python3 main.py
我相應(yīng)文件中的內(nèi)容如下:
?(3) 內(nèi)容寫好后就可以運(yùn)行了
sbatch test.slurm?
(4) 用 squeue 查看作業(yè)運(yùn)行情況
上圖中的 R 代表運(yùn)行, b03r4n14 是計(jì)算節(jié)點(diǎn)。
(5) 登錄計(jì)算節(jié)點(diǎn)查看DCU使用情況
注:sbatch 時(shí)作業(yè)能正常運(yùn)行,但是輸出日志文件中沒有內(nèi)容。這個(gè)時(shí)候需要考慮的是 多加一個(gè)參數(shù)-u 強(qiáng)制打印。具體如下:
文章來源:http://www.zghlxwxcb.cn/news/detail-448918.html
后續(xù)遇到問題會繼續(xù)更新,請多多關(guān)注?。?感謝~?文章來源地址http://www.zghlxwxcb.cn/news/detail-448918.html
到了這里,關(guān)于曙光超算平臺如何使用以及常見問題的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!