1 問(wèn)題背景
環(huán)境:
- 遠(yuǎn)程服務(wù)器Ubuntu20.04
- CUDA 11.6
現(xiàn)象:在日志文件和終端均顯示Python腳本已使用了GPU
但是nvidia-smi
中的Processes
進(jìn)程無(wú)顯示
2 問(wèn)題探索
首先,可以看到
| 0 Tesla V100-PCIE... On | 00000000:0F:00.0 Off | 0 |
| N/A 34C P0 37W / 250W | 1603MiB / 16384MiB | 0% Default |
GPU顯存被占用,換言之有實(shí)例在正常使用GPU,表明不是硬件、顯卡驅(qū)動(dòng)等問(wèn)題。
檢查Pytorch是否正確配置
>>> import torch
>>> print(torch.cuda.is_available())
True
證明也不是Pytorch的問(wèn)題
接著安裝一個(gè)工具查看正在使用顯卡的進(jìn)程
apt install -y psmisc
fuser -v /dev/nvidia*
終端輸出
USER PID ACCESS COMMAND
/dev/nvidia-uvm: root kernel mount /dev/nvidia-uvm
root 12860 F...m python
/dev/nvidia-uvm-tools:
root kernel mount /dev/nvidia-uvm-tools
/dev/nvidia7: root kernel mount /dev/nvidia7
root 12860 F...m python
/dev/nvidiactl: root kernel mount /dev/nvidiactl
root 12860 F...m python
由于我這里診斷的進(jìn)程是一個(gè)使用GPU的python腳本,所以記下腳本的PID: 12860
查看系統(tǒng)進(jìn)程
ps -aux
輸出
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
...
root 12860 576 4.2 32781208 17343484 pts/0 Sl+ 14:11 269:00 python test.py
root 13510 0.0 0.0 13900 9076 ? Ss 14:36 0:00 sshd: root@notty
root 13549 0.0 0.0 7024 3768 ? Ss 14:37 0:00 bash
root 15003 0.0 0.0 9092 4092 pts/3 Ss 14:50 0:00 /usr/bin/bash --init-file /root/.vscode-server/bin/da76f93349a72022ca4670c1b84860304616aaa2/out/vs/workbench/contrib/terminal/b
root 15352 0.0 0.0 5476 592 ? S 14:55 0:00 sleep 180
root 15698 0.0 0.0 10856 3316 pts/3 R+ 14:58 0:00 ps -aux
PID: 12860
對(duì)應(yīng)的python腳本,正好是我懷疑沒(méi)用上GPU的腳本,證明該python實(shí)例實(shí)際上成功跑在了GPU上
3 問(wèn)題解決
nvidia-smi不顯示正在使用GPU的進(jìn)程很可能不是一個(gè)問(wèn)題,而是GPU的使用率太低(多發(fā)生在遠(yuǎn)程高性能服務(wù)器運(yùn)行小型實(shí)驗(yàn)的情形),如遇到相關(guān)問(wèn)題,可按上面步驟自檢文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-824133.html
4 告別Bug
本文收錄于《告別Bug》專欄,該專欄記錄人工智能領(lǐng)域中各類Bug以備復(fù)查,文章形式為:問(wèn)題背景 + 問(wèn)題探索 + 問(wèn)題解決,訂閱專欄+關(guān)注博主后可通過(guò)下方名片聯(lián)系我進(jìn)入AI技術(shù)交流群幫忙解決問(wèn)題文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-824133.html
到了這里,關(guān)于【已解決】nvidia-smi不顯示正在使用GPU的進(jìn)程的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!