国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【已解決】nvidia-smi不顯示正在使用GPU的進(jìn)程

這篇具有很好參考價(jià)值的文章主要介紹了【已解決】nvidia-smi不顯示正在使用GPU的進(jìn)程。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1 問(wèn)題背景

環(huán)境:

  • 遠(yuǎn)程服務(wù)器Ubuntu20.04
  • CUDA 11.6

現(xiàn)象:在日志文件和終端均顯示Python腳本已使用了GPU

nvidia-smi不顯示進(jìn)程,告別Bug,python,pytorch,開(kāi)發(fā)語(yǔ)言,linux,ubuntu
但是nvidia-smi中的Processes進(jìn)程無(wú)顯示

nvidia-smi不顯示進(jìn)程,告別Bug,python,pytorch,開(kāi)發(fā)語(yǔ)言,linux,ubuntu

2 問(wèn)題探索

首先,可以看到

|   0  Tesla V100-PCIE...  On   | 00000000:0F:00.0 Off |                    0 |
| N/A   34C    P0    37W / 250W |   1603MiB / 16384MiB |      0%      Default |

GPU顯存被占用,換言之有實(shí)例在正常使用GPU,表明不是硬件、顯卡驅(qū)動(dòng)等問(wèn)題。

檢查Pytorch是否正確配置

>>> import torch
>>> print(torch.cuda.is_available())
True

證明也不是Pytorch的問(wèn)題

接著安裝一個(gè)工具查看正在使用顯卡的進(jìn)程

apt install -y psmisc
fuser -v /dev/nvidia*

終端輸出

                     USER        PID ACCESS COMMAND
/dev/nvidia-uvm:     root     kernel mount /dev/nvidia-uvm
                     root      12860 F...m python
/dev/nvidia-uvm-tools:
                     root     kernel mount /dev/nvidia-uvm-tools
/dev/nvidia7:        root     kernel mount /dev/nvidia7
                     root      12860 F...m python
/dev/nvidiactl:      root     kernel mount /dev/nvidiactl
                     root      12860 F...m python

由于我這里診斷的進(jìn)程是一個(gè)使用GPU的python腳本,所以記下腳本的PID: 12860

查看系統(tǒng)進(jìn)程

ps -aux

輸出

USER         PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
...
root       12860  576  4.2 32781208 17343484 pts/0 Sl+ 14:11 269:00 python test.py
root       13510  0.0  0.0  13900  9076 ?        Ss   14:36   0:00 sshd: root@notty
root       13549  0.0  0.0   7024  3768 ?        Ss   14:37   0:00 bash
root       15003  0.0  0.0   9092  4092 pts/3    Ss   14:50   0:00 /usr/bin/bash --init-file /root/.vscode-server/bin/da76f93349a72022ca4670c1b84860304616aaa2/out/vs/workbench/contrib/terminal/b
root       15352  0.0  0.0   5476   592 ?        S    14:55   0:00 sleep 180
root       15698  0.0  0.0  10856  3316 pts/3    R+   14:58   0:00 ps -aux

PID: 12860對(duì)應(yīng)的python腳本,正好是我懷疑沒(méi)用上GPU的腳本,證明該python實(shí)例實(shí)際上成功跑在了GPU上

3 問(wèn)題解決

nvidia-smi不顯示正在使用GPU的進(jìn)程很可能不是一個(gè)問(wèn)題,而是GPU的使用率太低(多發(fā)生在遠(yuǎn)程高性能服務(wù)器運(yùn)行小型實(shí)驗(yàn)的情形),如遇到相關(guān)問(wèn)題,可按上面步驟自檢

4 告別Bug

本文收錄于《告別Bug》專欄,該專欄記錄人工智能領(lǐng)域中各類Bug以備復(fù)查,文章形式為:問(wèn)題背景 + 問(wèn)題探索 + 問(wèn)題解決,訂閱專欄+關(guān)注博主后可通過(guò)下方名片聯(lián)系我進(jìn)入AI技術(shù)交流群幫忙解決問(wèn)題文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-824133.html


??源碼獲取 · 技術(shù)交流 · 抱團(tuán)學(xué)習(xí) · 咨詢分享 請(qǐng)聯(lián)系??

到了這里,關(guān)于【已解決】nvidia-smi不顯示正在使用GPU的進(jìn)程的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【已解決】nvidia-smi報(bào)錯(cuò):NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服務(wù)器

    如題,起因是在阿里云GPU服務(wù)器上,使用原先正常運(yùn)行的鏡像生成了容器,但容器的顯卡驅(qū)動(dòng)出問(wèn)題了,使用nvidia-smi命令會(huì)報(bào)錯(cuò) NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. 嘗試使用官網(wǎng).run文件重新安裝顯卡驅(qū)動(dòng)會(huì)報(bào)錯(cuò)ERROR: Unable to load the kernel module ‘nvidia

    2024年02月11日
    瀏覽(23)
  • docker內(nèi)部執(zhí)行nvidia-smi無(wú)任何顯示的解決方法

    docker內(nèi)部執(zhí)行nvidia-smi無(wú)任何顯示的解決方法

    賀志國(guó) 2023.4.11 今天在Docker內(nèi)部編譯程序,發(fā)現(xiàn)與 CUDA 相關(guān)的代碼居然沒(méi)有編譯,于是在Docker內(nèi)部執(zhí)行Nvidia顯卡驅(qū)動(dòng)檢測(cè)命令 nvidia-smi ,執(zhí)行完畢后,無(wú)任何輸出,也沒(méi)有任何報(bào)錯(cuò)信息,但在Docker外部執(zhí)行該命令,結(jié)果如下圖所示,沒(méi)有任何異常: 最開(kāi)始我以為是Docker啟動(dòng)有

    2024年02月07日
    瀏覽(59)
  • Ubuntu服務(wù)器有一張顯卡nvidia-smi指令不能顯示問(wèn)題(未解決)

    Ubuntu服務(wù)器有一張顯卡nvidia-smi指令不能顯示問(wèn)題(未解決)

    問(wèn)題描述: 服務(wù)器重裝Ubuntu 22.04系統(tǒng),具備10張顯卡,使用nvidia-smi顯示只有9張顯卡,有一張顯卡消失了,重裝驅(qū)動(dòng)也不能解決問(wèn)題。參考博客:(600條消息) ubuntu 18.04 兩張GPU顯卡,nvidia-smi只顯示一張_nvidia-smi只顯示一張顯卡_Jason.su.ai的博客-CSDN博客 ?1、使用lspci |grep NVIDIA指令

    2024年02月11日
    瀏覽(42)
  • 解決 Ubuntu 重啟后輸入 nvidia-smi 顯示 no devices were found 的問(wèn)題

    解決 Ubuntu 重啟后輸入 nvidia-smi 顯示 no devices were found 的問(wèn)題

    根據(jù)下面的鏈接,使用 ubuntu-drivers devices 和 sudo ubuntu-drivers install 安裝推薦的版本后 Ubuntu 卸載重裝 Nvidia 顯卡驅(qū)動(dòng)-CSDN博客 第一次重啟電腦是可以使用顯卡驅(qū)動(dòng)的,但是之后每次再重啟后再輸入 nvidia-smi,就會(huì)顯示:no devices were found 最初一周我一直都懶得搜到底是為什么會(huì)出

    2024年01月23日
    瀏覽(25)
  • Ubuntu下nvidia-smi失敗,使用dkms解決

    nvidia-smi顯示無(wú)法與驅(qū)動(dòng)通訊 一般來(lái)說(shuō)是因?yàn)闄C(jī)器重啟linux內(nèi)核自動(dòng)更新導(dǎo)致,可以嘗試回退內(nèi)核版本,或者使用dkms安裝該內(nèi)核下驅(qū)動(dòng)配套的包,這里主要介紹使用dkms如何處理 查看已安裝的nvidia驅(qū)動(dòng)版本 顯示 說(shuō)明我電腦上nvidia驅(qū)動(dòng)的版本是nvidia-525.116.04 安裝dkms和相關(guān)包 安

    2024年02月13日
    瀏覽(20)
  • 記一次“nvidia-smi”在容器中映射GPU資源時(shí)的排錯(cuò)

    記一次“nvidia-smi”在容器中映射GPU資源時(shí)的排錯(cuò)

    在云渲染容器組pod中,有xx,xx,xx,unity四個(gè)container容器組成,然后因?yàn)閡nity容器鏡像的構(gòu)成是基于vlukan(cudagl相關(guān))和cuda-base打包的,這里的cuda是nvidia的一個(gè)驅(qū)動(dòng)版本,類似顯卡驅(qū)動(dòng)?,F(xiàn)象是啟動(dòng)unity容器后無(wú)法運(yùn)行nvidia-smi和vlukaninfo 初步排查: 因?yàn)槿萜骰\(yùn)行需要依賴宿

    2024年02月03日
    瀏覽(29)
  • nvcc --version和nvidia-smi顯示的CUDA Version不一致

    nvcc --version和nvidia-smi顯示的CUDA Version不一致

    CUDA有兩種API,一個(gè)是驅(qū)動(dòng)API(Driver Version),依賴NVIDIA驅(qū)動(dòng),由nvidia-smi查看,另一個(gè)是運(yùn)行API(Runtime Version)是軟件運(yùn)行所需要的,一般驅(qū)動(dòng)API版本=運(yùn)行API版本即可。 驅(qū)動(dòng)API的依賴文件由GPU driver installer安裝,nvidia-smi屬于這一類API; 運(yùn)行API的依賴文件由CUDA Toolkit installer安

    2024年02月10日
    瀏覽(24)
  • ubuntu20.04裝顯卡驅(qū)動(dòng)nvidia-smi顯示成功的血淚史

    ubuntu20.04裝顯卡驅(qū)動(dòng)nvidia-smi顯示成功的血淚史

    注意這只是我個(gè)人在安裝驅(qū)動(dòng)過(guò)程中踩過(guò)的坑,不要直接照著我的方法裝 在csnd上看了許多教程,最終選擇直接命令行輸入 ubuntu-drivers devices 可以看到推薦的版本是525 于是執(zhí)行sudo apt install nvidia-driver-525(好像這一步執(zhí)行完后沒(méi)有報(bào)錯(cuò)) 打開(kāi)軟件更新看到 ?然后我就根據(jù)網(wǎng)上

    2023年04月15日
    瀏覽(24)
  • nvidia-smi報(bào)錯(cuò)(已解決):NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因分析

    nvidia-smi報(bào)錯(cuò)(已解決):NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因分析

    基本是follow下面教程修復(fù)的 nvidia-smi報(bào)錯(cuò):NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解決方案_打拳的土豆的博客-CSDN博客 1 背景分析: 可能是由于斷電重啟造成的 當(dāng)再次跑實(shí)驗(yàn)時(shí),發(fā)現(xiàn)cuda不可用,于是輸入“nvidia-smi”才發(fā)現(xiàn)了一個(gè)錯(cuò)誤,如下:

    2024年02月09日
    瀏覽(48)
  • Linux | nvidia-smi 命令使用記錄

    Linux | nvidia-smi 命令使用記錄

    參考文章鏈接:https://blog.csdn.net/weixin_44966641/article/details/121228579 nvidia smi(也稱為NVSMI)為來(lái)自 Fermi 和更高體系結(jié)構(gòu)系列的 nvidia Tesla、Quadro、GRID 和 GeForce 設(shè)備提供監(jiān)控和管理功能。GeForce Titan系列設(shè)備支持大多數(shù)功能,為GeForce品牌的其余部分提供的信息非常有限。NVSMI是一種

    2024年02月02日
    瀏覽(17)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包