国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

矩池云上使用nvidia-smi命令教程

2年前作者：機(jī)器學(xué)習(xí)是魔鬼分類：Toy博客閱讀(16)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了矩池云上使用nvidia-smi命令教程。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

簡(jiǎn)介

nvidia-smi全稱是NVIDIA System Management Interface ，它是一個(gè)基于NVIDIA Management Library(NVML)構(gòu)建的命令行實(shí)用工具，旨在幫助管理和監(jiān)控NVIDIA GPU設(shè)備。

詳解nvidia-smi命令

uncorr. ecc,云計(jì)算,GPU,矩池云

接下來(lái)我介紹一下，用nvidia-smi命令來(lái)查詢機(jī)器GPU使用情況的相關(guān)內(nèi)容。?

nvidia-smi

我以上圖的查詢內(nèi)容為例，已經(jīng)復(fù)制出來(lái)了，如下，

(myconda) root@8dbdc324be74:~# nvidia-smi
Tue Jul 20 14:35:11 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |
| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |
| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

我們來(lái)拆分一下

NVIDIA-SMI 460.32.03          # 
Driver Version: 460.32.03     # 英偉達(dá)驅(qū)動(dòng)版本
CUDA Version: 11.2            # CUDA版本

|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |
| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |
| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

GPU：                # GPU的編號(hào)，0代表第一張顯卡，1代表第二張，依次類推

Fan：                # 風(fēng)扇轉(zhuǎn)速（0%–100%），N/A表示沒(méi)有風(fēng)扇

Name：               # GPU的型號(hào)，以此處為例是P100

Temp：               # GPU溫度（GPU溫度過(guò)高會(huì)導(dǎo)致GPU頻率下降）

Perf：               # 性能狀態(tài)，從P0（最大性能）到P12（最小性能）

Pwr：                # GPU功耗

Persistence-M：      #  持續(xù)模式的狀態(tài)（持續(xù)模式耗能大，但在新的GPU應(yīng)用啟動(dòng)時(shí)花費(fèi)時(shí)間更少）

Bus-Id：             # GPU總線，domain:bus:device.function

Disp.A：             # Display Active，表示GPU的顯示是否初始化

Memory-Usage：       # 顯存使用率（顯示顯存占用情況）

Volatile GPU-Util：  # 浮動(dòng)的GPU利用率

ECC：                # 是否開(kāi)啟錯(cuò)誤檢查和糾正技術(shù)，0/DISABLED, 1/ENABLED

Compute M.：         # 計(jì)算模式，0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

Memory-Usage和Volatile GPU-Util是兩個(gè)不一樣的東西，顯卡由GPU和顯存等部分所構(gòu)成，GPU相當(dāng)于顯卡上的CPU，顯存相當(dāng)于顯卡上的內(nèi)存。在跑任務(wù)的過(guò)程中可以通過(guò)優(yōu)化代碼來(lái)提高這兩者的使用率。?

nvcc和nvidia-smi顯示的CUDA版本不同？

(myconda) root@8dbdc324be74:~# nvidia-smi
Tue Jul 20 14:35:11 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |
| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |
| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
(myconda) root@8dbdc324be74:~# nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Mon_Oct_12_20:09:46_PDT_2020
Cuda compilation tools, release 11.1, V11.1.105
Build cuda_11.1.TC455_06.29190527_0

可以看到nvcc的CUDA版本是11.1，而nvidia-smi的CUDA版本是11.2。這對(duì)運(yùn)行任務(wù)是沒(méi)有影響的，絕大多數(shù)代碼都是可以正常跑起來(lái)的，引起這個(gè)的主要是因?yàn)镃UDA兩個(gè)主要的API，runtime API和driver API。神奇的是這兩個(gè)API都有自己對(duì)應(yīng)的CUDA版本（如圖上的11.1和11.2）。在StackOverflow有一個(gè)解釋，如果driver API和runtime API的CUDA版本不一致可能是因?yàn)槟闶褂玫氖菃为?dú)的GPU driver installer，而不是CUDA Toolkit installer里的GPU driver installer。在矩池云上的表現(xiàn)可以解釋為driver API來(lái)自于物理機(jī)器的驅(qū)動(dòng)版本，runtime API是來(lái)自于矩池云鏡像環(huán)境內(nèi)的CUDA Toolkit版本。

實(shí)時(shí)顯示顯存使用情況

nvidia-smi -l 5  #5秒刷新一次

動(dòng)態(tài)刷新信息（默認(rèn)5s刷新一次），按Ctrl+C停止，可指定刷新頻率，以秒為單位

#每隔一秒刷新一次，刷新頻率改中間數(shù)字即可
watch -n 1 -d nvidia-smi

在這里不建議使用watch查看nvidia-smi，watch每個(gè)時(shí)間周期開(kāi)啟一個(gè)進(jìn)程(PID)，查看后關(guān)閉進(jìn)程，可能會(huì)影響到其他進(jìn)程。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-594781.html

到了這里，關(guān)于矩池云上使用nvidia-smi命令教程的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

如何在矩池云上安裝語(yǔ)音識(shí)別模型 Whisper
Whisper 是 OpenAI 近期開(kāi)源的一個(gè)語(yǔ)音識(shí)別的模型，研究人員基于 680,000 小時(shí)的標(biāo)記音頻數(shù)據(jù)進(jìn)行訓(xùn)練，它同時(shí)也是一個(gè)多任務(wù)模型，可以進(jìn)行多語(yǔ)言語(yǔ)音識(shí)別以及語(yǔ)音翻譯任務(wù)，可以將語(yǔ)音音頻轉(zhuǎn)錄為所講語(yǔ)言的文本，以及翻譯成英語(yǔ)文本。查看論文：https://cdn.openai.com/paper
2024年02月11日
瀏覽(20)
一次必搞定Ubuntu上安裝nvidia驅(qū)動(dòng)教程--nvidia-smi
Nvidia官網(wǎng) (https://www.nvidia.cn/) Nvidia驅(qū)動(dòng)下載地址：https://www.nvidia.cn/Download/index.aspx?lang=cn NVIDIA顯卡驅(qū)動(dòng)可以通過(guò)如下指令刪除以前安裝的NVIDIA驅(qū)動(dòng)版本，重新安裝。注意！在安裝NVIDIA驅(qū)動(dòng)以前需要禁止系統(tǒng)自帶顯卡驅(qū)動(dòng)nouveau：可以先通過(guò)指令lsmod | grep nouveau查看nouveau驅(qū)動(dòng)的啟
2024年02月17日
瀏覽(62)
【nvidia-smi：command not found】如何在集群服務(wù)器上使用nvidia-smi查看GPU信息
1. nvidia-smi指令輸出分析對(duì)于普通的多卡服務(wù)器，nvidia-smi命令可以顯示有關(guān) NVIDIA 顯卡和 GPU 的詳細(xì)信息，如輸入得到以下輸出，可以看到相應(yīng)的CUDA版本，GPU顯存大小等信息。 2. 集群上使用nvidia-smi指令如果登錄了服務(wù)器后，直接在命令行中輸入nvidia-smi，會(huì)有如下報(bào)錯(cuò)： b
2024年02月10日
瀏覽(34)
阿里云服務(wù)器執(zhí)行nvidia-smi命令后提示【No devices were found】
服務(wù)器有一段時(shí)間沒(méi)用了，今天想拿來(lái)跑模型，結(jié)果我查詢顯卡的時(shí)候居然提示“No devices were found”，也不算是報(bào)錯(cuò)吧，但是起碼是不對(duì)的，這個(gè)意思就是找不到設(shè)備資源了。這個(gè)著實(shí)就很奇怪，我并沒(méi)有做過(guò)任何事情就很莫名其妙。首先查看下顯卡是否還在，如下：結(jié)果
2024年02月11日
瀏覽(114)
Ubuntu下nvidia-smi失敗，使用dkms解決
nvidia-smi顯示無(wú)法與驅(qū)動(dòng)通訊一般來(lái)說(shuō)是因?yàn)闄C(jī)器重啟linux內(nèi)核自動(dòng)更新導(dǎo)致，可以嘗試回退內(nèi)核版本，或者使用dkms安裝該內(nèi)核下驅(qū)動(dòng)配套的包，這里主要介紹使用dkms如何處理查看已安裝的nvidia驅(qū)動(dòng)版本顯示說(shuō)明我電腦上nvidia驅(qū)動(dòng)的版本是nvidia-525.116.04 安裝dkms和相關(guān)包安
2024年02月13日
瀏覽(22)
【已解決】nvidia-smi不顯示正在使用GPU的進(jìn)程
環(huán)境：遠(yuǎn)程服務(wù)器Ubuntu20.04 CUDA 11.6 現(xiàn)象：在日志文件和終端均顯示Python腳本已使用了GPU 但是 nvidia-smi 中的 Processes 進(jìn)程無(wú)顯示首先，可以看到 GPU顯存被占用，換言之有實(shí)例在正常使用GPU，表明不是硬件、顯卡驅(qū)動(dòng)等問(wèn)題。檢查Pytorch是否正確配置證明也不是Pytorch的問(wèn)題接
2024年01月25日
瀏覽(23)
nvidia-smi簡(jiǎn)介及各參數(shù)的詳解與字段的詳解和使用
????? 博主簡(jiǎn)介 ????云計(jì)算領(lǐng)域優(yōu)質(zhì)創(chuàng)作者 ????華為云開(kāi)發(fā)者社區(qū)專家博主 ????阿里云開(kāi)發(fā)者社區(qū)專家博主 ?? 交流社區(qū)：運(yùn)維交流社區(qū) 歡迎大家的加入！ ?? 希望大家多多支持，我們一起進(jìn)步！?? ??如果文章對(duì)你有幫助的話，歡迎點(diǎn)贊 ???? 評(píng)論 ?? 收藏
2024年02月03日
瀏覽(27)
解決沒(méi)有NVSMI文件夾以及nvidia-smi‘ 不是內(nèi)部或外部命令，也不是可運(yùn)行的程序或批處理文件
去英偉達(dá)官網(wǎng)下載顯卡驅(qū)動(dòng)，對(duì)顯卡進(jìn)行升級(jí)即可。方法：將NVSMI文件夾添加到系統(tǒng)環(huán)境變量中即可。在系統(tǒng)變量path里面添加上面的路徑，就可以訪問(wèn)到這個(gè)命令，就可以執(zhí)行了。執(zhí)行命令的方法：win+r打開(kāi)輸入cmd 然后輸入：nvidia-smi 去英偉達(dá)官網(wǎng)下載 CUDA：https://developer
2024年02月16日
瀏覽(421)
nvidia-smi報(bào)錯(cuò)（已解決）：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因分析
基本是follow下面教程修復(fù)的 nvidia-smi報(bào)錯(cuò)：NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解決方案_打拳的土豆的博客-CSDN博客 1 背景分析：可能是由于斷電重啟造成的當(dāng)再次跑實(shí)驗(yàn)時(shí)，發(fā)現(xiàn)cuda不可用，于是輸入“nvidia-smi”才發(fā)現(xiàn)了一個(gè)錯(cuò)誤，如下：
2024年02月09日
瀏覽(48)
【已解決】nvidia-smi報(bào)錯(cuò)：NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服務(wù)器
如題，起因是在阿里云GPU服務(wù)器上，使用原先正常運(yùn)行的鏡像生成了容器，但容器的顯卡驅(qū)動(dòng)出問(wèn)題了，使用nvidia-smi命令會(huì)報(bào)錯(cuò) NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. 嘗試使用官網(wǎng).run文件重新安裝顯卡驅(qū)動(dòng)會(huì)報(bào)錯(cuò)ERROR: Unable to load the kernel module ‘nvidia
2024年02月11日
瀏覽(24)