真的折磨了我整整一天,從網(wǎng)上的資料到GPT都翻遍了,終于是解決了!以下方案希望能幫助到你們
問題原因
服務(wù)器內(nèi)核自動(dòng)更新導(dǎo)致顯卡無法鏈接
報(bào)錯(cuò)如下:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
簡單解決方案
# 安裝dkms
sudo apt-get install dkms
# 會(huì)出現(xiàn)一個(gè)文件列表,找到類似nvidia-530.41.03
ls -l /usr/src/
# 安裝
sudo dkms install -m nvidia -v 530.41.03
再次運(yùn)行nvidia-smi,若成功,說明你很幸運(yùn)。
若沒成功,報(bào)錯(cuò)
Error! Could not locate dkms.conf file.
或是
Module nvidia/530.41.03 already installed on kernel 5.4.0-132-generic/x86_64
接著往下看
若是使用gcc --version查看出gcc版本過低(小于7.3)
或ls -l /usr/src/命令沒有 nvidia-530.41.03 這類文件
請(qǐng)移步
https://blog.csdn.net/nizhenshishuai/article/details/123873453
報(bào)錯(cuò)Error解決方案
大概率是沒有安裝好或是版本不對(duì)應(yīng),請(qǐng)跟著以下步驟:
# 先進(jìn)入root模式,會(huì)提示輸入密碼
su
# 進(jìn)入之后cd到根目錄下
cd /
# 運(yùn)行以下代碼清除原驅(qū)動(dòng)
sudo apt-get remove --purge nvidia*
# 下載
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
# 查看推薦版本
ubuntu-drivers devices
此時(shí)會(huì)輸出一個(gè)列表,例如:
driver: nvidia-driver-525-open - distro non-free
driver: nvidia-driver-470-server - distro non-free
driver: nvidia-driver-470 - distro non-free
driver: nvidia-driver-515 - distro non-free
driver: nvidia-driver-525 - distro non-free
driver: nvidia-driver-530 - distro non-free
driver: nvidia-driver-515-server - distro non-free
driver: nvidia-driver-525-server - distro non-free
driver: nvidia-driver-515-open - distro non-free
driver: nvidia-driver-510 - distro non-free
driver: nvidia-driver-530-open - distro non-free recommended
driver: xserver-xorg-video-nouveau - distro free builtin
列表中會(huì)有一行最后帶有“recommended”,這是系統(tǒng)推薦版本
例如在我的服務(wù)器中,推薦的就是
driver: nvidia-driver-530-open - distro non-free recommended
但是!
??不要挑帶有-open的版本,可能會(huì)有新的問題
比如明明配好了,使用nvidia-smi報(bào)錯(cuò):
No devices were found
所以,我選擇的版本是
driver: nvidia-driver-530 - distro non-free
選好版本以后接著往下
# 安裝
sudo apt-get install nvidia-driver-530 nvidia-settings nvidia-prime
sudo apt-get install dkms
# 查看是否安裝,會(huì)輸出一個(gè)列表,找到類似nvidia-530.41.03
ll /usr/src/
# 版本號(hào)來自于列表中
sudo dkms install -m nvidia -v 530.41.03
# 重啟
reboot
重啟以后,再次使用nvidia-smi命令,如果成功了,很好恭喜你,沒成功可以嘗試下一個(gè)方案
報(bào)錯(cuò)Already installed解決方案
有可能已經(jīng)安裝完畢,但是!
問題很有可能出在Secure Boot模式上
確認(rèn)服務(wù)器上已安裝并啟用了mokutil工具,如果沒有,請(qǐng)使用以下命令安裝:
sudo apt-get update
sudo apt-get install mokutil
重啟服務(wù)器并進(jìn)入BIOS設(shè)置。具體方法取決于使用的硬件廠商和服務(wù)器型號(hào)。通常,需要在啟動(dòng)時(shí)按下特定的按鍵才能進(jìn)入BIOS設(shè)置界面。比如我的服務(wù)器是DELL,在開機(jī)的時(shí)候按F2進(jìn)入界面
在BIOS設(shè)置中找到Secure Boot選項(xiàng),將其禁用。
保存并退出BIOS設(shè)置。
重新啟動(dòng)服務(wù)器。
再次使用nvidia-smi命令,就成功了!
關(guān)閉內(nèi)核自動(dòng)更新
為了一勞永逸再也不出現(xiàn)這些奇奇怪怪的問題,可以關(guān)閉內(nèi)核的更新,代碼如下:
# 查看內(nèi)核版本
uname -a
# 根據(jù)獲得的版本輸入以下命令,例如
sudo apt-mark hold linux-image-5.19.0-38-generic
sudo apt-mark hold linux-image-5.19.0-38-generic linux-headers-generic
# 查看是否關(guān)閉更新,如果什么都沒輸出,說明更新關(guān)閉了
sudo apt-config dump | grep -i unattended-upgrades
以上,就是努力了一天的成果(踩了一天的坑),成功了才寫的方案所以可能有些地方有遺忘導(dǎo)致紕漏,歡迎指正
參考文章來源:http://www.zghlxwxcb.cn/news/detail-603451.html
https://blog.csdn.net/zataji/article/details/123104569
https://blog.csdn.net/nizhenshishuai/article/details/123873453
https://www.cnblogs.com/devgis/p/16469895.html
https://zhuanlan.zhihu.com/p/462412591
https://forums.developer.nvidia.com/t/nvidia-smi-outputs-no-devices-were-found-on-ubuntu-22-04-driver-520/234829文章來源地址http://www.zghlxwxcb.cn/news/detail-603451.html
到了這里,關(guān)于NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 最全解決方案!詳細(xì)!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!