報錯
實驗室去年到今年斷了幾次電,然后服務器上的2080Ti一直就感覺有點小毛病。屬于是被折磨了幾個月了。
然后前兩周斷電后,顯卡就基本上完全用不了了,經常服務器開機都會失敗。并且就算服務器開機成功過后,沒有幾分鐘顯卡就會自己關掉
剛剛開機一切都很正常
但是沒過幾分鐘顯卡就會突然用不了了:
nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error
然后查看是不是有顯卡
lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)
很奇怪啊,顯卡是在的,但是rev ff
就是顯卡關閉了。
重啟多次過后一直都是這樣。
可能的原因
在網上瘋狂找,覺得可能存在以下問題
- 電源問題
- 也可能是非持久模式導致的頻繁初始化,利用命令sudo nvidia-smi -pm 1即可解決。注意這條命令重啟后會失效,所以最好寫進/etc/rc.local里面,以自動執(zhí)行。
- 驅動問題
- GPU過熱,風扇,機箱散熱問題
- 還有一個,如鏈接。但是我看不懂是怎么回事。
我的問題
我是服務器的電源線在前幾次的斷電中出現(xiàn)了問題,所以會出現(xiàn)開機的問題,并且顯卡畢竟是大功率電器,而且好像有保護機制,電源有問題就自己斷電了。
最后換了一根電源線就解決問題了。
如何排查問題的
電源問題
這個太麻煩,而且一般不好解決也不好發(fā)現(xiàn),所以先不管
非持久模式導致的頻繁初始化
這個方案執(zhí)行最簡單,所以第一個試一下。
然后,使用了sudo nvidia-smi -pm 1
沒有用,寫到/etc/rc.local里面,也沒有用。
驅動問題
退diver版本,更新版本,都沒有用
更新cuda也沒有用。
個人感覺這個報錯一般不會是驅動的問題
GPU過熱,風扇,機箱散熱問題
開機運行就幾分鐘,感覺也不太像過熱的問題。但是還是抬了個風扇到機房對著吹,最后發(fā)現(xiàn)確實不是這個問題。文章來源:http://www.zghlxwxcb.cn/news/detail-780229.html
最后解決
最后實在是受不了了,想著把顯卡卸下來。然后先是把服務器抬到實驗室,給老板表演一下顯卡自己掉線,結果等了半天一點問題都沒有,非常平穩(wěn)。
然后灰溜溜地把服務器弄回去,結果插電源的時候,pa地一下電源的位置閃了一下火花。突然才想到電源的問題還沒有排查。。。
然后隨便換了個根電源線,現(xiàn)在一兩天了,都沒有出問題。。。文章來源地址http://www.zghlxwxcb.cn/news/detail-780229.html
到了這里,關于NVIDIA顯卡BUG解決 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!