国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

NVIDIA顯卡BUG解決 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

這篇具有很好參考價值的文章主要介紹了NVIDIA顯卡BUG解決 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

報錯

實驗室去年到今年斷了幾次電,然后服務器上的2080Ti一直就感覺有點小毛病。屬于是被折磨了幾個月了。
然后前兩周斷電后,顯卡就基本上完全用不了了,經常服務器開機都會失敗。并且就算服務器開機成功過后,沒有幾分鐘顯卡就會自己關掉

剛剛開機一切都很正常
但是沒過幾分鐘顯卡就會突然用不了了:

nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

然后查看是不是有顯卡

lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)

很奇怪啊,顯卡是在的,但是rev ff就是顯卡關閉了。
重啟多次過后一直都是這樣。

可能的原因

在網上瘋狂找,覺得可能存在以下問題

  • 電源問題
  • 也可能是非持久模式導致的頻繁初始化,利用命令sudo nvidia-smi -pm 1即可解決。注意這條命令重啟后會失效,所以最好寫進/etc/rc.local里面,以自動執(zhí)行。
  • 驅動問題
  • GPU過熱,風扇,機箱散熱問題
  • 還有一個,如鏈接。但是我看不懂是怎么回事。

我的問題

我是服務器的電源線在前幾次的斷電中出現(xiàn)了問題,所以會出現(xiàn)開機的問題,并且顯卡畢竟是大功率電器,而且好像有保護機制,電源有問題就自己斷電了。
最后換了一根電源線就解決問題了。

如何排查問題的

電源問題

這個太麻煩,而且一般不好解決也不好發(fā)現(xiàn),所以先不管

非持久模式導致的頻繁初始化

這個方案執(zhí)行最簡單,所以第一個試一下。
然后,使用了sudo nvidia-smi -pm 1沒有用,寫到/etc/rc.local里面,也沒有用。

驅動問題

退diver版本,更新版本,都沒有用
更新cuda也沒有用。
個人感覺這個報錯一般不會是驅動的問題

GPU過熱,風扇,機箱散熱問題

開機運行就幾分鐘,感覺也不太像過熱的問題。但是還是抬了個風扇到機房對著吹,最后發(fā)現(xiàn)確實不是這個問題。

最后解決

最后實在是受不了了,想著把顯卡卸下來。然后先是把服務器抬到實驗室,給老板表演一下顯卡自己掉線,結果等了半天一點問題都沒有,非常平穩(wěn)。
然后灰溜溜地把服務器弄回去,結果插電源的時候,pa地一下電源的位置閃了一下火花。突然才想到電源的問題還沒有排查。。。
然后隨便換了個根電源線,現(xiàn)在一兩天了,都沒有出問題。。。文章來源地址http://www.zghlxwxcb.cn/news/detail-780229.html

到了這里,關于NVIDIA顯卡BUG解決 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • EKS 解決Unable to connect to the server 問題

    EKS 解決Unable to connect to the server 問題

    報錯內容如下 1、先配置日志查詢我們的eks所屬用戶 2、查詢日志 執(zhí)行以下查詢語句 3、查詢當前主機aws configure 4、執(zhí)行操作遠程k8s 報錯如下 5、降低kubectl版本 各版本下載地址 https://docs.aws.amazon.com/eks/latest/userguide/install-kubectl.html

    2024年02月12日
    瀏覽(98)
  • Xcode14:”Failed to prepare the device for development“解決

    當前Xcode版本14.2,測試機iOS版本16.4, 結果出現(xiàn)提示: Failed to prepare the device for development, 經過Clean,重裝都無效,最后發(fā)現(xiàn)其他人也有類似的問題 ? ? ? ?https://developer.apple.com/forums/thread/714388 PS:首先把升級之前的arc文件復制出來,arc文件的目錄如下 /Applications/Xcode.app/Content

    2024年02月08日
    瀏覽(23)
  • 【bug解決】RuntimeError: Unable to find a valid cuDNN algorithm to run convolution

    進行深度學習的算法模型訓練的時候,終端報錯: 產生報錯的原因可能有兩種: 1.模型訓練的環(huán)境中cudnn,CUDA的版本號不匹配 解決辦法:安裝對應的cudnn,以及cuda,找到對應的torch框架,進行安裝 2.其實問題更加簡單,是模型的訓練的batch-size訓練過大了,調整更小,就可以了

    2024年02月11日
    瀏覽(90)
  • 記NVIDIA顯卡A100在K8S POD中“Failed to initialize NVML: Unknown Error“問題解決

    因項目原因需要在k8s上跑GPU相關的代碼,優(yōu)選使用NVIDIA A100顯卡,但在根據(jù)官方文檔簡單并部署GitHub - NVIDIA/k8s-device-plugin:適用于 Kubernetes 的 NVIDIA 設備插件后,出現(xiàn)了pod中GPU運行一段時間后丟失的問題,進入容器后發(fā)現(xiàn)nvidia-smi命令報錯\\\"Failed to initialize NVML: Unknown Error\\\"。嘗試

    2024年02月08日
    瀏覽(24)
  • Unable to start the daemon process.解決方案

    Unable to start the daemon process.解決方案

    ?錯誤信息如下: Unable to start the daemon process. This problem might be caused by incorrect configuration of the daemon. For example, an unrecognized jvm option is used. Please refer to the User Manual chapter on the daemon at https://docs.gradle.org/6.5/userguide/gradle_daemon.html Process command line: D:Javajdk-1.8binjava.exe -Xmx2048m -Dfil

    2024年02月14日
    瀏覽(92)
  • Xcode真機運行報錯:Failed to prepare the device for development解決方法

    Xcode真機運行報錯:Failed to prepare the device for development解決方法

    ? ? ? ? 運行Xcode然后打包APP,結果Xcode報錯,如下: Failed to prepare the device for development. This operation can fail if the version of the OS on the device is incompatible with the installed version of Xcode. You may also need to restart your Mac and device in order to correctly detect compatibility. ? ? ? ? Xcode? ? ?Version 1

    2024年02月12日
    瀏覽(20)
  • 幾個Flutter常見診斷錯誤與解決Android toolchain - develop for Android devices X Unable to locate Android SDK

    幾個Flutter常見診斷錯誤與解決Android toolchain - develop for Android devices X Unable to locate Android SDK

    幾個Flutter常見診斷錯誤與解決 jcLee95:https://blog.csdn.net/qq_28550263 https://blog.csdn.net/qq_28550263/article/details/132869987 問題描述 原因分析 這個錯誤表示找不到Android SDK??赡艿脑蚴茿ndroid Studio沒有安裝或者安裝路徑沒有正確配置。 解決辦法 問題描述 原因與解決 這個錯誤信息表明

    2024年02月04日
    瀏覽(24)
  • 【你該安裝新的Xcode了】【解決】Failed to prepare the device for development

    【你該安裝新的Xcode了】【解決】Failed to prepare the device for development

    報錯信息如下: Failed to prepare the device for development. This operation can fail if the version of the OS on the device is incompatible with the installed version of Xcode.You may also need to restart your Mac and device in order to correctly detect compatibility. 意思很明了,用最新版的Xcode吧。 實踐證明:Xcode 14.0.1不能在iPa

    2024年02月15日
    瀏覽(24)
  • 解決fatal: unable to access ‘https://github.com/NVIDIA/apex.git/‘: Recv failure: Connection was reset

    解決fatal: unable to access ‘https://github.com/NVIDIA/apex.git/‘: Recv failure: Connection was reset

    Windows環(huán)境下,需要到官網下載git,到指定文件夾中打開git bash。 輸入命令 時會報錯。 原因可能是默認配置了https代理,這里需要改為git協(xié)議。 解決方法: 1:確保VPN打開的情況下,打開系統(tǒng)設置-網絡和Internet-代理。找到自己的代理IP,如下: ? 2:在git bash 中依次輸入以下指

    2024年02月11日
    瀏覽(98)
  • unable to connect to the server: net/http: tls handshake timeout已解決

    unable to connect to the server: net/http: tls handshake timeout已解決

    在自己電腦上學習k8s,使用kind安裝了一個集群,過了一段時間再打開發(fā)現(xiàn)了一個問題。 執(zhí)行 kubectl get po 的時候有報錯 查了半個小時也沒解決,有說內存不夠,也有說要重啟服務的,也有說重啟docker的,關閉交換分區(qū)的,還有代理不對什么的,都沒有解決我的問題,最后我試

    2024年02月13日
    瀏覽(96)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包