国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Docker中Failed to initialize NVML: Unknown Error

2年前作者：ZnS_oscar分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了Docker中Failed to initialize NVML: Unknown Error。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

參考資料
Docker 中無法使用 GPU 時該怎么辦（無法初始化 NVML：未知錯誤）
按照下面這篇文章當中引用的文章來（附錄1）
SOLVED Docker with GPU: “Failed to initialize NVML: Unknown Error”
解決方案需要的條件:
需要在服務器上docker的admin list之中. 不需要服務器整體的admin權限. 我在創(chuàng)建docker的時候向管理員申請了把握加到docker list當中了. 如果你能夠創(chuàng)建docker你就滿足這個條件了
問題描述：
在主機上nvidia-smi正常, 但是在docker上報錯如標題.
解決: 使用上述方法修改. 但是有一些不同

我的docker沒有/etc/nvidia-container-runtime/config.toml, 于是我自己新建了一個. 注意新建這個文件需要有docker的admin密碼(不是服務器主機上docker 命令的管理員密碼)

#在docker當中
cd /etc/nvidia-container-runtime/
sudo touch config.toml
sudo vim config.toml
#把下面的config.toml內(nèi)容復制進去
#ESC, :wq

config.toml的內(nèi)容是從服務器上抄的, 復制如下

disable-require = false
#swarm-resource = "DOCKER_RESOURCE_GPU"
#accept-nvidia-visible-devices-envvar-when-unprivileged = true
#accept-nvidia-visible-devices-as-volume-mounts = false

[nvidia-container-cli]
#root = "/run/nvidia/driver"
#path = "/usr/bin/nvidia-container-cli"
environment = []
#debug = "/var/log/nvidia-container-toolkit.log"
#ldcache = "/etc/ld.so.cache"
load-kmods = true
#no-cgroups = false
#user = "root:video"
ldconfig = "@/sbin/ldconfig.real"

[nvidia-container-runtime]
#debug = "/var/log/nvidia-container-runtime.log"
log-level = "info"

# Specify the runtimes to consider. This list is processed in order and the PATH
# searched for matching executables unless the entry is an absolute path.
runtimes = [
    "docker-runc",
    "runc",
]

mode = "auto"

    [nvidia-container-runtime.modes.csv]

    mount-spec-path = "/etc/nvidia-container-runtime/host-files-for-container.d"

不需要重啟docker, 只要重啟容器就可以了. 需要服務器docker admin list權限.
上面的鏈接當中, 使用命令sudo systemctl restart docker重啟docker, 需要服務器admin權限,權限等級比較高. 我只是在docker list 當中.
我首先執(zhí)行了sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi.（1.18更新：我甚至沒有執(zhí)行這一步，如果下次再出現(xiàn)這種情況我考慮只是重啟我的docker試試看）
然后再在主機當中重啟我的container.
我使用docker ps -a查看我的container_id(36e1b3a9c2af), 然后使用docker stop <container_id>關閉我的container, 再使用docker start <container_id>重啟

然后就成功了

附錄1
I’ve bumped to the same issue after recent update of nvidia related packages. Fortunately, I managed to fix it.

Method 1, recommended

Kernel parameter
The easiest way to ensure the presence of systemd.unified_cgroup_hierarchy=false param is to check /proc/cmdline :
cat /proc/cmdline
It’s of course related to a method with usage of boot loader. You can hijack this file to set the parameter on runtime https://wiki.archlinux.org/title/Kernel_parameters#Hijacking_cmdline
nvidia-container configuration
In the file

/etc/nvidia-container-runtime/config.toml
set the parameter
no-cgroups = false
After that restart docker and run test container:

sudo systemctl restart docker
sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

Method 2
Actually, you can try to bypass cgroupsv2 by setting (in file mentioned above)
no-cgroups = true
Then you must manually pass all gpu devices to the container. Check this answer for the list of required mounts:https://github.com/NVIDIA/nvidia-docker/issues/1447#issuecomment-851039827
For debugging purposes, just run:

sudo systemctl restart docker
sudo docker run --rm --gpus all --privileged -v /dev:/dev nvidia/cuda:11.0-base nvidia-smi

Good luck
Last edited by szalinski (2021-06-04 23:41:06)文章來源地址http://www.zghlxwxcb.cn/news/detail-740904.html

到了這里，關于Docker中Failed to initialize NVML: Unknown Error的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

docker-compose 報錯failed to solve: rpc error: code = Unknown desc = failed to solve with frontend doc
執(zhí)行docker-compose?up時候，有時候會出現(xiàn)如下報錯： failed to solve: rpc error: code = Unknown desc = failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code [manifests latest]: 403 Forbidden 這個錯誤據(jù)說基本只出現(xiàn)在Windows端，查了一圈的資料，有說是因為win端必須顯式聲明
2024年02月13日
瀏覽(29)
Failed to initialize NVML: Driver/library version mismatch
昨天跑代碼，cuda還能好好的to(device)，今天就不行了。輸出 torch.cuda.is_available() 顯示False，運行代碼出現(xiàn)以下錯誤：在終端輸入nvidia-smi出現(xiàn)了以下錯誤上網(wǎng)查詢，發(fā)現(xiàn)了許多解決方法。為了更好的解決問題，并且避免再次出現(xiàn)，我對這些方法進行了簡單的整理。希望能夠幫到
2024年02月02日
瀏覽(15)
Failed to initialize NVML: Driver/library version mismatch (解決)
運行 nvidia-smi 報錯：只需一步：下載一個安裝包，運行一個命令來重新安裝 cuda driver 和 cuda toolkit （在一個包里）。到這里：https://developer.nvidia.com/cuda-toolkit-archive 選擇要下載的安裝包。點擊要下載的版本后，下載對應的安裝包，這個安裝包包括 Driver(驅動) Cuda toolkit (工具
2024年02月16日
瀏覽(20)
Jetson設備下使用docker報錯的排錯過程完整記錄，failed to create shim: OCI runtime create failed: container_linux.go:38 解決“docker: Error response from daemon: Unknown runtime specified nvidia”問題
起因是要使用nvidia部署好的ngc鏡像部署? 居然啟動不起來也是神奇的不行? ?去了nvidia論壇好了一下之前的案例問題，并沒解決發(fā)現(xiàn)能下載這個，那就先卸載了試試，越走越偏其實，試探錯誤? ?不好意思又繞回來了 ?哈哈哈，把docker給整沒了兜兜轉轉又回來了 ?看看配置文
2024年02月03日
瀏覽(51)
解決docker報錯 failed to build: manifest for java:8 not found: manifest unknown: manifest unknown
執(zhí)行： docker-compose build 報錯：修改dockerfile中的 From java:8 ，改為： From openjdk:8 修改保存后，重新執(zhí)行構建命令，成功：
2024年02月19日
瀏覽(39)
docker 報錯 library initialization failed - unable to allocate file descriptor table - out of memory
docker容器，啟動的時候容器日志報： library initialization failed - unable to allocate file descriptor table - out of memory docker啟動容器時，若未給容器配置ulimit，則從docker守護進程上設置的默認ulimits繼承，這個值太大？會報這個錯官方文檔： dockerd | Docker Docs ulimit nofile這個值太大報錯的
2024年04月29日
瀏覽(27)
docker 啟動報錯 library initialization failed - unable to allocate file descriptor table - out of memory
docker 啟動報錯 library initialization failed - unable to allocate file descriptor table - out of memory 1.報錯日志 library initialization failed - unable to allocate file descriptor table - out of memory/cm-server/aiboxCloud-web/boot/entrypoint.sh: line 2: 6 Aborted (core dumped) java -Xms1024m -Xmx2048m -jar -XX:+PrintGCDateStamps -XX:+PrintGCDetai
2024年02月11日
瀏覽(27)
Error: Port Library failed to initialize: -86
最近遇到一個很奇怪的錯誤，這里記錄一下，以備以后再次遇到背景是，就是一普通java項目，基礎鏡像是FROM ibmjava:latest，有一次上線，直接docker-compose up -d ，拉取后竟然報錯了？明明在測試環(huán)境測過了啊，看著像是端口問題，但是檢查了端口沒有被占用，搜索說是ibmjava 虛
2024年02月10日
瀏覽(15)
docker鏡像創(chuàng)建失敗記錄-ERROR: failed to solve: failed to compute cache key
拉入鏡像文件build的時候發(fā)現(xiàn)失敗檢查后得知是拉入鏡像文件時，dockerfile配置文件中的鏡像安裝文件與拉入文件名不符。修改配置文件后安裝成功 ? ?
2024年02月01日
瀏覽(27)
【Java遇錯】Error: failed to initialize Sentinel CommandCenterLog
問題描述：引入sentinel的相關依賴之后，啟動項目服務，發(fā)現(xiàn)如下錯誤問題解決：在引入sentinel依賴的地方引入下面的依賴 spring-boot-starter-ahas-sentinel-client 即可成功解決！
2024年02月13日
瀏覽(41)