国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<delect id="j5zl1"><font id="j5zl1"></font></delect>

RuntimeError: CUDA error: an illegal memory access was encountered

2年前作者：噸噸不打野分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了RuntimeError: CUDA error: an illegal memory access was encountered。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

4. 我的解決

后續(xù)發(fā)現(xiàn)其實(shí)是某張卡有問題，

0~3一共4個(gè)GPU，只在使用0號GPU的時(shí)候會出問題
0號卡似乎是被某個(gè)進(jìn)程鎖了，還是怎么樣，不用那個(gè)卡就沒事了

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
其實(shí)不難發(fā)現(xiàn)，我報(bào)錯(cuò)的位置基本都是從gpu往cpu轉(zhuǎn)換的時(shí)候出現(xiàn)的問題。

因此考慮是不是cpu內(nèi)存不太夠了，所以內(nèi)存訪問發(fā)生錯(cuò)誤了
由于我使用的是容器，因此在docker-compose或者dockerfile里將配置項(xiàng)改為：
```
    shm_size: 64G  →     shm_size: 128G
```
shm_size，共享內(nèi)存（shared memory）
之后就基本不報(bào)錯(cuò)了。。。

1. 錯(cuò)誤描述

例行吐槽，第一次遇到這個(gè)錯(cuò)誤，我是非常無語的。以前是不報(bào)錯(cuò)的，和以前相比，不同的地方有

數(shù)據(jù)變多了，從80例變成了100例
換了個(gè)docker鏡像，可能pytorch版本和cuda版本上有些問題
檢查了代碼，沒有發(fā)生修改

2. 自我嘗試

2.1 減小batch_size

感覺上可能會和顯存有點(diǎn)關(guān)系吧

第一次報(bào)錯(cuò)

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

結(jié)合自己的代碼，我這個(gè)是在第一個(gè)epoch訓(xùn)練完成，validation階段報(bào)的錯(cuò)（line 243）
報(bào)錯(cuò)后調(diào)整batch_size變?。?0→8），繼續(xù)報(bào)錯(cuò)

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

不過上一步validation的地方已經(jīng)走過去了，line 258報(bào)錯(cuò)
說明把batch_size變小是有一定的效果的

按照這個(gè)思路繼續(xù)把batch_size調(diào)小（8→5），又換了個(gè)位置報(bào)錯(cuò)。。
runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

line 305報(bào)錯(cuò)

2.2 換卡改代碼

換思路

換了張卡，從0卡變到了1卡。。
刪除了非必須的CPU和GPU交換數(shù)據(jù)部分的代碼
依然報(bào)錯(cuò)
用兩張卡，batch_size設(shè)置10，不使用預(yù)訓(xùn)練模型，還是報(bào)錯(cuò)
從頭訓(xùn)練，單卡，batch_size=5
從頭訓(xùn)練，單卡，batch_size=4

情況好了一點(diǎn)，都跑到第8個(gè)epoch了。但是還是斷了

3. 調(diào)研情況

報(bào)錯(cuò)信息是CUDA丟出來的一個(gè)運(yùn)行時(shí)錯(cuò)誤，發(fā)生了非法內(nèi)存訪問。網(wǎng)上關(guān)于這個(gè)問題的討論也很多，但是并沒有發(fā)現(xiàn)有找到真正原因的。

很多都是靠感覺的

參考：文章來源地址http://www.zghlxwxcb.cn/news/detail-797671.html

pytorch的github issue：RuntimeError: CUDA error: an illegal memory access was encountered
- 這個(gè)回答好像有效的人比較多，一次慘痛的debug的經(jīng)歷-RuntimeError: CUDA error: an illegal memory access was encountered，這個(gè)人就是這么解決的
另外還有一些是經(jīng)驗(yàn)論的，
- CSDN博客：[徹底解決]CUDA error: an illegal memory access was encountered(CUDA錯(cuò)誤非法訪問內(nèi)存)
yolo的GitHub issue：Cuda illegal memory access when running inference on *.engine #6311

4. 自定義cuda配置

搜索/etc/X11/xorg.conf

參考：

https://download.nvidia.com/XFree86/Linux-x86_64/396.51/README/editxconfig.html
https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#address-custom-xorg-conf-if-applicable
https://unix.stackexchange.com/questions/200553/multi-nvidia-gpu-overclocking-for-computations-cuda

到了這里，關(guān)于RuntimeError: CUDA error: an illegal memory access was encountered的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

RuntimeError: CUDA out of memory.【多種場景下的解決方案】
RuntimeError: CUDA out of memory.【多種場景下的解決方案】 ?? 個(gè)人主頁：高斯小哥 ?? 高質(zhì)量專欄：【Matplotlib之旅：零基礎(chǔ)精通數(shù)據(jù)可視化】 ????關(guān)注博主，隨時(shí)獲取更多關(guān)于深度學(xué)習(xí)、PyTorch、Python領(lǐng)域的優(yōu)質(zhì)內(nèi)容！???? ??隨著深度學(xué)習(xí)的繁榮發(fā)展，GPU已成為推動(dòng)這一浪
2024年02月22日
瀏覽(22)
RuntimeError:CUDA out of memory.Tried to allocate 20.00MiB.
這是我遇到的問題，剛開始的時(shí)候怎么也解決不了。然后我去搜了一下解決方法，具體方法如下：方法一：僅需減小batchsize 改文件的配置cfg的batchsize=1，一般在cfg文件下的查找batch或batchsize，將batchsize調(diào)小后，再次運(yùn)行，類似于改下面方法二：? 上述方法還沒解決，不改
2023年04月11日
瀏覽(26)
大概率（5重方法）解決RuntimeError: CUDA out of memory. Tried to allocate ... MiB
前些天發(fā)現(xiàn)了一個(gè)出色的人工智能學(xué)習(xí)網(wǎng)站。它的內(nèi)容不僅深入淺出、易于理解，還充滿了趣味性和幽默感，我覺得這對于喜歡探索新知識的朋友們來說會是一個(gè)不錯(cuò)的資源。如果你對人工智能感興趣，不妨點(diǎn)擊查看，看看能否為你的學(xué)習(xí)之旅增添一些樂趣和啟發(fā)。跑ber
2024年02月05日
瀏覽(21)
RuntimeError: error: ObjV is illegal. (目標(biāo)函數(shù)值矩陣ObjV的數(shù)據(jù)格式不合法，請檢查目標(biāo)函數(shù)的計(jì)算。)
RuntimeError: error: ObjV is illegal. (目標(biāo)函數(shù)值矩陣ObjV的數(shù)據(jù)格式不合法，請檢查目標(biāo)函數(shù)的計(jì)算。) 調(diào)用geatpy，編寫probelms中的目標(biāo)函數(shù)時(shí)出現(xiàn)的問題原因：目標(biāo)函數(shù)（目標(biāo)值）的數(shù)據(jù)格式存在問題。修改方法：目標(biāo)函數(shù)（目標(biāo)值）需要時(shí)numpy格式且是二維矩陣修改前：修改后
2024年02月16日
瀏覽(68)
AI繪畫——使用stable-diffusion生成圖片時(shí)提示RuntimeError: CUDA out of memory處理方法
RuntimeError: CUDA out of memory. Tried to allocate 1.50 GiB (GPU 0; 8.00 GiB total capacity; 5.62 GiB already allocated; 109.75 MiB free; 5.74 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 1、添加參數(shù)–n_
2024年02月02日
瀏覽(91)
安裝庫時(shí)報(bào)錯(cuò)：RuntimeError: The detected CUDA version (11.7) mismatches the version that was used to...
?Ubuntu 22.04系統(tǒng)在安裝pytorch3d庫時(shí)出現(xiàn)了報(bào)錯(cuò)信息：RuntimeError: The detected CUDA version (11.7) mismatches the version that was used to compile PyTorch (10.2). Please make sure to use the same CUDA versions. 在終端查看顯卡信息(指令nvidia-smi)：查看CUDA版本，此處是11.7 ?根據(jù)報(bào)錯(cuò)信息，我現(xiàn)在的虛擬環(huán)境下的
2024年02月11日
瀏覽(23)
解決：RuntimeError: CUDA out of memory. Tried to allocate 160.00 MiB (GPU 0； 10.76 GiB total capacity..
完整報(bào)錯(cuò)： ? 問題分析：內(nèi)存分配不足：需要160MB，，但GPU只剩下135.31MB。解決辦法： 1.減小batch_size。注意batchsize的調(diào)整要配合學(xué)習(xí)率的調(diào)整，一般是正比關(guān)系，BS增大兩倍，LR增大兩倍或者根號二倍。減小也是相應(yīng)更改。 2.運(yùn)行torch.cuda.empty_cache()函數(shù)。加在訓(xùn)練開始前即可
2024年02月16日
瀏覽(19)
filezilla出現(xiàn)GnuTLS error -8: A packet with illegal or unsupported version was received.錯(cuò)誤的解決方案
使用filezilla連接較老的ftp服務(wù)器（無加密）時(shí)，由于該軟件默認(rèn)的加密方式為SSL（即explicit?FTP?over?TLS），因此遇到無加密的ftp時(shí)會顯示協(xié)議不支持。報(bào)錯(cuò)信息如下： Error: GnuTLS error -8: A packet with illegal or unsupported version was received. Status: Connection attempt failed with \\\"ECONNABORTED - C
2024年02月11日
瀏覽(39)
BUG：RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo
參考鏈接當(dāng)運(yùn)行以下代碼出現(xiàn)報(bào)錯(cuò): 報(bào)錯(cuò)信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 報(bào)錯(cuò)完整截圖報(bào)錯(cuò)的信息告訴我們，編號\\\"1\\\"是無效的設(shè)
2024年02月12日
瀏覽(28)
已解決RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo
參考鏈接當(dāng)運(yùn)行以下代碼出現(xiàn)報(bào)錯(cuò): 報(bào)錯(cuò)信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 報(bào)錯(cuò)完整截圖報(bào)錯(cuò)的信息告訴我們，編號\\\"1\\\"是無效的設(shè)
2024年02月04日
瀏覽(30)

<track id="endlc"></track>

<track id="endlc"><abbr id="endlc"></abbr></track>

<track id="endlc"></track>

<address id="endlc"><form id="endlc"></form></address>