国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

RuntimeError: CUDA error: an illegal memory access was encountered

這篇具有很好參考價(jià)值的文章主要介紹了RuntimeError: CUDA error: an illegal memory access was encountered。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

4. 我的解決

后續(xù)發(fā)現(xiàn)其實(shí)是某張卡有問題,

  • 0~3一共4個(gè)GPU,只在使用0號GPU的時(shí)候會出問題
  • 0號卡似乎是被某個(gè)進(jìn)程鎖了,還是怎么樣,不用那個(gè)卡就沒事了

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
其實(shí)不難發(fā)現(xiàn),我報(bào)錯(cuò)的位置基本都是從gpucpu轉(zhuǎn)換的時(shí)候出現(xiàn)的問題。

  • 因此考慮是不是cpu內(nèi)存不太夠了,所以內(nèi)存訪問發(fā)生錯(cuò)誤了
  • 由于我使用的是容器,因此在docker-compose或者dockerfile里將配置項(xiàng)改為:
        shm_size: 64G  →     shm_size: 128G
    
  • shm_size,共享內(nèi)存(shared memory)
  • 之后就基本不報(bào)錯(cuò)了。。。

1. 錯(cuò)誤描述

例行吐槽,第一次遇到這個(gè)錯(cuò)誤,我是非常無語的。以前是不報(bào)錯(cuò)的,和以前相比,不同的地方有

  1. 數(shù)據(jù)變多了,從80例變成了100例
  2. 換了個(gè)docker鏡像,可能pytorch版本和cuda版本上有些問題
  3. 檢查了代碼,沒有發(fā)生修改

2. 自我嘗試

2.1 減小batch_size

感覺上可能會和顯存有點(diǎn)關(guān)系吧

第一次報(bào)錯(cuò)

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

  • 結(jié)合自己的代碼,我這個(gè)是在第一個(gè)epoch訓(xùn)練完成,validation階段報(bào)的錯(cuò)(line 243
  • 報(bào)錯(cuò)后調(diào)整batch_size變?。?0→8),繼續(xù)報(bào)錯(cuò)

runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

  • 不過上一步validation的地方已經(jīng)走過去了,line 258報(bào)錯(cuò)
  • 說明把batch_size變小是有一定的效果的

按照這個(gè)思路繼續(xù)把batch_size調(diào)小(8→5),又換了個(gè)位置報(bào)錯(cuò)。。
runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能

  • line 305報(bào)錯(cuò)

2.2 換卡改代碼

換思路

  • 換了張卡,從0卡變到了1卡。。
  • 刪除了非必須的CPU和GPU交換數(shù)據(jù)部分的代碼
  • 依然報(bào)錯(cuò)
    runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
  • 用兩張卡,batch_size設(shè)置10,不使用預(yù)訓(xùn)練模型,還是報(bào)錯(cuò)
    runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
  • 從頭訓(xùn)練,單卡,batch_size=5
    runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
  • 從頭訓(xùn)練,單卡,batch_size=4
    runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
    情況好了一點(diǎn),都跑到第8個(gè)epoch了。但是還是斷了

3. 調(diào)研情況

報(bào)錯(cuò)信息是CUDA丟出來的一個(gè)運(yùn)行時(shí)錯(cuò)誤,發(fā)生了非法內(nèi)存訪問。網(wǎng)上關(guān)于這個(gè)問題的討論也很多,但是并沒有發(fā)現(xiàn)有找到真正原因的。

很多都是靠感覺的

參考:文章來源地址http://www.zghlxwxcb.cn/news/detail-797671.html

  • pytorch的github issue:RuntimeError: CUDA error: an illegal memory access was encountered
    runtimeerror: cuda error: an illegal memory access was encountered,pytorch,深度學(xué)習(xí),pytorch,人工智能
    • 這個(gè)回答好像有效的人比較多,一次慘痛的debug的經(jīng)歷-RuntimeError: CUDA error: an illegal memory access was encountered,這個(gè)人就是這么解決的
  • 另外還有一些是經(jīng)驗(yàn)論的,
    • CSDN博客:[徹底解決]CUDA error: an illegal memory access was encountered(CUDA錯(cuò)誤 非法訪問內(nèi)存)
  • yolo的GitHub issue:Cuda illegal memory access when running inference on *.engine #6311

4. 自定義cuda配置

搜索/etc/X11/xorg.conf

參考:

  • https://download.nvidia.com/XFree86/Linux-x86_64/396.51/README/editxconfig.html
  • https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#address-custom-xorg-conf-if-applicable
  • https://unix.stackexchange.com/questions/200553/multi-nvidia-gpu-overclocking-for-computations-cuda

到了這里,關(guān)于RuntimeError: CUDA error: an illegal memory access was encountered的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • RuntimeError: CUDA out of memory.【多種場景下的解決方案】

    RuntimeError: CUDA out of memory.【多種場景下的解決方案】

    RuntimeError: CUDA out of memory.【多種場景下的解決方案】 ?? 個(gè)人主頁:高斯小哥 ?? 高質(zhì)量專欄:【Matplotlib之旅:零基礎(chǔ)精通數(shù)據(jù)可視化】 ????關(guān)注博主,隨時(shí)獲取更多關(guān)于深度學(xué)習(xí)、PyTorch、Python領(lǐng)域的優(yōu)質(zhì)內(nèi)容!???? ??隨著深度學(xué)習(xí)的繁榮發(fā)展,GPU已成為推動(dòng)這一浪

    2024年02月22日
    瀏覽(22)
  • RuntimeError:CUDA out of memory.Tried to allocate 20.00MiB.

    RuntimeError:CUDA out of memory.Tried to allocate 20.00MiB.

    這是我遇到的問題,剛開始的時(shí)候怎么也解決不了。 然后我去搜了一下解決方法,具體方法如下: 方法一: 僅需減小batchsize 改文件的配置cfg的batchsize=1,一般在cfg文件下的查找batch或batchsize,將batchsize調(diào)小后,再次運(yùn)行,類似于改下面 方法二 :? 上述方法還沒解決,不改

    2023年04月11日
    瀏覽(26)
  • 大概率(5重方法)解決RuntimeError: CUDA out of memory. Tried to allocate ... MiB

    大概率(5重方法)解決RuntimeError: CUDA out of memory. Tried to allocate ... MiB

    前些天發(fā)現(xiàn)了一個(gè)出色的人工智能學(xué)習(xí)網(wǎng)站。它的內(nèi)容不僅深入淺出、易于理解,還充滿了趣味性和幽默感,我覺得這對于喜歡探索新知識的朋友們來說會是一個(gè)不錯(cuò)的資源。 如果你對人工智能感興趣,不妨 點(diǎn)擊查看,看看能否為你的學(xué)習(xí)之旅增添一些樂趣和啟發(fā)。 跑ber

    2024年02月05日
    瀏覽(21)
  • RuntimeError: error: ObjV is illegal. (目標(biāo)函數(shù)值矩陣ObjV的數(shù)據(jù)格式不合法,請檢查目標(biāo)函數(shù)的計(jì)算。)

    RuntimeError: error: ObjV is illegal. (目標(biāo)函數(shù)值矩陣ObjV的數(shù)據(jù)格式不合法,請檢查目標(biāo)函數(shù)的計(jì)算。)

    RuntimeError: error: ObjV is illegal. (目標(biāo)函數(shù)值矩陣ObjV的數(shù)據(jù)格式不合法,請檢查目標(biāo)函數(shù)的計(jì)算。) 調(diào)用geatpy,編寫probelms中的目標(biāo)函數(shù)時(shí)出現(xiàn)的問題 原因:目標(biāo)函數(shù)(目標(biāo)值)的數(shù)據(jù)格式存在問題。 修改方法:目標(biāo)函數(shù)(目標(biāo)值)需要時(shí)numpy格式且是二維矩陣 修改前: 修改后

    2024年02月16日
    瀏覽(68)
  • AI繪畫——使用stable-diffusion生成圖片時(shí)提示RuntimeError: CUDA out of memory處理方法

    AI繪畫——使用stable-diffusion生成圖片時(shí)提示RuntimeError: CUDA out of memory處理方法

    RuntimeError: CUDA out of memory. Tried to allocate 1.50 GiB (GPU 0; 8.00 GiB total capacity; 5.62 GiB already allocated; 109.75 MiB free; 5.74 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 1、添加參數(shù)–n_

    2024年02月02日
    瀏覽(91)
  • 安裝庫時(shí)報(bào)錯(cuò):RuntimeError: The detected CUDA version (11.7) mismatches the version that was used to...

    安裝庫時(shí)報(bào)錯(cuò):RuntimeError: The detected CUDA version (11.7) mismatches the version that was used to...

    ?Ubuntu 22.04系統(tǒng)在安裝pytorch3d庫時(shí)出現(xiàn)了報(bào)錯(cuò)信息:RuntimeError: The detected CUDA version (11.7) mismatches the version that was used to compile PyTorch (10.2). Please make sure to use the same CUDA versions. 在終端查看顯卡信息(指令nvidia-smi):查看CUDA版本,此處是11.7 ?根據(jù)報(bào)錯(cuò)信息,我現(xiàn)在的虛擬環(huán)境下的

    2024年02月11日
    瀏覽(23)
  • 解決:RuntimeError: CUDA out of memory. Tried to allocate 160.00 MiB (GPU 0; 10.76 GiB total capacity..

    完整報(bào)錯(cuò): ? 問題分析: 內(nèi)存分配不足: 需要160MB,,但GPU只剩下135.31MB。 解決辦法: 1.減小batch_size。注意batchsize的調(diào)整要配合學(xué)習(xí)率的調(diào)整,一般是正比關(guān)系,BS增大兩倍,LR增大兩倍或者根號二倍。減小也是相應(yīng)更改。 2.運(yùn)行torch.cuda.empty_cache()函數(shù)。加在訓(xùn)練開始前即可

    2024年02月16日
    瀏覽(19)
  • filezilla出現(xiàn)GnuTLS error -8: A packet with illegal or unsupported version was received.錯(cuò)誤的解決方案

    filezilla出現(xiàn)GnuTLS error -8: A packet with illegal or unsupported version was received.錯(cuò)誤的解決方案

    使用filezilla連接較老的ftp服務(wù)器(無加密)時(shí),由于該軟件默認(rèn)的加密方式為SSL(即explicit?FTP?over?TLS),因此遇到無加密的ftp時(shí)會顯示協(xié)議不支持。 報(bào)錯(cuò)信息如下: Error: GnuTLS error -8: A packet with illegal or unsupported version was received. Status: Connection attempt failed with \\\"ECONNABORTED - C

    2024年02月11日
    瀏覽(39)
  • BUG:RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    BUG:RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    參考鏈接 當(dāng)運(yùn)行以下代碼出現(xiàn)報(bào)錯(cuò): 報(bào)錯(cuò)信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 報(bào)錯(cuò)完整截圖 報(bào)錯(cuò)的信息告訴我們,編號\\\"1\\\"是無效的設(shè)

    2024年02月12日
    瀏覽(28)
  • 已解決RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    已解決RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    參考鏈接 當(dāng)運(yùn)行以下代碼出現(xiàn)報(bào)錯(cuò): 報(bào)錯(cuò)信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 報(bào)錯(cuò)完整截圖 報(bào)錯(cuò)的信息告訴我們,編號\\\"1\\\"是無效的設(shè)

    2024年02月04日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包