国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

報(bào)錯解決:RuntimeError: CUDA out of memory.

這篇具有很好參考價(jià)值的文章主要介紹了報(bào)錯解決:RuntimeError: CUDA out of memory.。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

問題

在進(jìn)行深度學(xué)習(xí)的模型訓(xùn)練時(shí),經(jīng)常會遇到顯存溢出的報(bào)錯:

RuntimeError: CUDA out of memory.

輸出如下圖所示:
runtimeerror: cuda out of memory.,深度學(xué)習(xí),linux,服務(wù)器,人工智能,python

分析

打開一個終端,輸入以下命令查看GPU使用情況:

nvidia-smi

輸出如下圖所示:
runtimeerror: cuda out of memory.,深度學(xué)習(xí),linux,服務(wù)器,人工智能,python
使用nvidia-htop可以進(jìn)一步查看更為詳細(xì)的內(nèi)容。

nvidia-htop:A tool for enriching the output of nvidia-smi.

可以通過下列代碼進(jìn)行安裝:

pip3 install nvidia-htop

打開一個終端,運(yùn)行如下代碼:

nvidia-htop.py
# nvidia-htop.py --color # 可以附帶顏色,更加炫酷

輸出如下圖所示:
runtimeerror: cuda out of memory.,深度學(xué)習(xí),linux,服務(wù)器,人工智能,python
從圖中可以看出編號為0,1,2,3的GPU利用率均為0,但四張顯卡均有進(jìn)程占用了GPU的顯存,從而導(dǎo)致顯存不足的問題。

解決

解決上述問題,只需將占用顯存的進(jìn)程殺死即可:

  1. 正常殺死進(jìn)程:kill -15 pid號
  2. 強(qiáng)制殺死進(jìn)程:kill -9 pid號

其他報(bào)錯原因

若kill后仍報(bào)錯RuntimeError: CUDA out of memory.,嘗試以下方法:

1、降低batch size大小,或采用梯度累積的方法從而提高實(shí)際batch size的大小;
2、把網(wǎng)絡(luò)模型改?。?br> 3、把中間變量的大小(尺寸)改??;
4、換用顯存更大的顯卡。
5、在報(bào)錯處、代碼關(guān)鍵節(jié)點(diǎn)(一個epoch跑完…)插入以下代碼(目的是定時(shí)清內(nèi)存):

import torch, gc

gc.collect()
torch.cuda.empty_cache()

參考文獻(xiàn)

pytorch: 四種方法解決RuntimeError: CUDA out of memory. Tried to allocate … MiB
深度學(xué)習(xí)中GPU和顯存分析
淺談深度學(xué)習(xí):如何計(jì)算模型以及中間變量的顯存占用大小文章來源地址http://www.zghlxwxcb.cn/news/detail-650379.html

到了這里,關(guān)于報(bào)錯解決:RuntimeError: CUDA out of memory.的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 解決:RuntimeError: CUDA out of memory. Tried to allocate 160.00 MiB (GPU 0; 10.76 GiB total capacity..

    完整報(bào)錯: ? 問題分析: 內(nèi)存分配不足: 需要160MB,,但GPU只剩下135.31MB。 解決辦法: 1.減小batch_size。注意batchsize的調(diào)整要配合學(xué)習(xí)率的調(diào)整,一般是正比關(guān)系,BS增大兩倍,LR增大兩倍或者根號二倍。減小也是相應(yīng)更改。 2.運(yùn)行torch.cuda.empty_cache()函數(shù)。加在訓(xùn)練開始前即可

    2024年02月16日
    瀏覽(19)
  • AI繪畫——使用stable-diffusion生成圖片時(shí)提示RuntimeError: CUDA out of memory處理方法

    AI繪畫——使用stable-diffusion生成圖片時(shí)提示RuntimeError: CUDA out of memory處理方法

    RuntimeError: CUDA out of memory. Tried to allocate 1.50 GiB (GPU 0; 8.00 GiB total capacity; 5.62 GiB already allocated; 109.75 MiB free; 5.74 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 1、添加參數(shù)–n_

    2024年02月02日
    瀏覽(91)
  • CUDA報(bào)錯:Out of Memory

    如果報(bào)錯里提示Pytorch?reserved的內(nèi)存遠(yuǎn)大于Already?allocated的內(nèi)存,那么就是因?yàn)榉峙滹@存時(shí)單位過大,導(dǎo)致出現(xiàn)大量內(nèi)存碎片無法繼續(xù)分配(與操作系統(tǒng)內(nèi)存管理同理)。 我們可以限制一次分配的最大單位來解決這個問題。 隨后代碼便可正常運(yùn)行了。

    2024年02月15日
    瀏覽(22)
  • Ubuntu下跑Aplaca報(bào)錯:torch.cuda.0utofMemoryError: CUDA out of memory.解決辦法(查看CUDA占用情況&清除GPU緩存)

    Ubuntu下跑Aplaca報(bào)錯:torch.cuda.0utofMemoryError: CUDA out of memory.解決辦法(查看CUDA占用情況&清除GPU緩存)

    錯誤提示: torch.cuda.0utofMemoryError: CUDA out of memory.Tried to allocate 2.00 MiB (PU 0; 23.69 GiB total capacity; 237 BiB already allocated; 18.38 MiB fre; 2.50 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation.See documentation for Memory Management and PYTORCH_CUDA_ALLOC_

    2024年02月11日
    瀏覽(30)
  • Pycharm報(bào)錯torch.cuda.OutOfMemoryError: CUDA out of memory.

    報(bào)錯 做深度學(xué)習(xí)相關(guān)的實(shí)驗(yàn),可以看到我的顯卡內(nèi)存很?。蘖?,不過我有時(shí)候是在別的電腦上做的,那個電腦比這個好用),網(wǎng)上搜到的說的 max_split_size_mb:128 這個方法我貼到我代碼上之后沒有效果。 因?yàn)槲以谶@個電腦上做的是主實(shí)驗(yàn)后面的一些對比實(shí)驗(yàn),也就是代碼中很

    2024年02月05日
    瀏覽(30)
  • RuntimeError: CUDA error: an illegal memory access was encountered

    RuntimeError: CUDA error: an illegal memory access was encountered

    后續(xù)發(fā)現(xiàn)其實(shí)是某張卡有問題, 0~3一共4個GPU,只在使用0號GPU的時(shí)候會出問題 0號卡似乎是被某個進(jìn)程鎖了,還是怎么樣,不用那個卡就沒事了 其實(shí)不難發(fā)現(xiàn),我報(bào)錯的位置基本都是從 gpu 往 cpu 轉(zhuǎn)換的時(shí)候出現(xiàn)的問題。 因此考慮是不是cpu內(nèi)存不太夠了,所以內(nèi)存訪問發(fā)生錯

    2024年01月17日
    瀏覽(24)
  • 【已解決】探究CUDA out of memory背后原因,如何釋放GPU顯存?

    【已解決】探究CUDA out of memory背后原因,如何釋放GPU顯存?

    研究過深度學(xué)習(xí)的同學(xué),一定對類似下面這個CUDA顯存溢出錯誤不陌生 RuntimeError: CUDA out of memory. Tried to allocate 916.00 MiB (GPU 0; 6.00 GiB total capacity; 4.47 GiB already allocated; 186.44 MiB free; 4.47 GiB reserved in total by PyTorch) 本文探究CUDA的內(nèi)存管理機(jī)制,并總結(jié)該問題的解決辦法 在實(shí)驗(yàn)開始前

    2023年04月20日
    瀏覽(24)
  • torch.cuda.OutOfMemoryError: CUDA out of memory.

    torch.cuda.OutOfMemoryError: CUDA out of memory.

    訓(xùn)練清華ChatGLM-6B時(shí)報(bào)錯, 原因是顯存不夠 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70 GiB total capacity; 4.37 GiB already allocated; 64.81 MiB free; 4.37 GiB reserved in total by PyTorch) If reserved memory is allocated memory try setting max_split_size_mb to avoid fragmentation. ?See documentatio

    2024年02月06日
    瀏覽(18)
  • 報(bào)錯記錄torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 90.00 MiB (GPU 0; 7.93 GiB to

    原因,我選的卡號選錯了, 確認(rèn)好兩件事: 1、本地文件和遠(yuǎn)程文件同步好了 2、代碼中有沒有指定哪塊GPU的操作 他這個報(bào)錯很反直覺的一個地方:如果你指定了2卡,2卡顯存滿了,他會說0卡顯存滿了,你去看0發(fā)現(xiàn)0根本沒人用,這就很容易被繞進(jìn)去

    2024年02月12日
    瀏覽(22)
  • 【CUDA OUT OF MEMORY】【Pytorch】計(jì)算圖與CUDA OOM

    【CUDA OUT OF MEMORY】【Pytorch】計(jì)算圖與CUDA OOM

    在實(shí)踐過程中多次碰到了CUDA OOM的問題,有時(shí)候這個問題是很好解決的,有時(shí)候DEBUG一整天還是頭皮發(fā)麻。 最近實(shí)踐對由于計(jì)算圖積累導(dǎo)致CUDA OOM有一點(diǎn)新的看法,寫下來記錄一下。 包括對計(jì)算圖的一些看法和一個由于計(jì)算圖引發(fā)錯誤的簡化實(shí)例記錄。 本人能力有限,認(rèn)識片

    2024年02月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包