国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯

這篇具有很好參考價值的文章主要介紹了一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、問題描述

????????今天在調(diào)試模型的代碼,然后代碼一直運行得好好地,就突然出現(xiàn)了一下的錯誤:

RuntimeError: CUDA error: invalid device ordinal
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

? ? ? ? 覺得十分詭異,前面運行的時候沒出現(xiàn)這個Error,但是后面點擊運行的時候就出現(xiàn)了,而且多次點擊運行,都會報的這個錯。

? ? ? ? 上面的錯誤大概就是說我的CUDA設備序號出錯。例如,訓練模型的機器上只有4張顯卡,那么CUDA設備序號分別是0、1、2、3。當你在程序中使用4、5或者更加大的數(shù)字時,這個錯誤信息就會自動地報出來。

? ? ? ? 令我覺得詭異的地方是,在我運行模型的機器中,明明有4個可以使用的CUDA設備,也就是擁有4張顯卡,而我不能使用1、2、3對應的CUDA設備,然后就報了上面的這個錯誤。所以我覺得十分奇怪。

二、解決方法

????????首先,我觀察了我設置程序使用CUDA設備的代碼:

os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

? ? ? ? 其中上邊的m_gpu是設置CUDA設備序號的變量。

????????然后我發(fā)現(xiàn)在設置CUDA設備序號時,如果調(diào)用了下面的代碼,就不會出現(xiàn)上門的報錯信息:

torch.cuda.device_count()

? ? ? ? 最終,設置CUDA設備序號的代碼改為:

torch.cuda.device_count()
os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

? ? ? ? 這樣就解決了我上面所遇到的問題。

三、設備信息

? ? ? ? NVIDIA驅(qū)動:NVIDIA-SMI 515.65.01 ? ?Driver Version: 515.65.01 ? ?CUDA Version: 11.7

? ? ? ? Python版本:Python 3.6.9

? ? ? ? PyTorch版本:1.10.2

? ? ? ? Linux系統(tǒng):Ubuntu 18.04.6 LTS (GNU/Linux 4.15.0-041500-generic x86_64)文章來源地址http://www.zghlxwxcb.cn/news/detail-784726.html

到了這里,關于一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 全套解決方案:基于pytorch、transformers的中文NLP訓練框架,支持大模型訓練和文本生成,快速上手,海量訓練數(shù)據(jù)!

    全套解決方案:基于pytorch、transformers的中文NLP訓練框架,支持大模型訓練和文本生成,快速上手,海量訓練數(shù)據(jù)!

    目標 :基于 pytorch 、 transformers 做中文領域的nlp開箱即用的訓練框架,提供全套的訓練、微調(diào)模型(包括大模型、文本轉(zhuǎn)向量、文本生成、多模態(tài)等模型)的解決方案; 數(shù)據(jù) : 從開源社區(qū),整理了海量的訓練數(shù)據(jù),幫助用戶可以快速上手; 同時也開放訓練數(shù)據(jù)模版,可以快

    2024年02月11日
    瀏覽(23)
  • Vue3 - 解決 build / dev 打包運行時突然出現(xiàn)一堆 ts 相關的報錯,強制關閉整個項目的 ts 代碼語法校驗和驗證(webpack / vite 均可)

    無論您是 vite 還是 webpack,都可以 100% 去掉運行或打包時的 ts 語法驗證。 本文 實現(xiàn)了在 vue3 + ts 開發(fā)中,關閉運行、打包部署命令時出現(xiàn)的各種 ts 校驗報錯,去掉對 ts 的驗證, 有些朋友對 ts 不是很了解(所以在寫代碼時沒注意一些語法),導致最終 build 打包時出現(xiàn)了很多

    2024年02月11日
    瀏覽(140)
  • 虛擬網(wǎng)卡突然不見?虛擬網(wǎng)絡編輯還原默認設置后又顯示感嘆號?虛擬網(wǎng)卡出現(xiàn)“Windows 仍在設置此設備的類配置。(代碼56)”,不刪除VMware解決一切問題!

    虛擬網(wǎng)卡突然不見?虛擬網(wǎng)絡編輯還原默認設置后又顯示感嘆號?虛擬網(wǎng)卡出現(xiàn)“Windows 仍在設置此設備的類配置。(代碼56)”,不刪除VMware解決一切問題!

    情況說明:? ? ? ? ?????? ??重置虛擬機網(wǎng)絡編輯還原默認設置后兩個虛擬網(wǎng)卡就不見了!網(wǎng)上找了很多基本上就是把虛擬機刪了,再把注冊列表和VMware相關的所有東西全刪了....但是,我真的不想刪,孩子剛配好的各種服務器實驗,我可不想從頭再來了,你們知道的重新

    2024年02月07日
    瀏覽(27)
  • ADSL MODEM出現(xiàn)突然斷流及掛死故障解決方法

    我們利用ADSL方式接入互聯(lián)網(wǎng),也會伴隨好多意想不到的故障,如果出現(xiàn)ADSL MODEM出現(xiàn)突然斷流及掛死的現(xiàn)象。我們應該如何對待?如何解決ADSL內(nèi)置撥號故障呢?下面的內(nèi)容為您詳細解釋原因,并提供相應解決辦法,希望對您有所幫助! 一、故障現(xiàn)象 經(jīng)過了解,發(fā)現(xiàn)出現(xiàn)故障

    2024年02月06日
    瀏覽(28)
  • 【深入了解pytorch】PyTorch訓練和評估模型

    在機器學習和深度學習領域,PyTorch是一個非常受歡迎的深度學習框架。它提供了靈活且強大的工具,使得訓練和評估模型變得更加容易。本文將介紹如何使用PyTorch來準備數(shù)據(jù)集、定義訓練循環(huán)、選擇優(yōu)化算法,并展示如何評估模型性能。 在開始訓練模型之前,我們首先需要

    2024年02月16日
    瀏覽(22)
  • pytorch完整模型訓練套路

    pytorch完整模型訓練套路

    本文以 CIFAR10數(shù)據(jù)集為例,介紹一個完整的模型訓練套路。 CIFAR-10數(shù)據(jù)集包含60000張32x32彩色圖像,分為10個類,每類6000張。有50000張訓練圖片和10000張測試圖片。 數(shù)據(jù)集分為五個訓練batches和一個測試batch,每個batch有10000張圖像。測試batch包含從每個類中隨機選擇的1000個圖像。

    2024年02月07日
    瀏覽(23)
  • Pytorch學習筆記(模型訓練)

    Pytorch學習筆記(模型訓練)

    在同一個包下創(chuàng)建 train.py 和 model.py ,按照步驟先從數(shù)據(jù)處理,模型架構搭建,訓練測試,統(tǒng)計損失,如下面代碼所示 train.py model.py 運行 train.py 后可以通過啟動tensorboard進行查看我們的loss情況,損失是不斷下降的。 補充 argmax 函數(shù)的使用 我們模型預測處理的是概率,我們需

    2024年02月07日
    瀏覽(19)
  • 人工智能(pytorch)搭建模型9-pytorch搭建一個ELMo模型,實現(xiàn)訓練過程

    人工智能(pytorch)搭建模型9-pytorch搭建一個ELMo模型,實現(xiàn)訓練過程

    大家好,我是微學AI,今天給大家介紹一下人工智能(pytorch)搭建模型9-pytorch搭建一個ELMo模型,實現(xiàn)訓練過程,本文將介紹如何使用PyTorch搭建ELMo模型,包括ELMo模型的原理、數(shù)據(jù)樣例、模型訓練、損失值和準確率的打印以及預測。文章將提供完整的代碼實現(xiàn)。 ELMo模型簡介 數(shù)據(jù)

    2024年02月07日
    瀏覽(106)
  • Pytorch應用訓練好的模型

    保存訓練好的模型有兩種方式,第一種保存模型結(jié)構且保存模型參數(shù),第一種方式存在一種陷阱,也就是每次加載模型都得把類定義,或者訪問類所在的包。保存方式為: torch.save(模型名, 以pth為后綴的文件) 第二種保存方式只保存模型參數(shù),不保存模型結(jié)構,這樣可以面對較

    2023年04月08日
    瀏覽(19)
  • 人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型,加載數(shù)據(jù)進行模型訓練與預測

    人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型,加載數(shù)據(jù)進行模型訓練與預測

    大家好,我是微學AI,今天給大家介紹一下人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型,加載數(shù)據(jù)進行模型訓練與預測,RetinaNet 是一種用于目標檢測任務的深度學習模型,旨在解決目標檢測中存在的困難樣本和不平衡類別問題。它是基于單階段檢測器的一種改進方法,通

    2024年02月15日
    瀏覽(173)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包