国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯

2年前作者：飛機火車巴雷特分類：Toy博客閱讀(34)違法舉報

這篇具有很好參考價值的文章主要介紹了一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、問題描述

????????今天在調(diào)試模型的代碼，然后代碼一直運行得好好地，就突然出現(xiàn)了一下的錯誤：

RuntimeError: CUDA error: invalid device ordinal
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

? ? ? ? 覺得十分詭異，前面運行的時候沒出現(xiàn)這個Error，但是后面點擊運行的時候就出現(xiàn)了，而且多次點擊運行，都會報的這個錯。

? ? ? ? 上面的錯誤大概就是說我的CUDA設備序號出錯。例如，訓練模型的機器上只有4張顯卡，那么CUDA設備序號分別是0、1、2、3。當你在程序中使用4、5或者更加大的數(shù)字時，這個錯誤信息就會自動地報出來。

? ? ? ? 令我覺得詭異的地方是，在我運行模型的機器中，明明有4個可以使用的CUDA設備，也就是擁有4張顯卡，而我不能使用1、2、3對應的CUDA設備，然后就報了上面的這個錯誤。所以我覺得十分奇怪。

二、解決方法

????????首先，我觀察了我設置程序使用CUDA設備的代碼：

os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

? ? ? ? 其中上邊的m_gpu是設置CUDA設備序號的變量。

????????然后我發(fā)現(xiàn)在設置CUDA設備序號時，如果調(diào)用了下面的代碼，就不會出現(xiàn)上門的報錯信息：

torch.cuda.device_count()

? ? ? ? 最終，設置CUDA設備序號的代碼改為：

torch.cuda.device_count()
os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

? ? ? ? 這樣就解決了我上面所遇到的問題。

三、設備信息

? ? ? ? NVIDIA驅(qū)動：NVIDIA-SMI 515.65.01 ? ?Driver Version: 515.65.01 ? ?CUDA Version: 11.7

? ? ? ? Python版本：Python 3.6.9

? ? ? ? PyTorch版本：1.10.2

? ? ? ? Linux系統(tǒng)：Ubuntu 18.04.6 LTS (GNU/Linux 4.15.0-041500-generic x86_64)文章來源地址http://www.zghlxwxcb.cn/news/detail-784726.html

到了這里，關于一行代碼解決PyTorch訓練模型時突然出現(xiàn)的For debugging consider passing CUDA_LAUNCH_BLOCKING=1報錯的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

全套解決方案：基于pytorch、transformers的中文NLP訓練框架，支持大模型訓練和文本生成，快速上手，海量訓練數(shù)據(jù)！
目標：基于 pytorch 、 transformers 做中文領域的nlp開箱即用的訓練框架，提供全套的訓練、微調(diào)模型（包括大模型、文本轉(zhuǎn)向量、文本生成、多模態(tài)等模型）的解決方案；數(shù)據(jù) ：從開源社區(qū)，整理了海量的訓練數(shù)據(jù)，幫助用戶可以快速上手；同時也開放訓練數(shù)據(jù)模版，可以快
2024年02月11日
瀏覽(23)
Vue3 - 解決 build / dev 打包運行時突然出現(xiàn)一堆 ts 相關的報錯，強制關閉整個項目的 ts 代碼語法校驗和驗證（webpack / vite 均可）
無論您是 vite 還是 webpack，都可以 100% 去掉運行或打包時的 ts 語法驗證。本文實現(xiàn)了在 vue3 + ts 開發(fā)中，關閉運行、打包部署命令時出現(xiàn)的各種 ts 校驗報錯，去掉對 ts 的驗證，有些朋友對 ts 不是很了解（所以在寫代碼時沒注意一些語法），導致最終 build 打包時出現(xiàn)了很多
2024年02月11日
瀏覽(140)
虛擬網(wǎng)卡突然不見？虛擬網(wǎng)絡編輯還原默認設置后又顯示感嘆號？虛擬網(wǎng)卡出現(xiàn)“Windows 仍在設置此設備的類配置。(代碼56)”，不刪除VMware解決一切問題！
情況說明：? ? ? ? ?????? ??重置虛擬機網(wǎng)絡編輯還原默認設置后兩個虛擬網(wǎng)卡就不見了！網(wǎng)上找了很多基本上就是把虛擬機刪了，再把注冊列表和VMware相關的所有東西全刪了....但是，我真的不想刪，孩子剛配好的各種服務器實驗，我可不想從頭再來了，你們知道的重新
2024年02月07日
瀏覽(27)
ADSL MODEM出現(xiàn)突然斷流及掛死故障解決方法
我們利用ADSL方式接入互聯(lián)網(wǎng)，也會伴隨好多意想不到的故障，如果出現(xiàn)ADSL MODEM出現(xiàn)突然斷流及掛死的現(xiàn)象。我們應該如何對待？如何解決ADSL內(nèi)置撥號故障呢？下面的內(nèi)容為您詳細解釋原因，并提供相應解決辦法，希望對您有所幫助！一、故障現(xiàn)象經(jīng)過了解，發(fā)現(xiàn)出現(xiàn)故障
2024年02月06日
瀏覽(28)
【深入了解pytorch】PyTorch訓練和評估模型
在機器學習和深度學習領域，PyTorch是一個非常受歡迎的深度學習框架。它提供了靈活且強大的工具，使得訓練和評估模型變得更加容易。本文將介紹如何使用PyTorch來準備數(shù)據(jù)集、定義訓練循環(huán)、選擇優(yōu)化算法，并展示如何評估模型性能。在開始訓練模型之前，我們首先需要
2024年02月16日
瀏覽(22)
pytorch完整模型訓練套路
本文以 CIFAR10數(shù)據(jù)集為例，介紹一個完整的模型訓練套路。 CIFAR-10數(shù)據(jù)集包含60000張32x32彩色圖像，分為10個類，每類6000張。有50000張訓練圖片和10000張測試圖片。數(shù)據(jù)集分為五個訓練batches和一個測試batch，每個batch有10000張圖像。測試batch包含從每個類中隨機選擇的1000個圖像。
2024年02月07日
瀏覽(23)
Pytorch學習筆記（模型訓練）
在同一個包下創(chuàng)建 train.py 和 model.py ，按照步驟先從數(shù)據(jù)處理，模型架構搭建，訓練測試，統(tǒng)計損失，如下面代碼所示 train.py model.py 運行 train.py 后可以通過啟動tensorboard進行查看我們的loss情況，損失是不斷下降的。補充 argmax 函數(shù)的使用我們模型預測處理的是概率，我們需
2024年02月07日
瀏覽(19)
人工智能(pytorch)搭建模型9-pytorch搭建一個ELMo模型，實現(xiàn)訓練過程
大家好，我是微學AI，今天給大家介紹一下人工智能(pytorch)搭建模型9-pytorch搭建一個ELMo模型，實現(xiàn)訓練過程，本文將介紹如何使用PyTorch搭建ELMo模型，包括ELMo模型的原理、數(shù)據(jù)樣例、模型訓練、損失值和準確率的打印以及預測。文章將提供完整的代碼實現(xiàn)。 ELMo模型簡介數(shù)據(jù)
2024年02月07日
瀏覽(106)
Pytorch應用訓練好的模型
保存訓練好的模型有兩種方式，第一種保存模型結(jié)構且保存模型參數(shù)，第一種方式存在一種陷阱，也就是每次加載模型都得把類定義，或者訪問類所在的包。保存方式為： torch.save(模型名, 以pth為后綴的文件) 第二種保存方式只保存模型參數(shù)，不保存模型結(jié)構，這樣可以面對較
2023年04月08日
瀏覽(19)
人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型，加載數(shù)據(jù)進行模型訓練與預測
大家好，我是微學AI，今天給大家介紹一下人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型，加載數(shù)據(jù)進行模型訓練與預測，RetinaNet 是一種用于目標檢測任務的深度學習模型，旨在解決目標檢測中存在的困難樣本和不平衡類別問題。它是基于單階段檢測器的一種改進方法，通
2024年02月15日
瀏覽(173)