cuda需要Nvidia顯卡或計(jì)算卡,AMD或intel顯卡不行(但是也有套他們的標(biāo)準(zhǔn))
就算是亮機(jī)卡也可使用,比如GT710這種
建議使用ubuntu來裝,因?yàn)閏uda就是在這個(gè)平臺(tái)上開發(fā)的,當(dāng)然別的linux系統(tǒng)也行
以下操作在ubuntu server 2204、debian12、debian11中都操作過,如果沒有安裝linux系統(tǒng),可以參考
Ubuntu server安裝圖解
Debian 安裝圖解
注意!請(qǐng)根據(jù)需要安裝對(duì)應(yīng)版本的cuda!不同版本安裝大同小異
主要思路:安裝N卡(硬件),安裝cuda的依賴(主要是c的編譯器)、安裝N卡驅(qū)動(dòng),安裝nvcc、安裝cuda
另外,你可能還需要pytorch、tf,在選擇版本前務(wù)必根據(jù)你自己的需要選取,部分組件對(duì)操作系統(tǒng)也有要求,為了少做重復(fù)勞動(dòng),先把所有需要的組件版本對(duì)應(yīng)好,然后再一個(gè)個(gè)安裝。
官方文檔永遠(yuǎn)是最好的:cuda官方安裝文檔
一、檢查硬件軟件環(huán)境和刪除Nouveau
不要省略這一步,檢查環(huán)境確定符合基本需求
1.確定系統(tǒng)識(shí)別了N卡
lspci | grep -i nvidia
顯示類似如下信息(下圖分別是rtx3090 24G和rtx4090 24G):
2.檢查gcc編譯器
gcc --version
如果正常,會(huì)顯示版本,類似如下信息
如果沒有,建議安裝這個(gè)c的一大堆套件集合,一勞永逸
apt-get install build-essential
3.安裝配套的linux內(nèi)核頭
apt-get install linux-headers-$(uname -r)
4.刪除Nouveau
(這一步不一定要做,根據(jù)實(shí)際情況,如果提示需要卸載就卸載)
linux默認(rèn)安裝了N卡的開源驅(qū)動(dòng),即Nouveau。
檢查Nouveau工作狀態(tài)
lsmod | grep nouveau
如果出來很多信息,就說明這個(gè)驅(qū)動(dòng)還在,卸載
編輯新文件,名字不一定取這個(gè),其它也行
vi /etc/modprobe.d/nouveau.conf
內(nèi)容如下
blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
應(yīng)用到內(nèi)核
update-initramfs -u
完成后重啟電腦,然后再查看,沒有信息了即可
如果沒有重啟電腦,還是顯示會(huì)有的。
lsmod | grep nouveau
二、使用cuda Toolkit安裝
推薦使用,這樣全家桶就裝好了:N卡驅(qū)動(dòng)+cuda+nvcc
注意:這種方法不需要先裝驅(qū)動(dòng),也省去了查找兼容性的問題
cuda要求的驅(qū)動(dòng)版本是最低的版本,也就是說可以用最新的驅(qū)動(dòng)配早期的cuda版本
官方地址: cuda toolkit
再次提示:版本根據(jù)你的需求進(jìn)行選取,比如你要用pytorch、tensorflow等,以那個(gè)需要為準(zhǔn),不同版本安裝方法都一樣
記得點(diǎn)前面的連接,不要點(diǎn)后面的Versioned …鏈接 ,那個(gè)是英文的詳細(xì)文檔,看起來麻煩。
這樣選擇,下面會(huì)出來安裝的命令,直接復(fù)制用就行
這里裝的是12.1版本,在上面的官方地址可以選取自己需要的版本,方法都是類似的
不同系統(tǒng)也在這里可以看到對(duì)應(yīng)的安裝方法,然后把下面的命令一個(gè)個(gè)復(fù)制進(jìn)去就行
下面根據(jù)命令一步步操作:
上面的圖有具體的操作,直接復(fù)制就行,我這邊再寫一下
(一)ubuntu系統(tǒng)參考這個(gè)
1.先切換到程序下載目錄
mkdir /usr/local/my_cuda && cd /usr/local/my_cuda
2.安裝操作
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
移動(dòng)配置文件
mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
下載安裝包
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
安裝
dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
安裝key
cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
更新
apt-get update
安裝cuda,這一步時(shí)間較長,耐心等待
apt-get -y install cuda
安裝完成后重啟電腦,否則可能會(huì)出各種問題
(二)debian系統(tǒng)參考這個(gè)
選擇的是本地的安裝方法
1.進(jìn)入操作的目錄
cd /usr/local
2.下載key并裝入系統(tǒng)
wget https://developer.download.nvidia.com/compute/cuda/repos/debian11/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository contrib
如果上面那條命令提示出錯(cuò),則使用下面的命令
apt-get install software-properties-common
3.安裝
時(shí)間較長,耐心等待
apt-get update
apt-get -y install cuda
安裝完成后重啟電腦,否則可能會(huì)出各種問題
三、測(cè)試
cuda版本以nvcc顯示出來的為準(zhǔn),如果N卡驅(qū)動(dòng)較新,nvidia-smi顯示的版本會(huì)是新的cuda版本,而實(shí)際調(diào)用是通過nvcc
1.測(cè)試nvcc(cuda編譯器)
nvcc -V
正常顯示如下(如果出錯(cuò),請(qǐng)看第四節(jié)問題處理部分,有解決方法):
2.測(cè)試nvidia-smi
nvidia-smi
如果這兩步都出現(xiàn)問題,第四節(jié)處理
四、問題處理
1.nvcc 顯示沒有
查找nvcc
find / -name "nvcc"
比如出現(xiàn)下面目錄
vi ~/.bashrc
最后的部分添加上(如果你不是裝的12.1版本,要改目錄中的版本)
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64
export PATH=$PATH:/usr/local/cuda-12.1/bin
保存后,刷新環(huán)境變量
source ~/.bashrc
再次使用命令(注意V是大寫)
nvcc -V
見到如下的,是不是很親切?
2.nvidia-smi錯(cuò)誤
據(jù)說重啟解決80%問題
比如如下圖提示,如果錯(cuò)誤,重啟即可,因?yàn)樯厦嬉呀?jīng)裝過了,很多問題重啟就能解決
注意:還有一種情況,就是開啟了secury boot,在bios里關(guān)閉即可,否則重啟還是報(bào)錯(cuò)或者這種找不到硬件的,重啟(還有一種可能顯卡沒有插好?。?br>
再次使用nvidia-smi可以看到類似下面的信息(左上角是N卡驅(qū)動(dòng)版本,右上角是cuda版本)
cuda版本以nvcc為準(zhǔn)
五、cuda卸載
如果需要換不同的版本,建議多版本并存,這里先不涉及,如果要徹底卸載,根據(jù)以下操作權(quán)限不夠前面加sudo,我這里用root進(jìn)行安裝
1.準(zhǔn)備刪除cuda
apt-get remove cuda
2.自動(dòng)卸載
apt autoremove
3.刪除其它的cuda
apt autoremove cuda*
4.刪除下載安裝包(也可以不刪除)
rm /usr/local/my_cuda/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
5.查找包相關(guān)并刪除
dpkg -l |grep cuda
類似于如下圖的一些包,手動(dòng)刪除相關(guān)的包。否則再安裝別的版本會(huì)失敗把上面的名稱填到下面進(jìn)行刪除
dpkg -P cuda-repo-ubuntu2204-12-1-local cuda-toolkit-12-1-config-common cuda-toolkit-12-config-common cuda-toolkit-config-common cuda-visual-tools-12-1
6.或者
apt-get purge nvidia*
六、補(bǔ)充說明
1.升級(jí)顯卡
如果更換了顯卡,通常不需要重新安裝,如果無法用,則重新安裝即可
2.限制功耗(謹(jǐn)慎,一般不要搞)
有的顯卡限制功耗可以有效降低溫度,同時(shí)性能損失很小以下僅作參考,通常情況不要?jiǎng)?/code>
進(jìn)入持久化模式
nvidia-smi -pm 1
限制卡0功耗為200w文章來源:http://www.zghlxwxcb.cn/news/detail-444039.html
nvidia-smi -pl 200 -i 0
3.安裝更老的cuda版本
cuda版本雖然有驅(qū)動(dòng)版本的限制,但是這個(gè)限制的版本是最低的版本驅(qū)動(dòng)版本。
比如rtx4090的初始驅(qū)動(dòng)版本是522.25,而cuda11.8的默認(rèn)cuda版本是522.06(默認(rèn)無法直接安裝)。如果需要這個(gè)版本的cuda。
應(yīng)該先安裝N卡驅(qū)動(dòng),然后在運(yùn)行cuda tookit11.8,這時(shí)候程序會(huì)默認(rèn)跳過驅(qū)動(dòng),使用nvcc -V和nvidia-smi顯示的cuda版本不一致,因?yàn)閮烧咴聿煌?,cuda是通過nvcc來運(yùn)行的,所以以nvcc為準(zhǔn),特別是在windows下,如果你不小心升級(jí)了N卡驅(qū)動(dòng)也不要緊,cuda的實(shí)際版本是不會(huì)變的。文章來源地址http://www.zghlxwxcb.cn/news/detail-444039.html
到了這里,關(guān)于cuda 安裝和卸載 (Ubuntu 2204)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!